DeepSeek 1 এর পেছনের রহস্য | DeepSeekMath এবং GRPO এর বিস্তারিত

আজ আমি DeepSeek থেকে "DeepSeekMath: মুক্ত ভাষা মডেলে গাণিতিক যুক্তির সীমা পুশিং" শিরোনামে একটি প্রবন্ধ শেয়ার করতে চাই।

এই নিবন্ধটি DeepSeekMath 7B এর সাথে পরিচয় করিয়ে দেয়, যা পূর্ব-প্রশিক্ষিত DeepSeek-Coder-Base-v1.5 7B এর উপর ভিত্তি করে ১২০বি গণিত-সম্পর্কিত টোকেন, প্রাকৃতিক ভাষা এবং কোড ডেটার একটি সংগ্রহ।

মডেলটি প্রতিযোগিতামূলক-স্তরের MATH বেঞ্চমার্কে বাহ্যিক টুলকিট এবং ভোটিং কৌশলের উপর নির্ভর না করেই 51.7% এর একটি আশ্চর্যজনক স্কোর অর্জন করেছে, যা জেমিনি-আল্ট্রা এবং GPT-4 এর কর্মক্ষমতা স্তরের কাছাকাছি পৌঁছেছে।

DeepSeekMath 7B এর গাণিতিক যুক্তি ক্ষমতা দুটি মূল কারণের উপর নির্ভর করে: প্রথমত, একটি মাধ্যমে সাবধানে পরিকল্পিত তথ্য নির্বাচন পাইপলাইন, উচ্চমানের গণিত-সম্পর্কিত ডেটা সর্বজনীনভাবে উপলব্ধ ওয়েব ডেটা থেকে পুনরাবৃত্তভাবে খনন করা হয়।

দ্বিতীয়ত, গ্রুপ রিলেটিভ পলিসি অপ্টিমাইজেশন (GRPO) হল প্রবর্তিত হয়েছে, যা প্রক্সিমাল পলিসি অপ্টিমাইজেশন (PPO) এর একটি রূপ যা PPO এর মেমরি ব্যবহার অপ্টিমাইজ করার সময় গাণিতিক যুক্তি ক্ষমতা বৃদ্ধি করতে পারে।

পদ্ধতির বৈশিষ্ট্যগুলি নিম্নরূপ সংক্ষেপিত করা হল:একটি উচ্চমানের গাণিতিক প্রাক-প্রশিক্ষণ কর্পাস তৈরি করা হয়েছিল, এবং কমন ক্রল থেকে উচ্চমানের গাণিতিক তথ্য খনির জন্য একটি সাবধানে ডিজাইন করা পাইপলাইন ব্যবহার করা হয়েছিল।
GRPO অ্যালগরিদম প্রস্তাবিত হয়েছিল, যা প্রশিক্ষণের জন্য প্রয়োজনীয় সম্পদ হ্রাস করে এবং মডেলের গাণিতিক যুক্তি ক্ষমতা উন্নত করে। 3) অত্যাধুনিক পারফরম্যান্স ছিল একাধিক গাণিতিক যুক্তির মানদণ্ড পরীক্ষায় অর্জন.

সূচিপত্র

সংক্ষিপ্ত বিবরণ

শিরোনাম: DeepSeekMath: উন্মুক্ত ভাষা মডেলগুলিতে গাণিতিক যুক্তির সীমা অতিক্রম করা

ইউআরএল: এখানে ক্লিক করুন

লেখক: ঝিহং শাও, পেইয়ি ওয়াং, কিহাও ঝু, রানক্সিন জু, জুনসিও গান, জিয়াও বি, হাওওয়ে ঝাং, মিংচুয়ান ঝাং, ওয়াই কে লি, ওয়াই উ, দায়া গুও

কোড: এখানে ক্লিক করুন

প্রেরণা

গণিতের জটিলতা এবং কাঠামোগত প্রকৃতির কারণে ভাষা মডেলগুলির জন্য গাণিতিক যুক্তি একটি গুরুত্বপূর্ণ চ্যালেঞ্জ তৈরি করে। GPT-4 এবং Gemini-Ultra-এর মতো সবচেয়ে উন্নত মডেলগুলি শক্তিশালী কিন্তু জনসাধারণের জন্য উপলব্ধ নয়। অতএব, কর্মক্ষমতা উন্নত করার জন্য উল্লেখযোগ্য সুযোগ রয়েছে ওপেন সোর্স মডেল।

জটিলতা এবং গঠন: গণিতের জটিলতা এবং কাঠামোগত প্রকৃতির কারণে, ভাষা মডেলগুলির জন্য গাণিতিক যুক্তি একটি গুরুত্বপূর্ণ চ্যালেঞ্জ তৈরি করে।

পাবলিক ডেটার সম্ভাবনা: সর্বজনীনভাবে উপলব্ধ ওয়েব ডেটাতে সমৃদ্ধ গাণিতিক তথ্য থাকতে পারে যা এখনও খনন এবং ব্যবহার করা হয়নি।

পদ্ধতি

তথ্য সংগ্রহ: একটি পুনরাবৃত্ত পাইপলাইনের মাধ্যমে কমন ক্রল থেকে উচ্চমানের গণিত-সম্পর্কিত ওয়েব ডেটা সংগ্রহ করে 120B টোকেনের একটি DeepSeekMath কর্পাস তৈরি করা হয়েছিল।

মডেল প্রশিক্ষণ: DeepSeek-Coder-Base-v1.5 7B এর উপরে প্রাক-প্রশিক্ষণের জন্য এই কর্পাসটি ব্যবহার করা হয়েছিল, এবং গাণিতিক নির্দেশিকা ফাইন-টিউনিং এবং গ্রুপ রিলেটিভ পলিসি অপ্টিমাইজেশন (GRPO) অ্যালগরিদম প্রয়োগ করা হয়েছিল।

GRPO অ্যালগরিদম: GRPO হল একটি উন্নত রিইনফোর্সমেন্ট লার্নিং অ্যালগরিদম যা PPO-তে ক্রিটিক মডেলটি সরিয়ে দেয় এবং গ্রুপ স্কোর থেকে বেসলাইন অনুমান করে, যার ফলে প্রশিক্ষণের সংস্থান উল্লেখযোগ্যভাবে হ্রাস পায়।

বিস্তারিত পদ্ধতি এবং পদ্ধতি:

তথ্য সংগ্রহ এবং প্রক্রিয়াকরণ:

DeepSeekMath কর্পাস তৈরি করুন: একটি fastText-ভিত্তিক শ্রেণীবদ্ধকারী ব্যবহার করে, ১২০বি গণিত-সম্পর্কিত টোকেন বের করুন কমন ক্রল থেকে শুরু করে একটি বৃহৎ পরিসরে, উচ্চমানের প্রাক-প্রশিক্ষিত কর্পাস, DeepSeekMath কর্পাস তৈরি করা।

পুনরাবৃত্তিমূলক ডেটা ফিল্টারিং: একটি পুনরাবৃত্তিমূলক কৌশল ব্যবহার করা হয়, প্রাথমিক শ্রেণিবদ্ধকারীকে প্রশিক্ষণ দেওয়ার জন্য OpenWebMath কে বীজ ডেটা হিসেবে ব্যবহার করা, এবং তারপর আরও ইতিবাচক উদাহরণ খননের জন্য এই শ্রেণিবদ্ধকারী ব্যবহার করা কমন ক্রল থেকে, যা ক্লাসিফায়ার কর্মক্ষমতা ক্রমাগত অপ্টিমাইজ করার জন্য ম্যানুয়ালি টীকা করা হয়।

বহুভাষিক বৈশিষ্ট্য: DeepSeekMath কর্পাসে রয়েছে বহুভাষিক তথ্য, যা চীনা গণিতের মানদণ্ডে মডেলের কর্মক্ষমতা উন্নত করে।

দূষণমুক্তকরণ প্রক্রিয়াকরণ: ডি-পরীক্ষার মানদণ্ডের সাথে ওভারল্যাপ এড়াতে প্রশিক্ষণের তথ্যের উপর দূষণ প্রক্রিয়াকরণ করা হয়.

প্রাক-প্রশিক্ষণ:

কোড-ভিত্তিক মডেল আরম্ভ: ব্যবহার করে আরম্ভকরণ DeepSeek-কোডার-বেস-v1.5 7B সাধারণ এলএলএম থেকে শুরু করার চেয়ে মডেলটি বেশি কার্যকর বলে প্রমাণিত হয়েছে।

প্রাক-প্রশিক্ষণ ডেটা রচনা: 56% DeepSeekMath Corpus, 4% AlgebraicStack, 10% arXiv, 20% Github কোড, 10% কমন ক্রল ন্যাচারাল ল্যাঙ্গুয়েজ ডেটা।

প্রি-ট্রেনিং প্যারামিটার: AdamW অপ্টিমাইজার ব্যবহার করা হয়, যার শেখার হার 4.2e-4, ব্যাচের আকার 10M টোকেন এবং প্রশিক্ষণের জন্য 500B টোকেন।

নির্দেশনা সূক্ষ্ম-টিউনিং:

একটি নির্দেশিকা ফাইন-টিউনিং ডেটাসেট তৈরি করুন: একটি গাণিতিক নির্দেশিকা সূক্ষ্ম-সুরকরণ ডেটাসেট তৈরি করুন যাতে রয়েছে ৭৭৬ হাজার নমুনা, বিভিন্ন গাণিতিক ক্ষেত্র এবং অসুবিধার স্তরগুলিকে কভার করে, যার মধ্যে রয়েছে CoT, PoT, এবং ধাপগুলি সমাধানের জন্য টুল-ইন্টিগ্রেটেড ইনফারেন্স ফর্ম্যাট।

প্রশিক্ষণের পরামিতি: ব্যাচের আকার ২৫৬, শেখার হার ৫e-৫, ৫০০ ধাপের জন্য প্রশিক্ষণ।

রিইনফোর্সমেন্ট লার্নিং - গ্রুপ রিলেটিভ পলিসি অপ্টিমাইজেশন (GRPO):

GRPO অ্যালগরিদম প্রস্তাব করুন: প্রস্তাব করুন a পিপিও ভেরিয়েন্ট অ্যালগরিদম জিআরপিও, যা বেসলাইন অনুমান করার জন্য গ্রুপ-ভিত্তিক স্কোর ব্যবহার করে একটি সমালোচক মডেলের প্রয়োজনীয়তা এড়ায়, যার ফলে প্রশিক্ষণের সংস্থান হ্রাস পায়।.

উদ্দেশ্যমূলক ফাংশন: GRPO একটি উদ্দেশ্যমূলক ফাংশন সর্বাধিক করে নীতি মডেলকে অপ্টিমাইজ করে যা ইন-গ্রুপ আউটপুটগুলির আপেক্ষিক সুবিধা বিবেচনা করে এবং নিয়মিতকরণ শব্দ হিসাবে সরাসরি KL ডাইভারজেন্স যোগ করে.

সুবিধার হিসাব: GRPO এর মাধ্যমে সুবিধা গণনা করে গ্রুপ-ইন-গ্রুপ আপেক্ষিক পুরষ্কার, ক্রস-গ্রুপ তুলনা এড়িয়ে যাওয়া এবং পুরষ্কার মডেলের তুলনামূলক প্রকৃতির সাথে আরও ভালভাবে সঙ্গতিপূর্ণ হওয়া.

ফলাফল এবং প্রক্রিয়া পর্যবেক্ষণ উভয়কেই সমর্থন করে: জিআরপিও ফলাফল এবং প্রক্রিয়া উভয় পর্যবেক্ষণকে সমর্থন করতে পারে, এবং আরও কার্যকরভাবে নীতি পর্যবেক্ষণ করতে পারে প্রতিটি অনুমান ধাপের শেষে পুরষ্কার প্রদান করে।

পুনরাবৃত্ত RL: ব্যবহার করে একটি পুনরাবৃত্তিমূলক RL কৌশল নীতি মডেলের নমুনা ফলাফলের উপর ভিত্তি করে একটি নতুন প্রশিক্ষণ সেট তৈরি করা, পুরানো পুরষ্কার মডেলকে ক্রমাগত প্রশিক্ষণ দেওয়া এবং নীতি মডেল আপডেট করার জন্য নতুন পুরষ্কার মডেল ব্যবহার করা।

প্রশিক্ষণ তথ্য: SFT ডেটাতে GSM8K এবং MATH সম্পর্কিত CoT ফর্ম্যাট সমস্যা ব্যবহার করে, প্রায় 144K সমস্যা।

প্রশিক্ষণের পরামিতি: নীতি মডেলের শেখার হার হল 1e-6, KL সহগ হল 0.04, প্রতিটি সমস্যার জন্য 64টি আউটপুট নমুনা করা হয়েছে, সর্বোচ্চ দৈর্ঘ্য হল 1024, এবং প্রশিক্ষণ ব্যাচের আকার হল 1024।

উপসংহার

উপসংহার ১:DeepSeekMath 7B গাণিতিক যুক্তি ক্ষমতার ক্ষেত্রে সমস্ত ওপেন সোর্স মডেলকে ছাড়িয়ে যায়। প্রতিযোগিতামূলক MATH বেঞ্চমার্ক পরীক্ষায়, DeepSeekMath 7B 51.7% নির্ভুলতা অর্জন করেছে, যা জেমিনি-আল্ট্রা এবং GPT-4 এর কর্মক্ষমতা স্তরের কাছাকাছি।

উপসংহার ২:সু-পরিকল্পিত প্রি-ট্রেনিং ডেটা এবং জিআরপিও অ্যালগরিদম এই মডেলের সাফল্যের মূল চাবিকাঠি। উচ্চমানের গাণিতিক সংগ্রহ এবং GRPO অ্যালগরিদমের সংমিশ্রণ মডেলটিকে গাণিতিক যুক্তির কাজে উল্লেখযোগ্য কর্মক্ষমতা অর্জন করতে সক্ষম করে।

উপসংহার ৩:কোড প্রশিক্ষণ গাণিতিক যুক্তি ক্ষমতা উন্নত করতে সাহায্য করে। প্রি-ট্রেনিং পর্যায়ে কোড ডেটা যোগ করলে মডেলের গাণিতিক সমস্যা সমাধানের ক্ষমতা উন্নত হতে পারে, টুল সহ এবং টুল ছাড়াই।

উপসংহার ৪: arXiv ডেটার সীমিত উপযোগিতা: পূর্ববর্তী বিশ্বাসের বিপরীতে, গাণিতিক যুক্তি উন্নত করতে arXiv তথ্য সীমিত সাহায্যকারী বলে প্রমাণিত হয়েছে।

সীমাবদ্ধতা

জ্যামিতি এবং প্রমাণ ক্ষমতা তুলনামূলকভাবে দুর্বল: যদিও DeepSeekMath পরিমাণগত যুক্তিতে উৎকৃষ্ট, তবুও জ্যামিতি এবং প্রমাণের ক্ষেত্রে এর ক্ষমতা এখনও ক্লোজড-সোর্স মডেলের তুলনায় নিম্নমানের। এটি প্রাক-প্রশিক্ষণ এবং সূক্ষ্ম-সুরকরণ পর্যায়ে পক্ষপাতদুষ্ট ডেটা নির্বাচনের কারণে হতে পারে।

ছোট নমুনা ধারণক্ষমতার দুর্বলতা: DeepSeekMath ছোট নমুনা শেখার ক্ষেত্রে GPT-4 এর চেয়ে নিকৃষ্ট, যা মডেল আকারের সীমাবদ্ধতার কারণে হতে পারে।

আরও দক্ষ শক্তিবৃদ্ধি শেখার পদ্ধতি প্রয়োজন: যদিও গবেষণাপত্রে প্রস্তাবিত শক্তিবৃদ্ধি শেখার পদ্ধতিগুলি কার্যকর, তবুও উন্নতির সুযোগ রয়েছে, উদাহরণস্বরূপ, পুরষ্কার মডেল থেকে প্রাপ্ত প্রতিক্রিয়া কীভাবে আরও কার্যকরভাবে ব্যবহার করা যায় এবং কীভাবে শব্দযুক্ত পুরষ্কার সংকেত মোকাবেলা করা যায়।

বিস্তারিত

শক্তিবৃদ্ধি শিক্ষণ অন্বেষণ এবং বিশ্লেষণ

সংক্ষিপ্ত বিবরণ:

গ্রুপ রিলেটিভ পলিসি অপ্টিমাইজেশন (GRPO) এর ভূমিকা: এই গবেষণাপত্রটি প্রক্সিমাল পলিসি অপ্টিমাইজেশন (PPO) এর একটি রূপ হিসেবে একটি নতুন রিইনফোর্সমেন্ট লার্নিং অ্যালগরিদম, GRPO প্রস্তাব করেছে। GRPO এর প্রধান বৈশিষ্ট্য হল এটি পিপিওতে সাধারণত ব্যবহৃত ক্রিটিক মডেলটি পরিত্যাগ করে এবং গ্রুপ স্কোরের মাধ্যমে বেসলাইন অনুমান করে, যার ফলে প্রশিক্ষণের জন্য প্রয়োজনীয় গণনামূলক সংস্থানগুলি ব্যাপকভাবে হ্রাস পায়।

GRPO কার্যকারিতা প্রদর্শন: গবেষণাপত্রটি পরীক্ষামূলকভাবে দেখায় যে GRPO পারে কমান্ড ফাইন-টিউনিং মডেলগুলির কর্মক্ষমতা কার্যকরভাবে উন্নত করা, যার মধ্যে ডোমেনের ভিতরে এবং ডোমেনের বাইরে উভয় গাণিতিক কাজ অন্তর্ভুক্ত রয়েছে।.

শক্তিবৃদ্ধি শেখার পদ্ধতির জন্য একীভূত কাঠামো: এই গবেষণাপত্রটি বিভিন্ন শক্তিবৃদ্ধি শেখার পদ্ধতি বোঝার জন্য একটি ঐক্যবদ্ধ কাঠামোর প্রস্তাব করে, যেমন প্রত্যাখ্যান নমুনা ফাইন-টিউনিং (RFT), ডাইরেক্ট প্রেফারেন্স অপ্টিমাইজেশন (DPO), PPO এবং GRPO। কাঠামোটি এই পদ্ধতিগুলিকে সরাসরি বা সরলীকৃত শক্তিবৃদ্ধি শেখার কৌশল হিসাবে বিবেচনা করে।

শক্তিবৃদ্ধি শিক্ষার উপাদানগুলির গভীর অনুসন্ধান: এই গবেষণাপত্রটি গভীরভাবে অনুসন্ধান করে রিইনফোর্সমেন্ট লার্নিংয়ের মূল উপাদানগুলি, যেমন অনলাইন প্রশিক্ষণ এবং অফলাইন প্রশিক্ষণ, ফলাফল তত্ত্বাবধান এবং প্রক্রিয়া তত্ত্বাবধান, একক-রাউন্ড রিইনফোর্সমেন্ট লার্নিং এবং পুনরাবৃত্ত রিইনফোর্সমেন্ট লার্নিং, বিস্তারিত পরীক্ষার মাধ্যমে, এবং শক্তিবৃদ্ধি শিক্ষার কার্যকারিতা উন্নত করার জন্য সম্ভাব্য দিকনির্দেশনাগুলির সারসংক্ষেপ।

GRPO (গ্রুপ রিলেটিভ পলিসি অপ্টিমাইজেশন) অ্যালগরিদম

সীমাবদ্ধতা পিপিও: পিপিও একটি সাধারণভাবে ব্যবহৃত রিইনফোর্সমেন্ট লার্নিং অ্যালগরিদম, তবে এর জন্য প্রশিক্ষণের প্রয়োজন হয় এবং অতিরিক্ত সমালোচক মডেল মান ফাংশন অনুমান করতে, যা আরোপ করে অতিরিক্ত গণনা এবং স্মৃতির বোঝা। এছাড়াও, এলএলএম পরিস্থিতিতে, সমালোচক মডেল প্রশিক্ষণ জটিল হতে পারে কারণ এর জন্য মূল্যায়ন প্রয়োজন প্রতিটি টোকেনের আউটপুট।

GRPO এর মূল ধারণা: GRPO এর মূল ধারণা হল ক্রিটিক মডেলটি ত্যাগ করুন এবং পরিবর্তে বেসলাইনের মতো একই সমস্যার জন্য আউটপুটগুলির একটি সেটের গড় স্কোর ব্যবহার করুন। এই বেসলাইনটি সুবিধা ফাংশন অনুমান করতে এবং নীতি অপ্টিমাইজেশনের জন্য ব্যবহার করা যেতে পারে।এই পদ্ধতিটি প্রশিক্ষণের জটিলতা উল্লেখযোগ্যভাবে হ্রাস করে।

সুবিধা ফাংশন গণনা: GRPO সুবিধা ফাংশন গণনা করে আলাদা মান ফাংশনের উপর নির্ভর না করে, একই আউটপুট সেটের প্রতিটি আউটপুটের আপেক্ষিক র‍্যাঙ্কিং গণনা করা যেমন পিপিও তে।

কেএল ডাইভারজেন্স পেনাল্টি: জিআরপিও PPO-এর মতো পুরষ্কারে KL ডাইভারজেন্স পেনাল্টি যোগ করে না, বরং পলিসি মডেল এবং রেফারেন্স মডেলের মধ্যে KL ডাইভারজেন্স সরাসরি লস ফাংশনে যোগ করে। এটি জটিল অ্যাডভান্টেজ ফাংশন গণনা এড়ায়।.

জিআরপিওর মূল ধারণা

Critic (মান ফাংশন) প্রয়োজন হয় না: GRPO একটি মান ফাংশনের প্রয়োজনীয়তা এড়িয়ে যায় এবং বেসলাইন অনুমান করার জন্য গ্রুপের মধ্যে স্কোর ব্যবহার করে, যার ফলে প্রশিক্ষণের সম্পদ হ্রাস পাচ্ছে।

গ্রুপের মধ্যে আপেক্ষিক সুবিধা: প্রতিটি সমস্যার q-এর জন্য, GRPO পুরাতন নীতি π(θold) থেকে {o(1), o(2), …, o(G)} আউটপুটের একটি সেট নমুনা করে এবং তারপর নিম্নলিখিত সমীকরণটিকে উদ্দেশ্যমূলক ফাংশন হিসাবে সর্বাধিক করে নীতি মডেলটিকে অপ্টিমাইজ করে।

বিশেষ করে:

এখানে মূল কথা হল Â(i,t), যা সুবিধার প্রতিনিধিত্ব করে এবং গণনা করা হয় গ্রুপের আউটপুটের আপেক্ষিক পুরষ্কার, PPO-এর মতো একটি পৃথক মান ফাংশনের উপর নির্ভর করার পরিবর্তে।

উদ্দেশ্যমূলক ফাংশনটি সরাসরি যোগ করে KL ডাইভারজেন্সকে একটি নিয়মিতকরণ শব্দ হিসেবে বিবেচনা করা হয় যার মাত্রা নিয়ন্ত্রণ করা যায় নীতি আপডেট

এবং পুরষ্কার মডেলের তুলনামূলক প্রকৃতির সাথে সারিবদ্ধ করুন: GRPO সুবিধা গণনা করার জন্য আপেক্ষিক আন্তঃগ্রুপ পুরষ্কার ব্যবহার করে, যা পুরষ্কার মডেলের প্রকৃতির সাথে আরও সামঞ্জস্যপূর্ণ, যা সাধারণত জোড়ায় তুলনার উপর ভিত্তি করে প্রশিক্ষিত হয়।

GRPO-এর রিওয়ার্ড মডেল কীভাবে ডিজাইন করা যেতে পারে (DeepSeek R1 দেখুন)?

বৈশিষ্ট্য:

পুরষ্কারের ফর্ম্যাট: দীর্ঘ প্রজন্মকে বাধ্য করে খাট ফলাফল, যা মডেলটিকে অনুমান প্রক্রিয়া তৈরি করতে এবং মডেলের অনুমান প্রভাব উন্নত করতে উৎসাহিত করতে পারে।

নির্ভুলতার পুরষ্কার: গণিত চূড়ান্ত ফলাফল ব্যবহার করতে পারে, এবং কোড কম্পাইলার প্রতিক্রিয়া ব্যবহার করতে পারে।

জিআরপিওর সুবিধা

কম মেমরি ফুটপ্রিন্ট: কোনও ক্রিটিক মডেলের প্রয়োজন নেই, মেমরির প্রয়োজনীয়তা হ্রাস করে।

আরও দক্ষ প্রশিক্ষণ: গ্রুপের মধ্যে আপেক্ষিক সুবিধা ব্যবহার করে গণনা প্রশিক্ষণ প্রক্রিয়াকে সহজ করে তোলে।

পুরষ্কার মডেলের প্রকৃতির সাথে আরও সামঞ্জস্যপূর্ণ: প্রশিক্ষণের স্থিতিশীলতা এবং দক্ষতা উন্নত করে।

আরএল ইউনিফাইড প্যারাডাইম সারাংশ

প্রস্তাবিত একীভূত দৃষ্টান্ত

লেখকরা SFT (তত্ত্বাবধানে থাকা ফাইন-টিউনিং), RFT (প্রত্যাখ্যান নমুনা ফাইন-টিউনিং), DPO (প্রত্যক্ষ পছন্দ অপ্টিমাইজেশন), PPO, GRPO ইত্যাদির মতো বিভিন্ন প্রশিক্ষণ পদ্ধতি বোঝার জন্য একটি সমন্বিত দৃষ্টান্ত প্রস্তাব করেছেন। আরএল মূল উপাদান: একীভূত কাঠামোর মূল উপাদানগুলির মধ্যে রয়েছে: ডেটা উৎস, পুরষ্কার ফাংশন এবং অ্যালগরিদম।

তথ্য সূত্র: এটি প্রশিক্ষণের জন্য ব্যবহৃত ডেটা বোঝায়, যা ম্যানুয়াল লেবেলিং, SFT মডেল, অথবা রিয়েল-টাইম নীতি মডেল থেকে নেওয়া যেতে পারে।
পুরষ্কার ফাংশন: এটি আউটপুটের মান মূল্যায়নের জন্য ব্যবহৃত ফাংশনকে বোঝায়, যা একটি নিয়ম বা মডেল হতে পারে।
অ্যালগরিদম: এটি ডেটা এবং পুরষ্কার সংকেত প্রক্রিয়াকরণ এবং মডেল প্যারামিটার আপডেট করার জন্য ব্যবহৃত পদ্ধতিকে বোঝায়।

একটি ঐক্যবদ্ধ দৃষ্টান্তের উপর ভিত্তি করে বিভিন্ন পদ্ধতির বিশ্লেষণ

সারণি ১০-এ ডেটা সোর্স, রিওয়ার্ড ফাংশন এবং গ্রেডিয়েন্ট সহগের ক্ষেত্রে SFT, RFT, DPO, অনলাইন RFT, PPO এবং GRPO-এর মধ্যে মিল এবং পার্থক্যের সংক্ষিপ্তসার দেওয়া হয়েছে।

পদ্ধতি	প্রশিক্ষণ তথ্য	পুরষ্কার ফাংশন	গ্রেডিয়েন্ট সহগ	প্রশিক্ষণ পদ্ধতি	সুবিধা/বৈশিষ্ট্য	প্রযোজ্য পরিস্থিতি
এসএফটি	ম্যানুয়ালি লেবেলযুক্ত SFT ডেটা	ম্যানুয়ালি নির্বাচিত (অন্তর্নিহিত পুরষ্কার)	১ এ স্থির করা হয়েছে	তত্ত্বাবধানে শেখা	সহজ এবং স্থিতিশীল, উচ্চ-মানের লেবেলযুক্ত ডেটার উপর নির্ভরশীল	মৌলিক মডেল প্রশিক্ষণ, প্রাথমিক সারিবদ্ধকরণ কাজ
আরএফটি	SFT ডেটাসেট সমস্যা + SFT মডেলের নমুনা আউটপুট	উত্তরের সঠিকতার উপর ভিত্তি করে (নিয়মের রায়)	০ (ভুল) অথবা ১ (সঠিক)	অফলাইন নীতি অপ্টিমাইজেশন	দক্ষ গণনা, নিয়ম প্রতিক্রিয়ার সরাসরি ব্যবহার	স্পষ্ট নিয়ম সহ গাণিতিক/যৌক্তিক কাজ
ডিপিও	SFT ডেটাসেট সমস্যা + মডেল আউটপুট থেকে	মানুষের পছন্দের লেবেলিং বা নিয়মের তুলনা	পছন্দের সম্ভাব্যতা গণনার উপর ভিত্তি করে (যেমন, ব্র্যাডলি-টেরি মডেল)	তুলনামূলক শিক্ষা	স্পষ্ট পুরষ্কার মডেলিং এড়িয়ে চলে, সরাসরি পছন্দগুলি অপ্টিমাইজ করে	মানুষের পছন্দের সারিবদ্ধকরণের কাজ (যেমন, সংলাপ তৈরি)
অনলাইন আরএফটি	রিয়েল-টাইম পলিসি মডেল স্যাম্পলিং সমস্যা-আউটপুট জোড়া	উত্তরের সঠিকতার উপর ভিত্তি করে (নিয়মের রায়)	০ (ভুল) অথবা ১ (সঠিক)	অনলাইন নীতি অপ্টিমাইজেশন	রিয়েল-টাইম ফিডব্যাক অপ্টিমাইজেশনের মাধ্যমে নীতিগুলি গতিশীলভাবে আপডেট করে	যেসব পরিস্থিতিতে অনলাইনে ইন্টারঅ্যাকশনের প্রয়োজন হয় (যেমন, গেম এআই)
পিপিও	SFT ডেটাসেট সমস্যা + পলিসি মডেল স্যাম্পলিং আউটপুট	রিওয়ার্ড মডেল (RM) প্রশিক্ষিত	আধিপত্য ফাংশন (পুরষ্কার অনুমানের উপর ভিত্তি করে)	পলিসি গ্রেডিয়েন্ট পদ্ধতি	দক্ষ এবং স্থিতিশীল, বহু-পদক্ষেপ অপ্টিমাইজেশন সমর্থন করে	জটিল কাজ (যেমন টেক্সট তৈরি, রোবট নিয়ন্ত্রণ)
জিআরপিও	SFT ডেটাসেট সমস্যা + নীতি মডেল নমুনা আউটপুট	রিওয়ার্ড মডেল (RM) প্রশিক্ষিত	গ্রুপের মধ্যে আপেক্ষিক পুরষ্কার (স্বাভাবিক তুলনা)	গ্রুপ পলিসি অপ্টিমাইজেশন	পুরষ্কারের বৈচিত্র্য হ্রাস করুন এবং আন্তঃগ্রুপ তুলনা উন্নত করুন	উচ্চ বৈচিত্র্য সহ কাজ (যেমন দীর্ঘ টেক্সট তৈরি)

তথ্য উৎসের উপর পর্যবেক্ষণ

অনলাইন বনাম অফলাইন প্রশিক্ষণ: অনলাইন প্রশিক্ষণ বলতে রিয়েল-টাইম পলিসি মডেলের আউটপুটকে প্রশিক্ষণের তথ্য হিসেবে ব্যবহার করা বোঝায়, অন্যদিকে অফলাইন প্রশিক্ষণ বলতে একটি নির্দিষ্ট মডেলের (যেমন SFT মডেল) আউটপুটকে প্রশিক্ষণের তথ্য হিসেবে ব্যবহার করা বোঝায়। পরীক্ষামূলক ফলাফল দেখায় যে অনলাইন প্রশিক্ষণ সাধারণত অফলাইন প্রশিক্ষণের চেয়ে ভালো.

ফলাফল তত্ত্বাবধান বনাম প্রক্রিয়া তত্ত্বাবধান: ফলাফল তত্ত্বাবধান বলতে কেবল আউটপুটের চূড়ান্ত ধাপকে পুরস্কৃত করা বোঝায়, অন্যদিকে প্রক্রিয়া তত্ত্বাবধান বলতে যুক্তি প্রক্রিয়ার প্রতিটি ধাপকে পুরস্কৃত করা বোঝায়। পরীক্ষামূলক ফলাফল দেখায় যে জটিল কাজে প্রক্রিয়া তত্ত্বাবধান আরও কার্যকর.

একক-পর্ব বনাম পুনরাবৃত্তিমূলক শক্তিবৃদ্ধি শেখা: একক-পর্বের পুনর্বহাল শিক্ষা বলতে একটি একক কৌশল অপ্টিমাইজেশনকে বোঝায়, অন্যদিকে পুনরাবৃত্তিমূলক পুনর্বহাল শিক্ষা বলতে একাধিক কৌশল অপ্টিমাইজেশনের পরে পুরষ্কার মডেলের ক্রমাগত আপডেটকে বোঝায়। পরীক্ষামূলক ফলাফল দেখায় যে পুনরাবৃত্তিমূলক শক্তিবৃদ্ধি শেখা কর্মক্ষমতা উল্লেখযোগ্যভাবে উন্নত করতে পারে, বিশেষ করে প্রথম পুনরাবৃত্তিতে.

গ্রেডিয়েন্ট সহগের পর্যবেক্ষণ

নিয়ম-ভিত্তিক বনাম মডেল-ভিত্তিক: নিয়ম বলতে উত্তরের সঠিকতার উপর ভিত্তি করে পুরষ্কার নির্ধারণকে বোঝায়, এবং মডেল বলতে স্কোর করার জন্য একটি পুরষ্কার মডেলকে প্রশিক্ষণ দেওয়াকে বোঝায়।

গ্রেডিয়েন্ট সহগের পার্থক্য: GRPO এবং এর মধ্যে মূল পার্থক্য অনলাইন RFT হল GRPO পুরষ্কার মডেল দ্বারা প্রদত্ত পুরষ্কার মানের উপর ভিত্তি করে তার গ্রেডিয়েন্ট সহগগুলিকে সামঞ্জস্য করে, যেখানে অনলাইন RFT তা করে না।

GRPO এর সুবিধা: পরীক্ষাগুলি দেখায় যে GRPO অনলাইন RFT-এর থেকে উন্নত, যা গ্রেডিয়েন্ট সহগের চিহ্ন পরিবর্তনের কার্যকারিতা প্রদর্শন করে। GRPO+PS, GRPO+OS-এর থেকে উন্নত, যা সূক্ষ্মভাবে তৈরি, ধাপে ধাপে সচেতন গ্রেডিয়েন্ট সহগ ব্যবহারের সুবিধা প্রদর্শন করে।.

আরএল কার্যকারিতা এবং উন্নতির দিকনির্দেশনা

আরএল কেন কার্যকর?

পরীক্ষামূলক ফলাফল: RL Maj@K এর কর্মক্ষমতা উন্নত করে কিন্তু Pass@K এর নয়।

ব্যাখ্যা: RL আউটপুট বিতরণকে আরও শক্তিশালী করে মডেলের সামগ্রিক কর্মক্ষমতা উন্নত করে, অর্থাৎ, এটি মডেলের অন্তর্নিহিত ক্ষমতা বৃদ্ধি করার পরিবর্তে TopK-তে সঠিক উত্তরের সম্ভাবনা উন্নত করে।

কীভাবে আরও কার্যকর RL অর্জন করা যেতে পারে?

একীভূত দৃষ্টান্তের উপর ভিত্তি করে, লেখকরা তিনটি দিক থেকে RL উন্নত করার জন্য ভবিষ্যতের দিকনির্দেশনা প্রস্তাব করেছেন: ডেটা উৎস, অ্যালগরিদম এবং পুরষ্কার ফাংশন।

তথ্য সূত্র:
- SFT পর্যায়ের বাইরের সমস্যাগুলি অন্বেষণ করুন।
- আরও উন্নত নমুনা (ডিকোডিং) কৌশল ব্যবহার করুন, যেমন ট্রি সার্চ-ভিত্তিক পদ্ধতি।
- নীতি মডেলের অনুসন্ধান দক্ষতা উন্নত করতে দক্ষ অনুমান কৌশল ব্যবহার করুন।
অ্যালগরিদম:
- এমন রিইনফোর্সমেন্ট লার্নিং অ্যালগরিদমগুলি অন্বেষণ করুন যা শোরগোলের পুরষ্কার সংকেতের জন্য আরও শক্তিশালী।
- দুর্বল থেকে শক্তিশালী টাইপ অ্যালাইনমেন্ট পদ্ধতিগুলি অধ্যয়ন করুন।
পুরষ্কার ফাংশন:
- বিতরণের বাইরের সমস্যা এবং উন্নত ডিকোডেড আউটপুট পরিচালনা করার জন্য পুরষ্কার মডেলের সাধারণীকরণ ক্ষমতা বৃদ্ধি করুন।
- পুরষ্কার মডেলের অনিশ্চয়তা প্রতিফলিত করুন এবং দুর্বল পুরষ্কার মডেল এবং দুর্বল থেকে শক্তিশালী শেখার অ্যালগরিদমগুলিকে সংযুক্ত করার জন্য এটিকে একটি সেতু হিসেবে ব্যবহার করুন।
- অনুমান প্রক্রিয়ার জন্য সূক্ষ্ম প্রশিক্ষণ সংকেত প্রদানের জন্য দক্ষতার সাথে উচ্চ-মানের প্রক্রিয়া পুরষ্কার মডেল তৈরি করুন।

সারাংশ

DeepSeekMath একটি বৃহৎ আকারের গাণিতিক কর্পাস তৈরি করে এবং একটি নতুন রিইনফোর্সমেন্ট লার্নিং অ্যালগরিদম প্রস্তাব করে গাণিতিক যুক্তিতে ওপেন সোর্স ভাষার মডেলগুলির ক্ষমতা উল্লেখযোগ্যভাবে উন্নত করেছে। এই গবেষণাপত্রের প্রধান বিষয়গুলি হল

DeepSeekMath কর্পাসের নির্মাণ এবং বৈধতা, একটি বৃহৎ, উচ্চমানের, বহুভাষিক গাণিতিক কর্পাস।
মডেলটির গাণিতিক যুক্তি ক্ষমতা উন্নত করার সাথে সাথে স্মৃতির ব্যবহার কমাতে একটি দক্ষ রিইনফোর্সমেন্ট লার্নিং অ্যালগরিদম, GRPO, প্রস্তাব করা হয়েছে।
গাণিতিক যুক্তি ক্ষমতার উপর কোড প্রশিক্ষণের প্রভাব গভীরভাবে আলোচনা করা হয়েছে এবং দেখা গেছে যে arXiv ডেটার প্রভাব সীমিত। DeepSeekMath এর মান:
এটি ওপেন সোর্স সম্প্রদায়কে একটি শক্তিশালী গাণিতিক যুক্তি মডেল প্রদান করে এবং গাণিতিক কৃত্রিম বুদ্ধিমত্তার বিকাশকে উৎসাহিত করে।
এটি গাণিতিক কর্পোরা তৈরি এবং গাণিতিক যুক্তি মডেল প্রশিক্ষণের জন্য মূল্যবান অভিজ্ঞতা এবং পদ্ধতি প্রদান করে।
প্রস্তাবিত জিআরপিও অ্যালগরিদম অন্যান্য ক্ষেত্রে শক্তিবৃদ্ধি শেখার প্রশিক্ষণের জন্য নতুন ধারণা প্রদান করে।

অশ্রেণীভুক্ত

ক্যাথি উড: DeepSeek খরচ কমানোর প্রক্রিয়াকে ত্বরান্বিত করছে; মহামন্দার সাথে তুলনীয় চরম ঘনীভূত বাজার কাঠামো পরিবর্তিত হবে।

দ্বারাzddeepseeker অক্টোবর 8, 2025অক্টোবর 8, 2025

DeepSeek এর সাথে প্রতিযোগিতা মার্কিন যুক্তরাষ্ট্রের জন্য ভালো ক্যাথি উড: আমার মনে হয় এটি দেখায় যে উদ্ভাবনের খরচ নাটকীয়ভাবে হ্রাস পাচ্ছে, এবং এই প্রবণতা ইতিমধ্যেই শুরু হয়ে গেছে। উদাহরণস্বরূপ, DeepSeek এর আগে, কৃত্রিম বুদ্ধিমত্তা প্রশিক্ষণের খরচ প্রতি বছর 75% কমেছিল, এবং অনুমানের খরচ এমনকি 85% কমেছিল ...

অশ্রেণীভুক্ত

DeepSeek এটা করেছে! OpenAI ক্লোজড সোর্স ভুল স্বীকার করে, অগ্রণী প্রান্ত সুবিধা ছোট হয়ে যায়

দ্বারাzddeepseeker ২ অক্টোবর, ২০২৫২ অক্টোবর, ২০২৫

ওপেনএআই o3-মিনি মডেল প্রকাশ করার পর, এর সিইও স্যাম অল্টম্যান, প্রধান গবেষণা কর্মকর্তা মার্ক চেন, প্রধান পণ্য কর্মকর্তা কেভিন ওয়েইল; ইঞ্জিনিয়ারিং এর ভাইস প্রেসিডেন্ট শ্রীনিবাস নারায়ণন, এপিআই রিসার্চের প্রধান মিশেল পোক্রাস এবং রিসার্চের প্রধান হংইউ রেন, বিশ্বের বৃহত্তম ব্যাপক ফোরামগুলির মধ্যে একটি রেডিটে একটি অনলাইন প্রযুক্তিগত প্রশ্নোত্তর পরিচালনা করেছেন। মূল বিষয়গুলো…

অশ্রেণীভুক্ত

DeepSeek R1 সৃজনশীল লেখার পরীক্ষায় প্রথম এসেছে, এবং o3 মিনি o1 মিনির থেকেও খারাপ ছিল!

দ্বারাzddeepseeker 3 অক্টোবর, 20253 অক্টোবর, 2025

DeepSeek R1 সৃজনশীল ছোট গল্প লেখার বেঞ্চমার্ক পরীক্ষায় চ্যাম্পিয়নশিপ জিতেছে, সফলভাবে আগের প্রভাবশালী খেলোয়াড় ক্লড 3.5 সনেটকে ছাড়িয়ে গেছে! বেঞ্চমার্ক পরীক্ষা গবেষক লেচ মাজুর দ্বারা ডিজাইন করা বেঞ্চমার্ক পরীক্ষা আপনার গড় লেখার প্রতিযোগিতা নয়। প্রতিটি AI মডেলের জন্য 500টি ছোট গল্প সম্পূর্ণ করতে হবে, এবং প্রতিটি গল্পকে চতুরতার সাথে অন্তর্ভুক্ত করতে হয়েছিল...

অশ্রেণীভুক্ত

DeepSeek-R1-0528 আপডেট: গভীর চিন্তাভাবনা, শক্তিশালী যুক্তি

দ্বারাzddeepseeker ২৯ মে, ২০২৫২৯ মে, ২০২৫

DeepSeek R1 মডেলটির একটি ছোটখাটো সংস্করণ আপগ্রেড করা হয়েছে, বর্তমান সংস্করণটি হল DeepSeek-R1-0528। আপনি যখন DeepSeek ওয়েবপেজ বা অ্যাপে প্রবেশ করবেন, তখন সর্বশেষ সংস্করণটি উপভোগ করার জন্য ডায়ালগ ইন্টারফেসে "ডিপ থিংকিং" বৈশিষ্ট্যটি সক্ষম করুন। DeepSeek-R1-0528 মডেলের ওজন HuggingFace-এ আপলোড করা হয়েছে গত চার মাস ধরে, DeepSeek-R1…

অশ্রেণীভুক্ত

DeepSeek কিভাবে তৈরি হয়েছিল? DeepSeek এর বৃদ্ধির ইতিহাসের বিশ্লেষণ

দ্বারাzddeepseeker 3 অক্টোবর, 20253 অক্টোবর, 2025

ভবিষ্যতে, আরো এবং আরো হার্ডকোর উদ্ভাবন হবে. এটি এখন বোঝা সহজ নয়, কারণ সমগ্র সামাজিক গোষ্ঠীকে তথ্য দ্বারা শিক্ষিত করা দরকার। এই সমাজ যখন হার্ডকোর উদ্ভাবনকারী লোকদের সফল হতে দেয়, তখন যৌথ মানসিকতা পরিবর্তন হবে। আমাদের শুধু দরকার একগুচ্ছ তথ্য এবং একটি প্রক্রিয়া...

অশ্রেণীভুক্ত

DeepSeek শীর্ষ ১৭টি সেরা বিকল্প: ব্যাপক বিশ্লেষণ (২০২৫)

দ্বারাdeepseeker সম্পর্কে অক্টোবর 6, 2025অক্টোবর 6, 2025

ভূমিকা কৃত্রিম বুদ্ধিমত্তার দ্রুত বিকশিত ভূমিরূপে, DeepSeek একটি শক্তিশালী ভাষা মডেল হিসেবে আবির্ভূত হয়েছে। এই বিস্তৃত বিশ্লেষণে DeepSeek-এর শীর্ষ 17টি বিকল্প অন্বেষণ করা হয়েছে, তাদের অনন্য বৈশিষ্ট্য, ক্ষমতা এবং ব্যবহারের ক্ষেত্রে পরীক্ষা করা হয়েছে। আমাদের গবেষণা আন্তর্জাতিক এবং চীনা উভয় প্ল্যাটফর্মের উপর দৃষ্টি নিবদ্ধ করে যা DeepSeek ইন্টিগ্রেশন বা অনুরূপ ক্ষমতা প্রদান করে। শীর্ষ বিকল্প বিশ্লেষণ 1….

DeepSeek 1 এর পেছনের রহস্য | DeepSeekMath এবং GRPO এর বিস্তারিত তথ্য