আজ আমি DeepSeek থেকে "DeepSeekMath: মুক্ত ভাষা মডেলে গাণিতিক যুক্তির সীমা পুশিং" শিরোনামে একটি প্রবন্ধ শেয়ার করতে চাই।

এই নিবন্ধটি DeepSeekMath 7B এর সাথে পরিচয় করিয়ে দেয়, যা পূর্ব-প্রশিক্ষিত DeepSeek-Coder-Base-v1.5 7B এর উপর ভিত্তি করে ১২০বি গণিত-সম্পর্কিত টোকেন, প্রাকৃতিক ভাষা এবং কোড ডেটার একটি সংগ্রহ।

মডেলটি প্রতিযোগিতামূলক-স্তরের MATH বেঞ্চমার্কে বাহ্যিক টুলকিট এবং ভোটিং কৌশলের উপর নির্ভর না করেই 51.7% এর একটি আশ্চর্যজনক স্কোর অর্জন করেছে, যা জেমিনি-আল্ট্রা এবং GPT-4 এর কর্মক্ষমতা স্তরের কাছাকাছি পৌঁছেছে।

DeepSeekMath 7B এর গাণিতিক যুক্তি ক্ষমতা দুটি মূল কারণের উপর নির্ভর করে: প্রথমত, একটি মাধ্যমে সাবধানে পরিকল্পিত তথ্য নির্বাচন পাইপলাইন, উচ্চমানের গণিত-সম্পর্কিত ডেটা সর্বজনীনভাবে উপলব্ধ ওয়েব ডেটা থেকে পুনরাবৃত্তভাবে খনন করা হয়।

দ্বিতীয়ত, গ্রুপ রিলেটিভ পলিসি অপ্টিমাইজেশন (GRPO) হল প্রবর্তিত হয়েছে, যা প্রক্সিমাল পলিসি অপ্টিমাইজেশন (PPO) এর একটি রূপ যা PPO এর মেমরি ব্যবহার অপ্টিমাইজ করার সময় গাণিতিক যুক্তি ক্ষমতা বৃদ্ধি করতে পারে।

  1. পদ্ধতির বৈশিষ্ট্যগুলি নিম্নরূপ সংক্ষেপিত করা হল:একটি উচ্চমানের গাণিতিক প্রাক-প্রশিক্ষণ কর্পাস তৈরি করা হয়েছিল, এবং কমন ক্রল থেকে উচ্চমানের গাণিতিক তথ্য খনির জন্য একটি সাবধানে ডিজাইন করা পাইপলাইন ব্যবহার করা হয়েছিল।
  2. GRPO অ্যালগরিদম প্রস্তাবিত হয়েছিল, যা প্রশিক্ষণের জন্য প্রয়োজনীয় সম্পদ হ্রাস করে এবং মডেলের গাণিতিক যুক্তি ক্ষমতা উন্নত করে। 3) অত্যাধুনিক পারফরম্যান্স ছিল একাধিক গাণিতিক যুক্তির মানদণ্ড পরীক্ষায় অর্জন.

সূচিপত্র

সংক্ষিপ্ত বিবরণ

শিরোনাম: DeepSeekMath: উন্মুক্ত ভাষা মডেলগুলিতে গাণিতিক যুক্তির সীমা অতিক্রম করা

ইউআরএল: এখানে ক্লিক করুন

লেখক: ঝিহং শাও, পেইয়ি ওয়াং, কিহাও ঝু, রানক্সিন জু, জুনসিও গান, জিয়াও বি, হাওওয়ে ঝাং, মিংচুয়ান ঝাং, ওয়াই কে লি, ওয়াই উ, দায়া গুও

কোড: এখানে ক্লিক করুন

প্রেরণা

গণিতের জটিলতা এবং কাঠামোগত প্রকৃতির কারণে ভাষা মডেলগুলির জন্য গাণিতিক যুক্তি একটি গুরুত্বপূর্ণ চ্যালেঞ্জ তৈরি করে। GPT-4 এবং Gemini-Ultra-এর মতো সবচেয়ে উন্নত মডেলগুলি শক্তিশালী কিন্তু জনসাধারণের জন্য উপলব্ধ নয়। অতএব, কর্মক্ষমতা উন্নত করার জন্য উল্লেখযোগ্য সুযোগ রয়েছে ওপেন সোর্স মডেল।

জটিলতা এবং গঠন: গণিতের জটিলতা এবং কাঠামোগত প্রকৃতির কারণে, ভাষা মডেলগুলির জন্য গাণিতিক যুক্তি একটি গুরুত্বপূর্ণ চ্যালেঞ্জ তৈরি করে।

পাবলিক ডেটার সম্ভাবনা: সর্বজনীনভাবে উপলব্ধ ওয়েব ডেটাতে সমৃদ্ধ গাণিতিক তথ্য থাকতে পারে যা এখনও খনন এবং ব্যবহার করা হয়নি।

পদ্ধতি

তথ্য সংগ্রহ: একটি পুনরাবৃত্ত পাইপলাইনের মাধ্যমে কমন ক্রল থেকে উচ্চমানের গণিত-সম্পর্কিত ওয়েব ডেটা সংগ্রহ করে 120B টোকেনের একটি DeepSeekMath কর্পাস তৈরি করা হয়েছিল।

মডেল প্রশিক্ষণ: DeepSeek-Coder-Base-v1.5 7B এর উপরে প্রাক-প্রশিক্ষণের জন্য এই কর্পাসটি ব্যবহার করা হয়েছিল, এবং গাণিতিক নির্দেশিকা ফাইন-টিউনিং এবং গ্রুপ রিলেটিভ পলিসি অপ্টিমাইজেশন (GRPO) অ্যালগরিদম প্রয়োগ করা হয়েছিল।

GRPO অ্যালগরিদম: GRPO হল একটি উন্নত রিইনফোর্সমেন্ট লার্নিং অ্যালগরিদম যা PPO-তে ক্রিটিক মডেলটি সরিয়ে দেয় এবং গ্রুপ স্কোর থেকে বেসলাইন অনুমান করে, যার ফলে প্রশিক্ষণের সংস্থান উল্লেখযোগ্যভাবে হ্রাস পায়।

বিস্তারিত পদ্ধতি এবং পদ্ধতি:

তথ্য সংগ্রহ এবং প্রক্রিয়াকরণ:

DeepSeekMath কর্পাস তৈরি করুন: একটি fastText-ভিত্তিক শ্রেণীবদ্ধকারী ব্যবহার করে, ১২০বি গণিত-সম্পর্কিত টোকেন বের করুন কমন ক্রল থেকে শুরু করে একটি বৃহৎ পরিসরে, উচ্চমানের প্রাক-প্রশিক্ষিত কর্পাস, DeepSeekMath কর্পাস তৈরি করা।

পুনরাবৃত্তিমূলক ডেটা ফিল্টারিং: একটি পুনরাবৃত্তিমূলক কৌশল ব্যবহার করা হয়, প্রাথমিক শ্রেণিবদ্ধকারীকে প্রশিক্ষণ দেওয়ার জন্য OpenWebMath কে বীজ ডেটা হিসেবে ব্যবহার করা, এবং তারপর আরও ইতিবাচক উদাহরণ খননের জন্য এই শ্রেণিবদ্ধকারী ব্যবহার করা কমন ক্রল থেকে, যা ক্লাসিফায়ার কর্মক্ষমতা ক্রমাগত অপ্টিমাইজ করার জন্য ম্যানুয়ালি টীকা করা হয়।

বহুভাষিক বৈশিষ্ট্য: DeepSeekMath কর্পাসে রয়েছে বহুভাষিক তথ্য, যা চীনা গণিতের মানদণ্ডে মডেলের কর্মক্ষমতা উন্নত করে।

দূষণমুক্তকরণ প্রক্রিয়াকরণ: ডি-পরীক্ষার মানদণ্ডের সাথে ওভারল্যাপ এড়াতে প্রশিক্ষণের তথ্যের উপর দূষণ প্রক্রিয়াকরণ করা হয়.

প্রাক-প্রশিক্ষণ:

কোড-ভিত্তিক মডেল আরম্ভ: ব্যবহার করে আরম্ভকরণ DeepSeek-কোডার-বেস-v1.5 7B সাধারণ এলএলএম থেকে শুরু করার চেয়ে মডেলটি বেশি কার্যকর বলে প্রমাণিত হয়েছে।

প্রাক-প্রশিক্ষণ ডেটা রচনা: 56% DeepSeekMath Corpus, 4% AlgebraicStack, 10% arXiv, 20% Github কোড, 10% কমন ক্রল ন্যাচারাল ল্যাঙ্গুয়েজ ডেটা।

প্রি-ট্রেনিং প্যারামিটার: AdamW অপ্টিমাইজার ব্যবহার করা হয়, যার শেখার হার 4.2e-4, ব্যাচের আকার 10M টোকেন এবং প্রশিক্ষণের জন্য 500B টোকেন।

নির্দেশনা সূক্ষ্ম-টিউনিং:

একটি নির্দেশিকা ফাইন-টিউনিং ডেটাসেট তৈরি করুন: একটি গাণিতিক নির্দেশিকা সূক্ষ্ম-সুরকরণ ডেটাসেট তৈরি করুন যাতে রয়েছে ৭৭৬ হাজার নমুনা, বিভিন্ন গাণিতিক ক্ষেত্র এবং অসুবিধার স্তরগুলিকে কভার করে, যার মধ্যে রয়েছে CoT, PoT, এবং ধাপগুলি সমাধানের জন্য টুল-ইন্টিগ্রেটেড ইনফারেন্স ফর্ম্যাট।

প্রশিক্ষণের পরামিতি: ব্যাচের আকার ২৫৬, শেখার হার ৫e-৫, ৫০০ ধাপের জন্য প্রশিক্ষণ।

রিইনফোর্সমেন্ট লার্নিং - গ্রুপ রিলেটিভ পলিসি অপ্টিমাইজেশন (GRPO):

GRPO অ্যালগরিদম প্রস্তাব করুন: প্রস্তাব করুন a পিপিও ভেরিয়েন্ট অ্যালগরিদম জিআরপিও, যা বেসলাইন অনুমান করার জন্য গ্রুপ-ভিত্তিক স্কোর ব্যবহার করে একটি সমালোচক মডেলের প্রয়োজনীয়তা এড়ায়, যার ফলে প্রশিক্ষণের সংস্থান হ্রাস পায়।.

উদ্দেশ্যমূলক ফাংশন: GRPO একটি উদ্দেশ্যমূলক ফাংশন সর্বাধিক করে নীতি মডেলকে অপ্টিমাইজ করে যা ইন-গ্রুপ আউটপুটগুলির আপেক্ষিক সুবিধা বিবেচনা করে এবং নিয়মিতকরণ শব্দ হিসাবে সরাসরি KL ডাইভারজেন্স যোগ করে.

সুবিধার হিসাব: GRPO এর মাধ্যমে সুবিধা গণনা করে গ্রুপ-ইন-গ্রুপ আপেক্ষিক পুরষ্কার, ক্রস-গ্রুপ তুলনা এড়িয়ে যাওয়া এবং পুরষ্কার মডেলের তুলনামূলক প্রকৃতির সাথে আরও ভালভাবে সঙ্গতিপূর্ণ হওয়া.

ফলাফল এবং প্রক্রিয়া পর্যবেক্ষণ উভয়কেই সমর্থন করে: জিআরপিও ফলাফল এবং প্রক্রিয়া উভয় পর্যবেক্ষণকে সমর্থন করতে পারে, এবং আরও কার্যকরভাবে নীতি পর্যবেক্ষণ করতে পারে প্রতিটি অনুমান ধাপের শেষে পুরষ্কার প্রদান করে।

পুনরাবৃত্ত RL: ব্যবহার করে একটি পুনরাবৃত্তিমূলক RL কৌশল নীতি মডেলের নমুনা ফলাফলের উপর ভিত্তি করে একটি নতুন প্রশিক্ষণ সেট তৈরি করা, পুরানো পুরষ্কার মডেলকে ক্রমাগত প্রশিক্ষণ দেওয়া এবং নীতি মডেল আপডেট করার জন্য নতুন পুরষ্কার মডেল ব্যবহার করা।

প্রশিক্ষণ তথ্য: SFT ডেটাতে GSM8K এবং MATH সম্পর্কিত CoT ফর্ম্যাট সমস্যা ব্যবহার করে, প্রায় 144K সমস্যা।

প্রশিক্ষণের পরামিতি: নীতি মডেলের শেখার হার হল 1e-6, KL সহগ হল 0.04, প্রতিটি সমস্যার জন্য 64টি আউটপুট নমুনা করা হয়েছে, সর্বোচ্চ দৈর্ঘ্য হল 1024, এবং প্রশিক্ষণ ব্যাচের আকার হল 1024।

উপসংহার

উপসংহার ১:DeepSeekMath 7B গাণিতিক যুক্তি ক্ষমতার ক্ষেত্রে সমস্ত ওপেন সোর্স মডেলকে ছাড়িয়ে যায়। প্রতিযোগিতামূলক MATH বেঞ্চমার্ক পরীক্ষায়, DeepSeekMath 7B 51.7% নির্ভুলতা অর্জন করেছে, যা জেমিনি-আল্ট্রা এবং GPT-4 এর কর্মক্ষমতা স্তরের কাছাকাছি।

উপসংহার ২:সু-পরিকল্পিত প্রি-ট্রেনিং ডেটা এবং জিআরপিও অ্যালগরিদম এই মডেলের সাফল্যের মূল চাবিকাঠি। উচ্চমানের গাণিতিক সংগ্রহ এবং GRPO অ্যালগরিদমের সংমিশ্রণ মডেলটিকে গাণিতিক যুক্তির কাজে উল্লেখযোগ্য কর্মক্ষমতা অর্জন করতে সক্ষম করে।

উপসংহার ৩:কোড প্রশিক্ষণ গাণিতিক যুক্তি ক্ষমতা উন্নত করতে সাহায্য করে। প্রি-ট্রেনিং পর্যায়ে কোড ডেটা যোগ করলে মডেলের গাণিতিক সমস্যা সমাধানের ক্ষমতা উন্নত হতে পারে, টুল সহ এবং টুল ছাড়াই।

উপসংহার ৪: arXiv ডেটার সীমিত উপযোগিতা: পূর্ববর্তী বিশ্বাসের বিপরীতে, গাণিতিক যুক্তি উন্নত করতে arXiv তথ্য সীমিত সাহায্যকারী বলে প্রমাণিত হয়েছে।

সীমাবদ্ধতা

জ্যামিতি এবং প্রমাণ ক্ষমতা তুলনামূলকভাবে দুর্বল: যদিও DeepSeekMath পরিমাণগত যুক্তিতে উৎকৃষ্ট, তবুও জ্যামিতি এবং প্রমাণের ক্ষেত্রে এর ক্ষমতা এখনও ক্লোজড-সোর্স মডেলের তুলনায় নিম্নমানের। এটি প্রাক-প্রশিক্ষণ এবং সূক্ষ্ম-সুরকরণ পর্যায়ে পক্ষপাতদুষ্ট ডেটা নির্বাচনের কারণে হতে পারে।

ছোট নমুনা ধারণক্ষমতার দুর্বলতা: DeepSeekMath ছোট নমুনা শেখার ক্ষেত্রে GPT-4 এর চেয়ে নিকৃষ্ট, যা মডেল আকারের সীমাবদ্ধতার কারণে হতে পারে।

আরও দক্ষ শক্তিবৃদ্ধি শেখার পদ্ধতি প্রয়োজন: যদিও গবেষণাপত্রে প্রস্তাবিত শক্তিবৃদ্ধি শেখার পদ্ধতিগুলি কার্যকর, তবুও উন্নতির সুযোগ রয়েছে, উদাহরণস্বরূপ, পুরষ্কার মডেল থেকে প্রাপ্ত প্রতিক্রিয়া কীভাবে আরও কার্যকরভাবে ব্যবহার করা যায় এবং কীভাবে শব্দযুক্ত পুরষ্কার সংকেত মোকাবেলা করা যায়।

বিস্তারিত

শক্তিবৃদ্ধি শিক্ষণ অন্বেষণ এবং বিশ্লেষণ

সংক্ষিপ্ত বিবরণ:

গ্রুপ রিলেটিভ পলিসি অপ্টিমাইজেশন (GRPO) এর ভূমিকা: এই গবেষণাপত্রটি প্রক্সিমাল পলিসি অপ্টিমাইজেশন (PPO) এর একটি রূপ হিসেবে একটি নতুন রিইনফোর্সমেন্ট লার্নিং অ্যালগরিদম, GRPO প্রস্তাব করেছে। GRPO এর প্রধান বৈশিষ্ট্য হল এটি পিপিওতে সাধারণত ব্যবহৃত ক্রিটিক মডেলটি পরিত্যাগ করে এবং গ্রুপ স্কোরের মাধ্যমে বেসলাইন অনুমান করে, যার ফলে প্রশিক্ষণের জন্য প্রয়োজনীয় গণনামূলক সংস্থানগুলি ব্যাপকভাবে হ্রাস পায়।

GRPO কার্যকারিতা প্রদর্শন: গবেষণাপত্রটি পরীক্ষামূলকভাবে দেখায় যে GRPO পারে কমান্ড ফাইন-টিউনিং মডেলগুলির কর্মক্ষমতা কার্যকরভাবে উন্নত করা, যার মধ্যে ডোমেনের ভিতরে এবং ডোমেনের বাইরে উভয় গাণিতিক কাজ অন্তর্ভুক্ত রয়েছে।.

শক্তিবৃদ্ধি শেখার পদ্ধতির জন্য একীভূত কাঠামো: এই গবেষণাপত্রটি বিভিন্ন শক্তিবৃদ্ধি শেখার পদ্ধতি বোঝার জন্য একটি ঐক্যবদ্ধ কাঠামোর প্রস্তাব করে, যেমন প্রত্যাখ্যান নমুনা ফাইন-টিউনিং (RFT), ডাইরেক্ট প্রেফারেন্স অপ্টিমাইজেশন (DPO), PPO এবং GRPO। কাঠামোটি এই পদ্ধতিগুলিকে সরাসরি বা সরলীকৃত শক্তিবৃদ্ধি শেখার কৌশল হিসাবে বিবেচনা করে।

শক্তিবৃদ্ধি শিক্ষার উপাদানগুলির গভীর অনুসন্ধান: এই গবেষণাপত্রটি গভীরভাবে অনুসন্ধান করে রিইনফোর্সমেন্ট লার্নিংয়ের মূল উপাদানগুলি, যেমন অনলাইন প্রশিক্ষণ এবং অফলাইন প্রশিক্ষণ, ফলাফল তত্ত্বাবধান এবং প্রক্রিয়া তত্ত্বাবধান, একক-রাউন্ড রিইনফোর্সমেন্ট লার্নিং এবং পুনরাবৃত্ত রিইনফোর্সমেন্ট লার্নিং, বিস্তারিত পরীক্ষার মাধ্যমে, এবং শক্তিবৃদ্ধি শিক্ষার কার্যকারিতা উন্নত করার জন্য সম্ভাব্য দিকনির্দেশনাগুলির সারসংক্ষেপ।

GRPO (গ্রুপ রিলেটিভ পলিসি অপ্টিমাইজেশন) অ্যালগরিদম

সীমাবদ্ধতা পিপিও: পিপিও একটি সাধারণভাবে ব্যবহৃত রিইনফোর্সমেন্ট লার্নিং অ্যালগরিদম, তবে এর জন্য প্রশিক্ষণের প্রয়োজন হয় এবং অতিরিক্ত সমালোচক মডেল মান ফাংশন অনুমান করতে, যা আরোপ করে অতিরিক্ত গণনা এবং স্মৃতির বোঝা। এছাড়াও, এলএলএম পরিস্থিতিতে, সমালোচক মডেল প্রশিক্ষণ জটিল হতে পারে কারণ এর জন্য মূল্যায়ন প্রয়োজন প্রতিটি টোকেনের আউটপুট।

GRPO এর মূল ধারণা: GRPO এর মূল ধারণা হল ক্রিটিক মডেলটি ত্যাগ করুন এবং পরিবর্তে বেসলাইনের মতো একই সমস্যার জন্য আউটপুটগুলির একটি সেটের গড় স্কোর ব্যবহার করুন। এই বেসলাইনটি সুবিধা ফাংশন অনুমান করতে এবং নীতি অপ্টিমাইজেশনের জন্য ব্যবহার করা যেতে পারে।এই পদ্ধতিটি প্রশিক্ষণের জটিলতা উল্লেখযোগ্যভাবে হ্রাস করে।

সুবিধা ফাংশন গণনা: GRPO সুবিধা ফাংশন গণনা করে আলাদা মান ফাংশনের উপর নির্ভর না করে, একই আউটপুট সেটের প্রতিটি আউটপুটের আপেক্ষিক র‍্যাঙ্কিং গণনা করা যেমন পিপিও তে।

কেএল ডাইভারজেন্স পেনাল্টি: জিআরপিও PPO-এর মতো পুরষ্কারে KL ডাইভারজেন্স পেনাল্টি যোগ করে না, বরং পলিসি মডেল এবং রেফারেন্স মডেলের মধ্যে KL ডাইভারজেন্স সরাসরি লস ফাংশনে যোগ করে। এটি জটিল অ্যাডভান্টেজ ফাংশন গণনা এড়ায়।.

জিআরপিওর মূল ধারণা

Critic (মান ফাংশন) প্রয়োজন হয় না: GRPO একটি মান ফাংশনের প্রয়োজনীয়তা এড়িয়ে যায় এবং বেসলাইন অনুমান করার জন্য গ্রুপের মধ্যে স্কোর ব্যবহার করে, যার ফলে প্রশিক্ষণের সম্পদ হ্রাস পাচ্ছে।

গ্রুপের মধ্যে আপেক্ষিক সুবিধা: প্রতিটি সমস্যার q-এর জন্য, GRPO পুরাতন নীতি π(θold) থেকে {o(1), o(2), …, o(G)} আউটপুটের একটি সেট নমুনা করে এবং তারপর নিম্নলিখিত সমীকরণটিকে উদ্দেশ্যমূলক ফাংশন হিসাবে সর্বাধিক করে নীতি মডেলটিকে অপ্টিমাইজ করে।

বিশেষ করে:

এখানে মূল কথা হল Â(i,t), যা সুবিধার প্রতিনিধিত্ব করে এবং গণনা করা হয় গ্রুপের আউটপুটের আপেক্ষিক পুরষ্কার, PPO-এর মতো একটি পৃথক মান ফাংশনের উপর নির্ভর করার পরিবর্তে।

উদ্দেশ্যমূলক ফাংশনটি সরাসরি যোগ করে KL ডাইভারজেন্সকে একটি নিয়মিতকরণ শব্দ হিসেবে বিবেচনা করা হয় যার মাত্রা নিয়ন্ত্রণ করা যায় নীতি আপডেট

এবং পুরষ্কার মডেলের তুলনামূলক প্রকৃতির সাথে সারিবদ্ধ করুন: GRPO সুবিধা গণনা করার জন্য আপেক্ষিক আন্তঃগ্রুপ পুরষ্কার ব্যবহার করে, যা পুরষ্কার মডেলের প্রকৃতির সাথে আরও সামঞ্জস্যপূর্ণ, যা সাধারণত জোড়ায় তুলনার উপর ভিত্তি করে প্রশিক্ষিত হয়।

GRPO-এর রিওয়ার্ড মডেল কীভাবে ডিজাইন করা যেতে পারে (DeepSeek R1 দেখুন)?

বৈশিষ্ট্য:

পুরষ্কারের ফর্ম্যাট: দীর্ঘ প্রজন্মকে বাধ্য করে খাট ফলাফল, যা মডেলটিকে অনুমান প্রক্রিয়া তৈরি করতে এবং মডেলের অনুমান প্রভাব উন্নত করতে উৎসাহিত করতে পারে।

নির্ভুলতার পুরষ্কার: গণিত চূড়ান্ত ফলাফল ব্যবহার করতে পারে, এবং কোড কম্পাইলার প্রতিক্রিয়া ব্যবহার করতে পারে।

জিআরপিওর সুবিধা

কম মেমরি ফুটপ্রিন্ট: কোনও ক্রিটিক মডেলের প্রয়োজন নেই, মেমরির প্রয়োজনীয়তা হ্রাস করে।

আরও দক্ষ প্রশিক্ষণ: গ্রুপের মধ্যে আপেক্ষিক সুবিধা ব্যবহার করে গণনা প্রশিক্ষণ প্রক্রিয়াকে সহজ করে তোলে।

পুরষ্কার মডেলের প্রকৃতির সাথে আরও সামঞ্জস্যপূর্ণ: প্রশিক্ষণের স্থিতিশীলতা এবং দক্ষতা উন্নত করে।

আরএল ইউনিফাইড প্যারাডাইম সারাংশ

প্রস্তাবিত একীভূত দৃষ্টান্ত

লেখকরা SFT (তত্ত্বাবধানে থাকা ফাইন-টিউনিং), RFT (প্রত্যাখ্যান নমুনা ফাইন-টিউনিং), DPO (প্রত্যক্ষ পছন্দ অপ্টিমাইজেশন), PPO, GRPO ইত্যাদির মতো বিভিন্ন প্রশিক্ষণ পদ্ধতি বোঝার জন্য একটি সমন্বিত দৃষ্টান্ত প্রস্তাব করেছেন। আরএল মূল উপাদান: একীভূত কাঠামোর মূল উপাদানগুলির মধ্যে রয়েছে: ডেটা উৎস, পুরষ্কার ফাংশন এবং অ্যালগরিদম।

  • তথ্য সূত্র: এটি প্রশিক্ষণের জন্য ব্যবহৃত ডেটা বোঝায়, যা ম্যানুয়াল লেবেলিং, SFT মডেল, অথবা রিয়েল-টাইম নীতি মডেল থেকে নেওয়া যেতে পারে।
  • পুরষ্কার ফাংশন: এটি আউটপুটের মান মূল্যায়নের জন্য ব্যবহৃত ফাংশনকে বোঝায়, যা একটি নিয়ম বা মডেল হতে পারে।
  • অ্যালগরিদম: এটি ডেটা এবং পুরষ্কার সংকেত প্রক্রিয়াকরণ এবং মডেল প্যারামিটার আপডেট করার জন্য ব্যবহৃত পদ্ধতিকে বোঝায়।

একটি ঐক্যবদ্ধ দৃষ্টান্তের উপর ভিত্তি করে বিভিন্ন পদ্ধতির বিশ্লেষণ

সারণি ১০-এ ডেটা সোর্স, রিওয়ার্ড ফাংশন এবং গ্রেডিয়েন্ট সহগের ক্ষেত্রে SFT, RFT, DPO, অনলাইন RFT, PPO এবং GRPO-এর মধ্যে মিল এবং পার্থক্যের সংক্ষিপ্তসার দেওয়া হয়েছে।

পদ্ধতিপ্রশিক্ষণ তথ্যপুরষ্কার ফাংশনগ্রেডিয়েন্ট সহগপ্রশিক্ষণ পদ্ধতিসুবিধা/বৈশিষ্ট্যপ্রযোজ্য পরিস্থিতি
এসএফটিম্যানুয়ালি লেবেলযুক্ত SFT ডেটাম্যানুয়ালি নির্বাচিত (অন্তর্নিহিত পুরষ্কার)১ এ স্থির করা হয়েছেতত্ত্বাবধানে শেখাসহজ এবং স্থিতিশীল, উচ্চ-মানের লেবেলযুক্ত ডেটার উপর নির্ভরশীলমৌলিক মডেল প্রশিক্ষণ, প্রাথমিক সারিবদ্ধকরণ কাজ
আরএফটিSFT ডেটাসেট সমস্যা + SFT মডেলের নমুনা আউটপুটউত্তরের সঠিকতার উপর ভিত্তি করে (নিয়মের রায়)০ (ভুল) অথবা ১ (সঠিক)অফলাইন নীতি অপ্টিমাইজেশনদক্ষ গণনা, নিয়ম প্রতিক্রিয়ার সরাসরি ব্যবহারস্পষ্ট নিয়ম সহ গাণিতিক/যৌক্তিক কাজ
ডিপিওSFT ডেটাসেট সমস্যা + মডেল আউটপুট থেকেমানুষের পছন্দের লেবেলিং বা নিয়মের তুলনাপছন্দের সম্ভাব্যতা গণনার উপর ভিত্তি করে (যেমন, ব্র্যাডলি-টেরি মডেল)তুলনামূলক শিক্ষাস্পষ্ট পুরষ্কার মডেলিং এড়িয়ে চলে, সরাসরি পছন্দগুলি অপ্টিমাইজ করেমানুষের পছন্দের সারিবদ্ধকরণের কাজ (যেমন, সংলাপ তৈরি)
অনলাইন আরএফটিরিয়েল-টাইম পলিসি মডেল স্যাম্পলিং সমস্যা-আউটপুট জোড়াউত্তরের সঠিকতার উপর ভিত্তি করে (নিয়মের রায়)০ (ভুল) অথবা ১ (সঠিক)অনলাইন নীতি অপ্টিমাইজেশনরিয়েল-টাইম ফিডব্যাক অপ্টিমাইজেশনের মাধ্যমে নীতিগুলি গতিশীলভাবে আপডেট করেযেসব পরিস্থিতিতে অনলাইনে ইন্টারঅ্যাকশনের প্রয়োজন হয় (যেমন, গেম এআই)
পিপিওSFT ডেটাসেট সমস্যা + পলিসি মডেল স্যাম্পলিং আউটপুটরিওয়ার্ড মডেল (RM) প্রশিক্ষিতআধিপত্য ফাংশন (পুরষ্কার অনুমানের উপর ভিত্তি করে)পলিসি গ্রেডিয়েন্ট পদ্ধতিদক্ষ এবং স্থিতিশীল, বহু-পদক্ষেপ অপ্টিমাইজেশন সমর্থন করেজটিল কাজ (যেমন টেক্সট তৈরি, রোবট নিয়ন্ত্রণ)
জিআরপিওSFT ডেটাসেট সমস্যা + নীতি মডেল নমুনা আউটপুটরিওয়ার্ড মডেল (RM) প্রশিক্ষিতগ্রুপের মধ্যে আপেক্ষিক পুরষ্কার (স্বাভাবিক তুলনা)গ্রুপ পলিসি অপ্টিমাইজেশনপুরষ্কারের বৈচিত্র্য হ্রাস করুন এবং আন্তঃগ্রুপ তুলনা উন্নত করুনউচ্চ বৈচিত্র্য সহ কাজ (যেমন দীর্ঘ টেক্সট তৈরি)

তথ্য উৎসের উপর পর্যবেক্ষণ

অনলাইন বনাম অফলাইন প্রশিক্ষণ: অনলাইন প্রশিক্ষণ বলতে রিয়েল-টাইম পলিসি মডেলের আউটপুটকে প্রশিক্ষণের তথ্য হিসেবে ব্যবহার করা বোঝায়, অন্যদিকে অফলাইন প্রশিক্ষণ বলতে একটি নির্দিষ্ট মডেলের (যেমন SFT মডেল) আউটপুটকে প্রশিক্ষণের তথ্য হিসেবে ব্যবহার করা বোঝায়। পরীক্ষামূলক ফলাফল দেখায় যে অনলাইন প্রশিক্ষণ সাধারণত অফলাইন প্রশিক্ষণের চেয়ে ভালো.

ফলাফল তত্ত্বাবধান বনাম প্রক্রিয়া তত্ত্বাবধান: ফলাফল তত্ত্বাবধান বলতে কেবল আউটপুটের চূড়ান্ত ধাপকে পুরস্কৃত করা বোঝায়, অন্যদিকে প্রক্রিয়া তত্ত্বাবধান বলতে যুক্তি প্রক্রিয়ার প্রতিটি ধাপকে পুরস্কৃত করা বোঝায়। পরীক্ষামূলক ফলাফল দেখায় যে জটিল কাজে প্রক্রিয়া তত্ত্বাবধান আরও কার্যকর.

একক-পর্ব বনাম পুনরাবৃত্তিমূলক শক্তিবৃদ্ধি শেখা: একক-পর্বের পুনর্বহাল শিক্ষা বলতে একটি একক কৌশল অপ্টিমাইজেশনকে বোঝায়, অন্যদিকে পুনরাবৃত্তিমূলক পুনর্বহাল শিক্ষা বলতে একাধিক কৌশল অপ্টিমাইজেশনের পরে পুরষ্কার মডেলের ক্রমাগত আপডেটকে বোঝায়। পরীক্ষামূলক ফলাফল দেখায় যে পুনরাবৃত্তিমূলক শক্তিবৃদ্ধি শেখা কর্মক্ষমতা উল্লেখযোগ্যভাবে উন্নত করতে পারে, বিশেষ করে প্রথম পুনরাবৃত্তিতে.

গ্রেডিয়েন্ট সহগের পর্যবেক্ষণ

নিয়ম-ভিত্তিক বনাম মডেল-ভিত্তিক: নিয়ম বলতে উত্তরের সঠিকতার উপর ভিত্তি করে পুরষ্কার নির্ধারণকে বোঝায়, এবং মডেল বলতে স্কোর করার জন্য একটি পুরষ্কার মডেলকে প্রশিক্ষণ দেওয়াকে বোঝায়।

গ্রেডিয়েন্ট সহগের পার্থক্য: GRPO এবং এর মধ্যে মূল পার্থক্য অনলাইন RFT হল GRPO পুরষ্কার মডেল দ্বারা প্রদত্ত পুরষ্কার মানের উপর ভিত্তি করে তার গ্রেডিয়েন্ট সহগগুলিকে সামঞ্জস্য করে, যেখানে অনলাইন RFT তা করে না।

GRPO এর সুবিধা: পরীক্ষাগুলি দেখায় যে GRPO অনলাইন RFT-এর থেকে উন্নত, যা গ্রেডিয়েন্ট সহগের চিহ্ন পরিবর্তনের কার্যকারিতা প্রদর্শন করে। GRPO+PS, GRPO+OS-এর থেকে উন্নত, যা সূক্ষ্মভাবে তৈরি, ধাপে ধাপে সচেতন গ্রেডিয়েন্ট সহগ ব্যবহারের সুবিধা প্রদর্শন করে।.

আরএল কার্যকারিতা এবং উন্নতির দিকনির্দেশনা

আরএল কেন কার্যকর?

পরীক্ষামূলক ফলাফল: RL Maj@K এর কর্মক্ষমতা উন্নত করে কিন্তু Pass@K এর নয়।

ব্যাখ্যা: RL আউটপুট বিতরণকে আরও শক্তিশালী করে মডেলের সামগ্রিক কর্মক্ষমতা উন্নত করে, অর্থাৎ, এটি মডেলের অন্তর্নিহিত ক্ষমতা বৃদ্ধি করার পরিবর্তে TopK-তে সঠিক উত্তরের সম্ভাবনা উন্নত করে।

কীভাবে আরও কার্যকর RL অর্জন করা যেতে পারে?

একীভূত দৃষ্টান্তের উপর ভিত্তি করে, লেখকরা তিনটি দিক থেকে RL উন্নত করার জন্য ভবিষ্যতের দিকনির্দেশনা প্রস্তাব করেছেন: ডেটা উৎস, অ্যালগরিদম এবং পুরষ্কার ফাংশন।

  • তথ্য সূত্র:
    • SFT পর্যায়ের বাইরের সমস্যাগুলি অন্বেষণ করুন।
    • আরও উন্নত নমুনা (ডিকোডিং) কৌশল ব্যবহার করুন, যেমন ট্রি সার্চ-ভিত্তিক পদ্ধতি।
    • নীতি মডেলের অনুসন্ধান দক্ষতা উন্নত করতে দক্ষ অনুমান কৌশল ব্যবহার করুন।
  • অ্যালগরিদম:
    • এমন রিইনফোর্সমেন্ট লার্নিং অ্যালগরিদমগুলি অন্বেষণ করুন যা শোরগোলের পুরষ্কার সংকেতের জন্য আরও শক্তিশালী।
    • দুর্বল থেকে শক্তিশালী টাইপ অ্যালাইনমেন্ট পদ্ধতিগুলি অধ্যয়ন করুন।
  • পুরষ্কার ফাংশন:
    • বিতরণের বাইরের সমস্যা এবং উন্নত ডিকোডেড আউটপুট পরিচালনা করার জন্য পুরষ্কার মডেলের সাধারণীকরণ ক্ষমতা বৃদ্ধি করুন।
    • পুরষ্কার মডেলের অনিশ্চয়তা প্রতিফলিত করুন এবং দুর্বল পুরষ্কার মডেল এবং দুর্বল থেকে শক্তিশালী শেখার অ্যালগরিদমগুলিকে সংযুক্ত করার জন্য এটিকে একটি সেতু হিসেবে ব্যবহার করুন।
    • অনুমান প্রক্রিয়ার জন্য সূক্ষ্ম প্রশিক্ষণ সংকেত প্রদানের জন্য দক্ষতার সাথে উচ্চ-মানের প্রক্রিয়া পুরষ্কার মডেল তৈরি করুন।

সারাংশ

DeepSeekMath একটি বৃহৎ আকারের গাণিতিক কর্পাস তৈরি করে এবং একটি নতুন রিইনফোর্সমেন্ট লার্নিং অ্যালগরিদম প্রস্তাব করে গাণিতিক যুক্তিতে ওপেন সোর্স ভাষার মডেলগুলির ক্ষমতা উল্লেখযোগ্যভাবে উন্নত করেছে। এই গবেষণাপত্রের প্রধান বিষয়গুলি হল

  • DeepSeekMath কর্পাসের নির্মাণ এবং বৈধতা, একটি বৃহৎ, উচ্চমানের, বহুভাষিক গাণিতিক কর্পাস।
  • মডেলটির গাণিতিক যুক্তি ক্ষমতা উন্নত করার সাথে সাথে স্মৃতির ব্যবহার কমাতে একটি দক্ষ রিইনফোর্সমেন্ট লার্নিং অ্যালগরিদম, GRPO, প্রস্তাব করা হয়েছে।
  • গাণিতিক যুক্তি ক্ষমতার উপর কোড প্রশিক্ষণের প্রভাব গভীরভাবে আলোচনা করা হয়েছে এবং দেখা গেছে যে arXiv ডেটার প্রভাব সীমিত। DeepSeekMath এর মান:
  • এটি ওপেন সোর্স সম্প্রদায়কে একটি শক্তিশালী গাণিতিক যুক্তি মডেল প্রদান করে এবং গাণিতিক কৃত্রিম বুদ্ধিমত্তার বিকাশকে উৎসাহিত করে।
  • এটি গাণিতিক কর্পোরা তৈরি এবং গাণিতিক যুক্তি মডেল প্রশিক্ষণের জন্য মূল্যবান অভিজ্ঞতা এবং পদ্ধতি প্রদান করে।
  • প্রস্তাবিত জিআরপিও অ্যালগরিদম অন্যান্য ক্ষেত্রে শক্তিবৃদ্ধি শেখার প্রশিক্ষণের জন্য নতুন ধারণা প্রদান করে।

অনুরূপ পোস্ট

মন্তব্য করুন

আপনার ই-মেইল এ্যাড্রেস প্রকাশিত হবে না। * চিহ্নিত বিষয়গুলো আবশ্যক।