আজ আমরা শেয়ার করব DeepSeek R1, শিরোনাম: DeepSeek-R1: শক্তিবৃদ্ধি শিক্ষার মাধ্যমে LLM-এ যুক্তির ক্ষমতাকে উৎসাহিত করা: শক্তিবৃদ্ধি শিক্ষার মাধ্যমে LLM-এর যুক্তির ক্ষমতাকে উৎসাহিত করা।
এই গবেষণাপত্রটি DeepSeek-এর প্রথম প্রজন্মের যুক্তি মডেলগুলির সাথে পরিচয় করিয়ে দেয়, DeepSeek-R1-জিরো এবং DeepSeek-R1DeepSeek-R1-জিরো মডেলটি প্রশিক্ষিত হয়েছিল প্রাথমিক পদক্ষেপ হিসেবে তত্ত্বাবধানে থাকা ফাইন-টিউনিং (SFT) ছাড়াই বৃহৎ-স্কেল রিইনফোর্সমেন্ট লার্নিং (RL), যা RL-এর সম্ভাবনা এবং উচ্চতর যুক্তি ক্ষমতা প্রদর্শন করে। এটি আনে। শক্তিবৃদ্ধি শিক্ষার মাধ্যমে, DeepSeek-R1-Zero স্বাভাবিকভাবেই অনেক শক্তিশালী এবং আকর্ষণীয় যুক্তিপূর্ণ আচরণ নিয়ে আবির্ভূত হয়েছিল। R1-Zero (ভাষাগত বিভ্রান্তি, উন্নত সাধারণীকরণ ক্ষমতা) এর কিছু সমস্যা আরও উন্নত করার জন্য, তারা প্রকাশ করেছে DeepSeek-R1, যা রিইনফোর্সমেন্ট লার্নিংয়ের আগে বহু-পর্যায়ের প্রশিক্ষণ এবং কোল্ড-স্টার্ট ডেটা ফাইন-টিউনিংকে একত্রিত করে। DeepSeek-R1 তুলনীয় কর্মক্ষমতা অর্জন করেছে OpenAI-01-1217 এর সাথে যুক্তির কাজে। গবেষণা সম্প্রদায়কে সমর্থন করার জন্য, তাদের আছে ওপেন-সোর্সড DeepSeek-R1-Zero, DeepSeek-R1, এবং ছয়টি ঘন মডেল (1.5B, 7B, 8B, 14B, 32B, 70B) DeepSeek-R1 থেকে পাতিত, যা Qwen এবং Llama এর উপর ভিত্তি করে তৈরি.
পদ্ধতির বৈশিষ্ট্যগুলি নিম্নরূপ সংক্ষেপে দেওয়া হল:
- শক্তিবৃদ্ধি শিক্ষা সরাসরি বেস মডেলে প্রয়োগ করা হয়, প্রাথমিক পদক্ষেপ হিসেবে তত্ত্বাবধানে থাকা ফাইন-টিউনিং (SFT) এর উপর নির্ভর না করে।
- DeepSeek-R1 উন্নয়ন প্রক্রিয়া চালু করা হয়েছে, যা মডেলের যুক্তি এবং অ-যুক্তিগত ক্ষমতার ভিত্তি স্থাপনের জন্য দুটি শক্তিবৃদ্ধি শেখার পর্যায় এবং দুটি তত্ত্বাবধানে সূক্ষ্ম-সুরকরণ পর্যায় একত্রিত করে.
- বৃহৎ মডেলের যুক্তির ধরণ ছোট মডেলগুলিতে স্থানান্তরিত করে যুক্তির কাজে ছোট মডেলগুলির কর্মক্ষমতা উন্নত করা হয় পাতন কৌশল।
সংক্ষিপ্ত বিবরণ
- শিরোনাম: DeepSeek-R1: রিইনফোর্সমেন্ট লার্নিংয়ের মাধ্যমে এলএলএম-তে যুক্তির ক্ষমতাকে উৎসাহিত করা
- লেখক: DeepSeek-AI সম্পর্কে
- গিথুব: ১টিপি১টি
প্রেরণা
- বর্তমান বৃহৎ ভাষা মডেলগুলি (LLM) অনুমানমূলক কাজে উল্লেখযোগ্য অগ্রগতি অর্জন করেছে, কিন্তু এখনও চ্যালেঞ্জের মুখোমুখি।
- বিশুদ্ধতার সম্ভাবনা এলএলএম-দের যুক্তি ক্ষমতা উন্নত করার ক্ষেত্রে রিইনফোর্সমেন্ট লার্নিং (আরএল) সম্পূর্ণরূপে অন্বেষণ করা হয়নি।, বিশেষ করে তত্ত্বাবধানে থাকা তথ্যের উপর নির্ভর না করে।
- RL-এর মাধ্যমে প্রশিক্ষিত মডেলরা, যেমন DeepSeek-R1-Zero, পঠনযোগ্যতা এবং ভাষা মিশ্রণে সমস্যা রয়েছে (যেমন, চীনা এবং ইংরেজি মিশ্রিতভাবে কথা বলা), এবং ব্যবহারকারী-বান্ধবতা উন্নত করার জন্য আরও উন্নতি প্রয়োজন।.
পদ্ধতি

১TP8T-R1-শূন্য: বেস মডেল হিসেবে DeepSeek-V3-বেস ব্যবহার করে, এবং জিআরপিও (গ্রুপ রিলেটিভ পলিসি অপ্টিমাইজেশন) রিইনফোর্সমেন্ট লার্নিং হিসেবে কাঠামো, অনুমানে মডেলের কর্মক্ষমতা উন্নত করার জন্য তত্ত্বাবধানে থাকা ডেটা ছাড়াই.
১টিপি৮টি-আর১:
- কোল্ড স্টার্ট: অল্প পরিমাণে উচ্চমানের দীর্ঘ CoT (চেইন-অফ-থট) ডেটা সংগ্রহ করে এবং সূক্ষ্ম-সুর করে DeepSeek-V3-বেস মডেল শক্তিবৃদ্ধি শেখার প্রাথমিক অভিনেতা হিসেবে।
- যুক্তি-ভিত্তিক শক্তিবৃদ্ধি শিক্ষা: একই DeepSeek-R1-Zero হিসাবে শক্তিবৃদ্ধি শেখার প্রশিক্ষণ প্রক্রিয়া প্রয়োগ করা হয়েছে, তবে মডেলের যুক্তি ক্ষমতা বৃদ্ধির উপর মনোযোগ দিয়ে কোডিং, গণিত, বিজ্ঞান এবং যৌক্তিক যুক্তির মতো ক্ষেত্রে। CoT-তে সংঘটিত ভাষাগত মিশ্রণের সমস্যা কমাতে ভাষাগত ধারাবাহিকতা পুরষ্কার চালু করা হয়।
- প্রত্যাখ্যান নমুনা এবং তত্ত্বাবধানে সূক্ষ্ম-সুরকরণ: শক্তিবৃদ্ধি শেখার একীভূত চেকপয়েন্ট ব্যবহার করে তত্ত্বাবধানে থাকা ফাইন-টিউনিং (SFT) তথ্য সংগ্রহ করুন পরবর্তী প্রশিক্ষণের জন্য।
- সকল পরিস্থিতির জন্য শক্তিবৃদ্ধি শিক্ষণ: একটি দ্বিতীয়-স্তরের শক্তিবৃদ্ধি শিক্ষণ পর্ব বাস্তবায়ন করে, যার লক্ষ্য হল উন্নত করা মডেলটির যুক্তি ক্ষমতা অপ্টিমাইজ করার সময় এর সহায়কতা এবং নিরীহতা।
- জ্ঞান পাতন: DeepSeek-R1 দ্বারা তৈরি 800k নমুনা ব্যবহার করে সরাসরি ওপেন সোর্স মডেল Qwen এবং Llama-কে সূক্ষ্ম-সুর করে।
বিস্তারিত পদ্ধতি এবং পদ্ধতি:

DeepSeek-R1-জিরো: বেস মডেলগুলির জন্য শক্তিবৃদ্ধি শিক্ষা
- শক্তিবৃদ্ধি শেখার অ্যালগরিদম: গ্রুপ রিলেটিভ পলিসি অপ্টিমাইজেশন (GRPO) অ্যালগরিদম ব্যবহার করে, যা এর প্রয়োজন নেই সমালোচক মডেল তৈরি করে, গ্রুপ স্কোর অনুসারে বেসলাইন অনুমান করে এবং প্রশিক্ষণের খরচ কমায়.
- পুরষ্কার মডেলিং: ব্যবহার করে a নিয়ম-ভিত্তিক পুরষ্কার ব্যবস্থা, সহ

- নির্ভুলতার পুরষ্কার: উত্তরটি সঠিক কিনা তা মূল্যায়ন করে, যেমন চূড়ান্ত ফলাফলের সঠিকতা গণিত সমস্যার উত্তর, কোড সমস্যার জন্য কম্পাইলারের প্রতিক্রিয়া.
- পুরষ্কারের ফর্ম্যাট: মডেলটিকে উৎসাহিত করে চিন্তাভাবনা প্রক্রিয়াটিকে এর মধ্যে রাখুন
এবং
ট্যাগ.
প্রশিক্ষণ টেমপ্লেট: একটি টেমপ্লেট ধারণকারী এবং
ট্যাগগুলি এমনভাবে ডিজাইন করা হয়েছে যাতে প্রথমে চিন্তাভাবনা প্রক্রিয়াটি আউটপুট করার জন্য মডেলটিকে নির্দেশ করুন, এবং তারপর চূড়ান্ত উত্তর দিন.

- স্ব-বিবর্তনমূলক প্রক্রিয়া: DeepSeek-R1-জিরো প্রদর্শিত হয়েছে প্রশিক্ষণের সময় স্ব-বিবর্তনীয় বৈশিষ্ট্যগুলি, এবং স্বায়ত্তশাসিতভাবে আরও জটিল যুক্তি কৌশলগুলি শিখতে সক্ষম হয়েছিল, যেমন একাধিক সমস্যা সমাধানের পথের প্রতিফলন এবং অন্বেষণ.

DeepSeek-R1: কোল্ড স্টার্টের সাথে মিলিতভাবে শক্তিবৃদ্ধি শেখা

- কোল্ড স্টার্ট: DeepSeek-R1-Zero সমাধান করতে পঠনযোগ্যতা সমস্যা, DeepSeek-R1 প্রথমে অল্প পরিমাণে সংগ্রহ করে উচ্চমানের CoT ডেটা এবং DeepSeek-V3-বেস মডেলটিকে সূক্ষ্ম-সুর করে শক্তিবৃদ্ধি শেখার প্রাথমিক অভিনেতা হিসেবে কাজ করেকোল্ড স্টার্ট ডেটা সারাংশ ট্যাগ এবং অপ্রীতিকর উত্তর রয়েছে ফিল্টার করা হয়।
- পদ্ধতি: ১) উচ্চমানের লং COT ডেটা নির্বাচন করুন। ২) যোগ করুন এবং ট্যাগ করুন।
- সুবিধা: ১) অপ্টিমাইজড পঠনযোগ্যতা (R1-Zero এর বহুভাষিক সমস্যা বা মার্কডাউন ফর্ম্যাট সমস্যা সমাধান করুন)। ২) সাবধানে নির্বাচিত মানুষের পছন্দের ডেটা R1-Zero এর কর্মক্ষমতা উন্নত করতে পারে।
- প্রশ্ন: পঠনযোগ্যতার সমস্যা কেন সমাধান করবেন? এটি সমাধান না করে কি আরও ভালো করা সম্ভব নয় (যেমন, আউটপুটের দৈর্ঘ্য কমিয়ে আরও দক্ষতার সাথে অনুমান করা)?
- যুক্তি-ভিত্তিক আরএল: কোল্ড-স্টার্ট মডেলের উপর ভিত্তি করে, একটি রিইনফোর্সমেন্ট শেখার প্রক্রিয়া অনুরূপ DeepSeek-R1-Zero প্রয়োগ করা হয়েছে, কোডিং, গণিত, বৈজ্ঞানিক এবং যৌক্তিক যুক্তির মতো কাজে মডেলের দক্ষতা উন্নত করার উপর দৃষ্টি নিবদ্ধ করে।মিশ্র ভাষার সমস্যা সমাধানের জন্য (বহুভাষিক যুক্তি), ভাষার ধারাবাহিকতার পুরষ্কার পরিচয় করিয়ে দেওয়া হয়।
- প্রশ্ন: বৈজ্ঞানিক ও যৌক্তিক যুক্তির কাজ এবং ডেটাসেটগুলি কীভাবে প্রশিক্ষিত করা হয়?
- প্রত্যাখ্যান নমুনা এবং SFT: অনুমান-নির্দেশিত শক্তিবৃদ্ধি শিক্ষণ একত্রিত হওয়ার পরে, প্রাপ্ত চেকপয়েন্টটি এর জন্য ব্যবহৃত হয় নতুন SFT ডেটা তৈরি করার জন্য প্রত্যাখ্যান নমুনা, যা DeepSeek-V3 থেকে ডেটার সাথে একত্রিত করা হয় যাতে লেখা, ভূমিকা পালন এবং সাধারণ কাজে মডেলের ক্ষমতা বৃদ্ধি পায়।
- উদ্দেশ্য:
- এই পর্যায়টি শুরু হয় পরে অনুমান-ভিত্তিক শক্তিবৃদ্ধি শিক্ষণ (RL) প্রক্রিয়া একত্রিত হয়.
- মূল উদ্দেশ্য হল তত্ত্বাবধানে থাকা ফাইন-টিউনিং (SFT) ডেটা সংগ্রহ করুন পরবর্তী প্রশিক্ষণ রাউন্ডগুলিতে ব্যবহারের জন্য।
- প্রাথমিক কোল্ড-স্টার্ট ডেটার বিপরীতে, যা শুধুমাত্র অনুমানের উপর দৃষ্টি নিবদ্ধ করে, এই পর্যায়ের লক্ষ্য হল মডেলের ক্ষমতা প্রসারিত করুন লেখালেখি, ভূমিকা পালন এবং অন্যান্য সাধারণ উদ্দেশ্যমূলক কাজগুলি কভার করার জন্য, কেবল অনুমান নয়।
- তথ্য সংগ্রহ - অনুমান তথ্য:
- পদ্ধতি: প্রত্যাখ্যান নমুনার মাধ্যমে অনুমান-ভিত্তিক RL পর্যায় থেকে প্রাপ্ত চেকপয়েন্টগুলি ব্যবহার করে অনুমানের গতিপথ তৈরি করুন।
- ডেটা সেট সম্প্রসারণ: পূর্ববর্তী RL পর্যায়ের বিপরীতে, যেখানে শুধুমাত্র নিয়ম-ভিত্তিক পুরষ্কার ডেটা ব্যবহার করা হত, এখানে নিয়ম-ভিত্তিক নয় এমন পুরষ্কার ডেটা উপস্থাপন করা হয়েছে। কিছু ক্ষেত্রে, প্রতিক্রিয়া নির্ধারণের জন্য একটি জেনারেটিভ পুরষ্কার মডেল (DeepSeek-V3) ব্যবহার করা হয়।
- ডেটা ফিল্টারিং: গুণমান এবং পঠনযোগ্যতা নিশ্চিত করার জন্য, আউটপুটটি ফিল্টার করে অপসারণ করা হয়:
- মিশ্র ভাষা সম্বলিত চিন্তার শৃঙ্খল
- দীর্ঘ অনুচ্ছেদ
- কোড ব্লক
- নমুনা সংগ্রহ এবং নির্বাচন: প্রতিটি প্রম্পটের জন্য, একাধিক প্রতিক্রিয়া তৈরি করা হয়েছিল। ডেটাসেটের জন্য শুধুমাত্র "সঠিক" প্রতিক্রিয়াটি ধরে রাখা হয়েছিল।
- ডেটাসেটের আকার: আনুমানিক ৬০০,০০০ অনুমান-সম্পর্কিত প্রশিক্ষণের নমুনা এইভাবে সংগ্রহ করা হয়েছিল।
- তথ্য সংগ্রহ - অ-অনুমানিক তথ্য:
- কভারেজ: লেখা, তথ্যগত প্রশ্নের উত্তর (QA), আত্ম-সচেতনতা এবং অনুবাদ।
- কাগজটিতে এর ব্যবহার উল্লেখ করা হয়েছে DeepSeek-V3 এর প্রক্রিয়া এবং DeepSeek-V3 SFT ডেটাসেটের অংশ পুনঃব্যবহার এই অ-অনুমানিক কাজগুলি পরিচালনা করার জন্য। সম্পর্কে ২০০,০০০ অনুমান-স্বাধীন নমুনা সংগ্রহ করা হয়েছিল। (বিঃদ্রঃ: অ-অনুমানিক তথ্য সংগ্রহের বিশদ বিবরণ বিভাগ 2.3.4-এ আরও বর্ণনা করা হয়েছে)
- সংগৃহীত তথ্যের ব্যবহার:
- সংগৃহীত যুক্তি এবং অ-যুক্তিগত তথ্য (মোট প্রায় ৮০০,০০০ নমুনা - ৬০০,০০০ যুক্তিগত নমুনা + ২০০,০০০ অ-যুক্তিগত নমুনা) তারপর ব্যবহার করা হয়েছিল দুটি যুগের জন্য DeepSeek-V3-বেস মডেলটি সূক্ষ্ম-টিউন করুন। এই সূক্ষ্ম-সুরযুক্ত মডেলটি তখন ধারা 2.3.4-এ বর্ণিত চূড়ান্ত RL পর্যায়ে ব্যবহার করা হয়েছিল।
- সারাংশ এই ধাপটি অনুমান ক্ষমতা ব্যবহার করে RL এর মাধ্যমে একটি বৈচিত্র্যময় এবং উচ্চ-মানের SFT ডেটাসেট তৈরি করতে শেখা হয়েছে। এই ডেটাসেটটি অনুমান ক্ষমতাকে শক্তিশালী করে এবং সাধারণ ক্ষমতাগুলিকেও প্রসারিত করে চূড়ান্ত সারিবদ্ধকরণ এবং উন্নতি পর্যায়ে প্রশিক্ষণের মডেল।
- উদ্দেশ্য:
- সকল পরিস্থিতির জন্য শক্তিবৃদ্ধি শিক্ষা: মানুষের পছন্দগুলিকে আরও সামঞ্জস্যপূর্ণ করার জন্য, মডেলের সহায়কতা এবং ক্ষতিকারকতা উন্নত করার জন্য শক্তিবৃদ্ধি শিক্ষার দ্বিতীয় পর্যায় বাস্তবায়িত হয়।
- অনুমান তথ্য: যেমন গণিত, কোড, লজিক্যাল অনুমান অথবা নিয়ম-ভিত্তিক পদ্ধতির সাহায্যে তত্ত্বাবধান করা।
- সাধারণ তথ্য: জটিল এবং সূক্ষ্ম পরিস্থিতিতে পছন্দের তথ্য প্রদানের জন্য এখনও পুরষ্কার মডেল ব্যবহার করা হয়। জোড়াভিত্তিক তথ্য দিয়ে প্রশিক্ষিত মডেলগুলিও অনুমান করা হয়।
- উপযোগিতা: শুধুমাত্র চূড়ান্ত সারসংক্ষেপ ফলাফলের উপর মনোযোগ দিন, অনুমান প্রক্রিয়ায় হস্তক্ষেপ কমিয়ে আনুন।
- ক্ষতিহীনতা: যেকোনো ঝুঁকি কমাতে সম্পূর্ণ প্রতিক্রিয়া তত্ত্বাবধান করুন।
মডেল পাতন (পাতন):
- আরও দক্ষ ছোট অনুমান মডেল অর্জনের জন্য, কাগজটি DeepSeek-R1 এর অনুমান ক্ষমতাকে Qwen এবং Llama সিরিজের ওপেন সোর্স মডেলগুলিতে ডিস্টিল করে। পাতন প্রক্রিয়া শুধুমাত্র তত্ত্বাবধানে থাকা ফাইন-টিউনিং (SFT) ব্যবহার করে এবং শক্তিবৃদ্ধি শেখার পর্যায় ব্যবহার করে না।
উপসংহার
DeepSeek-R1-জিরো: এর সম্ভাবনা প্রদর্শন করে LLM অনুমান ক্ষমতাকে অনুপ্রাণিত করার জন্য বিশুদ্ধ শক্তিবৃদ্ধি শিক্ষা, এবং শক্তিশালী কর্মক্ষমতা অর্জন করতে পারে তত্ত্বাবধানে থাকা তথ্যের উপর নির্ভর না করে।


- আহা-মুহূর্ত: শক্তিবৃদ্ধি শেখার সৌন্দর্য (মডেলের জ্ঞানার্জনের মুহূর্ত, যেখানে এটি পুনর্মূল্যায়ন শেখার মাধ্যমে একটি সমস্যার জন্য আরও চিন্তাভাবনা করার সময় বরাদ্দ করে প্রাথমিক পদ্ধতি)
- আউটপুট দৈর্ঘ্য বৃদ্ধি পেতে থাকে (চিন্তা করার সময় বৃদ্ধি পেতে থাকে)
- নির্ভুলতা উন্নত হচ্ছে (নির্ভুলতা গণনা করার জন্য ১৬টি প্রতিক্রিয়ার নমুনা সংগ্রহ করা হচ্ছে)

- DeepSeek-R1: কোল্ড-স্টার্ট ডেটা এবং পুনরাবৃত্ত শক্তিবৃদ্ধি শেখার সূক্ষ্ম-টিউনিং একত্রিত করে মডেলের কর্মক্ষমতা আরও উন্নত করে, বিভিন্ন কাজে OpenAI-01-1217 এর সাথে তুলনীয় স্তর অর্জন করা.

- জ্ঞান পাতন: DeepSeek-R1 কে শিক্ষক মডেল হিসেবে ব্যবহার করে, 800K প্রশিক্ষণ নমুনা তৈরি করা হয়েছিল এবং বেশ কয়েকটি ছোট, ঘন মডেলকে সূক্ষ্মভাবে সুরক্ষিত করা হয়েছিল। ফলাফলগুলি দেখায় যে এই পাতন পদ্ধতি উল্লেখযোগ্যভাবে অনুমান ক্ষমতা উন্নত করতে পারে ছোট মডেল।
সীমাবদ্ধতা
- সীমাবদ্ধতা ১: DeepSeek-R1 এর সাধারণ ক্ষমতা উন্নত করা প্রয়োজন। ফাংশন কল, মাল্টি-টার্ন ডায়ালগ, জটিল রোল-প্লেয়িং এবং JSON আউটপুটের মতো কাজে DeepSeek-R1 এখনও DeepSeek-V3 এর চেয়ে নিকৃষ্ট।
- সীমাবদ্ধতা ২: ভাষা মিশ্রণের সমস্যা। DeepSeek-R1 অ-চীনা এবং অ-ইংরেজি প্রশ্নগুলি প্রক্রিয়া করার সময়, উদাহরণস্বরূপ, যুক্তি এবং ইংরেজিতে উত্তর দেওয়ার সময় ভাষা মিশ্রণের সমস্যার সম্মুখীন হতে পারে।
- সীমাবদ্ধতা ৩: দ্রুত সংবেদনশীলতা। DeepSeek-R1 প্রম্পট শব্দের প্রতি সংবেদনশীল, এবং অল্প কিছু শব্দ প্রম্পট করলে এর কর্মক্ষমতা কমে যাবে।
- সীমাবদ্ধতা ৪: সফটওয়্যার ইঞ্জিনিয়ারিং কাজে সীমিত প্রয়োগ। দীর্ঘ মূল্যায়ন সময়ের কারণে, সফ্টওয়্যার ইঞ্জিনিয়ারিং কাজে বৃহৎ-স্কেল রিইনফোর্সমেন্ট লার্নিং সম্পূর্ণরূপে প্রয়োগ করা হয়নি, এবং সফ্টওয়্যার ইঞ্জিনিয়ারিং বেঞ্চমার্কে DeepSeek-R1 এর DeepSeek-V3 এর তুলনায় সীমিত উন্নতি হয়েছে।