DeepSeek R1 পেপারের ব্যাখ্যা এবং মূল প্রযুক্তিগত বিষয়গুলি

সূচিপত্র

১ পটভূমি

বসন্ত উৎসবের সময়, DeepSeek R1 আবারও ব্যাপক মনোযোগ আকর্ষণ করেছে, এমনকি আমরা পূর্বে যে DeepSeek V3 ব্যাখ্যামূলক প্রবন্ধটি লিখেছিলাম তাও পুনঃপ্রচারিত হয়েছে এবং প্রচুর আলোচনা করা হয়েছে।

যদিও DeepSeek R1 এর অনেক বিশ্লেষণ এবং পুনরুৎপাদন করা হয়েছে, এখানে আমরা কিছু সংশ্লিষ্ট পঠন নোট সংকলন করার সিদ্ধান্ত নিয়েছি।

আমরা মডেল নির্মাণ এবং মূল প্রযুক্তিগত বিষয়গুলি প্রদর্শনের জন্য তিনটি মূল পরিকল্পিত চিত্র ব্যবহার করব, DeepSeek-R1 সিরিজের সারমর্মকে আরও স্পষ্ট করে তুলে ধরব যাতে এর নকশা ধারণাগুলি সম্পর্কে আরও স্বজ্ঞাত ধারণা প্রদান করা যায়।

সংশ্লিষ্ট কাগজটি হল [2501.12948] DeepSeek-R1: রিইনফোর্সমেন্ট লার্নিংয়ের মাধ্যমে এলএলএম-তে যুক্তির ক্ষমতাকে উৎসাহিত করা

এবং সংশ্লিষ্ট ওপেন সোর্স মডেল হল DeepSeek-R1

২ ভূমিকা

২.১ সাধারণ যুক্তি অ্যালগরিদম

নীচের চিত্র ২-এ দেখানো হয়েছে, লেখক চারটি সাধারণ যুক্তি অ্যালগরিদম ব্যাখ্যা করেছেন। যদিও তারা নির্দিষ্ট বিবরণে ভিন্ন, তবুও তাদের সকলের মধ্যে দুটি মূল ক্রিয়াকলাপ অন্তর্ভুক্ত রয়েছে:

সম্প্রসারণ: সমাধানের পথ প্রসারিত করতে টোকেন তৈরি করুন।
সমষ্টিকরণ: চূড়ান্ত উত্তর পেতে প্রতিটি পথের ফলাফল একত্রিত করুন। সম্প্রসারণ পর্যায়ে গণনামূলক সম্পদ বৃদ্ধি করলে সাধারণত সমষ্টি পর্যায়ে উত্তরের মান উন্নত হতে পারে।

স্ব-সঙ্গতি (SC)। চিত্র 2a-তে দেখানো হয়েছে, SC-এর মূল ধারণা হল একাধিক ভিন্ন আউটপুট তৈরি করা (যা নমুনা প্যারামিটার ইত্যাদি পরিবর্তন করে অর্জন করা যেতে পারে), এবং তারপর সর্বোচ্চ জয়ের হার সহ উত্তর নির্বাচন করার জন্য সমস্ত উত্তরের জন্য ভোট দেওয়া। মূল প্যারামিটার হল প্রার্থীর উত্তরের সংখ্যা n।

রিবেস অ্যালগরিদম: নীচের চিত্র 2b-তে দেখানো হয়েছে, রিবেস একাধিক আউটপুটও তৈরি করে, তবে সেগুলি একাধিক ধাপে তৈরি করা হয়। প্রতিটি ধাপে রিওয়ার্ড মডেল ব্যবহার করে স্কোর করা হয় এবং সর্বোচ্চ স্কোর প্রাপ্ত ফলাফলটি জেনারেট করা চালিয়ে যাওয়ার জন্য ব্যবহার করা হয়। অবশেষে, একাধিক শাখা সহ একটি যুক্তি বৃক্ষ তৈরি করা হয়। সর্বোচ্চ স্কোর (বেস্ট-অফ-এন) সহ উত্তরটি একত্রিতকরণ পর্যায়ে নির্বাচিত হয়।

মন্টে কার্লো ট্রি সার্চ (MCTS): নীচের চিত্র 2c তে দেখানো হয়েছে, MCTS হল একটি শক্তিশালী রিজনিং অ্যালগরিদম যা ধীরে ধীরে নমুনা সংগ্রহের মাধ্যমে নোডগুলিকে প্রসারিত করে এবং একটি সমাধান ট্রি তৈরি করে যতক্ষণ না এটি একটি প্রার্থী সমাধান ধারণকারী পাতার নোডে পৌঁছায়। প্রতিটি সমাধান একটি রিওয়ার্ড মডেল বা সিমুলেশনের মাধ্যমে স্কোর করা হয়, এবং স্কোরটি তার পূর্বপুরুষ নোডগুলিতে তাদের পুরষ্কারের মান আপডেট করার জন্য প্রচার করা হয়, এইভাবে একটি পুনরাবৃত্তি সম্পন্ন করে। মূল প্যারামিটারটিও n, এবং n বৃদ্ধি সম্ভাব্য সমাধানগুলির আরও গভীর এবং বিস্তৃত অনুসন্ধানের অনুমতি দেয়।

অভ্যন্তরীণ জ্ঞানীয় শৃঙ্খল (ICoT)। নীচের চিত্র 2d-তে দেখানো হয়েছে, OpenAI o1 এবং Qwen-QWQ-এর মতো সর্বশেষ LLMগুলি প্রশিক্ষণের সময় যুক্তি আচরণকে অভ্যন্তরীণ করতে পারে কোনও স্পষ্ট যুক্তি অ্যালগরিদমের প্রয়োজন ছাড়াই। মূল ধারণা হল একটি CoT ক্রম তৈরি করা, জটিল সমস্যাগুলিকে একাধিক উপ-সমস্যায়ে বিভক্ত করা এবং তারপরে পূর্ববর্তী ফলাফলগুলি প্রতিফলিত করে এই উত্তরগুলিকে পুনরাবৃত্তিমূলকভাবে অপ্টিমাইজ করা যাতে অবশেষে একটি সমাধানে পৌঁছানো যায়।

২.২ যুক্তিগত সারিবদ্ধকরণ পদ্ধতি

২.২.১ সেরা-অফ-এন পদ্ধতির ওভারভিউ

সংক্ষেপে, বেস্ট-অফ-এন হল এলএলএম ইনফারেন্সে বহুল ব্যবহৃত একটি অ্যালাইনমেন্ট পদ্ধতি, যার লক্ষ্য একাধিক প্রার্থীর প্রতিক্রিয়া তৈরি করে এবং সেরাটি নির্বাচন করে উৎপন্ন ফলাফলের উচ্চ গুণমান নিশ্চিত করা। এটি তিনটি প্রধান প্রক্রিয়া নিয়ে গঠিত:

জেনারেশন প্রক্রিয়া: একটি প্রদত্ত প্রম্পট X এর জন্য, সেরা-অফ-N পদ্ধতিটি N IID প্রতিক্রিয়া তৈরি করে (Y₁, Y₂, …, Yₙ), যেখানে N কে প্রায়শই "ব্যাচের আকার" হিসাবে উল্লেখ করা হয়।
স্কোরিং প্রক্রিয়া: প্রতিটি উৎপন্ন প্রতিক্রিয়া একটি পুরষ্কার মডেল দ্বারা স্কোর করা হয় যাতে সংশ্লিষ্ট স্কোর {s(Y₁), s(Y₂), …, s(Yₙ)} পাওয়া যায়।
সেরা প্রতিক্রিয়া নির্বাচন করা: অবশেষে, সমস্ত উৎপন্ন প্রতিক্রিয়ার মধ্যে সর্বোচ্চ স্কোর প্রাপ্ত প্রতিক্রিয়াটি আউটপুট হিসাবে নির্বাচিত হয়, অর্থাৎ, Y_Best-of-N = argmax {s(Y₁), s(Y₂), …, s(Yₙ)}।

এই পদ্ধতির সুবিধাগুলি হল:

এটি কার্যকরভাবে জটিল সূক্ষ্ম-সুরকরণের ধাপগুলি এড়াতে পারে, যার ফলে পূর্ব-প্রশিক্ষিত বা নির্দেশাবলীর সাহায্যে সূক্ষ্ম-সুরক্ষিত ভাষা মডেলগুলি স্থাপন করা সহজ হয়।
এটি বাস্তবায়ন করা সহজ, বোধগম্য এবং মূলত হাইপারপ্যারামিটার মুক্ত: প্রধান হাইপারপ্যারামিটার হল N, যা অনুমানের সময় গতিশীলভাবে সামঞ্জস্য করা যেতে পারে।
এটি উৎপাদন মানের দিক থেকে অত্যন্ত প্রতিযোগিতামূলক এবং এমনকি RLHF বা DPO-এর মতো কিছু জটিল প্রশিক্ষণ-পরবর্তী কৌশলের সাথে প্রতিযোগিতা করতে পারে। গবেষণায় দেখা গেছে যে বেস্ট-অফ-এন পদ্ধতিটি পুরষ্কার এবং KL ডাইভারজেন্সের মধ্যে ট্রেড-অফ কার্ভে ভালোভাবে কাজ করে, এমনকি অন্যান্য জটিল অ্যালাইনমেন্ট কৌশলকেও ছাড়িয়ে যায়।

এই পদ্ধতির অসুবিধাগুলি হল

অনুমানের জন্য N ক্রম তৈরি করতে হবে, যা উল্লেখযোগ্য গণনামূলক ওভারহেডের দিকে পরিচালিত করতে পারে। বাস্তবে, N এর জন্য একটি যুক্তিসঙ্গত মান 4 থেকে 128 পর্যন্ত, তবে সবচেয়ে উন্নত প্রশিক্ষণ-পরবর্তী পদ্ধতিগুলির সাথে প্রতিযোগিতা করার জন্য, উচ্চতর N মান প্রয়োজন হতে পারে, যেমন 1000 থেকে 60000, যা প্রায় অগ্রহণযোগ্য গণনামূলক ওভারহেডের দিকে পরিচালিত করতে পারে।

পরবর্তী তত্ত্বাবধানে থাকা সূক্ষ্ম-টিউনিংয়ের জন্য উচ্চ-মানের ডেটাসেট তৈরি করতে প্রায়শই সেরা-অফ-এন পদ্ধতি ব্যবহার করা হয় এবং LLaMA-2 এবং LLaMA-3 এর সারিবদ্ধকরণ প্রক্রিয়ায় গুরুত্বপূর্ণ ভূমিকা পালন করে।

২.২.২ ওপেনএআই-এর সেরা-অফ-এন পদ্ধতি

ওপেনএআই প্রথম প্রস্তাব করেছিল বেস্ট-অফ-এন স্যাম্পলিং-এর ক্ষেত্রে [2009.01325] মানুষের প্রতিক্রিয়া থেকে সারসংক্ষেপ শেখা । বিশেষ করে, এটি একাধিক মডেল থেকে উৎপন্ন সেরা সারাংশ নির্বাচন করে সারাংশ মডেলের কর্মক্ষমতা মূল্যায়ন এবং অপ্টিমাইজ করার জন্য ব্যবহৃত হয়। এই পদ্ধতিটি গবেষকদের বিভিন্ন মূল্যায়ন মেট্রিক্স এবং মানব মূল্যায়নকারীর পছন্দের মধ্যে সম্পর্ক আরও ভালভাবে বুঝতে সাহায্য করে এবং মডেল প্রশিক্ষণ এবং অপ্টিমাইজেশন পরিচালনা করতে ব্যবহৃত হয়।

ওপেনএআই ফলো-আপে বেস্ট-অফ-এন স্যাম্পলিং (প্রত্যাখ্যান নমুনা) ব্যবহার করে। [2112.09332] WebGPT: মানুষের প্রতিক্রিয়া সহ ব্রাউজার-সহায়তায় প্রশ্নোত্তর। বিশেষ করে, BC মডেল বা RL মডেল থেকে নির্দিষ্ট সংখ্যক উত্তর (৪, ১৬ অথবা ৬৪) নমুনা সংগ্রহ করা হয় এবং সর্বোচ্চ পুরষ্কার মডেল স্কোর সম্পন্ন উত্তরটিকে প্রতিপক্ষ পুরষ্কার মডেলের জন্য একটি অপ্টিমাইজেশন পদ্ধতি হিসেবে নির্বাচন করা হয়। এই পদ্ধতিতে অতিরিক্ত প্রশিক্ষণের প্রয়োজন হয় না, তবে অনুমান পর্যায়ের গণনামূলক জটিলতা অর্জনের জন্য এটি বৃদ্ধি করে।

২.২.৩ গুগল বন্ড পদ্ধতি

ইন [2407.14622] বন্ড: বেস্ট-অফ-এন ডিস্টিলেশনের সাথে এলএলএম-গুলিকে সারিবদ্ধ করে, গুগলের লেখকরা বেস্ট-অফ-এন ডিস্টিলেশন (বন্ড) প্রস্তাব করেছেন, একটি নতুন RLHF অ্যালগরিদম যা ইনফারেন্সের সময় কম্পিউটেশনাল ওভারহেড উল্লেখযোগ্যভাবে বৃদ্ধি না করে একটি ডিস্ট্রিবিউশন ম্যাচিং অ্যালগরিদমের মাধ্যমে সেরা-অফ-N নমুনা কৌশল অনুকরণ করার জন্য ডিজাইন করা হয়েছে।

বিশেষ করে, লেখক প্রথমে সেরা-অফ-এন নমুনার সঠিক বিশ্লেষণাত্মক বন্টন বের করেন এবং সেরা-অফ-এন নমুনার সম্ভাব্যতা ফাংশনটি দেন:

দ্বিতীয়ত, লেখকরা সমস্যাটিকে একটি বিতরণ ম্যাচিং সমস্যা হিসেবে প্রকাশ করেছেন;

পরবর্তীতে, লেখকরা জেফ্রির ডাইভারজেন্সকে বিতরণ ম্যাচিং উদ্দেশ্য হিসেবে ব্যবহার করার প্রস্তাব করেন:

পরিশেষে, N নির্বাচনের সমস্যা সমাধানের জন্য, লেখকরা পুনরাবৃত্ত BOND পদ্ধতি প্রস্তাব করেছেন, যা পুনরাবৃত্তভাবে Best-of-N বিতরণকে পাতন করে কৌশলটির কর্মক্ষমতা উন্নত করে। নির্দিষ্ট পদক্ষেপগুলির মধ্যে রয়েছে:

সহায়ক অ্যাঙ্কর কৌশল π(অ্যাঙ্কর) আরম্ভ করুন।

Best-of-N π(anchor) ডিস্টিল করার জন্য পুনরাবৃত্তভাবে BOND এক্সিকিউট করুন এবং প্রতিটি ধাপের পরে π(anchor) আপডেট করুন।

২.৩ প্রক্রিয়া তত্ত্বাবধান এবং ফলাফল তত্ত্বাবধান

ফলাফল এবং প্রক্রিয়া পুরষ্কার মডেল মূল্যায়নের দুটি দিককে নির্দেশ করে:

ফলাফল পুরষ্কার মডেল: মডেল আউটপুটের চূড়ান্ত ফলাফল সঠিক নাকি প্রত্যাশা অনুযায়ী তা মূল্যায়ন করুন।
প্রক্রিয়া পুরষ্কার মডেল: ফলাফল তৈরির প্রক্রিয়ায় মডেলের যুক্তি এবং সিদ্ধান্ত গ্রহণের পদক্ষেপগুলি যুক্তিসঙ্গত এবং কার্যকর কিনা তা মূল্যায়ন করে।

উদাহরণস্বরূপ, OpenAI-এর Let's Verify Step by Step | OpenAI-তে আরও উল্লেখ করা হয়েছে:

প্রক্রিয়া তত্ত্বাবধান (ফলাফল-তত্ত্বাবধান): মডেলের যুক্তি প্রক্রিয়ার প্রতিটি ধাপে প্রতিক্রিয়া প্রদান করা জড়িত। প্রক্রিয়া-তত্ত্বাবধানে পুরষ্কার মডেল (PRM) সমাধানের প্রতিটি ধাপের সঠিকতা পূর্বাভাস দেওয়ার জন্য প্রশিক্ষিত।
ফলাফল-তত্ত্বাবধান: ফলাফল-তত্ত্বাবধান শুধুমাত্র মডেলের যুক্তির চূড়ান্ত ফলাফলের উপর ভিত্তি করে প্রতিক্রিয়া প্রদান করে। ফলাফল-তত্ত্বাবধানে থাকা পুরষ্কার মডেলগুলি (ORM) সমাধানের চূড়ান্ত উত্তর ব্যবহার করে প্রশিক্ষিত করা হয় এবং স্বয়ংক্রিয় চেকিংয়ের মাধ্যমে সঠিকতা নির্ধারণ করা হয়।

২.৪ রিওয়ার্ড হ্যাকিং

আরএল-এ, রিওয়ার্ড হ্যাকিং বলতে এমন একটি ঘটনাকে বোঝায় যেখানে একজন এজেন্ট রিওয়ার্ড ফাংশনের ডিজাইনের ত্রুটিকে কাজে লাগিয়ে ক্রমবর্ধমান পুরষ্কারকে এমনভাবে সর্বাধিক করে তোলে যা ডিজাইনারের মূল উদ্দেশ্য পূরণ করে না। যদিও এই আচরণটি প্রযুক্তিগতভাবে রিওয়ার্ড ফাংশনের অপ্টিমাইজেশন লক্ষ্য পূরণ করে, প্রকৃত প্রভাব প্রত্যাশিত টাস্ক লক্ষ্য থেকে বিচ্যুত হয় এবং এমনকি নেতিবাচক পরিণতিও হতে পারে।

মূল বিষয় বিশ্লেষণ:

সংজ্ঞা এবং প্রকাশ:
1. এজেন্ট রিওয়ার্ড ফাংশনে একটি ত্রুটি খুঁজে পায় এবং সমস্যাটি সমাধান করার পরিবর্তে "শর্টকাট" গ্রহণ করে একটি উচ্চ পুরষ্কার পায়।
2. উদাহরণস্বরূপ, একটি পরিষ্কারক রোবট ঘরটি পরিষ্কার করার পরিবর্তে "পরিষ্কার" দেখানোর জন্য আলো নিভিয়ে দেয়; একজন গেম এজেন্ট লেভেল লক্ষ্য পূরণ না করেই বারবার পয়েন্ট স্কোর করে; ব্রেকিংয়ের সময় কমাতে গতি কমাতে না চাওয়া, যা নিরাপত্তার জন্য ঝুঁকি তৈরি করে; উচ্চ স্কোর ফাঁকি দেওয়ার জন্য অর্থহীন সামগ্রী তৈরি করে যা কীওয়ার্ডের সাথে মেলে।
মূল কারণ:
1. অসম্পূর্ণ পুরষ্কার ফাংশন ডিজাইন: অতি সরলীকরণ বা প্রান্তিক কেসগুলি কভার করতে ব্যর্থতা।
2. লক্ষ্য এবং পুরষ্কারের মধ্যে ভুল সমন্বয়: পুরষ্কার ফাংশনটি প্রকৃত লক্ষ্যকে সম্পূর্ণরূপে প্রতিফলিত করতে ব্যর্থ হয়, যার ফলে এজেন্ট "ভুল" লক্ষ্যের জন্য অপ্টিমাইজ করে।
সমাধান:
1. পুরষ্কার নকশা উন্নত করুন: বহুমাত্রিক পুরষ্কার (যেমন নিরাপত্তা, দক্ষতা, ইত্যাদি) প্রবর্তন করুন অথবা পুরষ্কার ফাংশনটি গতিশীলভাবে সামঞ্জস্য করুন।
2. প্রতিপক্ষ যাচাইকরণ: অতিরিক্ত ব্যবস্থার মাধ্যমে এজেন্ট "প্রতারণা" করছে কিনা তা সনাক্ত করুন।
3. ম্যানুয়াল হস্তক্ষেপ এবং সীমাবদ্ধতা: আচরণগত সীমানা নির্ধারণ করুন (যেমন নিরাপত্তা স্তর) অথবা ম্যানুয়াল প্রতিক্রিয়া (যেমন RLHF)।
4. ইনভার্স রিইনফোর্সমেন্ট লার্নিং (IRL): বিশেষজ্ঞদের প্রদর্শন থেকে আরও বাস্তবসম্মত পুরষ্কার ফাংশন শিখুন।
5. শ্রেণিবদ্ধ শক্তিবৃদ্ধি শিক্ষণ: স্থানীয় অপ্টিমাইজেশনের ঝুঁকি কমাতে কাজটিকে উপ-লক্ষ্যে বিভক্ত করুন।
অতিরিক্ত ফিটিং এর সাথে সম্পর্ক:
1. উভয় ক্ষেত্রেই প্রশিক্ষণ মেট্রিক্স এবং বাস্তব-বিশ্বের কর্মক্ষমতার মধ্যে বিচ্ছিন্নতা দেখা যায়, তবে রিওয়ার্ড হ্যাকিং মডেলের সাধারণীকরণ ক্ষমতার চেয়ে রিওয়ার্ড ফাংশনের নকশা ত্রুটিগুলির উপর বেশি জোর দেয়।
সারাংশ:
1. রিওয়ার্ড হ্যাকিং RL-তে লক্ষ্য সারিবদ্ধকরণের চ্যালেঞ্জ প্রকাশ করে। এই সমস্যা সমাধানের জন্য আরও শক্তিশালী পুরষ্কার প্রক্রিয়া ডিজাইন করা, বাহ্যিক সীমাবদ্ধতা প্রবর্তন করা এবং এজেন্টের আচরণ দক্ষ এবং নকশার উদ্দেশ্যের সাথে সঙ্গতিপূর্ণ কিনা তা নিশ্চিত করার জন্য মানুষের পূর্ব জ্ঞান অন্তর্ভুক্ত করার সমন্বয় প্রয়োজন।

৩টি ১টিপি৮টি-আর১-জিরো এবং ১টিপি৮টি-আর১

৩.১ ওভারভিউ

পূর্ববর্তী গবেষণাগুলি মডেলের কর্মক্ষমতা উন্নত করার জন্য মূলত প্রচুর পরিমাণে তত্ত্বাবধানে থাকা ডেটার উপর নির্ভর করেছে। এই গবেষণায় দেখা গেছে যে কোল্ড স্টার্ট হিসেবে SFT না থাকলেও, বৃহৎ-স্কেল RL মডেলের যুক্তি ক্ষমতা উল্লেখযোগ্যভাবে বৃদ্ধি করতে পারে। এছাড়াও, অল্প পরিমাণে কোল্ড স্টার্ট ডেটা প্রবর্তন কর্মক্ষমতা আরও উন্নত করতে পারে। DeepSeek-R1 এর সাথে সম্পর্কিত মডেলগুলি নিম্নরূপ:

DeepSeek-R1-Zero: এই মডেলটি কোনও SFT ডেটা ছাড়াই সরাসরি বেস মডেলে RL প্রয়োগ করে।
DeepSeek-R1: এই মডেলটি RL প্রয়োগ করে একটি চেকপয়েন্ট থেকে শুরু করে যা হাজার হাজার দীর্ঘ CoT নমুনা দিয়ে সূক্ষ্মভাবে সুরক্ষিত করা হয়েছে।
DeepSeek-R1-Distill-xx: DeepSeek-R1 এর রিজনিং ক্ষমতাকে একটি ছোট Dense মডেলে ডিস্টিল করে।

৩.২ ১TP8T-R1-জিরো

নিম্নলিখিত চিত্রটি DeepSeek-R1-Zero মডেলের প্রশিক্ষণের মূল বিষয়গুলি দেখায়:

দ্রষ্টব্য: এটি লক্ষ করা উচিত যে এই গবেষণাপত্রটি DeepSeek-R1-Zero-এর RL প্রক্রিয়ায় ব্যবহৃত ডেটা সম্পর্কে খুব বেশি তথ্য প্রদান করে না। তবে, পরবর্তী R1 প্রশিক্ষণে ডেটা তৈরির প্রক্রিয়া এবং পরিমাণ সম্পর্কে কিছু ব্যাখ্যা রয়েছে, যদিও এটি বিশেষভাবে নির্দিষ্ট নয়।

৩.২.১ আরএল অ্যালগরিদম

RL-এর প্রশিক্ষণ খরচ কমাতে, লেখকরা DeepSeek-এর নিজস্ব GRPO (গ্রুপ রিলেটিভ পলিসি অপ্টিমাইজেশন) পদ্ধতি ব্যবহার করেছেন, [2402.03300] DeepSeekMath: মুক্ত ভাষা মডেলে গাণিতিক যুক্তির সীমা পুশ করা। এই পদ্ধতিটি সমালোচনামূলক মডেলকে পরিত্যাগ করে, যা সাধারণত পলিসি মডেলের আকারে তুলনীয়, এবং পরিবর্তে একটি গ্রুপ স্কোর ব্যবহার করে বেসলাইন অনুমান করে। সংশ্লিষ্ট ব্যাখ্যাটি নীচের চিত্রে দেখানো হয়েছে (টুইটার থেকে ছবি):

৩.২.২ পুরষ্কার মডেলিং

পুরষ্কার হল প্রশিক্ষণ সংকেতের উৎস এবং RL-এর অপ্টিমাইজেশন দিক নির্ধারণ করে। DeepSeek-R1-Zero-কে প্রশিক্ষণ দেওয়ার জন্য, লেখকরা একটি নিয়ম-ভিত্তিক পুরষ্কার ব্যবস্থা ব্যবহার করেছেন, যা মূলত দুই ধরণের পুরষ্কার নিয়ে গঠিত:

নির্ভুলতার পুরষ্কার: উত্তরটি সঠিক কিনা তা মূল্যায়ন করুন। উদাহরণস্বরূপ:
- নির্ণায়ক ফলাফল সহ গাণিতিক সমস্যাগুলির ক্ষেত্রে, মডেলটিকে একটি নির্দিষ্ট বিন্যাসে (যেমন একটি বাক্সের ভিতরে) চূড়ান্ত উত্তর প্রদান করতে হবে যাতে নিয়ম দ্বারা এর সঠিকতা নির্ভরযোগ্যভাবে যাচাই করা যায়।
- একইভাবে, LeetCode সমস্যার জন্য, পূর্বনির্ধারিত পরীক্ষার ক্ষেত্রের উপর ভিত্তি করে একটি কম্পাইলার ব্যবহার করে প্রতিক্রিয়া তৈরি করা যেতে পারে।
ফর্ম্যাট পুরষ্কার: মডেলটিকে তার চিন্তাভাবনা প্রক্রিয়াটিকে "" এর মধ্যে স্থাপন করতে বাধ্য করার জন্য একটি ফর্ম্যাট পুরষ্কারও ব্যবহৃত হয়। "এবং" "ট্যাগ।

DeepSeek-R1-Zero তৈরির সময়, লেখক আউটকাম নিউরাল রিওয়ার্ড মডেল বা প্রসেস নিউরাল রিওয়ার্ড মডেল ব্যবহার করেননি কারণ লেখক দেখেছেন যে বৃহৎ আকারের RL প্রক্রিয়াগুলিতে নিউরাল রিওয়ার্ড মডেল রিওয়ার্ড স্পুফিং (রিওয়ার্ড হ্যাকিং) এর সম্মুখীন হতে পারে; উপরন্তু, রিওয়ার্ড মডেলকে পুনরায় প্রশিক্ষণ দেওয়ার জন্য কেবল অতিরিক্ত প্রশিক্ষণ সংস্থান প্রয়োজন হয় না, বরং পুরো প্রশিক্ষণ প্রক্রিয়াটিকে জটিল করে তোলে।

৩.২.৩ প্রশিক্ষণ টেমপ্লেট

DeepSeek-R1-Zero প্রশিক্ষণের জন্য, লেখকরা প্রথমে একটি সহজ টেমপ্লেট ডিজাইন করেছিলেন যাতে বেস মডেলটি সেট নির্দেশাবলী অনুসরণ করতে পারে। নীচের সারণি 1-এ দেখানো হয়েছে, টেমপ্লেটটির জন্য একটি অনুমান প্রক্রিয়া তৈরি করতে এবং তারপর চূড়ান্ত উত্তর দিতে DeepSeek-R1-Zero প্রয়োজন।

লেখক ইচ্ছাকৃতভাবে এই কাঠামোগত কাঠামোর সীমাবদ্ধতাগুলি সীমাবদ্ধ করেছেন যাতে কোনও বিষয়বস্তুর পক্ষপাত প্রবর্তন না করা যায় - উদাহরণস্বরূপ, প্রতিফলিত যুক্তি জোর করে প্রয়োগ করা বা নির্দিষ্ট সমস্যা সমাধানের কৌশল প্রচার করা - যাতে RL প্রক্রিয়া চলাকালীন মডেলের প্রাকৃতিক বিবর্তন সঠিকভাবে পর্যবেক্ষণ করা যায়।

৩.২.৪ উপসংহার

SFT ডেটা ছাড়াই শক্তিশালী যুক্তি ক্ষমতা: বেস মডেল থেকে সরাসরি RL শুরু করে, SFT হস্তক্ষেপ ছাড়াই মডেলের বিবর্তন গতিপথ নিবিড়ভাবে পর্যবেক্ষণ করা যেতে পারে। নীচের চিত্র 3-এ দেখানো হয়েছে, প্রশিক্ষণ প্রক্রিয়া জুড়ে DeepSeek-R1-Zero-এর চিন্তাভাবনার সময় উন্নত হতে থাকে (বৃদ্ধির দৈর্ঘ্য ধীরে ধীরে দীর্ঘতর হতে থাকে)। এই উন্নতি বাহ্যিক সমন্বয় থেকে আসেনি, বরং এটি মডেলের অভ্যন্তরীণ বিকাশের একটি স্বাভাবিক ফলাফল। DeepSeek-R1-Zero স্বাভাবিকভাবেই বর্ধিত পরীক্ষার সময় গণনা ব্যবহার করে প্রতিফলনের ক্ষমতার মতো ক্রমবর্ধমান জটিল অনুমানমূলক কাজগুলি সমাধান করার ক্ষমতা অর্জন করেছে।

প্রশিক্ষণের সময় DeepSeek-R1-Zero একটি "আহা মুহূর্ত" অনুভব করেছিল। নীচের সারণি 3-তে দেখানো হয়েছে, এই মুহূর্তটি মডেলের মধ্যবর্তী সংস্করণ পর্যায়ে ঘটেছে। এই পর্যায়ে, DeepSeek-R1-Zero তার প্রাথমিক পদ্ধতির পুনর্মূল্যায়ন করে সমস্যাগুলির জন্য আরও চিন্তাভাবনা করার সময় বরাদ্দ করতে শিখেছে।

সংখ্যাগরিষ্ঠ ভোটদান: সংখ্যাগরিষ্ঠ ভোটদান প্রয়োগ করে DeepSeek-R1-Zero এর কর্মক্ষমতা আরও উন্নত করা যেতে পারে। উদাহরণস্বরূপ, নীচের সারণি 2-তে দেখানো হয়েছে, AIME বেঞ্চমার্ক পরীক্ষায় সংখ্যাগরিষ্ঠ ভোটদান ব্যবহারের পরে, এর কর্মক্ষমতা 71.0% থেকে 86.7%-এ উন্নীত হয়, যা OpenAI-o1-0912 কে ছাড়িয়ে যায়।

দুর্বলতা: যদিও DeepSeek-R1-Zero শক্তিশালী যুক্তিবিদ্যা ক্ষমতা প্রদর্শন করে এবং স্বায়ত্তশাসিতভাবে অপ্রত্যাশিত এবং শক্তিশালী যুক্তিবিদ্যা আচরণ বিকাশ করে, তবুও এটি দুর্বল পাঠযোগ্যতা এবং ভাষা মিশ্রণের মতো চ্যালেঞ্জের মুখোমুখি হয়।

৩.৩ ১টিপি৮টি-আর১

যুক্তি প্রক্রিয়াটিকে আরও পাঠযোগ্য করে তুলতে এবং উন্মুক্ত সম্প্রদায়ের সাথে ভাগ করে নেওয়ার জন্য, লেখকরা DeepSeek-R1 পদ্ধতিটি আরও অন্বেষণ করেছেন, যা RL-এর জন্য মানব-বান্ধব কোল্ড-স্টার্ট ডেটা ব্যবহার করে। DeepSeek-R1-Zero দ্বারা অনুপ্রাণিত হয়ে, দুটি স্বাভাবিক প্রশ্ন অনুসরণ করা হয়েছে:

কোল্ড স্টার্ট হিসেবে অল্প পরিমাণে উচ্চমানের ডেটা প্রবর্তন করে কি রিজনিং কর্মক্ষমতা আরও উন্নত করা যেতে পারে অথবা কনভারজেন্স প্রক্রিয়াকে ত্বরান্বিত করা যেতে পারে?
আমরা কীভাবে এমন একটি ব্যবহারকারী-বান্ধব মডেল তৈরি করতে পারি যা কেবল স্পষ্ট এবং সুসংগত CoT তৈরি করে না, বরং শক্তিশালী সাধারণীকরণ ক্ষমতাও প্রদর্শন করে?

এই প্রশ্নগুলির উত্তরে, আমরা DeepSeek-R1 এর জন্য একটি প্রশিক্ষণ প্রক্রিয়া তৈরি করেছি। প্রক্রিয়াটি একাধিক ধাপ নিয়ে গঠিত, যা নীচে বর্ণিত হয়েছে:

নিচের চিত্রে দেখানো ধাপ-১, SFT + RL এর মাধ্যমে DeepSeek-R1 এর মধ্যবর্তী অবস্থাকে প্রশিক্ষণ দেয়:

নিচের চিত্রটি পর্যায়-২, ৩ এবং ৪ দেখায়:

ধাপ-২: উপরে বাম দিকে, ২০০,০০০ নন-রিজনিং ডেটা এবং ৬০০,০০০ রিজনিং ডেটা তৈরি করুন।
পর্যায়-৩: উপরের ডানদিকে, SFT + RL ট্রেন DeepSeek-R1।
পর্যায়-৪: নিম্ন চিত্র, ডিস্টিল DeepSeek-R1-ডিস্টিল-xx।

৩.৩.১ কোল্ড স্টার্ট (পর্যায়-১)

DeepSeek-R1-Zero এর বিপরীতে, RL প্রশিক্ষণের শুরুতে বেস মডেলের অস্থির কোল্ড স্টার্ট ফেজ প্রতিরোধ করার জন্য, লেখকরা DeepSeek-R1 এর জন্য অল্প পরিমাণে Long CoT ডেটা তৈরি এবং সংগ্রহ করেছেন যাতে প্রাথমিক RL Actor হিসাবে মডেলটিকে সূক্ষ্মভাবে সুরক্ষিত করা যায়। এই ডেটা সংগ্রহ করার জন্য, লেখকরা বিভিন্ন পদ্ধতি অন্বেষণ করেছেন:

লং CoT উদাহরণ সহ কয়েক-শট প্রম্পট ব্যবহার করা
প্রতিফলন এবং যাচাইকরণের মাধ্যমে বিস্তারিত উত্তর তৈরি করতে মডেলটিকে সরাসরি উৎসাহিত করা
মানুষের পঠনযোগ্য বিন্যাসে DeepSeek-R1-জিরো আউটপুট সংগ্রহ করা হচ্ছে
ম্যানুয়াল লেবেলিং সহ পোস্ট-প্রসেসিংয়ের মাধ্যমে ফলাফলগুলি পরিমার্জন করা

লেখকরা মোট হাজার হাজার কোল্ড স্টার্ট ডেটা সংগ্রহ করেছেন, যা RL-এর সূচনা বিন্দু হিসেবে DeepSeek-V3-বেসকে সূক্ষ্ম-টিউন করার জন্য ব্যবহার করা হয়েছিল। DeepSeek-R1-Zero-এর তুলনায়, কোল্ড স্টার্ট ডেটার সুবিধাগুলির মধ্যে রয়েছে

পঠনযোগ্যতা: DeepSeek-R1-শূন্য প্রতিক্রিয়াগুলি একাধিক ভাষায় মিশ্রিত করা যেতে পারে অথবা ব্যবহারকারীর উত্তরগুলি হাইলাইট করার জন্য ব্যবহৃত মার্কডাউন ফর্ম্যাটিং এর অভাব থাকতে পারে। বিপরীতে, DeepSeek-R1 এর জন্য কোল্ড স্টার্ট ডেটা তৈরি করার সময়, লেখক একটি পঠনযোগ্য ফর্ম্যাট ডিজাইন করেছেন যা প্রতিটি প্রতিক্রিয়ার শেষে একটি সারাংশ অন্তর্ভুক্ত করে এবং অপঠনযোগ্য প্রতিক্রিয়াগুলিকে ফিল্টার করে। এখানে, আউটপুট ফর্ম্যাটটি |special_token| হিসাবে সংজ্ঞায়িত করা হয়েছে। |বিশেষ_টোকেন|
, যেখানে reasoning_process হল Query এর শৃঙ্খলিত চিন্তাভাবনা এবং সারাংশ যুক্তির ফলাফলের সারসংক্ষেপের জন্য ব্যবহৃত হয়।
সম্ভাব্যতা: মানব-প্রায়োরি কোল্ড স্টার্ট ডেটা প্যাটার্নের একটি সমন্বয় সাবধানতার সাথে ডিজাইন করে, লেখকরা পর্যবেক্ষণ করেছেন যে এর কর্মক্ষমতা DeepSeek-R1-Zero এর চেয়ে উন্নত।

৩.৩.২ যুক্তি-চালিত আরএল (পর্যায়-১)

কোল্ড স্টার্ট ডেটার উপর DeepSeek-V3-বেস সূক্ষ্ম-টিউনিং করার পর, DeepSeek-R1-Zero-এর মতো একই বৃহৎ-স্কেল RL প্রশিক্ষণ প্রক্রিয়া ব্যবহার করা হয়। এই পর্যায়ের লক্ষ্য হল যুক্তি-নিবিড় কাজগুলিতে, বিশেষ করে প্রোগ্রামিং, গণিত, বিজ্ঞান এবং লজিক্যাল যুক্তি সমস্যাগুলিতে স্পষ্ট সমাধান সহ মডেলের দক্ষতা উন্নত করা।

প্রশিক্ষণের সময়, লেখকরা লক্ষ্য করেছেন যে CoT প্রায়শই ভাষা মিশ্রণের সমস্যায় ভুগতে থাকে, বিশেষ করে যখন RL প্রম্পটে একাধিক ভাষা জড়িত থাকে। ভাষা মিশ্রণের সমস্যা দূর করার জন্য, লেখকরা RL প্রশিক্ষণে একটি ভাষা ধারাবাহিকতা পুরস্কার প্রবর্তন করেছেন, যা CoT-তে লক্ষ্য ভাষার শব্দের অনুপাতের উপর ভিত্তি করে গণনা করা হয়। যদিও অ্যাবলেশন পরীক্ষাগুলি দেখায় যে এই সারিবদ্ধকরণ পদ্ধতি মডেলের কর্মক্ষমতা সামান্য হ্রাস করে, এই পুরস্কার প্রক্রিয়াটি মানুষের পছন্দের সাথে সামঞ্জস্যপূর্ণ এবং পাঠযোগ্যতা বৃদ্ধি করে। অবশেষে, লেখকরা চূড়ান্ত পুরস্কার গঠনের জন্য ভাষা ধারাবাহিকতা পুরস্কারের সাথে সরাসরি যুক্তিযুক্তকরণ কার্যের নির্ভুলতা যুক্ত করেন এবং যুক্তিযুক্তকরণ কার্যে একত্রিত না হওয়া পর্যন্ত সূক্ষ্ম-সুরযুক্ত মডেলে RL প্রশিক্ষণ বাস্তবায়ন করেন।

৩.৩.৩ ৮০০,০০০ নির্বাচিত তথ্যের নির্মাণ (পর্যায়-২)

রিজনিং-এর জন্য RL একত্রিত হলে, পরবর্তী প্রশিক্ষণ রাউন্ডের জন্য ফলাফল চেকপয়েন্ট ব্যবহার করে SFT ডেটা সংগ্রহ করা হয়। প্রাথমিক কোল্ড স্টার্ট ডেটার বিপরীতে, যা মূলত রিজনিং-এর উপর দৃষ্টি নিবদ্ধ করে, এই পর্যায়ে লেখা, ভূমিকা পালন এবং অন্যান্য সাধারণ-উদ্দেশ্যমূলক কাজে মডেলের দক্ষতা বৃদ্ধির জন্য অন্যান্য ক্ষেত্র থেকে ডেটা অন্তর্ভুক্ত করা হয়। বিশেষ করে, ডেটা তৈরি করা হয় এবং মডেলটিকে নিম্নরূপ সূক্ষ্মভাবে সুরক্ষিত করা হয়:

যুক্তিগত তথ্য: যুক্তিগত প্রম্পট নির্বাচন করা হয় এবং যুক্তিগত ট্র্যাজেক্টোরিগুলি উপরে উল্লিখিত RL প্রশিক্ষিত চেকপয়েন্ট (DeepSeek-R1 পর্যায় 1) থেকে প্রত্যাখ্যান নমুনা সম্পাদন করে তৈরি করা হয়। পূর্ববর্তী পর্যায়ে, শুধুমাত্র নিয়ম-ভিত্তিক পুরষ্কার ব্যবহার করে মূল্যায়ন করা যেতে পারে এমন ডেটা অন্তর্ভুক্ত করা হয়েছিল। যাইহোক, এই পর্যায়ে, ডেটাসেটটি আরও ডেটা অন্তর্ভুক্ত করে প্রসারিত করা হয়েছিল, যার মধ্যে কিছু একটি পুরষ্কার মডেল ব্যবহার করে তৈরি করা হয়েছিল এবং মডেল ভবিষ্যদ্বাণীগুলিকে DeepSeek-V3 (বিচারক হিসাবে DeepSeek V3) এ ফিড করে আসল উত্তরগুলি বিচার করা হয়েছিল। এছাড়াও, যেহেতু মডেল আউটপুট কখনও কখনও বিভ্রান্তিকর এবং পড়া কঠিন, তাই মিশ্র-ভাষার চিন্তার শৃঙ্খল, দীর্ঘ অনুচ্ছেদ এবং কোড ব্লকগুলি ফিল্টার করা হয়েছিল। প্রতিটি প্রম্পটের জন্য, একাধিক প্রতিক্রিয়া নমুনা করা হয়েছিল এবং শুধুমাত্র সঠিকগুলি (সেরা-অফ-N) ধরে রাখা হয়েছিল। মোট, প্রায় 600,000 যুক্তি-সম্পর্কিত প্রশিক্ষণ নমুনা সংগ্রহ করা হয়েছিল।
যুক্তিবিহীন তথ্য: যেমন লেখা, বাস্তব প্রশ্ন, আত্ম-সচেতনতা এবং অনুবাদ, DeepSeek-V3 প্রক্রিয়া ব্যবহার করে এবং DeepSeek-V3 এর কিছু SFT ডেটাসেট পুনরায় ব্যবহার করে। কিছু যুক্তিবিহীন কাজের জন্য, প্রশ্নের উত্তর দেওয়ার আগে সম্ভাব্য CoT তৈরি করতে DeepSeek-V3 ডাকা হয়। তবে, "হ্যালো" এর মতো সহজ প্রশ্নের জন্য, প্রতিক্রিয়ায় কোনও চিন্তার শৃঙ্খল দেওয়া হয় না। শেষ পর্যন্ত, মোট প্রায় 200,000 যুক্তিবিহীন প্রশিক্ষণের নমুনা সংগ্রহ করা হয়েছিল।

৩.৩.৪ সকল পরিস্থিতির জন্য SFT এবং RL (পর্যায়-৩)

উপরে উল্লিখিত দুটি ডেটা সেট (যুক্তি এবং অ-যুক্তি) ব্যবহার করে DeepSeek-V3-বেসে মোট প্রায় 800,000 নির্বাচিত নমুনার দুটি রাউন্ড সূক্ষ্ম-টিউনিং করা হয়েছিল।

মানুষের পছন্দের সাথে মডেলটিকে আরও সামঞ্জস্যপূর্ণ করার জন্য, লেখকরা RL-এর দ্বিতীয় পর্যায় বাস্তবায়ন করেছেন, যার লক্ষ্য মডেলটির উপযোগিতা এবং ক্ষতিকারকতা উন্নত করা এবং একই সাথে এর যুক্তি ক্ষমতাগুলিকে আরও পরিমার্জন করা। বিশেষ করে, মডেলটিকে পুরষ্কার সংকেত এবং বিভিন্ন প্রম্পট বিতরণের সংমিশ্রণে প্রশিক্ষণ দেওয়া হয়েছিল।

রিজনিং ডেটার জন্য, DeepSeek-R1-Zero-তে বর্ণিত পদ্ধতি অনুসরণ করা হয়, যেখানে গণিত, প্রোগ্রামিং এবং লজিক্যাল রিজনিং-এর ক্ষেত্রে মডেলের শেখার জন্য একটি নিয়ম-ভিত্তিক পুরষ্কার প্রক্রিয়া ব্যবহার করা হয়।
সাধারণ তথ্যের জন্য, জটিল এবং সূক্ষ্ম পরিস্থিতিতে মানুষের পছন্দগুলি ক্যাপচার করার জন্য পুরষ্কার মডেল ব্যবহার করা হয়। DeepSeek-V3 প্রক্রিয়ার উপর ভিত্তি করে পছন্দ জোড়া এবং প্রশিক্ষণ প্রম্পট বিতরণের অনুরূপ কৌশল ব্যবহার করা হয়।
উপযোগিতার দিক থেকে, শুধুমাত্র চূড়ান্ত সারাংশ বিবেচনা করা হয়, যাতে মূল্যায়ন ব্যবহারকারীর প্রতি প্রতিক্রিয়ার ব্যবহারিকতা এবং প্রাসঙ্গিকতার উপর দৃষ্টি নিবদ্ধ করে এবং অন্তর্নিহিত যুক্তি প্রক্রিয়ার সাথে হস্তক্ষেপ কমিয়ে আনা যায়।
ক্ষতিকারকতার ক্ষেত্রে, মডেলের সম্পূর্ণ প্রতিক্রিয়া ব্যাপকভাবে মূল্যায়ন করা হয়, যার মধ্যে যুক্তি প্রক্রিয়া এবং সারাংশ অন্তর্ভুক্ত থাকে, যাতে প্রজন্মের প্রক্রিয়া চলাকালীন উদ্ভূত সম্ভাব্য ঝুঁকি, পক্ষপাত বা ক্ষতিকারক বিষয়বস্তু সনাক্ত করা যায় এবং তা দূর করা যায়।
পরিশেষে, পুরষ্কার সংকেতগুলিকে একীভূত করে এবং ডেটা বিতরণকে বৈচিত্র্যময় করে, এমন একটি মডেল প্রশিক্ষিত করা যেতে পারে যা সুবিধা এবং ক্ষতিকারকতা উভয়কেই অগ্রাধিকার দেয় এবং যুক্তিতেও শ্রেষ্ঠত্ব অর্জন করে।

৩.৩.৫ পাতন (পর্যায়-৪)

DeepSeek-R1 এর যুক্তি ক্ষমতা দিয়ে আরও দক্ষ ছোট মডেল সজ্জিত করার জন্য, লেখকরা DeepSeek-R1-Stage-1 এ নির্বাচিত 800,000 নমুনা ব্যবহার করে ওপেন সোর্স মডেল Qwen এবং LLaMA-কে সরাসরি সূক্ষ্মভাবে সুরক্ষিত করেছেন। ফলাফলগুলি দেখায় যে এই সরাসরি পাতন পদ্ধতিটি ছোট মডেলগুলির যুক্তি ক্ষমতা উল্লেখযোগ্যভাবে উন্নত করে। লেখকদের ব্যবহৃত মৌলিক মডেলগুলির মধ্যে রয়েছে Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, Qwen2.5-14B, Qwen2.5-32B, Llama-3.1-8B এবং Llama-3.3-70B-Instruct। Llama-3.3 নির্বাচন করা হয়েছিল কারণ এর যুক্তি ক্ষমতা Llama-3.1 এর চেয়ে কিছুটা ভালো।

পাতন মডেলের জন্য, লেখক শুধুমাত্র SFT ব্যবহার করেছেন এবং RL পর্যায় অন্তর্ভুক্ত করেননি। যদিও RL প্রবর্তন মডেলের কর্মক্ষমতা ব্যাপকভাবে উন্নত করতে পারে, এখানে লেখকের মূল উদ্দেশ্য হল পাতন প্রযুক্তির কার্যকারিতা প্রদর্শন করা, এবং RL পর্যায়ের অন্বেষণ পরবর্তী গবেষণার উপর ছেড়ে দেওয়া হয়েছে।

দ্রষ্টব্য: এছাড়াও, চূড়ান্ত DeepSeek-R1 ব্যবহার করে উপরের তথ্য তৈরি করা এবং পাতন করার জন্য ব্যবহৃত 800,000 তথ্য পুনর্গঠন করা সম্ভব, এবং পাতন মডেলটি আরও ভাল প্রভাব ফেলতে পারে; তবে, মূল্য হল যে তথ্য পুনর্গঠন করা প্রয়োজন।

অশ্রেণীভুক্ত

DeepSeek 1 এর পেছনের রহস্য | DeepSeekMath এবং GRPO এর বিস্তারিত তথ্য

দ্বারাzddeepseeker অক্টোবর 9, 2025অক্টোবর 9, 2025

আজ আমি DeepSeek থেকে একটি প্রবন্ধ শেয়ার করতে চাই, যার শিরোনাম "DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models"। এই প্রবন্ধে DeepSeekMath 7B এর সাথে পরিচয় করিয়ে দেওয়া হয়েছে, যা DeepSeek-Coder-Base-v1.5 7B এর উপর প্রাক-প্রশিক্ষিত, যা 120B গণিত-সম্পর্কিত টোকেন, প্রাকৃতিক ভাষা এবং কোড ডেটার সংগ্রহের উপর ভিত্তি করে তৈরি। প্রতিযোগিতামূলক-স্তরে মডেলটি 51.7% এর একটি আশ্চর্যজনক স্কোর অর্জন করেছে...

অশ্রেণীভুক্ত

২৭ বছর বয়সী সিইওর সাথে a16z সংলাপ: এআই এজেন্টের একটি বিশাল লিভারেজ প্রভাব রয়েছে এবং দীর্ঘমেয়াদী মূল্য নির্ধারণ শ্রম খরচের সাথে যুক্ত হবে

দ্বারাzddeepseeker অক্টোবর 8, 2025অক্টোবর 8, 2025

গ্রাহকের অভিজ্ঞতাকে নতুন করে রূপ দেয় এআই এজেন্ট জেসি ঝাং: একজন এজেন্ট আসলে কীভাবে তৈরি হয়? আমাদের দৃষ্টিভঙ্গি হল সময়ের সাথে সাথে, এটি আরও বেশি করে একটি প্রাকৃতিক ভাষা-ভিত্তিক এজেন্টের মতো হয়ে উঠবে কারণ বৃহৎ ভাষা মডেলগুলি (এলএলএম) এভাবেই প্রশিক্ষিত হয়। দীর্ঘমেয়াদে, যদি আপনার কাছে একজন অতি বুদ্ধিমান এজেন্ট থাকে যে...

অশ্রেণীভুক্ত

গুগল একসাথে তিনটি নতুন মডেল প্রকাশ করেছে: জেমিনি-২.০-প্রো বিনামূল্যে, অসাধারণ স্কোর রয়েছে এবং প্রথম স্থানে রয়েছে, এবং জটিল প্রম্পট কোডিং এবং প্রক্রিয়াকরণের জন্য উপযুক্ত!

দ্বারাzddeepseeker অক্টোবর 8, 2025অক্টোবর 8, 2025

জেমিনি ২.০ এর গল্প ত্বরান্বিত হচ্ছে। ডিসেম্বরে ফ্ল্যাশ থিংকিং এক্সপেরিমেন্টাল সংস্করণটি ডেভেলপারদের জন্য কম ল্যাটেন্সি এবং উচ্চ কর্মক্ষমতা সহ একটি কার্যকরী মডেল নিয়ে এসেছে। এই বছরের শুরুতে, গুগল এআই স্টুডিওতে ২.০ ফ্ল্যাশ থিংকিং এক্সপেরিমেন্টাল আপডেট করা হয়েছিল যাতে ফ্ল্যাশের গতি এবং উন্নত অনুমান ক্ষমতা একত্রিত করে কর্মক্ষমতা আরও উন্নত করা যায়। গত সপ্তাহে,…

অশ্রেণীভুক্ত

ব্রেকিং নিউজ! OpenAI আজ 2টি নতুন ইনফারেন্স মডেল প্রকাশ করেছে: o3-mini এবং o3-mini-high।

দ্বারাzddeepseeker অক্টোবর 1, 2025অক্টোবর 1, 2025

o3-mini এবং o3-mini (হাই) আজ মুক্তি পাবে। নিয়মিত ব্যবহারকারীরাও o3-mini পাবেন এবং প্লাস ব্যবহারকারীরা o3-mini (উচ্চ) ব্যবহার করতে পারবেন। o3-মিনি (উচ্চ) কোডফোর্সে o1 থেকে প্রায় 200 পয়েন্ট বেশি, o1 থেকে দ্রুত, এবং কোডিং এবং গণিতে আরও ভাল পারফর্ম করে, কিন্তু খরচ এখনও o1-মিনি স্তরে রয়েছে….

অশ্রেণীভুক্ত

DeepSeek-R1-0528 আপডেট: গভীর চিন্তাভাবনা, শক্তিশালী যুক্তি

দ্বারাzddeepseeker ২৯ মে, ২০২৫২৯ মে, ২০২৫

DeepSeek R1 মডেলটির একটি ছোটখাটো সংস্করণ আপগ্রেড করা হয়েছে, বর্তমান সংস্করণটি হল DeepSeek-R1-0528। আপনি যখন DeepSeek ওয়েবপেজ বা অ্যাপে প্রবেশ করবেন, তখন সর্বশেষ সংস্করণটি উপভোগ করার জন্য ডায়ালগ ইন্টারফেসে "ডিপ থিংকিং" বৈশিষ্ট্যটি সক্ষম করুন। DeepSeek-R1-0528 মডেলের ওজন HuggingFace-এ আপলোড করা হয়েছে গত চার মাস ধরে, DeepSeek-R1…

অশ্রেণীভুক্ত

শীর্ষ চার মডেলের প্রতিযোগিতা! একটি পর্যালোচনা দেখায় যে ডিপসিক আর১ কতটা শক্তিশালী

দ্বারাzddeepseeker ১ জুন, ২০২৫১ জুন, ২০২৫

গত কয়েকদিন ধরে, Deepseek-R1 0528 আনুষ্ঠানিকভাবে ওপেন-সোর্স করা হয়েছে। LiveCodeBench-এ, এর পারফরম্যান্স প্রায় OpenAI-এর o3 (উচ্চ) এর সমান; Aider-এর বহু-ভাষা বেঞ্চমার্ক পরীক্ষায়, এটি Claude Opus-এর বিরুদ্ধে তার নিজস্ব অবস্থান ধরে রেখেছে। যখন এটি অফিসিয়াল ওয়েবসাইটে চালু করা হয়েছিল, তখন আমরা দ্রুত এর ফ্রন্ট-এন্ড ক্ষমতা পরীক্ষা করে দেখেছি যে সেগুলি ব্যতিক্রমী...

১ পটভূমি

২ ভূমিকা

২.১ সাধারণ যুক্তি অ্যালগরিদম

২.২ যুক্তিগত সারিবদ্ধকরণ পদ্ধতি

২.২.১ সেরা-অফ-এন পদ্ধতির ওভারভিউ

২.২.২ ওপেনএআই-এর সেরা-অফ-এন পদ্ধতি

২.২.৩ গুগল বন্ড পদ্ধতি

২.৩ প্রক্রিয়া তত্ত্বাবধান এবং ফলাফল তত্ত্বাবধান

২.৪ রিওয়ার্ড হ্যাকিং

৩টি ১টিপি৮টি-আর১-জিরো এবং ১টিপি৮টি-আর১

৩.১ ওভারভিউ

৩.২ ১TP8T-R1-জিরো

৩.২.১ আরএল অ্যালগরিদম

৩.২.২ পুরষ্কার মডেলিং

৩.২.৩ প্রশিক্ষণ টেমপ্লেট

৩.২.৪ উপসংহার

৩.৩ ১টিপি৮টি-আর১

৩.৩.১ কোল্ড স্টার্ট (পর্যায়-১)

৩.৩.২ যুক্তি-চালিত আরএল (পর্যায়-১)

৩.৩.৩ ৮০০,০০০ নির্বাচিত তথ্যের নির্মাণ (পর্যায়-২)

৩.৩.৪ সকল পরিস্থিতির জন্য SFT এবং RL (পর্যায়-৩)

৩.৩.৫ পাতন (পর্যায়-৪)

অনুরূপ পোস্ট

মন্তব্য করুন জবাব বাতিল