32B ইনফারেন্স মডেলটি মাত্র 1/8 ডেটা ব্যবহার করে এবং একই আকারের DeepSeek-R1 এর সাথে আবদ্ধ!

এইমাত্র, স্ট্যানফোর্ড, ইউসি বার্কলে এবং ওয়াশিংটন বিশ্ববিদ্যালয়ের মতো প্রতিষ্ঠানগুলি যৌথভাবে একটি SOTA-স্তরের ইনফারেন্স মডেল প্রকাশ করেছে, ওপেনথিঙ্কার-৩২বি, এবং ১১৪,০০০ পর্যন্ত প্রশিক্ষণ ডেটা ওপেন-সোর্স করেছে।

ওপেনথিঙ্কার প্রকল্পের হোমপেজ:

ওপেনথিঙ্কার আলিঙ্গনকারী মুখ:

খোলা চিন্তা ডেটাসেট:

টিম আবিষ্কার: DeepSeek-R1 যাচাইকৃত টীকা (R1 পাতনের উপর ভিত্তি করে) সহ একটি বৃহৎ-স্কেল উচ্চ-মানের ডেটাসেট ব্যবহার করে, একটি SOTA ইনফারেন্স মডেল প্রশিক্ষিত করা যেতে পারে।

নির্দিষ্ট পদ্ধতি হল ডেটা স্কেল করা, অনুমান প্রক্রিয়া যাচাই করা এবং মডেল স্কেল করা।

ফলস্বরূপ OpenThinker-32B গণিত, কোডিং এবং বিজ্ঞানের একাধিক বেঞ্চমার্ক পরীক্ষায় Li Fei-Fei-এর s1 এবং s1.1 মডেলগুলিকে ছাড়িয়ে গেছে এবং R1-Distill-32B-এর কাছাকাছি ছিল।

এটি উল্লেখ করার মতো যে R1-Distill-32B-এর তুলনায়, যেখানে ৮০০,০০০ ডেটা ব্যবহার করা হয়েছিল (৬০০,০০০ ইনফারেন্স নমুনা সহ), OpenThinker-32B প্রায় একই রকম চমৎকার ফলাফল অর্জনের জন্য মাত্র ১১৪,০০০ ডেটা ব্যবহার করেছে।

এছাড়াও, OpenThinker-32 সমস্ত মডেল ওজন, ডেটাসেট, ডেটা জেনারেশন কোড এবং প্রশিক্ষণ কোডও জনসমক্ষে প্রকাশ করেছে!

ডেটা কিউরেশন

গবেষকরা OpenThinker-32B-কে একই OpenThoughts-114k ডেটাসেট ব্যবহার করে প্রশিক্ষণ দিয়েছেন যেমনটি তারা পূর্বে OpenThinker-7B-কে প্রশিক্ষণ দিয়েছিলেন।

তারা DeepSeek-R1 মডেল ব্যবহার করে যুক্তি প্রক্রিয়া সংগ্রহ করে এবং সাবধানে নির্বাচিত 173,000 প্রশ্নের একটি সেটের উত্তর দেয়। এই কাঁচা তথ্যটি তখন OpenThoughts-Unverified-173k ডেটাসেট হিসাবে প্রকাশিত হয়েছিল।

এই প্রক্রিয়ার চূড়ান্ত ধাপ হল যুক্তি প্রক্রিয়া যাচাইকরণে ব্যর্থ হলে সংশ্লিষ্ট ডেটা নমুনাগুলিকে ফিল্টার করে বের করা।

নিচের চিত্রটি সম্পূর্ণ প্রক্রিয়াটি দৃশ্যত প্রদর্শন করে।

গবেষণা দল প্রথমে উৎস তথ্য বা প্রশ্নের প্রম্পট প্রবেশ করায়, যা বিভিন্ন ক্ষেত্র এবং প্ল্যাটফর্ম থেকে আসতে পারে, যেমন BAAI/TACO, DeepMind, Python সাবমিশন ইত্যাদি, যা কোড, ধাঁধা, বিজ্ঞান এবং গণিতের মতো বিভিন্ন দিককে অন্তর্ভুক্ত করে।

এই বিবিধ ইনপুটগুলি তারপর মূল প্রক্রিয়াকরণ মডিউল, DeepSeek-R1-এ প্রেরণ করা হয়, যেখানে তথ্য বিশ্লেষণ এবং প্রক্রিয়াজাতকরণ করা হয়। প্রশ্নগুলি তিনটি বিভাগে বিভক্ত: বিজ্ঞানের প্রশ্ন, গণিত এবং ধাঁধা এবং কোড।

কিছু ফলাফলের যাচাইকরণের প্রয়োজন হয় না এবং এটি সহজ বিশ্লেষণ বা সরাসরি আউটপুট হতে পারে। কিছু বিষয়বস্তুর জন্য যার গভীর যাচাইকরণের প্রয়োজন হয়, একটি বৃহৎ ভাষা মডেল (LLM) ব্যবহার করে এটিকে GT (গ্রাউন্ড ট্রুথ) এর সাথে তুলনীয়ভাবে বিচার করা হয়। যদি এটি কোড হয়, তাহলে কোডটি কার্যকর করা হয় এবং এর সঠিকতা এবং কার্যকারিতা নিশ্চিত করার জন্য ইউনিট পরীক্ষা করা হয়।

পরিশেষে, বিভিন্ন দিক থেকে প্রাপ্ত ফলাফলগুলিকে একত্রিত করে মুক্তমনা চিন্তাভাবনা এবং আরও ব্যাপক সমাধান তৈরি করা যেতে পারে।

গবেষণা দলটি "মেটাডেটা" নামক একটি কনফিগারেশন সহ চূড়ান্ত OpenThoughts-114k ডেটাসেট আপডেট করেছে যাতে ডেটাসেট তৈরি করতে ব্যবহৃত কিছু অতিরিক্ত কলাম রয়েছে:

  • সমস্যা
  • স্থল_সত্য_সমাধান
  • test_cases (শুধুমাত্র কোড)
  • স্টার্টার_কোড (শুধুমাত্র কোড)
  • DeepSeek_reasoning সম্পর্কে
  • DeepSeek_সমাধান
  • ডোমেইন
  • উৎস

এই অতিরিক্ত মেটাডেটা নতুন পরিস্থিতিতে, যেমন ডেটা ফিল্টারিং, ডোমেন স্যুইচিং, যাচাইকরণ পরীক্ষা এবং অনুমান প্রক্রিয়া টেমপ্লেট পরিবর্তন, এই ডেটাসেটটি ব্যবহার করা সহজ করে তুলবে।

এই অতিরিক্ত মেটাডেটা এই ডেটাসেটটি ব্যবহার করা সহজ করে তুলবে এবং এটি শুধুমাত্র একটি লাইন কোড দিয়ে করা যেতে পারে, যেমন ফিল্টারিং, ডোমেন পরিবর্তন, যাচাইকরণ পরীক্ষা করা এবং ইনফারেন্স ট্র্যাকিং টেমপ্লেট পরিবর্তন করা।

লোড_ডেটাসেট("ওপেন-থটস/ওপেনথটস-১১৪কে", "মেটাডেটা", স্প্লিট="ট্রেন")

গবেষণা দলটি বলছে যে তারা OpenThinker মডেলে রিইনফোর্সমেন্ট লার্নিং (RL) এর উপর গবেষণার জন্য সম্প্রদায়ের এই প্রশ্নগুলি এবং স্ট্যান্ডার্ড উত্তরগুলি কাজে লাগানোর জন্য অধীর আগ্রহে অপেক্ষা করছে। DeepScaleR ইতিমধ্যেই দেখিয়েছে যে এই পদ্ধতিটি বিশেষ করে ছোট স্কেলে ভালভাবে কাজ করে।

যাচাইকরণ

চূড়ান্ত OpenThoughts-114k ডেটাসেটে পৌঁছানোর জন্য, গবেষণা দল উত্তরগুলি যাচাই করেছে এবং ভুল উত্তরগুলি বাদ দিয়েছে।

নীচের সারণীতে দেখানো হয়েছে, যাচাইকরণে উত্তীর্ণ না হওয়া অনুমানগুলি ধরে রাখলে কর্মক্ষমতা ক্ষতিগ্রস্ত হতে পারে, যদিও যাচাই না করা মডেলটি এখনও অন্যান্য 32B অনুমান মডেলের তুলনায় ভাল কাজ করে।

যাচাইকরণের ভূমিকা হল প্রশিক্ষণ প্রম্পট সেটের বৈচিত্র্য এবং আকার সম্প্রসারণের সাথে সাথে R1 টীকাগুলির মান বজায় রাখা। অন্যদিকে, যাচাই না করা তথ্য আরও সহজে প্রসারিত করা যেতে পারে এবং তাই আরও অন্বেষণ করাও মূল্যবান।

কোড সমস্যার জন্য, আমরা বিদ্যমান পরীক্ষার ক্ষেত্রে উত্তরের প্রচেষ্টা যাচাই করে অনুমান প্রক্রিয়ার যাচাইকরণ সম্পূর্ণ করি।

কোড এক্সিকিউশনের সময় যেসব চ্যালেঞ্জের সম্মুখীন হতে হয়, সেগুলো থেকে অনুপ্রাণিত হয়ে, আমরা কিউরেটরে একটি কোড এক্সিকিউশন ফ্রেমওয়ার্ক বাস্তবায়ন করেছি যা ব্যবহারকারীদের স্কেলে, নিরাপদে কোড এক্সিকিউট করতে এবং প্রত্যাশিত আউটপুটের বিপরীতে এটি যাচাই করতে সক্ষম করে।

গাণিতিক সমস্যার জন্য, গবেষণা দল যাচাইয়ের জন্য একটি LLM (বৃহৎ ভাষা মডেল) বিচারক ব্যবহার করেছে, যা আদর্শ উত্তর এবং DeepSeek-R1 সমাধান প্রচেষ্টা উভয়ই গ্রহণ করে।

দেখা গেছে যে আরও কঠোর পার্সিং ইঞ্জিন (ম্যাথ-ভেরিফাই) এর পরিবর্তে ডেটা জেনারেশনের জন্য LLM মূল্যায়নকারী ব্যবহার করার ফলে উচ্চতর কার্যকর ডেটা হার পাওয়া গেছে এবং উন্নত কর্মক্ষমতা সহ ডাউনস্ট্রিম মডেলগুলির প্রশিক্ষণের সুযোগ তৈরি হয়েছে।

প্রশিক্ষণ

গবেষণা দলটি ১৬k কনটেক্সট দৈর্ঘ্যের OpenThoughts-114k ডেটাসেটে তিনবার Qwen2.5-32B-Instruct সূক্ষ্ম-টিউন করার জন্য LLaMa-Factory ব্যবহার করেছে। সম্পূর্ণ প্রশিক্ষণ কনফিগারেশনটি GitHub-এ পাওয়া যাবে।

OpenThinker-32B কে AWS SageMaker ক্লাস্টারে চারটি 8xH100 P5 নোড ব্যবহার করে 90 ঘন্টা প্রশিক্ষণ দেওয়া হয়েছিল, মোট 2,880 H100-ঘন্টা।

ইতিমধ্যে, OpenThinker-32B-Unverified লিওনার্দো সুপার কম্পিউটারে 96টি 4xA100 নোড (প্রতি GPU 64GB) ব্যবহার করে 30 ঘন্টা প্রশিক্ষণ নিয়েছে, যার ফলে 11,520 A100 ঘন্টা সঞ্চয় হয়েছে।

মূল্যায়ন

গবেষণা দলটি সমস্ত মডেল মূল্যায়নের জন্য ওপেন সোর্স মূল্যায়ন লাইব্রেরি ইভালকেমি ব্যবহার করেছে।

AIME24 এবং AIME25 এর জন্য, তারা পাঁচটি রানের ফলাফলের গড় ব্যবহার করে নির্ভুলতা গণনা করেছে। মূল্যায়ন কনফিগারেশনে 0.7 তাপমাত্রার প্যারামিটার ব্যবহার করা হয়েছে, মডেল প্রতিক্রিয়া 32,768 টোকেনে সীমাবদ্ধ করা হয়েছে, কোনও অতিরিক্ত সিস্টেম বা ব্যবহারকারীর প্রম্পট শব্দ যোগ করা হয়নি এবং কোনও বিশেষ ডিকোডিং কৌশল (যেমন বাজেট জোর করে) ব্যবহার করা হয়নি।

যখন OpenThoughts প্রকল্পটি চালু করা হয়েছিল, তখন তারা DeepSeek-R1-Distill-Qwen-32B এর সাথে মেলে এমন একটি ওপেন ডেটা মডেল তৈরির লক্ষ্য নির্ধারণ করেছিল।

এখন সেই ব্যবধান প্রায় কেটে গেছে।

পরিশেষে, গবেষণা দলটি গত কয়েক সপ্তাহে উন্মুক্ত ডেটা ইনফারেন্স মডেল তৈরিতে সম্প্রদায়ের দ্রুত অগ্রগতি দেখে উচ্ছ্বসিত এবং একে অপরের অন্তর্দৃষ্টির উপর ভিত্তি করে এগিয়ে যাওয়ার জন্য উন্মুখ।

OpenThinker-32B-এর ওপেন সোর্স রিলিজটি দেখায় যে ডেটা, বৈধতা এবং মডেল আকারের মধ্যে সমন্বয় অনুমান ক্ষমতা উন্নত করার মূল চাবিকাঠি।

এই ফলাফল কেবল ওপেন সোর্স ইনফারেন্স মডেলের বিকাশকে উৎসাহিত করে না, বরং সমগ্র এআই সম্প্রদায়ের জন্য মূল্যবান সম্পদ এবং অনুপ্রেরণাও প্রদান করে।

অনুরূপ পোস্ট

মন্তব্য করুন

আপনার ই-মেইল এ্যাড্রেস প্রকাশিত হবে না। * চিহ্নিত বিষয়গুলো আবশ্যক।