বিমূর্ত

এই কাগজটি DeepSeek-এর প্রথম-প্রজন্মের যুক্তি মডেলগুলি উপস্থাপন করে: DeepSeek-R1-শূন্য এবং DeepSeek-R1৷ DeepSeek-R1-জিরো, তত্ত্বাবধানে ফাইন-টিউনিং (SFT) ছাড়াই বৃহৎ-স্কেল রিইনফোর্সমেন্ট লার্নিং (RL) এর মাধ্যমে প্রশিক্ষিত, অসাধারণ যুক্তির ক্ষমতা প্রদর্শন করে। RL এর মাধ্যমে, এটি স্বাভাবিকভাবেই শক্তিশালী যুক্তিযুক্ত আচরণ বিকাশ করে। যাইহোক, এটি দুর্বল পাঠযোগ্যতা এবং ভাষার মিশ্রণের মতো চ্যালেঞ্জগুলির মুখোমুখি। এই সমস্যাগুলি সমাধান করতে এবং যুক্তির কার্যকারিতা বাড়াতে, DeepSeek-R1 তৈরি করা হয়েছিল, RL এর আগে বহু-পর্যায়ের প্রশিক্ষণ এবং কোল্ড-স্টার্ট ডেটা অন্তর্ভুক্ত করে। DeepSeek-R1 যুক্তিযুক্ত কাজগুলিতে OpenAI-o1-1217 এর সাথে তুলনীয় কর্মক্ষমতা অর্জন করে। গবেষণাকে সমর্থন করার জন্য, DeepSeek ওপেন-সোর্স উভয় মডেল এবং ছয়টি ঘন মডেল (1.5B, 7B, 8B, 14B, 32B, 70B) DeepSeek-R1 থেকে কুয়েন এবং লামার উপর ভিত্তি করে পাতিত।

মূল অবদান

পোস্ট-ট্রেনিং: বড়-স্কেল রিইনফোর্সমেন্ট লার্নিং

  • SFT ছাড়া বেস মডেলে সরাসরি RL প্রয়োগ করা হয়েছে
  • DeepSeek-R1-জিরো উন্নত, স্ব-যাচাই এবং প্রতিফলনের মতো ক্ষমতা প্রদর্শন করে
  • প্রথম উন্মুক্ত গবেষণা যা যাচাই করে যে যুক্তির ক্ষমতাগুলি সম্পূর্ণরূপে RL এর মাধ্যমে উত্সাহিত করা যেতে পারে
  • দুটি RL পর্যায় এবং দুটি SFT পর্যায় সহ DeepSeek-R1 এর জন্য পাইপলাইন চালু করা হয়েছে।

পাতন: ছোট মডেলের ক্ষমতায়ন

  • প্রমানিত যে বড় মডেল থেকে যুক্তির নিদর্শনগুলিকে কার্যকরভাবে ছোট মডেলগুলিতে পাতিত করা যেতে পারে
  • ওপেন সোর্সড DeepSeek-R1 এবং এর API গবেষণা সম্প্রদায়কে উপকৃত করতে
  • সূক্ষ্ম সুর করা বেশ কয়েকটি ঘন মডেল ব্যতিক্রমী বেঞ্চমার্ক পারফরম্যান্স দেখাচ্ছে
  • ডিস্টিল্ড মডেলগুলি পূর্ববর্তী ওপেন-সোর্স মডেলগুলিকে উল্লেখযোগ্যভাবে ছাড়িয়ে যায়

মূল্যায়ন ফলাফল

রিজনিং টাস্ক

  • DeepSeek-R1 AIME 2024-এ 79.8% পাস@1 অর্জন করেছে, OpenAI-o1-1217কে ছাড়িয়ে গেছে
  • MATH-500-এ 97.3% স্কোর, OpenAI-o1-1217-এর সমান পারফর্ম করছে
  • Codeforces-এ 2,029 Elo রেটিং সহ কোড প্রতিযোগিতার কাজে বিশেষজ্ঞ-স্তরের পারফরম্যান্স

জ্ঞান কাজ

  • MMLU (90.8%), MMLU-Pro (84.0%), এবং GPQA ডায়মন্ড (71.5%) তে অসামান্য ফলাফল
  • শিক্ষামূলক কাজে অন্যান্য ক্লোজ-সোর্স মডেলকে ছাড়িয়ে যায়
  • সিম্পলকিউএর মতো বাস্তবসম্মত মানদণ্ডে শক্তিশালী পারফরম্যান্স

সাধারণ ক্ষমতা

  • সৃজনশীল লেখা, প্রশ্নের উত্তর, সম্পাদনা এবং সংক্ষিপ্তকরণে পারদর্শী
  • AlpacaEval 2.0-এ 87.6% এবং ArenaHard-এ 92.3% জয়ের হার
  • দীর্ঘ-প্রসঙ্গ বোঝার কাজে শক্তিশালী কর্মক্ষমতা

ভবিষ্যতের কাজ

দলটি ফোকাস করার পরিকল্পনা করছে:

  1. ফাংশন কলিং এবং জটিল ভূমিকা পালনের মতো ক্ষেত্রে সাধারণ ক্ষমতা বৃদ্ধি করা
  2. ভাষা মিশ্রিত সমস্যা সমাধান করা
  3. প্রম্পটিং ইঞ্জিনিয়ারিং উন্নত করা
  4. সফ্টওয়্যার ইঞ্জিনিয়ারিং কাজগুলিতে কর্মক্ষমতা বৃদ্ধি করা

উপসংহার

DeepSeek-R1 শক্তিবৃদ্ধি শেখার মাধ্যমে AI যুক্তির ক্ষমতায় একটি উল্লেখযোগ্য অগ্রগতি উপস্থাপন করে। প্রধান মডেল এবং এর পাতিত সংস্করণ উভয়ের সাফল্য আরও সক্ষম এআই সিস্টেমগুলি বিকাশের জন্য এই পদ্ধতির সম্ভাব্যতা প্রদর্শন করে। এই মডেলগুলির ওপেন সোর্স রিলিজ ক্ষেত্রের আরও গবেষণা এবং উন্নয়নে অবদান রাখবে।

অনুরূপ পোস্ট

মন্তব্য করুন

আপনার ই-মেইল এ্যাড্রেস প্রকাশিত হবে না। * চিহ্নিত বিষয়গুলো আবশ্যক।