পেপার-DeepSeek-R1: রিইনফোর্সমেন্ট লার্নিং এর মাধ্যমে এলএলএম-এ রিজনিং ক্ষমতাকে উৎসাহিত করা
বিমূর্ত এই কাগজটি DeepSeek-এর প্রথম প্রজন্মের যুক্তি মডেলগুলি উপস্থাপন করে: DeepSeek-R1-শূন্য এবং DeepSeek-R1৷ DeepSeek-R1-জিরো, তত্ত্বাবধানে ফাইন-টিউনিং (SFT) ছাড়াই বৃহৎ-স্কেল রিইনফোর্সমেন্ট লার্নিং (RL) এর মাধ্যমে প্রশিক্ষিত, অসাধারণ যুক্তির ক্ষমতা প্রদর্শন করে। RL এর মাধ্যমে, এটি স্বাভাবিকভাবেই শক্তিশালী যুক্তিযুক্ত আচরণ বিকাশ করে। যাইহোক, এটি দুর্বল পাঠযোগ্যতা এবং ভাষার মিশ্রণের মতো চ্যালেঞ্জগুলির মুখোমুখি। এই সমস্যাগুলি মোকাবেলা করতে এবং যুক্তির কার্যকারিতা বাড়ানোর জন্য, DeepSeek-R1 তৈরি করা হয়েছিল,…