অশ্রেণীবদ্ধ - ডিপসিক আর১

পেপার-DeepSeek-R1: রিইনফোর্সমেন্ট লার্নিং এর মাধ্যমে এলএলএম-এ রিজনিং ক্ষমতাকে উৎসাহিত করা

দ্বারাdeepseeker সম্পর্কে জানুয়ারী 29, 2025জানুয়ারী 29, 2025

বিমূর্ত এই কাগজটি DeepSeek-এর প্রথম প্রজন্মের যুক্তি মডেলগুলি উপস্থাপন করে: DeepSeek-R1-শূন্য এবং DeepSeek-R1৷ DeepSeek-R1-জিরো, তত্ত্বাবধানে ফাইন-টিউনিং (SFT) ছাড়াই বৃহৎ-স্কেল রিইনফোর্সমেন্ট লার্নিং (RL) এর মাধ্যমে প্রশিক্ষিত, অসাধারণ যুক্তির ক্ষমতা প্রদর্শন করে। RL এর মাধ্যমে, এটি স্বাভাবিকভাবেই শক্তিশালী যুক্তিযুক্ত আচরণ বিকাশ করে। যাইহোক, এটি দুর্বল পাঠযোগ্যতা এবং ভাষার মিশ্রণের মতো চ্যালেঞ্জগুলির মুখোমুখি। এই সমস্যাগুলি মোকাবেলা করতে এবং যুক্তির কার্যকারিতা বাড়ানোর জন্য, DeepSeek-R1 তৈরি করা হয়েছিল,…