অশ্রেণীবদ্ধ - ডিপসিক আর১

DeepSeek 1 এর পেছনের রহস্য | DeepSeekMath এবং GRPO এর বিস্তারিত তথ্য

দ্বারাzddeepseeker অক্টোবর 9, 2025অক্টোবর 9, 2025

আজ আমি DeepSeek থেকে একটি প্রবন্ধ শেয়ার করতে চাই, যার শিরোনাম "DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models"। এই প্রবন্ধে DeepSeekMath 7B এর সাথে পরিচয় করিয়ে দেওয়া হয়েছে, যা DeepSeek-Coder-Base-v1.5 7B এর উপর প্রাক-প্রশিক্ষিত, যা 120B গণিত-সম্পর্কিত টোকেন, প্রাকৃতিক ভাষা এবং কোড ডেটার সংগ্রহের উপর ভিত্তি করে তৈরি। প্রতিযোগিতামূলক-স্তরে মডেলটি 51.7% এর একটি আশ্চর্যজনক স্কোর অর্জন করেছে...

অশ্রেণীভুক্ত

DeepSeek-R1 প্রযুক্তি উন্মোচিত: কাগজের মূল নীতিগুলি ভেঙে ফেলা হয়েছে এবং যুগান্তকারী মডেল কর্মক্ষমতার চাবিকাঠি উন্মোচিত হয়েছে

দ্বারাzddeepseeker অক্টোবর 9, 2025অক্টোবর 9, 2025

আজ আমরা DeepSeek R1, শিরোনাম: DeepSeek-R1: রিইনফোর্সমেন্ট লার্নিং এর মাধ্যমে LLM-এ যুক্তির ক্ষমতাকে উৎসাহিত করা: রিইনফোর্সমেন্ট লার্নিংয়ের মাধ্যমে LLM-এর যুক্তির ক্ষমতাকে উৎসাহিত করা। এই প্রবন্ধে DeepSeek-এর প্রথম প্রজন্মের যুক্তি মডেল, DeepSeek-R1-Zero এবং DeepSeek-R1 উপস্থাপন করা হয়েছে। DeepSeek-R1-Zero মডেলটিকে প্রাথমিক পদক্ষেপ হিসেবে তত্ত্বাবধানে থাকা ফাইন-টিউনিং (SFT) ছাড়াই বৃহৎ-স্কেল রিইনফোর্সমেন্ট লার্নিং (RL) এর মাধ্যমে প্রশিক্ষণ দেওয়া হয়েছিল,…

অশ্রেণীভুক্ত

DeepSeek R1 পেপারের ব্যাখ্যা এবং মূল প্রযুক্তিগত বিষয়গুলি

দ্বারাzddeepseeker অক্টোবর 9, 2025অক্টোবর 9, 2025

১ পটভূমি বসন্ত উৎসবের সময়, DeepSeek R1 আবারও ব্যাপক মনোযোগ আকর্ষণ করে, এমনকি আমরা পূর্বে যে DeepSeek V3 ব্যাখ্যামূলক প্রবন্ধটি লিখেছিলাম তাও পুনঃপ্রচারিত এবং প্রচুর আলোচনা করা হয়েছিল। যদিও DeepSeek R1 এর অনেক বিশ্লেষণ এবং পুনরুৎপাদন করা হয়েছে, এখানে আমরা কিছু সংশ্লিষ্ট পাঠ নোট সংকলন করার সিদ্ধান্ত নিয়েছি। আমরা তিনটি ব্যবহার করব...