সদ্যপ্রাপ্ত সংবাদ! DeepSeek গবেষক অনলাইনে প্রকাশ করেছেন: R1 প্রশিক্ষণে মাত্র দুই থেকে তিন সপ্তাহ সময় লেগেছিল, এবং চীনা নববর্ষের ছুটির সময় R1 শূন্যের একটি শক্তিশালী বিবর্তন লক্ষ্য করা গেছে।

এইমাত্র, আমরা লক্ষ্য করেছি যে DeepSeek গবেষক দয়া গুও DeepSeek R1 এবং কোম্পানির ভবিষ্যৎ পরিকল্পনা সম্পর্কে নেটিজেনদের প্রশ্নের উত্তর দিয়েছেন। আমরা কেবল বলতে পারি যে DeepSeek R1 কেবল শুরু, এবং অভ্যন্তরীণ গবেষণা এখনও দ্রুত এগিয়ে চলেছে। DeepSeek গবেষকরা চীনা নববর্ষের ছুটির সময়ও বিরতি নেননি, এবং তারা গবেষণা এগিয়ে নেওয়ার জন্য অক্লান্ত পরিশ্রম করে চলেছেন। DeepSeek-এর কিছু বড় পদক্ষেপ আসছে।

ব্যাপারটা এখানে: ১ ফেব্রুয়ারি, দায়া গুও একটি টুইট পোস্ট করেছেন যেখানে তিনি চীনা নববর্ষের ছুটির সময় যে বিষয়টি সবচেয়ে বেশি উত্তেজিত করে তুলেছিলেন তা প্রকাশ করেছেন: "নিরন্তর বৃদ্ধি" এর কর্মক্ষমতা বক্ররেখার R1-শূন্য মডেল, এবং অনুভব করছি শক্তিশালী শক্তি রিইনফোর্সমেন্ট লার্নিং (RL)!

ডিপসিক এআই গবেষক দয়া গুও নেটিজেনদের সাথে কথা বলছেন

আমি এখন আপনাকে নেটিজেনদের সাথে দয়া গুওর কথোপকথন পুনরুত্পাদন করতে সাহায্য করব:

নেটিজেন এ @PseudoProphet: "বড় কথা, আমি জিজ্ঞাসা করতে চাই যে কর্মক্ষমতার এই ক্রমাগত উন্নতি কতদিন স্থায়ী হবে? এটা কি এখনও প্রাথমিক পর্যায়ে আছে? মনে হচ্ছে DeepSeek এর RL মডেলটি কি সবেমাত্র শুরু হচ্ছে, যেমন ভাষা মডেলগুলিতে GPT-2? নাকি এটি GPT-3.5 এর মতো আরও পরিপক্ক পর্যায়ে পৌঁছেছে, এবং একটি বাধার সম্মুখীন হতে চলেছে?"

এটি একটি অত্যন্ত তীক্ষ্ণ প্রশ্ন, যা সরাসরি DeepSeek এর RL প্রযুক্তির সম্ভাবনার সাথে সম্পর্কিত! দয়া গুওর প্রতিক্রিয়াও অত্যন্ত সৎ:

দয়া গুও: "আমি মনে করি আমরা এখনও খুব প্রাথমিক পর্যায়ে আছি, এবং RL-এর ক্ষেত্রে এখনও অনেক পথ পাড়ি দিতে হবে। তবে আমি বিশ্বাস করি এই বছর আমরা উল্লেখযোগ্য অগ্রগতি দেখতে পাব।"

মূল বিষয়গুলো তুলে ধরুন! "খুব তাড়াতাড়ি", "অন্বেষণের জন্য অনেক দীর্ঘ পথ", "এই বছর উল্লেখযোগ্য অগ্রগতি"! এই কীওয়ার্ডগুলি তথ্যে পরিপূর্ণ। এর মানে হল DeepSeek বিশ্বাস করে যে RL-এর ক্ষেত্রে তাদের এখনও উন্নতির জন্য অনেক জায়গা আছে, এবং R1-এর বর্তমান ফলাফল হয়তো হিমশৈলের চূড়া মাত্র, তাই ভবিষ্যৎ আশাব্যঞ্জক!

এর ঠিক পরেই, আরেকজন নেটিজেন @kaush_trip (চিকু ত্রিপাঠি) আরও পেশাদার একটি প্রশ্ন জিজ্ঞাসা করেন যা সরাসরি মডেলিং দক্ষতার মূলে যায়:

ব্যবহারকারী বি @kaush_trip: “R1-Zero-এর পারফরম্যান্সের উপর ভিত্তি করে, আপনি কীভাবে মূল্যায়ন করবেন যে মডেলটি আসলেই আছে কিনা সাধারণীকরণ ক্ষমতা, অথবা এটা শুধু অবস্থা পরিবর্তন এবং পুরষ্কার মুখস্থ করে"?"

এই প্রশ্নটি খুবই যুক্তিসঙ্গত! সর্বোপরি, অনেক মডেলকে খুব শক্তিশালী মনে হয়, কিন্তু বাস্তবে তারা কেবল প্রশিক্ষণের তথ্য থেকে 'শিক্ষামূলক', এবং ভিন্ন পরিবেশে তারা ব্যর্থ হবে। DeepSeek R1 কি সত্যিই শুরু করার মতো?

দয়া গুও: "সাধারণীকরণ ক্ষমতা মূল্যায়নের জন্য আমরা RL প্রম্পটের আওতাভুক্ত নয় এমন ডোমেনগুলির জন্য একটি বেঞ্চমার্ক ব্যবহার করি। বর্তমানে, এটিতে সাধারণীকরণ ক্ষমতা রয়েছে বলে মনে হচ্ছে।"

"RL প্রম্পট দ্বারা আচ্ছাদিত এলাকা" বাক্যাংশটি মূল বিষয়! এর অর্থ হল DeepSeek প্রশিক্ষণ তথ্য দিয়ে মূল্যায়ন "প্রতারণা" করছে না, বরং নতুন পরিস্থিতির সাথে পরীক্ষা করা হয়েছে যেখানে মডেলটি কখনও দেখেনি পূর্বে, যা মডেলের সাধারণীকরণ স্তরকে সত্যিকার অর্থে প্রতিফলিত করতে পারে। দয়া গুওর "মনে হচ্ছে আছে" এই কঠোর শব্দের ব্যবহার এটিকে আরও বাস্তবসম্মত এবং বিশ্বাসযোগ্য করে তোলে

এরপর, @teortaxesTex আইডির একজন নেটিজেন, যিনি DeepSeek এর একজন বড় ভক্ত (তার মন্তব্যে "DeepSeek তিমি চিয়ারলিডিং দল" শব্দগুলিও অন্তর্ভুক্ত ছিল), DeepSeek V3 প্রযুক্তিগত প্রতিবেদন দিয়ে শুরু করেন এবং সম্পর্কে একটি প্রশ্ন জিজ্ঞাসা করেন মডেল প্রশিক্ষণের সময়:

ব্যবহারকারী সি @teortaxesTex: "যদি এটা গোপন না হয়: এবার RL প্রশিক্ষণ কতক্ষণ সময় নিয়েছে? মনে হচ্ছে ১০ ডিসেম্বরের প্রথম দিকেই আপনার R1 বা কমপক্ষে R1-Zero হয়ে গেছে, কারণ V3 টেকনিক্যাল রিপোর্টে উল্লেখ করা হয়েছে যে V2.5 মডেলটি R1 জ্ঞান পাতন ব্যবহার করেছে, এবং V2.5-1210 এর স্কোর বর্তমান মডেলের মতোই। এটি কি সেই প্রশিক্ষণের ধারাবাহিকতা?"

এই নেটিজেনের পর্যবেক্ষণের অসাধারণ ক্ষমতা আছে! তিনি কারিগরি প্রতিবেদন থেকে অনেক তথ্য বের করতে সক্ষম হয়েছেন। দয়া গুও ধৈর্য ধরে মডেলটির পুনরাবৃত্তি প্রক্রিয়াটি ব্যাখ্যা করেছেন:

দয়া গুও: "660B এর R1-Zero এবং R1 প্যারামিটারগুলি V3 প্রকাশের পরেই চলতে শুরু করে এবং প্রশিক্ষণে প্রায় 2-3 সপ্তাহ সময় লেগেছিল। আমরা আগে যে R1 মডেলটির কথা উল্লেখ করেছি (যেমন V3 টেকনিক্যাল রিপোর্টে) তা আসলে R1-Lite অথবা R1-Lite-Zero।"

তাহলে তো কথাই নেই! আমরা এখন যে R1-Zero এবং R1 দেখতে পাচ্ছি তা হল "নতুন এবং আপগ্রেড করা সংস্করণ", আর আগের R1-Lite সিরিজটি হল ছোটখাটো সংস্করণ। মনে হচ্ছে DeepSeek পর্দার আড়ালে অনেক সংস্করণ নীরবে পুনরাবৃত্তি এবং আপগ্রেড করেছে।

প্রশিক্ষণের গতি সম্পর্কে, নেটিজেন @jiayi_pirate (জিয়াই পান) এবং নেটিজেন B @kaush_trip একটি "আত্মার জিজ্ঞাসাবাদ" প্রকাশ করেছেন:

ব্যবহারকারী ডি @jiayi_pirate: "৩ সপ্তাহে ১০,০০০ RL ধাপ, প্রতিটি গ্রেডিয়েন্ট প্রোপাগেশন (grpo) ধাপে ~৩ মিনিট সময় লাগে 🤔"

ব্যবহারকারী বি @kaush_trip: "যদি প্রতিটি গ্রেডিয়েন্ট প্রোপাগেশন (grpo) ধাপে ~3 মিনিট সময় লাগে, তাহলে তা প্রতি ঘন্টায় প্রায় 5 ধাপ, প্রতিদিন 120 ধাপ, যা সত্যিই খুব ধীর।"

এটা সত্যিই একটা সূক্ষ্ম হিসাব! নেটিজেনদের হিসাব অনুযায়ী, DeepSeek R1-এর প্রশিক্ষণের গতি আসলেই দ্রুত নয়। এটি আরও দেখায় যে এই ধরনের উচ্চ-কার্যক্ষমতাসম্পন্ন RL মডেলের প্রশিক্ষণের খরচ এবং সময় বিনিয়োগ বিশাল। "ধীরগতির কাজ সূক্ষ্ম কাজ তৈরি করে" AI মডেল প্রশিক্ষণ বর্ণনা করার জন্য বেশ উপযুক্ত উপায় বলে মনে হচ্ছে।

অবশেষে, @davikrehalt (Andy Jiang) নামের একজন নেটিজেন আরও আধুনিক অ্যাপ্লিকেশন দৃষ্টিকোণ থেকে একটি প্রশ্ন জিজ্ঞাসা করলেন:

ব্যবহারকারী E @davikrehalt: "আপনি কি RL ব্যবহার করে চেষ্টা করেছেন পরিবেশের আনুষ্ঠানিক প্রমাণ"শুধু প্রশ্নের উত্তর দেওয়ার পরিবর্তে? এই বছর যদি একজন ওপেন-সোর্স মডেল IMO (আন্তর্জাতিক গণিত অলিম্পিয়াড) তে স্বর্ণপদক জিততে পারে, তাহলে এটা দারুন হবে! (এবং আরও আশা!)"

আনুষ্ঠানিক প্রমাণ! আমার মতে স্বর্ণপদক! এই নেটিজেন বেশ উচ্চাকাঙ্ক্ষী! তবে, গাণিতিক প্রমাণের হার্ডকোর ক্ষেত্রে AI প্রয়োগ করা প্রকৃতপক্ষে ভবিষ্যতের প্রবণতা। দয়া গুওর উত্তর আবারও অবাক করার মতো:

দয়া গুও: "আমরা লিনের মতো আনুষ্ঠানিক প্রমাণ পরিবেশেও R1 প্রয়োগ করার চেষ্টা করছি। আমরা আশা করি শীঘ্রই সম্প্রদায়ের কাছে আরও ভাল মডেল প্রকাশ করব।"

দয়া গুওর কথা থেকে মনে হচ্ছে যে তারা ইতিমধ্যেই এই ক্ষেত্রে অগ্রগতি করেছে, এবং ভবিষ্যতে আরও চিত্তাকর্ষক মডেল প্রকাশিত হতে পারে!

পরিশেষে

দয়া গুওর প্রতিক্রিয়া থেকে তিনটি মূল সংকেত পাওয়া যেতে পারে:

কারিগরি অবস্থান: আরএল এখনও প্রাথমিক পর্যায়ে রয়েছে, এবং কর্মক্ষমতা উন্নতি এখনও তাদের সীমায় পৌঁছাতে পারেনি;

যাচাইকরণ যুক্তি: ক্রস-ডোমেন পরীক্ষার জন্য সাধারণীকরণ ক্ষমতা, "মেমরি জল্পনা" প্রত্যাখ্যান করে

প্রয়োগের সীমানা: ভাষা মডেল থেকে গাণিতিক প্রমাণ পর্যন্ত, আরএল উচ্চ-স্তরের যুক্তির দিকে এগিয়ে যাচ্ছে

অনুরূপ পোস্ট

মন্তব্য করুন

আপনার ই-মেইল এ্যাড্রেস প্রকাশিত হবে না। * চিহ্নিত বিষয়গুলো আবশ্যক।