بریکنگ نیوز! DeepSeek محقق نے آن لائن انکشاف کیا۔: R1 کی تربیت میں صرف دو سے تین ہفتے لگے، اور چینی نئے سال کی چھٹی کے دوران R1 صفر کا ایک طاقتور ارتقاء دیکھا گیا۔
ابھی، ہم نے دیکھا کہ DeepSeek محقق دیا گو DeepSeek R1 اور کمپنی کے آگے بڑھنے والے منصوبوں کے بارے میں netizens کے سوالات کا جواب دیا۔ ہم صرف یہ کہہ سکتے ہیں کہ DeepSeek R1 صرف آغاز ہے، اور اندرونی تحقیق اب بھی تیزی سے آگے بڑھ رہی ہے۔ DeepSeek محققین نے چینی نئے سال کی تعطیلات کے دوران وقفہ تک نہیں کیا، اور وہ تحقیق کو آگے بڑھانے کے لیے انتھک محنت کر رہے ہیں۔ DeepSeek میں کچھ بڑی حرکتیں آرہی ہیں۔
بات یہ ہے: یکم فروری کو، دیا گو نے ایک ٹویٹ پوسٹ کی جس میں اس چیز کو ظاہر کیا گیا جس نے انہیں چینی نئے سال کی چھٹی کے دوران سب سے زیادہ پرجوش کیا: "مسلسل ترقی" کی کارکردگی وکر کی R1-زیرو ماڈل، اور احساس کی طاقتور قوت کمک سیکھنے (RL)!
ڈیپ سیک اے آئی کے محقق دیا گوو نیٹیزنز سے بات کر رہے ہیں۔
اب میں آپ کی نیٹیزنز کے ساتھ دیا گو کی گفتگو کو دوبارہ پیش کرنے میں مدد کروں گا:
Netizen A @ PseudoProphet: "بڑا شاٹ، میں پوچھنا چاہتا ہوں کہ کارکردگی میں یہ مسلسل بہتری کب تک چلے گی۔ کیا یہ اب بھی ابتدائی مراحل میں ہے؟ کیا ایسا لگتا ہے کہ DeepSeek کا RL ماڈل ابھی شروع ہو رہا ہے، جیسے زبان کے ماڈلز میں GPT-2؟ یا کیا یہ GPT-3.5 جیسے زیادہ پختہ مرحلے پر پہنچ گیا ہے، اور کوئی رکاوٹ بننے والا ہے؟
یہ ایک بہت تیز سوال ہے، جس کا براہ راست تعلق DeepSeek کی RL ٹیکنالوجی کی صلاحیت سے ہے! دیا گو کا جواب بھی بہت ایماندارانہ ہے:
دیا گو: "میرے خیال میں ہم ابھی بھی بہت ابتدائی مرحلے میں ہیں، اور RL کے میدان میں ابھی بہت طویل سفر طے کرنا ہے۔ لیکن مجھے یقین ہے کہ ہم اس سال نمایاں پیش رفت دیکھیں گے۔
اہم نکات کو نمایاں کریں! "بہت جلدی", "تلاش کرنے کا ایک طویل راستہ", "اس سال اہم پیش رفت"! یہ مطلوبہ الفاظ معلومات سے بھرے ہوئے ہیں۔ اس کا مطلب یہ ہے کہ DeepSeek کا خیال ہے کہ ان کے پاس اب بھی RL کے میدان میں بہتری کی کافی گنجائش ہے، اور R1 کے موجودہ نتائج صرف برفانی تودے کا سرہ ہوسکتے ہیں، اس لیے مستقبل امید افزا ہے!
اس کے فوراً بعد، ایک اور نیٹیزن @kaush_trip (چیکو ترپاٹھی) نے ایک اور پیشہ ورانہ سوال پوچھا جو براہ راست ماڈل کی صلاحیتوں کے مرکز تک جاتا ہے:
صارف بی @kaush_trip: "R1-Zero کی کارکردگی کی بنیاد پر، آپ اس بات کا اندازہ کیسے لگاتے ہیں کہ آیا ماڈل میں واقعی ہے۔ عام کرنے کی صلاحیت، یا یہ صرف ریاستی تبدیلیوں اور انعامات کو یاد کرتا ہے۔؟
یہ سوال بہت اہم ہے! سب کے بعد، بہت سے ماڈل بہت طاقتور لگتے ہیں، لیکن حقیقت میں وہ تربیتی ڈیٹا سے صرف 'روٹ لرننگ' ہیں، اور وہ ایک مختلف ماحول میں ناکام ہو جائیں گے. کیا DeepSeek R1 واقعی سکریچ تک ہے؟
دیا گوو: "ہم ان ڈومینز کے لیے ایک بینچ مارک استعمال کرتے ہیں جو کہ RL پرامپٹ میں شامل نہیں ہوتے ہیں تاکہ عام کرنے کی اہلیت کا اندازہ کیا جا سکے۔ فی الحال، ایسا لگتا ہے کہ اس میں عام کرنے کی صلاحیت موجود ہے۔"
جملہ "علاقوں کا احاطہ نہیں کیا گیا RL پرامپٹ" کلید ہے! اس کا مطلب یہ ہے کہ DeepSeek تربیتی اعداد و شمار کے ساتھ تشخیص کو "دھوکہ دہی" نہیں دے رہا ہے، بلکہ اس کا تجربہ نئے منظرناموں کے ساتھ کیا جاتا ہے کہ ماڈل کبھی نہیں دیکھا اس سے پہلے، جو ماڈل کی عمومی سطح کی صحیح معنوں میں عکاسی کر سکتا ہے۔ دیا گو کا سخت الفاظ کا استعمال "لگتا ہے" بھی اسے زیادہ حقیقت پسندانہ اور قابل اعتبار بناتا ہے۔
اس کے بعد، @teortaxesTex ID کے ساتھ ایک نیٹیزن، جو DeepSeek کا ایک بڑا پرستار ہے (اس کے تبصرے میں "DeepSeek وہیل چیئر لیڈنگ ٹیم" کے الفاظ بھی شامل ہیں) نے DeepSeek V3 تکنیکی رپورٹ کے ساتھ شروعات کی اور اس کے بارے میں ایک سوال پوچھا۔ ماڈل ٹریننگ کا وقت:
صارف C @teortaxesTex: "اگر یہ کوئی راز نہیں ہے: اس وقت آر ایل کی تربیت میں کتنا وقت لگا؟ ایسا محسوس ہوتا ہے کہ آپ کے پاس 10 دسمبر سے پہلے ہی R1 یا کم از کم R1-Zero موجود تھا، کیونکہ V3 تکنیکی رپورٹ میں بتایا گیا ہے کہ V2.5 ماڈل نے R1 نالج ڈسٹلیشن کا استعمال کیا ہے، اور V2.5-1210 کا سکور ایک جیسا ہے۔ موجودہ ماڈل. کیا یہ اس تربیت کا تسلسل ہے؟
اس نیٹیزن کے پاس مشاہدے کی حیرت انگیز قوتیں ہیں! وہ تکنیکی رپورٹ سے اتنی تفصیلات نکالنے میں کامیاب رہا۔ دیا گو نے بھی صبر کے ساتھ ماڈل کے تکراری عمل کی وضاحت کی:
دیا گوو: "660B کے R1-Zero اور R1 پیرامیٹرز V3 کی ریلیز کے بعد ہی چلنا شروع ہوئے، اور تربیت میں تقریباً 2-3 ہفتے لگے۔ R1 ماڈل جس کا ہم نے پہلے ذکر کیا ہے (جیسے کہ V3 تکنیکی رپورٹ میں) دراصل R1-Lite یا R1-Lite-Zero ہے۔
تو بس! R1-Zero اور R1 جو ہم اب دیکھتے ہیں وہ "نئے اور اپ گریڈ شدہ ورژن" ہیں، اور پچھلی R1-Lite سیریز معمولی ورژن ہیں۔ ایسا لگتا ہے کہ DeepSeek نے پردے کے پیچھے بہت سے ورژنز کو خاموشی سے دہرایا اور اپ گریڈ کیا ہے۔
ٹریننگ کی رفتار کے بارے میں، نیٹیزنز @jiayi_pirate (Jiayi Pan) اور netizen B @kaush_trip نے "روح سے پوچھ گچھ" کی ہے:
صارف D @jiayi_pirate: 3 ہفتوں میں 10,000 RL قدم، ہر گراڈینٹ پروپیگیشن (grpo) قدم میں ~3 منٹ لگتے ہیں 🤔
صارف بی @kaush_trip: "اگر ہر تدریجی پھیلاؤ (grpo) قدم میں ~ 3 منٹ لگتے ہیں، تو یہ تقریباً 5 قدم فی گھنٹہ، 120 قدم فی دن ہے، جو واقعی بہت سست ہے۔"
یہ واقعی ایک پیچیدہ حساب کتاب ہے! نیٹیزن کے حساب سے، DeepSeek R1 کی تربیت کی رفتار درحقیقت تیز نہیں ہے۔ اس سے یہ بھی ظاہر ہوتا ہے کہ ایسے اعلیٰ کارکردگی والے RL ماڈل کی تربیت کی لاگت اور وقت کی سرمایہ کاری بہت زیادہ ہے۔ "آہستہ کام اچھا کام پیدا کرتا ہے" ایسا لگتا ہے کہ AI ماڈل کی تربیت کو بیان کرنے کا ایک مناسب طریقہ ہے۔
آخر میں، @davikrehalt (Andy Jiang) نامی ایک نیٹیزن نے درخواست کے زیادہ جدید نقطہ نظر سے ایک سوال پوچھا:
صارف E @davikrehalt: "کیا آپ نے RL استعمال کرنے کی کوشش کی ہے؟ ماحول کا باضابطہ ثبوتصرف سوالات کے جوابات دینے کے بجائے؟ یہ بہت اچھا ہوگا اگر ایک اوپن سورس ماڈل اس سال IMO (انٹرنیشنل میتھمیٹیکل اولمپیاڈ) میں گولڈ میڈل جیت سکے۔ (اور مزید امیدیں!)
رسمی ثبوت! IMO گولڈ میڈل! یہ نیٹیزن کافی مہتواکانکشی ہے! تاہم، ریاضیاتی ثبوت کے کٹر فیلڈ میں AI کا اطلاق درحقیقت مستقبل کا رجحان ہے۔ دیا گو کا جواب ایک بار پھر حیران کن ہے:
دیا گو: "ہم رسمی ثبوت کے ماحول جیسے کہ لین پر بھی R1 کا اطلاق کرنے کی کوشش کر رہے ہیں۔ ہمیں امید ہے کہ جلد ہی کمیونٹی کے لیے بہتر ماڈلز جاری کریں گے۔‘‘
دیا گو کے الفاظ سے، ایسا لگتا ہے کہ انہوں نے اس شعبے میں پہلے ہی ترقی کی ہے، اور مستقبل میں اس سے بھی زیادہ متاثر کن ماڈل جاری ہو سکتے ہیں!
بند ہونے میں
دیا گو کے جواب سے تین اہم سگنلز نکالے جا سکتے ہیں:
تکنیکی پوزیشننگ: RL اب بھی اپنے ابتدائی مراحل میں ہے، اور کارکردگی میں بہتری اپنی حدوں تک پہنچنے سے بہت دور ہے۔
توثیق کی منطق: کراس ڈومین ٹیسٹنگ کے لیے عام کرنے کی صلاحیت، "میموری قیاس آرائیوں کو مسترد کرنا
درخواست کی حدود: زبان کے ماڈلز سے لے کر ریاضی کے ثبوت تک، RL اعلیٰ ترتیب کے استدلال کی طرف بڑھ رہا ہے۔