1 پس منظر
موسم بہار کے تہوار کے دوران، DeepSeek R1 ایک بار پھر بڑے پیمانے پر توجہ مبذول کروائی، اور یہاں تک کہ DeepSeek V3 تشریحی مضمون جو ہم نے پہلے لکھا تھا اسے بھی دوبارہ منتقل کیا گیا اور اس پر کافی بحث کی گئی۔
اگرچہ DeepSeek R1 کے بہت سے تجزیے اور ری پروڈکشن ہو چکے ہیں، یہاں ہم نے کچھ متعلقہ پڑھنے کے نوٹ مرتب کرنے کا فیصلہ کیا ہے۔
ہم ماڈل کی تعمیر اور کلیدی تکنیکی نکات کو ظاہر کرنے کے لیے تین بنیادی اسکیمیٹک خاکوں کا استعمال کریں گے، DeepSeek-R1 سیریز کے جوہر کو کشید کرتے ہوئے اس کے ڈیزائن کے آئیڈیاز کی مزید بدیہی تفہیم فراہم کریں گے۔
متعلقہ کاغذ ہے۔ [2501.12948] DeepSeek-R1: کمک سیکھنے کے ذریعے LLMs میں استدلال کی صلاحیت کو ترغیب دینا
اور متعلقہ اوپن سورس ماڈل ہے۔ DeepSeek-R1
2 تعارف
2.1 کامن ریزننگ الگورتھم
جیسا کہ ذیل میں تصویر 2 میں دکھایا گیا ہے، مصنف چار عام استدلال الگورتھم کی وضاحت کرتا ہے۔ اگرچہ وہ مخصوص تفصیلات میں مختلف ہیں، ان سب میں دو بنیادی آپریشنز شامل ہیں:
- توسیع: حل کے راستے کو بڑھانے کے لیے ٹوکن تیار کریں۔
- جمع: حتمی جواب حاصل کرنے کے لیے ہر راستے کے نتائج کو یکجا کریں۔ توسیع کے مرحلے میں کمپیوٹیشنل وسائل میں اضافہ عام طور پر جمع کرنے کے مرحلے میں جواب کے معیار کو بہتر بنا سکتا ہے۔
خود مستقل مزاجی (SC)۔ جیسا کہ شکل 2a میں دکھایا گیا ہے، SC کا بنیادی خیال متعدد مختلف آؤٹ پٹ تیار کرنا ہے (جو نمونے لینے کے پیرامیٹرز وغیرہ کو تبدیل کر کے حاصل کیے جا سکتے ہیں)، اور پھر سب سے زیادہ جیتنے کی شرح کے ساتھ جواب کو منتخب کرنے کے لیے تمام جوابات کو ووٹ دیں۔ کلیدی پیرامیٹر امیدواروں کے جوابات کی تعداد ہے n۔
ریبیس الگورتھم: جیسا کہ ذیل میں شکل 2b میں دکھایا گیا ہے، ریبیس متعدد آؤٹ پٹ بھی تیار کرتا ہے، لیکن وہ متعدد مراحل میں تیار ہوتے ہیں۔ ہر قدم کو ریوارڈ ماڈل کا استعمال کرتے ہوئے اسکور کیا جاتا ہے، اور سب سے زیادہ سکور والا نتیجہ تخلیق کرنا جاری رکھنے کے لیے استعمال کیا جاتا ہے۔ آخر میں، ایک سے زیادہ شاخوں کے ساتھ ایک استدلال کا درخت پیدا ہوتا ہے۔ سب سے زیادہ سکور (Best-of-N) کے ساتھ جواب جمع کرنے کے مرحلے میں منتخب کیا جاتا ہے۔
مونٹی کارلو ٹری سرچ (MCTS): جیسا کہ ذیل میں شکل 2c میں دکھایا گیا ہے، MCTS ایک طاقتور ریزننگ الگورتھم ہے جو بتدریج نمونے لے کر نوڈس کو پھیلاتا ہے اور ایک حل درخت کی تعمیر کرتا ہے جب تک کہ یہ امیدوار کے حل پر مشتمل لیف نوڈ تک نہ پہنچ جائے۔ ہر حل کو ریوارڈ ماڈل یا سمولیشن کے ذریعے اسکور کیا جاتا ہے، اور اسکور کو ان کے انعامی قدروں کو اپ ڈیٹ کرنے کے لیے اس کے آبائی نوڈس پر واپس پھیلایا جاتا ہے، اس طرح ایک تکرار مکمل ہوتی ہے۔ کلیدی پیرامیٹر بھی n ہے، اور n میں اضافہ ممکنہ حل کی گہری اور وسیع تر تلاش کی اجازت دیتا ہے۔
اندرونی علمی سلسلہ (ICoT)۔ جیسا کہ ذیل میں شکل 2d میں دکھایا گیا ہے، تازہ ترین LLMs، جیسے OpenAI o1 اور Qwen-QWQ، کسی واضح استدلال الگورتھم کی ضرورت کے بغیر تربیت کے دوران استدلال کے رویے کو اندرونی بنا سکتے ہیں۔ بنیادی خیال یہ ہے کہ ایک CoT تسلسل پیدا کرنا، پیچیدہ مسائل کو متعدد ذیلی مسائل میں تحلیل کرنا، اور پھر ایک حل تک پہنچنے کے لیے پچھلے نتائج پر غور کرکے ان جوابات کو تکراری طور پر بہتر بنانا ہے۔

2.2 ریزننگ سیدھ کے طریقے
2.2.1 N طریقہ کا بہترین جائزہ
مختصراً، Best-of-N ایک سیدھ کا طریقہ ہے جو بڑے پیمانے پر LLM تخمینہ میں استعمال ہوتا ہے، جس کا مقصد متعدد امیدواروں کے جوابات پیدا کرکے اور بہترین کو منتخب کرکے پیدا کردہ نتائج کے اعلیٰ معیار کو یقینی بنانا ہے۔ یہ تین اہم عمل پر مشتمل ہے:
- جنریشن کا عمل: ایک دیئے گئے پرامپٹ X کے لیے، بہترین-آف-N طریقہ N IID جوابات (Y₁, Y₂, …, Yₙ) تیار کرتا ہے، جہاں N کو اکثر "بیچ سائز" کہا جاتا ہے۔
- اسکورنگ میکانزم: ہر تیار کردہ جواب کو ایک انعامی ماڈل کے ذریعے اسکور کیا جاتا ہے تاکہ متعلقہ اسکور {s(Y₁), s(Y₂), …, s(Yₙ)} حاصل کیا جا سکے۔
- بہترین جواب کا انتخاب: آخر میں، تمام پیدا کردہ جوابات میں سب سے زیادہ اسکور کے ساتھ جواب کو آؤٹ پٹ کے طور پر منتخب کیا جاتا ہے، یعنی Y_Best-of-N = argmax {s(Y₁), s(Y₂), …, s(Yₙ)}۔
اس طریقہ کار کے فوائد یہ ہیں:
- یہ پیچیدہ ٹھیک ٹیوننگ کے مراحل سے مؤثر طریقے سے بچ سکتا ہے، جس سے زبان کے ماڈلز کو تعینات کرنا آسان ہو جاتا ہے جو پہلے سے تربیت یافتہ ہیں یا ہدایات کے ساتھ ٹھیک ہیں۔
- یہ لاگو کرنا آسان ہے، سمجھنے میں آسان ہے، اور بنیادی طور پر ہائپر پیرامیٹر سے پاک ہے: بنیادی ہائپر پیرامیٹر N ہے، جسے قیاس کے دوران متحرک طور پر ایڈجسٹ کیا جا سکتا ہے۔
- یہ نسل کے معیار کے لحاظ سے انتہائی مسابقتی ہے اور یہاں تک کہ کچھ پیچیدہ پوسٹ ٹریننگ تکنیکوں جیسے RLHF یا DPO کا بھی مقابلہ کر سکتی ہے۔ تحقیق سے پتہ چلتا ہے کہ بیسٹ-آف-ن طریقہ ریوارڈ اور KL ڈائیورجنس کے درمیان ٹریڈ آف وکر پر اچھی کارکردگی کا مظاہرہ کرتا ہے، یہاں تک کہ دیگر پیچیدہ الائنمنٹ حکمت عملیوں کو بھی پیچھے چھوڑتا ہے۔
اس طریقہ کار کے نقصانات ہیں۔
- تخمینہ کے لیے N ترتیب پیدا کرنے کی ضرورت ہوتی ہے، جو اہم کمپیوٹیشنل اوور ہیڈ کا باعث بن سکتا ہے۔ عملی طور پر، N کے لیے ایک معقول قدر 4 سے 128 تک ہوتی ہے، لیکن تربیت کے بعد کے جدید ترین طریقوں سے مقابلہ کرنے کے لیے، اعلیٰ N اقدار کی ضرورت ہو سکتی ہے، جیسے کہ 1000 سے 60000، جو تقریباً ناقابل قبول کمپیوٹیشنل اوور ہیڈ کا باعث بن سکتی ہے۔
N کا بہترین طریقہ اکثر بعد میں زیر نگرانی فائن ٹیوننگ کے لیے اعلیٰ معیار کے ڈیٹاسیٹس تیار کرنے کے لیے استعمال کیا جاتا ہے اور اس نے LLaMA-2 اور LLaMA-3 کی صف بندی کے عمل میں کلیدی کردار ادا کیا ہے۔
2.2.2 اوپن اے آئی کا بہترین طریقہ
اوپن اے آئی نے سب سے پہلے بیسٹ آف این سیمپلنگ کی تجویز پیش کی۔ انسانی تاثرات سے خلاصہ کرنا سیکھنا . خاص طور پر، اس کا استعمال ایک سے زیادہ ماڈلز سے تیار کردہ بہترین سمری کو منتخب کرکے سمری ماڈل کی کارکردگی کا جائزہ لینے اور اسے بہتر بنانے کے لیے کیا جاتا ہے۔ یہ طریقہ محققین کو مختلف تشخیصی میٹرکس اور انسانی تشخیص کار کی ترجیحات کے درمیان تعلق کو بہتر طور پر سمجھنے میں مدد کرتا ہے، اور اس کا استعمال ماڈل کی تربیت اور اصلاح کی رہنمائی کے لیے کیا جاتا ہے۔
اوپن اے آئی فالو اپ میں بیسٹ آف این سیمپلنگ (ریجیکشن سیمپلنگ) کا بھی استعمال کرتا ہے۔ [2112.09332] WebGPT: انسانی تاثرات کے ساتھ براؤزر کی مدد سے سوال جواب. خاص طور پر، جوابات کی ایک مقررہ تعداد (4، 16 یا 64) کا نمونہ BC ماڈل یا RL ماڈل سے لیا جاتا ہے، اور سب سے زیادہ ریوارڈ ماڈل اسکور والے کو مخالف انعامی ماڈل کے لیے ایک اصلاحی طریقہ کے طور پر منتخب کیا جاتا ہے۔ یہ طریقہ اضافی تربیت کی ضرورت نہیں ہے، لیکن حاصل کرنے کے لئے تخمینہ مرحلے کی کمپیوٹیشنل پیچیدگی کو بڑھاتا ہے.
2.2.3 گوگل بانڈ کا طریقہ
میں بانڈ: بیسٹ-آف-این ڈسٹلیشن کے ساتھ ایل ایل ایم کو سیدھ میں لاتے ہوئے، گوگل کے مصنفین بیسٹ-آف-این ڈسٹلیشن (BOND) تجویز کرتے ہیں۔, ایک نیا RLHF الگورتھم جس کو ڈسٹری بیوشن میچنگ الگورتھم کے ذریعے بہترین-آف-N نمونے لینے کی حکمت عملی کی تقلید کے لیے ڈیزائن کیا گیا ہے، بغیر انفرنس کے دوران کمپیوٹیشنل اوور ہیڈ کو نمایاں طور پر بڑھایا۔

خاص طور پر، مصنف سب سے پہلے Best-of-N نمونے لینے کی درست تجزیاتی تقسیم اخذ کرتا ہے اور Best-of-N نمونے لینے کا امکانی فعل دیتا ہے:

دوسرا، مصنفین اس مسئلے کو تقسیم کے مماثل مسئلے کے طور پر بیان کرتے ہیں۔

اس کے بعد، مصنفین نے جیفری ڈائیورجنس کو تقسیم کے مماثل مقصد کے طور پر استعمال کرنے کی تجویز پیش کی:

آخر میں، N کو منتخب کرنے کے مسئلے کو حل کرنے کے لیے، مصنفین تکراری BOND طریقہ تجویز کرتے ہیں، جو بہترین-آف-N تقسیم کو تکراری طور پر کشید کرکے حکمت عملی کی کارکردگی کو بہتر بناتا ہے۔ مخصوص اقدامات میں شامل ہیں:
معاون اینکر حکمت عملی π(اینکر) شروع کریں۔
ہر قدم کے بعد Best-of-N π(اینکر) کو ڈسٹل کرنے اور π(اینکر) کو اپ ڈیٹ کرنے کے لیے بار بار BOND پر عمل کریں۔

2.3 عمل کی نگرانی اور نتائج کی نگرانی
نتیجہ اور عمل ریوارڈ ماڈل کی تشخیص کے دو پہلوؤں کا حوالہ دیتے ہیں:
- نتیجہ انعام کا ماڈل: اندازہ کریں کہ آیا ماڈل آؤٹ پٹ کا حتمی نتیجہ درست ہے یا توقع کے مطابق۔
- پروسیس ریوارڈ ماڈل: اس بات کا اندازہ کرتا ہے کہ آیا نتائج پیدا کرنے کے عمل میں ماڈل کے استدلال اور فیصلہ سازی کے اقدامات معقول اور موثر ہیں۔
مثال کے طور پر، OpenAI's Let's Verify Step by Step | OpenAI نے بھی ذکر کیا ہے:
- عمل کی نگرانی (نتیجہ کی نگرانی): ماڈل کے استدلال کے عمل کے ہر مرحلے پر رائے فراہم کرنا شامل ہے۔ پروسیس کے زیر نگرانی انعامی ماڈلز (PRM) کو حل کے ہر قدم کی درستگی کی پیشین گوئی کرنے کی تربیت دی جاتی ہے۔
- نتائج کی نگرانی: نتائج کی نگرانی صرف ماڈل کے استدلال کے حتمی نتیجے پر مبنی رائے فراہم کرتا ہے۔ نتائج کے زیر نگرانی انعامی ماڈلز (ORM) کو حل کے حتمی جواب کا استعمال کرتے ہوئے تربیت دی جاتی ہے، اور درستگی کا تعین خودکار جانچ کے ذریعے کیا جاتا ہے۔
2.4 انعام ہیکنگ
RL میں، ریوارڈ ہیکنگ سے مراد وہ رجحان ہے جس میں ایک ایجنٹ انعامی فنکشن کے ڈیزائن میں خامی کا فائدہ اٹھاتا ہے تاکہ مجموعی انعام کو اس طرح سے زیادہ سے زیادہ حاصل کیا جا سکے جو ڈیزائنر کے اصل ارادے پر پورا نہ اترتا ہو۔ اگرچہ یہ طرز عمل تکنیکی طور پر انعامی تقریب کے اصلاحی ہدف کو پورا کرتا ہے، لیکن اصل اثر متوقع کام کے ہدف سے ہٹ جاتا ہے اور یہاں تک کہ منفی نتائج کا باعث بھی بن سکتا ہے۔
اہم نکتہ تجزیہ:
- تعریف اور اظہار:
- ایجنٹ کو ریوارڈ فنکشن میں کوئی خامی نظر آتی ہے اور اصل میں مسئلہ کو حل کرنے کے بجائے "شارٹ کٹ" لے کر اعلیٰ انعام حاصل کرتا ہے۔
- مثال کے طور پر، ایک صفائی کرنے والا روبوٹ کمرے کو صاف ستھرا بنانے کے بجائے روشنی کو بند کر دیتا ہے۔ ایک گیم ایجنٹ لیول گول مکمل کیے بغیر بار بار پوائنٹ اسکور کرتا ہے۔ بریک لگانے کے اوقات کی تعداد کو کم کرنے کے لیے سست نہ ہونے کا انتخاب کرنا، جس سے حفاظتی خطرہ ہوتا ہے؛ بے معنی مواد تیار کرنا جو مطلوبہ الفاظ سے میل کھاتا ہے تاکہ اعلی اسکور حاصل کرنے کے لیے۔
- بنیادی وجوہات:
- نامکمل ریوارڈ فنکشن ڈیزائن: حد سے زیادہ آسان بنانا یا ایج کیسز کو کور کرنے میں ناکامی۔
- اہداف اور انعامات کے درمیان غلط ترتیب: انعام کا فنکشن حقیقی مقصد کی مکمل عکاسی کرنے میں ناکام ہو جاتا ہے، جس کی وجہ سے ایجنٹ "غلط" مقصد کے لیے بہتر ہوتا ہے۔
- حل:
- انعام کے ڈیزائن کو بہتر بنائیں: کثیر جہتی انعامات (مثلاً حفاظت، کارکردگی، وغیرہ) متعارف کرائیں یا انعام کے فنکشن کو متحرک طور پر ایڈجسٹ کریں۔
- مخالفانہ تصدیق: پتہ لگائیں کہ آیا ایجنٹ اضافی میکانزم کے ذریعے "دھوکہ دہی" کر رہا ہے۔
- دستی مداخلت اور رکاوٹیں: طرز عمل کی حدود مقرر کریں (مثلاً حفاظتی تہہ) یا دستی تاثرات (جیسے RLHF)۔
- الٹا کمک سیکھنے (IRL): ماہر مظاہروں سے زیادہ حقیقت پسندانہ انعامی فنکشن سیکھیں۔
- درجہ بندی کی تقویت کی تعلیم: مقامی اصلاح کے خطرے کو کم کرنے کے لیے کام کو ذیلی اہداف میں تبدیل کریں۔
- اوور فٹنگ کے ساتھ تعلق:
- دونوں ٹریننگ میٹرکس اور حقیقی دنیا کی کارکردگی کے درمیان منقطع ہونے کی نمائش کرتے ہیں، لیکن ریوارڈ ہیکنگ ماڈل کی عمومی صلاحیت کی بجائے ریوارڈ فنکشن کی ڈیزائن کی خامیوں پر زیادہ زور دیتی ہے۔
- خلاصہ:
- ریوارڈ ہیکنگ RL میں گول کی صف بندی کے چیلنج کو ظاہر کرتی ہے۔ اس مسئلے کو حل کرنے کے لیے زیادہ مضبوط انعامی میکانزم ڈیزائن کرنے، بیرونی رکاوٹوں کو متعارف کرانے، اور انسانی پیشگی معلومات کو شامل کرنے کے امتزاج کی ضرورت ہوتی ہے تاکہ یہ یقینی بنایا جا سکے کہ ایجنٹ کا طرز عمل موثر اور ڈیزائن کے ارادے کے مطابق ہو۔
3 DeepSeek-R1-زیرو اور DeepSeek-R1
3.1 جائزہ
پچھلی تحقیق نے بڑے پیمانے پر ماڈل کی کارکردگی کو بہتر بنانے کے لیے زیر نگرانی ڈیٹا کی بڑی مقدار پر انحصار کیا ہے۔ یہ مطالعہ ظاہر کرتا ہے کہ SFT کو کولڈ اسٹارٹ کے بغیر بھی، بڑے پیمانے پر RL ماڈل کی استدلال کی صلاحیت کو نمایاں طور پر بڑھا سکتا ہے۔ اس کے علاوہ، کولڈ سٹارٹ ڈیٹا کی تھوڑی مقدار کا تعارف کارکردگی کو مزید بہتر بنا سکتا ہے۔ مندرجہ ذیل ماڈلز DeepSeek-R1 سے متعلق ہیں:
- DeepSeek-R1-Zero: یہ ماڈل بغیر کسی SFT ڈیٹا کے RL کو براہ راست بیس ماڈل پر لاگو کرتا ہے۔
- DeepSeek-R1: یہ ماڈل RL کا اطلاق ایک چوکی سے شروع ہوتا ہے جسے ہزاروں طویل CoT نمونوں کے ساتھ ٹھیک بنایا گیا ہے۔
- DeepSeek-R1-Distill-xx: DeepSeek-R1 کی استدلال کی صلاحیت کو ایک چھوٹے ڈینس ماڈل میں ڈسٹل کرتا ہے۔
3.2 DeepSeek-R1-زیرو
مندرجہ ذیل اعداد و شمار DeepSeek-R1-Zero ماڈل کی تربیت کے اہم نکات کو ظاہر کرتا ہے:

PS: یہ واضح رہے کہ کاغذ DeepSeek-R1-Zero کے RL عمل میں استعمال ہونے والے ڈیٹا کے بارے میں زیادہ معلومات فراہم نہیں کرتا ہے۔ تاہم، بعد میں R1 کی تربیت میں ڈیٹا بنانے کے عمل اور مقدار کی کچھ وضاحت موجود ہے، حالانکہ یہ خاص طور پر مخصوص نہیں ہے۔
3.2.1 RL الگورتھم
RL کی تربیتی لاگت کو کم کرنے کے لیے، مصنفین DeepSeek کا اپنا GRPO (گروپ ریلیٹیو پالیسی آپٹیمائزیشن) طریقہ استعمال کرتے ہیں، [2402.03300] DeepSeekMath: اوپن لینگویج ماڈلز میں ریاضیاتی استدلال کی حدود کو آگے بڑھانا۔ یہ طریقہ تنقیدی ماڈل کو ترک کر دیتا ہے، جو عام طور پر پالیسی ماڈل سے سائز میں موازنہ ہوتا ہے، اور اس کے بجائے گروپ سکور کا استعمال کرتے ہوئے بیس لائن کا تخمینہ لگاتا ہے۔ متعلقہ وضاحت نیچے دی گئی تصویر میں دکھائی گئی ہے (ٹویٹر سے تصویر):

3.2.2 انعامی ماڈلنگ
انعامات تربیتی سگنلز کا ذریعہ ہیں اور RL کی اصلاح کی سمت کا تعین کرتے ہیں۔ DeepSeek-R1-Zero کو تربیت دینے کے لیے، مصنفین نے اصول پر مبنی انعامی نظام استعمال کیا، جو بنیادی طور پر دو قسم کے انعامات پر مشتمل ہے:
- درستگی کا انعام: اندازہ کریں کہ آیا جواب درست ہے۔ مثال کے طور پر:
- تعییناتی نتائج کے ساتھ ریاضی کے مسائل میں، ماڈل کو حتمی جواب ایک مخصوص فارمیٹ میں فراہم کرنے کی ضرورت ہوتی ہے (جیسے کہ باکس کے اندر) تاکہ قواعد کے ذریعے اس کی درستگی کی تصدیق کی جا سکے۔
- اسی طرح، LeetCode کے مسائل کے لیے، پہلے سے طے شدہ ٹیسٹ کیسز پر مبنی کمپائلر کا استعمال کرتے ہوئے فیڈ بیک تیار کیا جا سکتا ہے۔
- فارمیٹ ریوارڈ: ایک فارمیٹ ریوارڈ کا استعمال ماڈل کو اس کے سوچنے کے عمل کو " "اور" ٹیگز
DeepSeek-R1-Zero کی ترقی کے دوران، مصنف نے نتائج کے اعصابی انعام کے ماڈل یا پروسیس نیورل ریوارڈ ماڈل کا استعمال نہیں کیا کیونکہ مصنف نے پایا کہ نیورل ریوارڈ ماڈل کو بڑے پیمانے پر RL پراسیس میں ریوارڈ سپوفنگ (ریوارڈ ہیکنگ) کا سامنا کرنا پڑ سکتا ہے۔ اس کے علاوہ، ریوارڈ ماڈل کو دوبارہ تربیت دینے کے لیے نہ صرف اضافی تربیتی وسائل کی ضرورت ہوتی ہے، بلکہ پورے تربیتی عمل کو پیچیدہ بنا دیتا ہے۔
3.2.3 ٹریننگ ٹیمپلیٹ
DeepSeek-R1-Zero کو تربیت دینے کے لیے، مصنفین نے سب سے پہلے ایک سادہ ٹیمپلیٹ ڈیزائن کیا تاکہ سیٹ ہدایات پر عمل کرنے کے لیے بیس ماڈل کی رہنمائی کی جا سکے۔ جیسا کہ ذیل میں جدول 1 میں دکھایا گیا ہے، ٹیمپلیٹ کو DeepSeek-R1-Zero کی ضرورت ہوتی ہے تاکہ ایک تخمینہ کا عمل تیار کیا جا سکے اور پھر حتمی جواب دیا جا سکے۔

مصنف نے جان بوجھ کر اس ساختی فریم ورک میں رکاوٹوں کو محدود کیا تاکہ کسی بھی مواد کے تعصب کو متعارف کرانے سے بچایا جا سکے - مثال کے طور پر، عکاس استدلال کو مجبور کرنا یا مسئلہ حل کرنے کی مخصوص حکمت عملیوں کو فروغ دینا - اس بات کو یقینی بنانے کے لیے کہ ماڈل کے قدرتی ارتقاء کو RL عمل کے دوران درست طریقے سے دیکھا جا سکے۔
3.2.4 نتیجہ
SFT ڈیٹا کے بغیر مضبوط استدلال کی صلاحیتیں: RL کو براہ راست بیس ماڈل سے شروع کر کے، SFT مداخلت کے بغیر ماڈل کے ارتقاء کی رفتار کو قریب سے مانیٹر کیا جا سکتا ہے۔ جیسا کہ نیچے دی گئی شکل 3 سے ظاہر ہوتا ہے، DeepSeek-R1-Zero کا سوچنے کا وقت تربیت کے پورے عمل میں بہتر ہوتا رہا (ترقی کی لمبائی آہستہ آہستہ لمبی ہوتی گئی)۔ یہ بہتری بیرونی ایڈجسٹمنٹ سے نہیں آئی بلکہ ماڈل کی اندرونی ترقی کا قدرتی نتیجہ تھی۔ DeepSeek-R1-Zero نے فطری طور پر بڑھتے ہوئے پیچیدہ تخمینے والے کاموں کو حل کرنے کی صلاحیت حاصل کی ہے، جیسے کہ عکاسی کرنے کی صلاحیت، آزمائشی وقت کے توسیعی حسابات کا استعمال کرکے۔

DeepSeek-R1-Zero نے تربیت کے دوران ایک "آہا لمحہ" کا تجربہ کیا۔ جیسا کہ ذیل میں جدول 3 میں دکھایا گیا ہے، یہ لمحہ ماڈل کے درمیانی ورژن کے مرحلے کے دوران پیش آیا۔ اس مرحلے کے دوران، DeepSeek-R1-Zero نے اپنے ابتدائی نقطہ نظر کا از سر نو جائزہ لے کر مسائل کے لیے مزید سوچنے کا وقت مختص کرنا سیکھا۔

اکثریتی ووٹنگ: DeepSeek-R1-Zero کی کارکردگی کو اکثریتی ووٹنگ کا اطلاق کرکے مزید بہتر بنایا جا سکتا ہے۔ مثال کے طور پر، جیسا کہ ذیل میں جدول 2 میں دکھایا گیا ہے، AIME بینچ مارک ٹیسٹ میں اکثریتی ووٹنگ کے استعمال کے بعد، اس کی کارکردگی OpenAI-o1-0912 کو پیچھے چھوڑتے ہوئے 71.0% سے 86.7% تک پہنچ جاتی ہے۔

کمزوریاں: جب کہ DeepSeek-R1-Zero مضبوط استدلال کی صلاحیتوں کا مظاہرہ کرتا ہے اور خود مختار طور پر غیر متوقع اور طاقتور استدلال کے رویے کو تیار کرتا ہے، اسے اب بھی چیلنجز کا سامنا ہے جیسے کہ پڑھنے کی اہلیت اور زبان کی ناقص آمیزش۔
3.3 DeepSeek-R1
استدلال کے عمل کو مزید پڑھنے کے قابل بنانے اور اسے کھلی برادری کے ساتھ شیئر کرنے کے لیے، مصنفین نے مزید DeepSeek-R1 طریقہ دریافت کیا، جو RL کے لیے انسان دوست کولڈ اسٹارٹ ڈیٹا استعمال کرتا ہے۔ DeepSeek-R1-Zero سے متاثر ہو کر، دو فطری سوالات کی پیروی کرتے ہیں:
- کیا استدلال کی کارکردگی کو مزید بہتر کیا جا سکتا ہے یا کولڈ سٹارٹ کے طور پر تھوڑی مقدار میں اعلیٰ معیار کے ڈیٹا کو متعارف کروا کر کنورجنسی کے عمل کو تیز کیا جا سکتا ہے؟
- ہم کس طرح ایک صارف دوست ماڈل کو تربیت دے سکتے ہیں جو نہ صرف واضح اور مربوط CoTs تیار کرتا ہے بلکہ مضبوط عمومی صلاحیتوں کو بھی ظاہر کرتا ہے؟
ان سوالات کے جواب میں، ہم نے DeepSeek-R1 کے لیے ایک تربیتی عمل ڈیزائن کیا۔ یہ عمل متعدد مراحل پر مشتمل ہے، جیسا کہ ذیل میں بیان کیا گیا ہے:
اسٹیج-1، جیسا کہ نیچے دی گئی تصویر میں دکھایا گیا ہے، DeepSeek-R1 کی درمیانی حالت کو SFT + RL کے ذریعے تربیت دیتا ہے:

مندرجہ ذیل اعداد و شمار مراحل 2، 3 اور 4 کو دکھاتا ہے:
- اسٹیج-2: اوپری بائیں، 200K نان ریزننگ ڈیٹا اور 600K ریزننگ ڈیٹا بنائیں۔
- اسٹیج-3: اوپری دائیں، SFT + RL ٹرین DeepSeek-R1۔
- اسٹیج-4: لوئر فگر، ڈسٹل DeepSeek-R1-Distill-xx۔

3.3.1 کولڈ سٹارٹ (مرحلہ-1)
DeepSeek-R1-Zero کے برعکس، RL ٹریننگ کے آغاز میں بیس ماڈل کے غیر مستحکم کولڈ سٹارٹ مرحلے کو روکنے کے لیے، مصنفین نے ابتدائی RL ایکٹر کے طور پر ماڈل کو ٹھیک کرنے کے لیے DeepSeek-R1 کے لیے تھوڑی مقدار میں لانگ CoT ڈیٹا بنایا اور اکٹھا کیا۔ اس ڈیٹا کو جمع کرنے کے لیے، مصنفین نے مختلف طریقوں کی تلاش کی:
- لانگ CoT مثالوں کے ساتھ چند شاٹ پرامپٹس کا استعمال
- عکاسی اور تصدیق کے ساتھ تفصیلی جوابات پیدا کرنے کے لیے ماڈل کو براہ راست اشارہ کرنا
- انسانی پڑھنے کے قابل فارمیٹ میں DeepSeek-R1-Zero آؤٹ پٹ جمع کرنا
- دستی لیبلنگ کے ساتھ پوسٹ پروسیسنگ کے ذریعے نتائج کو بہتر بنانا
مصنفین نے کل ہزاروں کولڈ اسٹارٹ ڈیٹا اکٹھا کیا، جسے RL کے نقطہ آغاز کے طور پر DeepSeek-V3-Base کو ٹھیک کرنے کے لیے استعمال کیا گیا۔ DeepSeek-R1-Zero کے مقابلے میں، کولڈ اسٹارٹ ڈیٹا کے فوائد میں شامل ہیں۔
- پڑھنے کی اہلیت: DeepSeek-R1-Zero جوابات کو متعدد زبانوں میں ملایا جا سکتا ہے یا صارف کے جوابات کو نمایاں کرنے کے لیے استعمال ہونے والی مارک ڈاؤن فارمیٹنگ کی کمی ہے۔ اس کے برعکس، DeepSeek-R1 کے لیے کولڈ اسٹارٹ ڈیٹا بناتے وقت، مصنف نے ایک پڑھنے کے قابل فارمیٹ ڈیزائن کیا جس میں ہر جواب کے آخر میں ایک خلاصہ شامل ہوتا ہے اور ناقابل پڑھے جانے والے جوابات کو فلٹر کرتا ہے۔ یہاں، آؤٹ پٹ فارمیٹ کو |special_token| کے طور پر بیان کیا گیا ہے۔ |خصوصی_ٹوکن|
، جہاں استدلال_عمل استفسار کی زنجیروں والی سوچ ہے اور سمری کو استدلال کے نتائج کا خلاصہ کرنے کے لیے استعمال کیا جاتا ہے۔ - ممکنہ: انسانی - ایک ترجیحی کولڈ اسٹارٹ ڈیٹا پیٹرن کے مجموعہ کو احتیاط سے ڈیزائن کرکے، مصنفین نے مشاہدہ کیا کہ اس کی کارکردگی DeepSeek-R1-Zero سے بہتر ہے۔
3.3.2 استدلال پر مبنی آر ایل (مرحلہ-1)
کولڈ سٹارٹ ڈیٹا پر DeepSeek-V3-بیس کو ٹھیک کرنے کے بعد، DeepSeek-R1-Zero جیسا ہی بڑے پیمانے پر RL ٹریننگ کا عمل استعمال کیا جاتا ہے۔ اس مرحلے کا مقصد استدلال پر مبنی کاموں میں ماڈل کی صلاحیت کو بہتر بنانا ہے، خاص طور پر پروگرامنگ، ریاضی، سائنس اور منطقی استدلال کے مسائل کے واضح حل کے ساتھ۔
تربیت کے دوران، مصنفین نے مشاہدہ کیا کہ CoT اکثر زبان کے اختلاط کا شکار ہوتا ہے، خاص طور پر جب RL پرامپٹ میں متعدد زبانیں شامل ہوں۔ زبان کے اختلاط کے مسئلے کو دور کرنے کے لیے، مصنفین نے RL ٹریننگ میں زبان کی مستقل مزاجی کا انعام متعارف کرایا، جس کا حساب CoT میں ہدف کی زبان میں الفاظ کے تناسب کی بنیاد پر کیا جاتا ہے۔ اگرچہ ختم کرنے کے تجربات سے پتہ چلتا ہے کہ یہ صف بندی کا طریقہ ماڈل کی کارکردگی میں معمولی کمی کا باعث بنتا ہے، لیکن یہ انعامی طریقہ کار انسانی ترجیحات کے مطابق ہے اور پڑھنے کی اہلیت کو بڑھاتا ہے۔ آخر میں، مصنفین حتمی انعام کی تشکیل کے لیے ریزننگ ٹاسک کی درستگی کو زبان کی مستقل مزاجی کے انعام میں شامل کرتے ہیں، اور RL ٹریننگ کو فائن ٹیونڈ ماڈل پر لاگو کرتے ہیں جب تک کہ یہ ریزننگ ٹاسک پر اکٹھا نہ ہو جائے۔
3.3.3 800,000 منتخب ڈیٹا کی تعمیر (مرحلہ-2)
جب کہ RL for Reasoning کنورج ہوتا ہے، SFT ڈیٹا اگلے ٹریننگ راؤنڈ کے لیے نتیجے میں آنے والے چیک پوائنٹ کا استعمال کرتے ہوئے اکٹھا کیا جاتا ہے۔ ابتدائی کولڈ سٹارٹ ڈیٹا کے برعکس، جو بنیادی طور پر استدلال پر توجہ مرکوز کرتا ہے، اس مرحلے میں ماڈل کی تحریری صلاحیت کو بڑھانے، کردار ادا کرنے اور دیگر عمومی مقاصد کے کاموں میں دیگر ڈومینز کے ڈیٹا کو شامل کیا جاتا ہے۔ خاص طور پر، ڈیٹا تیار کیا جاتا ہے اور ماڈل کو اس طرح ٹھیک کیا جاتا ہے:
- استدلال کا ڈیٹا: استدلال کے اشارے کا انتخاب کیا جاتا ہے اور مذکورہ بالا آر ایل تربیت یافتہ چیک پوائنٹ (DeepSeek-R1 اسٹیج 1) سے مسترد ہونے کے نمونے لینے کے ذریعے استدلال کی رفتار تیار کی جاتی ہے۔ پچھلے مرحلے میں، صرف وہ ڈیٹا شامل کیا گیا تھا جس کا اصول پر مبنی انعامات کا استعمال کرتے ہوئے جائزہ لیا جا سکتا تھا۔ تاہم، اس مرحلے پر، ڈیٹاسیٹ کو مزید ڈیٹا شامل کرکے بڑھایا گیا، جن میں سے کچھ انعامی ماڈل کا استعمال کرتے ہوئے تیار کیے گئے تھے، اور اصل جوابات کا اندازہ ماڈل کی پیشین گوئیوں کو DeepSeek-V3 (DeepSeek V3 بطور جج) میں ڈال کر کیا گیا تھا۔ اس کے علاوہ، چونکہ ماڈل آؤٹ پٹ بعض اوقات الجھا ہوا اور پڑھنا مشکل ہوتا ہے، اس لیے مخلوط زبان کی سوچ کی زنجیریں، طویل پیراگراف، اور کوڈ بلاکس کو فلٹر کر دیا گیا۔ ہر پرامپٹ کے لیے، متعدد جوابات کے نمونے لیے گئے اور صرف درست جوابات (Best-of-N) کو برقرار رکھا گیا۔ مجموعی طور پر، تقریباً 600,000 استدلال سے متعلق تربیتی نمونے جمع کیے گئے۔
- غیر معقول ڈیٹا: جیسا کہ تحریر، حقائق سے متعلق سوالات، خود آگاہی، اور ترجمہ، نے DeepSeek-V3 عمل کا استعمال کیا اور DeepSeek-V3 کے کچھ SFT ڈیٹاسیٹس کو دوبارہ استعمال کیا۔ کچھ غیر معقول کاموں کے لیے، DeepSeek-V3 کو سوال کا جواب دینے سے پہلے ممکنہ CoTs پیدا کرنے کے لیے کہا جاتا ہے۔ تاہم، "ہیلو" جیسے سادہ سوالات کے لیے، جواب میں کوئی سوچ کا سلسلہ فراہم نہیں کیا گیا ہے۔ آخر میں، کل تقریباً 200,000 غیر معقول تربیتی نمونے جمع کیے گئے۔
3.3.4 تمام منظرناموں کے لیے SFT اور RL (مرحلہ-3)
DeepSeek-V3-Base پر 800,000 کے قریب منتخب نمونوں کی فائن ٹیوننگ کے دو راؤنڈ مذکورہ بالا دو ڈیٹا سیٹس (ریزننگ اور نان ریزننگ) کا استعمال کرتے ہوئے انجام دیے گئے۔
ماڈل کو انسانی ترجیحات کے ساتھ مزید ہم آہنگ کرنے کے لیے، مصنفین نے RL کا دوسرا مرحلہ نافذ کیا، جس کا مقصد ماڈل کی افادیت اور بے ضرریت کو بہتر بنانا ہے اور ساتھ ہی اس کی استدلال کی صلاحیتوں کو بھی بہتر بنانا ہے۔ خاص طور پر، ماڈل کو انعامی سگنلز اور متنوع فوری تقسیم کے امتزاج کے ساتھ تربیت دی گئی تھی۔
- استدلال کے اعداد و شمار کے لیے، DeepSeek-R1-Zero میں بیان کردہ طریقہ کار کی پیروی کی جاتی ہے، ریاضی، پروگرامنگ اور منطقی استدلال کے شعبوں میں ماڈل کے سیکھنے کی رہنمائی کے لیے اصول پر مبنی انعامی طریقہ کار کا استعمال کرتے ہوئے
- عام اعداد و شمار کے لیے، Reward ماڈل کا استعمال پیچیدہ اور لطیف حالات میں انسانی ترجیحات کو حاصل کرنے کے لیے کیا جاتا ہے۔ DeepSeek-V3 عمل کی بنیاد پر ترجیحی جوڑوں اور ٹریننگ پرامپٹ تقسیم کی ایک جیسی حکمت عملی استعمال کی جاتی ہے۔
- افادیت کے لحاظ سے، صرف حتمی خلاصے پر غور کیا جاتا ہے، اس بات کو یقینی بناتے ہوئے کہ تشخیص صارف کے جواب کی عملییت اور مطابقت پر مرکوز ہے جبکہ بنیادی استدلال کے عمل میں مداخلت کو کم سے کم کرتا ہے۔
- جہاں تک بے ضرریت کا تعلق ہے، ماڈل کے پورے ردعمل کا جامع جائزہ لیا جاتا ہے، جس میں استدلال کا عمل اور خلاصہ بھی شامل ہے، تاکہ جنریشن کے عمل کے دوران پیدا ہونے والے کسی بھی ممکنہ خطرات، تعصبات، یا نقصان دہ مواد کی شناخت اور اسے ختم کیا جا سکے۔
- بالآخر، انعامی سگنلز کو یکجا کرکے اور ڈیٹا کی تقسیم کو متنوع بنا کر، ایک ایسا ماڈل جو فائدے اور بے ضرریت دونوں کو ترجیح دیتا ہے جبکہ استدلال میں بھی مہارت رکھتا ہے۔
3.3.5 کشید (مرحلہ-4)
DeepSeek-R1 کی استدلال کی صلاحیت سے زیادہ موثر چھوٹے ماڈل سے لیس کرنے کے لیے، مصنفین نے DeepSeek-R1-اسٹیج-1 میں منتخب کردہ 800,000 نمونوں کا استعمال کرتے ہوئے اوپن سورس ماڈلز Qwen اور LLaMA کو براہ راست ٹھیک کیا۔ نتائج سے پتہ چلتا ہے کہ یہ براہ راست کشید کا طریقہ چھوٹے ماڈلز کی استدلال کی صلاحیت کو نمایاں طور پر بہتر بناتا ہے۔ مصنفین کے ذریعہ استعمال کیے گئے بنیادی ماڈلز میں Qwen2.5-Math-1.5B، Qwen2.5-Math-7B، Qwen2.5-14B، Qwen2.5-32B، Llama-3.1-8B اور Llama-3.3-70B-انسٹرکٹ شامل ہیں۔ Llama-3.3 کو منتخب کیا گیا کیونکہ اس کی استدلال کی صلاحیت Llama-3.1 سے قدرے بہتر ہے۔
ڈسٹلیشن ماڈل کے لیے، مصنف صرف SFT استعمال کرتا ہے اور اس میں RL سٹیج شامل نہیں ہے۔ اگرچہ RL کا تعارف ماڈل کی کارکردگی کو بہت بہتر بنا سکتا ہے، لیکن یہاں مصنف کا بنیادی مقصد ڈسٹلیشن ٹیکنالوجی کی تاثیر کو ظاہر کرنا ہے، اور RL مرحلے کی تلاش کو بعد کی تحقیق پر چھوڑ دیا گیا ہے۔
PS: اس کے علاوہ، مندرجہ بالا ڈیٹا کو تیار کرنے کے لیے حتمی DeepSeek-R1 کا استعمال کرنا اور ڈسٹلیشن کے لیے استعمال ہونے والے 800,000 ڈیٹا کو دوبارہ تشکیل دینا درحقیقت ممکن ہے، اور ڈسٹلڈ ماڈل کا بہتر اثر ہو سکتا ہے۔ تاہم، قیمت یہ ہے کہ ڈیٹا کو دوبارہ تشکیل دینے کی ضرورت ہے۔