خلاصہ
اس مقالے میں DeepSeek کے پہلی نسل کے استدلال کے ماڈل متعارف کرائے گئے ہیں: DeepSeek-R1-Zero اور DeepSeek-R1۔ DeepSeek-R1-Zero، بغیر نگرانی کے فائن ٹیوننگ (SFT) کے بڑے پیمانے پر کمک سیکھنے (RL) کے ذریعے تربیت یافتہ، قابل ذکر استدلال کی صلاحیتوں کو ظاہر کرتا ہے۔ RL کے ذریعے، یہ قدرتی طور پر طاقتور استدلال کے طرز عمل کو تیار کرتا ہے۔ تاہم، اسے کمزور پڑھنے کی اہلیت اور زبان کے اختلاط جیسے چیلنجوں کا سامنا ہے۔ ان مسائل کو حل کرنے اور استدلال کی کارکردگی کو بڑھانے کے لیے، DeepSeek-R1 تیار کیا گیا تھا، جس میں RL سے پہلے ملٹی اسٹیج ٹریننگ اور کولڈ اسٹارٹ ڈیٹا شامل تھا۔ DeepSeek-R1 استدلال کے کاموں پر OpenAI-o1-1217 کے مقابلے کی کارکردگی کو حاصل کرتا ہے۔ تحقیق کو سپورٹ کرنے کے لیے، DeepSeek اوپن سورس دونوں ماڈلز اور چھ گھنے ماڈلز (1.5B, 7B, 8B, 14B, 32B, 70B) Qwen اور Llama کی بنیاد پر DeepSeek-R1 سے کشید کرتے ہیں۔
کلیدی شراکتیں۔
پوسٹ ٹریننگ: بڑے پیمانے پر کمک کی تعلیم
- بغیر SFT کے بیس ماڈل پر RL کو کامیابی کے ساتھ لاگو کیا گیا۔
- DeepSeek-R1-Zero تیار کیا، خود کی تصدیق اور عکاسی جیسی صلاحیتوں کا مظاہرہ
- پہلی کھلی تحقیق اس بات کی توثیق کرتی ہے کہ استدلال کی صلاحیتوں کو خالصتاً RL کے ذریعے ترغیب دی جا سکتی ہے۔
- DeepSeek-R1 کے لیے دو RL مراحل اور دو SFT مراحل کے ساتھ پائپ لائن متعارف کرائی گئی
کشید: چھوٹے ماڈلز کو بااختیار بنانا
- اس بات کا مظاہرہ کیا کہ بڑے ماڈلز سے استدلال کے نمونوں کو مؤثر طریقے سے چھوٹے ماڈلز میں نکالا جا سکتا ہے۔
- ریسرچ کمیونٹی کو فائدہ پہنچانے کے لیے اوپن سورس DeepSeek-R1 اور اس کا API
- غیر معمولی بینچ مارک کارکردگی دکھاتے ہوئے کئی گھنے ماڈلز کو ٹھیک بنایا گیا ہے۔
- ڈسٹلڈ ماڈل پچھلے اوپن سورس ماڈلز کو نمایاں طور پر پیچھے چھوڑ دیتے ہیں۔
تشخیص کے نتائج
استدلال کے کام
- DeepSeek-R1 نے AIME 2024 پر 79.8% Pass@1 حاصل کیا، OpenAI-o1-1217 کو پیچھے چھوڑ دیا۔
- MATH-500 پر 97.3% سکور، OpenAI-o1-1217 کے برابر کارکردگی دکھاتے ہوئے
- Codeforces پر 2,029 Elo ریٹنگ کے ساتھ کوڈ مقابلے کے کاموں میں ماہر کی سطح کی کارکردگی
علم کے کام
- MMLU (90.8%)، MMLU-Pro (84.0%)، اور GPQA Diamond (71.5%) پر شاندار نتائج
- تعلیمی کاموں میں بند سورس کے دوسرے ماڈلز کو پیچھے چھوڑتا ہے۔
- سادہ کیو اے جیسے حقائق پر مبنی بینچ مارکس پر مضبوط کارکردگی
عمومی صلاحیتیں۔
- تخلیقی تحریر، سوالوں کے جوابات، تدوین اور خلاصہ میں کمال
- AlpacaEval 2.0 پر 87.6% جیت کی شرح اور ArenaHard پر 92.3%
- طویل سیاق و سباق کو سمجھنے کے کاموں میں مضبوط کارکردگی
مستقبل کا کام
ٹیم اس پر توجہ مرکوز کرنے کا ارادہ رکھتی ہے:
- فنکشن کالنگ اور پیچیدہ رول پلےنگ جیسے شعبوں میں عمومی صلاحیتوں کو بڑھانا
- زبان کے اختلاط کے مسائل کو حل کرنا
- پرامپٹنگ انجینئرنگ کو بہتر بنانا
- سافٹ ویئر انجینئرنگ کے کاموں پر کارکردگی کو بڑھانا
نتیجہ
DeepSeek-R1 کمک سیکھنے کے ذریعے AI استدلال کی صلاحیتوں میں ایک اہم پیشرفت کی نمائندگی کرتا ہے۔ مرکزی ماڈل اور اس کے کشید شدہ ورژن دونوں کی کامیابی زیادہ قابل AI نظام تیار کرنے کے لیے اس نقطہ نظر کی صلاحیت کو ظاہر کرتی ہے۔ ان ماڈلز کی اوپن سورس ریلیز میدان میں مزید تحقیق اور ترقی میں معاون ثابت ہوگی۔