DeepSeek-R1 ٹیکنالوجی کا انکشاف: کاغذ کے بنیادی اصولوں کو توڑ دیا گیا ہے اور پیش رفت ماڈل کی کارکردگی کی کلید سامنے آئی ہے۔
آج ہم DeepSeek R1 کا اشتراک کریں گے، عنوان: DeepSeek-R1: Reinforcement Learning کے ذریعے LLMs میں استدلال کی صلاحیت کی حوصلہ افزائی: کمک سیکھنے کے ذریعے LLM کی استدلال کی صلاحیت کو ترغیب دینا۔ اس مقالے میں DeepSeek کے استدلال کے ماڈلز کی پہلی نسل، DeepSeek-R1-Zero اور DeepSeek-R1 متعارف کرائی گئی ہے۔ DeepSeek-R1-Zero ماڈل کو ابتدائی قدم کے طور پر بڑے پیمانے پر کمک سیکھنے (RL) کے ذریعے زیر نگرانی فائن ٹیوننگ (SFT) کے ذریعے تربیت دی گئی تھی،…