Paper-DeepSeek-R1: کمک سیکھنے کے ذریعے LLMs میں استدلال کی صلاحیت کو ترغیب دینا

خلاصہ یہ مقالہ DeepSeek کے پہلی نسل کے استدلال کے ماڈلز کو متعارف کراتا ہے: DeepSeek-R1-Zero اور DeepSeek-R1۔ DeepSeek-R1-Zero، بغیر نگرانی کے فائن ٹیوننگ (SFT) کے بڑے پیمانے پر کمک سیکھنے (RL) کے ذریعے تربیت یافتہ، قابل ذکر استدلال کی صلاحیتوں کو ظاہر کرتا ہے۔ RL کے ذریعے، یہ قدرتی طور پر طاقتور استدلال کے طرز عمل کو تیار کرتا ہے۔ تاہم، اسے کمزور پڑھنے کی اہلیت اور زبان کے اختلاط جیسے چیلنجوں کا سامنا ہے۔ ان مسائل کو حل کرنے اور استدلال کی کارکردگی کو بڑھانے کے لیے، DeepSeek-R1 تیار کیا گیا،…