آج ہم شیئر کریں گے۔ DeepSeek R1, Title: DeepSeek-R1: LLMs میں Reasoning Capability via Reinforcement Learning: Incentivizing LLM کی استدلال کی صلاحیت کو کمک سیکھنے کے ذریعے۔

اس مقالے میں DeepSeek کے استدلال کے ماڈلز کی پہلی نسل متعارف کرائی گئی ہے، DeepSeek-R1-زیرو اور DeepSeek-R1. DeepSeek-R1-Zero ماڈل کے ذریعے تربیت دی گئی تھی۔ بڑے پیمانے پر ریانفورسمنٹ لرننگ (RL) بغیر نگرانی کے فائن ٹیوننگ (SFT) کے ابتدائی قدم کے طور پر، RL کی صلاحیت اور اعلیٰ استدلال کی صلاحیتوں کو ظاہر کرتا ہے۔ یہ لاتا ہے. کمک سیکھنے کے ذریعے، DeepSeek-R1-Zero قدرتی طور پر بہت سے طاقتور اور دلچسپ استدلال کے طرز عمل کے ساتھ ابھرا۔. R1-Zero (لسانی الجھنیں، بہتر عام کرنے کی صلاحیت) کے ساتھ کچھ مسائل کو مزید بہتر بنانے کے لیے، انہوں نے جاری کیا۔ DeepSeek-R1، جو کمک سیکھنے سے پہلے ملٹی اسٹیج ٹریننگ اور کولڈ اسٹارٹ ڈیٹا فائن ٹیوننگ کو یکجا کرتا ہے۔ DeepSeek-R1 نے موازنہ کارکردگی حاصل کی۔ OpenAI-01-1217 کے ساتھ استدلال کے کام پر۔ تحقیقی برادری کی مدد کے لیے، ان کے پاس ہے۔ اوپن سورس DeepSeek-R1-Zero, DeepSeek-R1، اور چھ گھنے ماڈل (1.5B, 7B, 8B, 14B, 32B, 70B) DeepSeek-R1 سے کشید کیے گئے ہیں، جو کیوین اور لاما پر مبنی ہیں۔.

طریقہ کار کی خصوصیات کا خلاصہ مندرجہ ذیل ہے:

  1. کمک سیکھنے کا اطلاق براہ راست بیس ماڈل پر کیا جاتا ہے، ابتدائی قدم کے طور پر زیر نگرانی فائن ٹیوننگ (SFT) پر انحصار کیے بغیر۔
  2. DeepSeek-R1 ترقیاتی عمل متعارف کرایا گیا ہے، جو ماڈل کی استدلال اور غیر معقول صلاحیتوں کی بنیاد رکھنے کے لیے دو کمک سیکھنے کے مراحل اور دو زیر نگرانی فائن ٹیوننگ کے مراحل کو یکجا کرتا ہے۔.
  3. استدلال کے کاموں پر چھوٹے ماڈلز کی کارکردگی کو بڑے ماڈلز کے استدلال کے نمونوں کو چھوٹے ماڈلز میں منتقل کرکے بہتر کیا جاتا ہے۔ کشید کی تکنیک.

جائزہ

حوصلہ افزائی

  • موجودہ بڑے لینگوئج ماڈلز (LLMs) نے تخمینہ کے کاموں میں نمایاں پیش رفت کی ہے، لیکن پھر بھی چیلنجز کا سامنا ہے۔
  • خالص کی صلاحیت LLMs کی استدلال کی صلاحیت کو بہتر بنانے میں کمک سیکھنے (RL) کو مکمل طور پر تلاش نہیں کیا گیا ہے۔خاص طور پر زیر نگرانی ڈیٹا پر انحصار کیے بغیر۔
  • آر ایل کے ذریعے تربیت یافتہ ماڈلز، جیسے DeepSeek-R1-Zero، پڑھنے کی اہلیت اور زبان کے اختلاط کے ساتھ مسائل ہیں (مثلاً، چینی اور انگریزی مخلوط بولنا)، اور صارف دوستی کو بہتر بنانے کے لیے مزید بہتری کی ضرورت ہے۔.

طریقے

DeepSeek-R1-Zero: بیس ماڈل کے طور پر DeepSeek-V3-Base استعمال کرتا ہے، اور GRPO (گروپ ریلیٹیو پالیسی آپٹیمائزیشن) کو کمک سیکھنے کے طور پر فریم ورک ماڈل کی کارکردگی کو بہتر بنانے کے لیے زیر نگرانی ڈیٹا کے بغیر.

DeepSeek-R1:

  • کولڈ سٹارٹ: اعلیٰ معیار کے طویل CoT (چین آف تھاٹ) ڈیٹا کی ایک چھوٹی سی مقدار جمع کرتا ہے اور اسے ٹھیک کرتا ہے۔ DeepSeek-V3-بیس ماڈل کمک سیکھنے کے ابتدائی اداکار کے طور پر۔
  • استدلال پر مبنی کمک سیکھنا: وہی DeepSeek-R1-Zero کے طور پر کمک سیکھنے کے تربیتی عمل کو لاگو کیا جاتا ہے، لیکن ماڈل کی استدلال کی صلاحیتوں کو بڑھانے پر توجہ کے ساتھ کوڈنگ، ریاضی، سائنس اور منطقی استدلال جیسے شعبوں میں۔ CoT میں پائے جانے والے لسانی اختلاط کے مسئلے کو کم کرنے کے لیے لسانی مستقل مزاجی کے انعامات متعارف کرائے گئے ہیں۔
  • ریجیکشن سیمپلنگ اور سپروائزڈ فائن ٹیوننگ: کمک سیکھنے کے کنورجڈ چیک پوائنٹ کا استعمال کرتا ہے۔ سپروائزڈ فائن ٹیوننگ (SFT) ڈیٹا اکٹھا کریں۔ بعد کی تربیت کے لیے۔
  • تمام منظرناموں کے لیے کمک سیکھنا: دوسرے درجے کی کمک سیکھنے کے مرحلے کو نافذ کرتا ہے، جس کا مقصد اس کی استدلال کی صلاحیت کو بہتر بناتے ہوئے ماڈل کی مددگار اور بے ضرریت۔
  • علم کشید: DeepSeek-R1 کے ذریعہ تیار کردہ 800k نمونوں کا استعمال کرتے ہوئے اوپن سورس ماڈلز Qwen اور Llama کو براہ راست بہتر بناتا ہے۔

تفصیلی طریقے اور طریقہ کار:

DeepSeek-R1-Zero: بیس ماڈلز کے لیے کمک سیکھنا

  • کمک سیکھنے کا الگورتھم: گروپ ریلیٹیو پالیسی آپٹیمائزیشن (GRPO) الگورتھم کا استعمال کرتا ہے، جو a کی ضرورت نہیں ہے۔ نقاد ماڈل، گروپ سکور کے حساب سے بیس لائن کا تخمینہ لگاتا ہے، اور تربیت کے اخراجات کو کم کرتا ہے۔.
  • انعامی ماڈلنگ: استعمال کرتا ہے a اصول پر مبنی انعام کا نظامسمیت
  • درستگی کا انعام: اس بات کا اندازہ کرتا ہے کہ آیا جواب درست ہے، جیسے کہ حتمی نتیجہ کی درستگی ریاضی کے مسئلے کا جواب، کوڈ کے مسائل کے لیے مرتب کرنے والے کی رائے.
  • انعام کی شکل دیں: ماڈل کی حوصلہ افزائی کرتا ہے۔ سوچنے کے عمل کو درمیان میں رکھیں اور ٹیگز.

تربیتی سانچہ: ایک ٹیمپلیٹ جس پر مشتمل ہے۔ اور ٹیگز کو ڈیزائن کیا گیا ہے۔ پہلے سوچنے کے عمل کو آؤٹ پٹ کرنے کے لیے ماڈل کی رہنمائی کریں، اور پھر حتمی جواب.

  • خود ارتقائی عمل: DeepSeek-R1-Zero نے مظاہرہ کیا۔ تربیت کے دوران خود ارتقائی خصوصیات، اور خود مختار طور پر زیادہ پیچیدہ استدلال کی حکمت عملیوں کو سیکھنے کے قابل تھا، جیسے کہ متعدد مسائل کو حل کرنے کے راستوں کی عکاسی اور تلاش.

DeepSeek-R1: کولڈ اسٹارٹ کے ساتھ مل کر کمک سیکھنا

  • سرد آغاز: DeepSeek-R1-Zero's کو حل کرنے کے لیے پڑھنے کی اہلیت کا مسئلہ، DeepSeek-R1 سب سے پہلے کی ایک چھوٹی سی رقم جمع کرتا ہے اعلی معیار کا CoT ڈیٹا اور DeepSeek-V3-بیس ماڈل کو ٹھیک کرتا ہے۔ کمک سیکھنے کے ابتدائی اداکار کے طور پر کام کریں۔. کولڈ اسٹارٹ ڈیٹا خلاصہ ٹیگ اور غیر دوستانہ جوابات پر مشتمل ہے۔ فلٹر کر رہے ہیں.
    • طریقہ: 1) اعلیٰ معیار کا طویل COT ڈیٹا منتخب کریں۔ 2) شامل کریں اور ٹیگ کریں۔
    • فوائد: 1) آپٹمائزڈ پڑھنے کی اہلیت (R1-Zero کے کثیر لسانی مسئلہ یا مارک ڈاؤن فارمیٹ کا مسئلہ حل کریں)۔ 2) احتیاط سے منتخب کردہ انسانی ترجیحی ڈیٹا R1-Zero پر کارکردگی کو بہتر بنا سکتا ہے۔
    • سوال: پڑھنے کی اہلیت کا مسئلہ کیوں حل کریں؟ کیا اسے حل کیے بغیر بہتر کرنا ممکن نہیں ہے (مثال کے طور پر، آؤٹ پٹ کی لمبائی کو کم کرنا اور زیادہ مؤثر طریقے سے اندازہ لگانا)؟
  • استدلال پر مبنی RL: کولڈ سٹارٹ ماڈل کی بنیاد پر، ایک کمک سیکھنے کے عمل کی طرح کوڈنگ، ریاضی، سائنسی اور منطقی استدلال جیسے کاموں میں ماڈل کی قابلیت کو بہتر بنانے پر توجہ مرکوز کرتے ہوئے DeepSeek-R1-Zero کا اطلاق ہوتا ہے۔. مخلوط زبانوں کے مسئلے کو حل کرنے کے لیے (کثیر زبانی استدلال), زبان کی مستقل مزاجی کے انعامات متعارف کرایا جاتا ہے.
    • سوال: سائنسی اور منطقی استدلال کے کاموں اور ڈیٹاسیٹس کو کس طرح تربیت دی جاتی ہے؟
  • مسترد نمونے اور SFT: انفرنس گائیڈڈ کمک سیکھنے کے بعد، حاصل شدہ چوکی کو استعمال کیا جاتا ہے۔ نیا SFT ڈیٹا تیار کرنے کے لیے مسترد ہونے کا نمونہ، جسے DeepSeek-V3 کے ڈیٹا کے ساتھ ملایا جاتا ہے تاکہ تحریری، کردار ادا کرنے، اور عام کاموں میں ماڈل کی صلاحیتوں کو بڑھایا جا سکے۔
    • مقصد:
      • اس مرحلے کے بعد شروع کیا جاتا ہے inference-oriented reinforcement Learning (RL) کا عمل یکجا ہو جاتا ہے۔.
      • کا بنیادی مقصد ہے۔ زیر نگرانی فائن ٹیوننگ (SFT) ڈیٹا اکٹھا کریں۔ بعد کے تربیتی راؤنڈ میں استعمال کے لیے۔
      • ابتدائی کولڈ سٹارٹ ڈیٹا کے برعکس، جو صرف اندازہ پر مرکوز ہے، اس مرحلے کا مقصد ہے۔ ماڈل کی صلاحیتوں کو وسعت دیں۔ تحریر، کردار سازی اور دیگر عمومی مقاصد کے کاموں کا احاطہ کرنے کے لیے، نہ صرف اندازہ۔
    • ڈیٹا اکٹھا کرنا - انفرنس ڈیٹا:
      • طریقہ: استناد پر مبنی RL مرحلے سے حاصل کردہ چیک پوائنٹس کو مسترد کرنے کے نمونے لینے کے ذریعے تخمینہ کی رفتار پیدا کرنے کے لیے استعمال کریں۔
      • ڈیٹا سیٹ کی توسیع: پچھلے RL مرحلے کے برعکس، جس میں صرف اصول پر مبنی انعامی ڈیٹا استعمال کیا گیا تھا، یہاں غیر اصول پر مبنی انعام کا ڈیٹا متعارف کرایا گیا ہے۔ کچھ صورتوں میں، جواب کا تعین کرنے کے لیے ایک جنریٹو ریوارڈ ماڈل (DeepSeek-V3) استعمال کیا جاتا ہے۔
      • ڈیٹا فلٹرنگ: معیار اور پڑھنے کی اہلیت کو یقینی بنانے کے لیے، آؤٹ پٹ کو ہٹانے کے لیے فلٹر کیا جاتا ہے:
        • مخلوط زبانوں پر مشتمل سوچ کی زنجیریں۔
        • طویل پیراگراف
        • کوڈ بلاکس
      • نمونے اور انتخاب: ہر پرامپٹ کے لیے، متعدد جوابات تیار کیے گئے۔ ڈیٹاسیٹ کے لیے صرف "درست" جواب کو برقرار رکھا گیا تھا۔
      • ڈیٹا سیٹ کا سائز: تقریباً 600,000 تخمینہ سے متعلق تربیتی نمونے۔ اس طرح جمع کیے گئے تھے۔
    • ڈیٹا اکٹھا کرنا - نان انفرنس ڈیٹا:
      • کوریج: تحریر، حقائق پر مبنی سوال کا جواب (QA)، خود آگاہی اور ترجمہ۔
      • کاغذ کے استعمال کا ذکر ہے۔ DeepSeek-V3 کا عمل اور DeepSeek-V3 SFT ڈیٹاسیٹ کا حصہ دوبارہ استعمال کرتا ہے ان غیر متوقع کاموں کو سنبھالنے کے لیے۔ کے بارے میں 200,000 تخمینہ سے آزاد نمونے۔ جمع کیے گئے تھے۔ (نوٹ: غیر مصدقہ اعداد و شمار کے جمع کرنے کی تفصیلات سیکشن 2.3.4 میں مزید بیان کی گئی ہیں)
    • جمع کردہ ڈیٹا کا استعمال:
      • جمع کردہ استدلال اور غیر معقول اعداد و شمار (کل تقریباً 800,000 نمونے - 600,000 استدلال کے نمونے + 200,000 غیر معقول نمونے) دو ادوار کے لیے DeepSeek-V3-بیس ماڈل کو ٹھیک بنائیں. اس باریک ٹیونڈ ماڈل کو پھر سیکشن 2.3.4 میں بیان کردہ حتمی RL مرحلے میں استعمال کیا گیا۔
    • خلاصہ یہ مرحلہ تخمینہ کی صلاحیتوں کا استعمال کرتا ہے۔ متنوع اور اعلیٰ معیار کا SFT ڈیٹاسیٹ بنانے کے لیے RL کے ذریعے سیکھا۔ یہ ڈیٹاسیٹ تخمینہ کی صلاحیتوں کو مضبوط کرتا ہے اور اس کی عمومی صلاحیتوں کو بھی وسعت دیتا ہے۔ آخری صف بندی اور بہتری کے مرحلے میں تربیت کا ماڈل۔
  • تمام منظرناموں کے لیے کمک سیکھنا: انسانی ترجیحات کو مزید ہم آہنگ کرنے کے لیے، ماڈل کی مدد اور بے ضرریت کو بہتر بنانے کے لیے کمک سیکھنے کا دوسرا مرحلہ لاگو کیا جاتا ہے۔
    • انفرنس ڈیٹا: مثال کے طور پر ریاضی، کوڈ، منطقی اندازہ یا قاعدہ کی بنیاد کے طریقوں کے ساتھ زیر نگرانی۔
    • عام ڈیٹا: انعامی ماڈلز اب بھی پیچیدہ اور لطیف منظرناموں کے لیے ترجیحی معلومات فراہم کرنے کے لیے استعمال کیے جاتے ہیں۔ جوڑے کے اعداد و شمار کے ساتھ تربیت یافتہ ماڈلز کا بھی تخمینہ لگایا جاتا ہے۔
    • افادیت: صرف حتمی خلاصہ کے نتائج پر توجہ مرکوز کریں، تخمینہ کے عمل میں مداخلت کو کم کریں۔
    • بے ضرریت: کسی بھی خطرے کو کم کرنے کے لیے پورے ردعمل کی نگرانی کریں۔

ماڈل کشید (کشیدگی):

  • زیادہ کارآمد چھوٹے انفرنس ماڈل کو حاصل کرنے کے لیے، کاغذ Qwen اور Llama سیریز کے اوپن سورس ماڈلز میں DeepSeek-R1 کی انفرنس کی صلاحیت کو ڈسٹل کرتا ہے۔ کشید کا عمل صرف زیر نگرانی فائن ٹیوننگ (SFT) استعمال کرتا ہے اور کمک سیکھنے کے مرحلے کا استعمال نہیں کرتا ہے۔

نتیجہ

DeepSeek-R1-زیرو: کی صلاحیت کو ظاہر کرتا ہے۔ LLM inference کی صلاحیت کو متحرک کرنے میں خالص کمک سیکھنا، اور مضبوط کارکردگی حاصل کر سکتا ہے۔ زیر نگرانی ڈیٹا پر انحصار کیے بغیر۔

  • آہ لمحہ: کمک سیکھنے کی خوبصورتی (ماڈل کا روشن خیالی کا لمحہ، جہاں یہ دوبارہ جائزہ لینا سیکھ کر کسی مسئلے کے لیے مزید سوچنے کا وقت مختص کرتا ہے۔ ابتدائی نقطہ نظر)
  • آؤٹ پٹ کی لمبائی میں اضافہ جاری ہے (سوچ وقت میں اضافہ جاری ہے)
  • درستگی میں بہتری جاری ہے (درستگی کا حساب لگانے کے لیے 16 جوابات کا نمونہ لینا)
  • DeepSeek-R1: مزید کولڈ اسٹارٹ ڈیٹا اور تکراری کمک سیکھنے کے فائن ٹیوننگ کو ملا کر ماڈل کی کارکردگی کو بہتر بناتا ہے، مختلف کاموں پر OpenAI-01-1217 کے مقابلے کی سطح کو حاصل کرنا.
  • علم کشید: DeepSeek-R1 کو بطور ٹیچر ماڈل استعمال کرتے ہوئے، 800K تربیتی نمونے بنائے گئے اور کئی چھوٹے، گھنے ماڈلز کو ٹھیک بنایا گیا۔ نتائج بتاتے ہیں کہ یہ کشید طریقہ کار کی تخمینہ کی صلاحیت کو نمایاں طور پر بہتر بنا سکتا ہے۔ چھوٹے ماڈل.

حد بندی

  • حد 1: DeepSeek-R1 کی عمومی صلاحیت کو بہتر کرنے کی ضرورت ہے۔ فنکشن کالز، ملٹی ٹرن ڈائیلاگ، پیچیدہ رول پلےنگ، اور JSON آؤٹ پٹ جیسے کاموں میں DeepSeek-R1 اب بھی DeepSeek-V3 سے کمتر ہے۔
  • حد 2: زبان کے اختلاط کا مسئلہ۔ DeepSeek-R1 کو غیر چینی اور غیر انگریزی سوالات پر کارروائی کرتے وقت زبان کے اختلاط کا مسئلہ درپیش ہو سکتا ہے، مثال کے طور پر استدلال اور انگریزی میں جواب دینا۔
  • حد 3: فوری حساسیت۔ DeepSeek-R1 فوری الفاظ کے لیے حساس ہے، اور چند شاٹ پرامپٹنگ اس کی کارکردگی کو کم کر دے گی۔
  • حد 4: سافٹ ویئر انجینئرنگ کے کاموں تک محدود درخواست۔ طویل تشخیص کے وقت کی وجہ سے، سافٹ ویئر انجینئرنگ کے کاموں پر بڑے پیمانے پر کمک سیکھنے کا مکمل اطلاق نہیں کیا گیا ہے، اور DeepSeek-R1 میں سافٹ ویئر انجینئرنگ بینچ مارکس میں DeepSeek-V3 کے مقابلے میں محدود بہتری آئی ہے۔

ملتے جلتے پوسٹس

جواب دیں

آپ کا ای میل ایڈریس شائع نہیں کیا جائے گا۔ ضروری خانوں کو * سے نشان زد کیا گیا ہے