آج میں DeepSeek سے ایک مضمون شیئر کرنا چاہوں گا، جس کا عنوان ہے DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models.

اس مضمون میں DeepSeekMath 7B متعارف کرایا گیا ہے، جو پہلے سے تربیت یافتہ ہے۔ DeepSeek-Coder-Base-v1.5 7B کی بنیاد پر 120B ریاضی سے متعلق ٹوکن، قدرتی زبان اور کوڈ ڈیٹا کا مجموعہ۔

ماڈل نے بیرونی ٹول کٹس اور ووٹنگ کی تکنیکوں پر انحصار کیے بغیر مسابقتی سطح کے MATH بینچ مارکس میں 51.7% کا حیران کن سکور حاصل کیا، جیمنی الٹرا اور GPT-4 کی کارکردگی کی سطح تک پہنچ گیا۔

DeepSeekMath 7B کی ریاضیاتی استدلال کی صلاحیت دو اہم عوامل سے منسوب ہے: پہلا، ایک کے ذریعے احتیاط سے ڈیزائن کردہ ڈیٹا سلیکشن پائپ لائن, اعلی معیار کے ریاضی سے متعلق ڈیٹا کو عوامی طور پر دستیاب ویب ڈیٹا سے بار بار نکالا جاتا ہے۔

دوسرا، گروپ رشتہ دار پالیسی کی اصلاح (GRPO) ہے۔ متعارف کرایا، جو کہ قربت کی پالیسی کی اصلاح (PPO) کی ایک قسم ہے جو PPO کے میموری استعمال کو بہتر بناتے ہوئے ریاضیاتی استدلال کی صلاحیت کو بڑھا سکتی ہے۔

  1. طریقہ کار کی خصوصیات کا خلاصہ مندرجہ ذیل ہے:ایک اعلیٰ معیار کا ریاضیاتی پری ٹریننگ کارپس تعمیر کیا گیا تھا، اور کامن کرول سے اعلیٰ معیار کے ریاضیاتی ڈیٹا کی کان کے لیے احتیاط سے ڈیزائن کی گئی پائپ لائن کا استعمال کیا گیا تھا۔
  2. GRPO الگورتھم تجویز کیا گیا تھا، جو تربیت کے لیے درکار وسائل کو کم کرتا ہے اور ماڈل کی ریاضیاتی استدلال کی صلاحیت کو بہتر بناتا ہے۔ 3) اسٹیٹ آف دی آرٹ کارکردگی تھا متعدد ریاضیاتی استدلال بینچ مارک ٹیسٹوں میں حاصل کیا گیا۔.

جائزہ

عنوان: DeepSeekMath: کھلی زبان کے ماڈلز میں ریاضیاتی استدلال کی حدود کو آگے بڑھانا

URL: یہاں کلک کریں

مصنفین: ژی ہونگ شاؤ، پیئی وانگ، کیہاؤ ژو، رنکسین سو، جن شیاؤ سونگ، ژاؤ بی، ہاوئی ژانگ، منگچوان ژانگ، وائی کے لی، وائی وو، دیا گوو

کوڈ: یہاں کلک کریں

حوصلہ افزائی

ریاضیاتی استدلال ریاضی کی پیچیدگی اور ساختی نوعیت کی وجہ سے زبان کے ماڈلز کے لیے ایک اہم چیلنج ہے۔ جدید ترین ماڈلز، جیسے GPT-4 اور Gemini-Ultra، طاقتور ہیں لیکن عوامی طور پر دستیاب نہیں ہیں۔ لہذا، کی کارکردگی میں بہتری کے لئے اہم گنجائش ہے اوپن سورس ماڈلز۔

پیچیدگی اور ساخت: ریاضیاتی استدلال ریاضی کی پیچیدگی اور ساختی نوعیت کی وجہ سے زبان کے ماڈلز کے لیے ایک اہم چیلنج ہے۔

عوامی ڈیٹا کا امکان: عوامی طور پر دستیاب ویب ڈیٹا میں بھرپور ریاضیاتی معلومات ہوسکتی ہیں جن کی کان کنی اور استعمال ہونا باقی ہے۔

طریقے

ڈیٹا اکٹھا کرنا: 120B ٹوکنز کا ایک DeepSeekMath کارپس کامن کرال سے ایک تکراری پائپ لائن کے ذریعے ریاضی سے متعلق اعلیٰ معیار کا ویب ڈیٹا اکٹھا کر کے بنایا گیا تھا۔

ماڈل ٹریننگ: کارپس کو DeepSeek-Coder-Base-v1.5 7B کے اوپر پری ٹریننگ کے لیے استعمال کیا گیا تھا، اور ریاضی کی ہدایات کی فائن ٹیوننگ اور گروپ رشتہ دار پالیسی آپٹیمائزیشن (GRPO) الگورتھم کا اطلاق کیا گیا تھا۔

GRPO الگورتھم: GRPO ایک بہتر کمک سیکھنے کا الگورتھم ہے جو PPO میں تنقیدی ماڈل کو ہٹاتا ہے اور گروپ سکور سے بیس لائن کا تخمینہ لگاتا ہے، اس طرح تربیتی وسائل میں نمایاں کمی آتی ہے۔

تفصیلی طریقے اور طریقہ کار:

ڈیٹا اکٹھا کرنا اور پروسیسنگ کرنا:

DeepSeekMath کارپس بنائیں: فاسٹ ٹیکسٹ پر مبنی درجہ بندی کا استعمال کرتے ہوئے، 120B ریاضی سے متعلق ٹوکن نکالیں۔ ایک بڑے پیمانے پر، اعلیٰ معیار کے پہلے سے تربیت یافتہ کارپس، DeepSeekMath کارپس بنانے کے لیے کامن کرال سے۔

تکراری ڈیٹا فلٹرنگ: ایک تکراری حکمت عملی استعمال کی جاتی ہے، ابتدائی درجہ بندی کرنے والے کو تربیت دینے کے لیے OpenWebMath کو بطور بیج ڈیٹا استعمال کرنا، اور پھر اس درجہ بندی کو مزید مثبت مثالوں کے لیے استعمال کرنا کامن کرال سے، جو درجہ بندی کی کارکردگی کو مسلسل بہتر بنانے کے لیے دستی طور پر تشریح کی جاتی ہے۔

کثیر لسانی خصوصیات: DeepSeekMath کارپس پر مشتمل ہے۔ کثیر لسانی ڈیٹا، جو چینی ریاضی کے معیارات پر ماڈل کی کارکردگی کو بہتر بناتا ہے۔

ڈی آلودگی پروسیسنگ: ڈی-آلودگی کی پروسیسنگ ٹریننگ ڈیٹا پر کی جاتی ہے تاکہ ٹیسٹ بینچ مارک کے ساتھ اوورلیپ ہونے سے بچا جا سکے۔.

پری ٹریننگ:

کوڈ پر مبنی ماڈل کی شروعات: کا استعمال کرتے ہوئے ابتداء DeepSeek-کوڈر-بیس-v1.5 7B ماڈل کو عام ایل ایل ایم سے شروع کرنے سے زیادہ موثر پایا گیا تھا۔

پہلے سے تربیتی ڈیٹا کمپوزیشن: 56% DeepSeekMath Corpus، 4% AlgebraicStack، 10% arXiv، 20% گیتھب کوڈ، 10% کامن کرال قدرتی زبان کا ڈیٹا۔

پری ٹریننگ پیرامیٹرز: 4.2e-4 سیکھنے کی شرح، 10M ٹوکنز کے بیچ سائز، اور 500B ٹوکنز کی تربیت کے ساتھ ایڈم ڈبلیو آپٹیمائزر استعمال کیا جاتا ہے۔

ہدایت ٹھیک ٹیوننگ:

ایک انسٹرکشن فائن ٹیوننگ ڈیٹاسیٹ بنائیں: ایک ریاضی کی ہدایات کے فائن ٹیوننگ ڈیٹاسیٹ پر مشتمل بنائیں 776K نمونے، مختلف قسم کے ریاضی کے شعبوں اور مشکل کی سطحوں کا احاطہ کرتا ہے، بشمول CoT، PoT، اور مراحل کو حل کرنے کے لیے ٹول سے مربوط تخمینہ فارمیٹس۔

تربیتی پیرامیٹرز: بیچ سائز 256، سیکھنے کی شرح 5e-5، 500 قدموں کے لیے ٹرین۔

کمک سیکھنے - گروپ رشتہ دار پالیسی کی اصلاح (GRPO):

GRPO الگورتھم تجویز کریں: تجویز a پی پی او ویرینٹ الگورتھم GRPO، جو بنیادی لائن کا تخمینہ لگانے کے لیے گروپ وار اسکورز کا استعمال کرتے ہوئے تنقیدی ماڈل کی ضرورت سے گریز کرتا ہے، اس طرح تربیتی وسائل کو کم کرتا ہے۔.

مقصد فنکشن: GRPO کسی مقصدی فنکشن کو زیادہ سے زیادہ کرکے پالیسی ماڈل کو بہتر بناتا ہے۔ ان گروپ آؤٹ پٹس کے متعلقہ فائدہ کو مدنظر رکھتا ہے اور KL ڈائیورجن کو ریگولرائزیشن کی اصطلاح کے طور پر براہ راست شامل کرتا ہے۔.

فائدہ کا حساب: GRPO فائدہ کا حساب لگاتا ہے۔ گروپ میں رشتہ دار انعامات، کراس گروپ موازنہ سے گریز اور انعام کے ماڈل کی تقابلی نوعیت کے مطابق بہتر ہونا.

نتائج اور عمل کی نگرانی دونوں کی حمایت کرتا ہے: جی آر پی او نتائج اور عمل کی نگرانی دونوں کی حمایت کر سکتے ہیں، اور زیادہ مؤثر طریقے سے پالیسی کی نگرانی کر سکتے ہیں۔ ہر تخمینہ کے مرحلے کے اختتام پر انعامات فراہم کرکے۔

تکراری RL: ایک استعمال کرتا ہے۔ تکراری RL حکمت عملی پالیسی ماڈل کے نمونے لینے کے نتائج کی بنیاد پر ایک نیا ٹریننگ سیٹ تیار کرنے کے لیے، پرانے ریوارڈ ماڈل کی مسلسل تربیت کریں، اور پالیسی ماڈل کو اپ ڈیٹ کرنے کے لیے نئے ریوارڈ ماڈل کا استعمال کریں۔

تربیت کا ڈیٹا: SFT ڈیٹا میں GSM8K اور MATH سے متعلق CoT فارمیٹ کے مسائل، تقریباً 144K مسائل کا استعمال کرتا ہے۔

تربیتی پیرامیٹرز: پالیسی ماڈل کی سیکھنے کی شرح 1e-6 ہے، KL عدد 0.04 ہے، ہر مسئلے کے لیے 64 آؤٹ پٹس کا نمونہ لیا جاتا ہے، زیادہ سے زیادہ لمبائی 1024 ہے، اور تربیتی بیچ کا سائز 1024 ہے۔

نتیجہ

نتیجہ 1:DeepSeekMath 7B ریاضیاتی استدلال کی صلاحیت میں تمام اوپن سورس ماڈلز کو پیچھے چھوڑ دیتا ہے۔ مسابقتی MATH بینچ مارک ٹیسٹ میں، DeepSeekMath 7B نے 51.7% کی درستگی حاصل کی، جو Gemini-Ultra اور GPT-4 کی کارکردگی کی سطح کے قریب ہے۔

نتیجہ 2:اچھی طرح سے تیار کردہ پہلے سے تربیتی ڈیٹا اور GRPO الگورتھم ماڈل کی کامیابی کی کلید ہیں۔ اعلیٰ معیار کے ریاضیاتی کارپس اور GRPO الگورتھم کا امتزاج ماڈل کو ریاضیاتی استدلال کے کاموں میں نمایاں کارکردگی کے فوائد حاصل کرنے کے قابل بناتا ہے۔

نتیجہ 3:کوڈ ٹریننگ ریاضیاتی استدلال کی صلاحیت کو بہتر بنانے میں مدد کرتی ہے۔ پہلے سے تربیتی مرحلے میں کوڈ ڈیٹا شامل کرنے سے ماڈل کی ریاضی کے مسائل کو حل کرنے کی صلاحیت کو بہتر بنایا جا سکتا ہے، ٹولز کے ساتھ اور بغیر۔

نتیجہ 4: arXiv ڈیٹا کی محدود افادیت: پچھلے عقائد کے برعکس، arXiv ڈیٹا کو ریاضیاتی استدلال کو بہتر بنانے میں محدود مدد ملی۔

حد بندی

جیومیٹری اور ثبوت کی صلاحیتیں نسبتاً کمزور ہیں: اگرچہ DeepSeekMath مقداری استدلال میں سبقت رکھتا ہے، لیکن جیومیٹری اور ثبوت میں اس کی صلاحیتیں اب بھی بند سورس ماڈلز سے کمتر ہیں۔ اس کی وجہ پری ٹریننگ اور فائن ٹیوننگ کے مراحل میں ڈیٹا کا جانبدارانہ انتخاب ہو سکتا ہے۔

چھوٹے نمونے کی صلاحیت میں کمزوری: DeepSeekMath چھوٹے نمونے سیکھنے کے معاملے میں GPT-4 سے کمتر ہے، جو ماڈل سائز کی محدودیت کی وجہ سے ہو سکتا ہے۔

مزید موثر کمک سیکھنے کے طریقوں کی ضرورت ہے: اگرچہ مقالے میں تجویز کردہ کمک سیکھنے کے طریقے کارآمد ہیں، پھر بھی بہتری کی گنجائش موجود ہے، مثال کے طور پر، انعام کے ماڈل سے فیڈ بیک کا زیادہ موثر استعمال کیسے کیا جائے اور شور مچانے والے انعامی اشاروں سے کیسے نمٹا جائے۔

تفصیلات

کمک سیکھنے کی تلاش اور تجزیہ

جائزہ:

گروپ ریلیٹیو پالیسی آپٹیمائزیشن (GRPO) کا تعارف: مقالے میں پروکسیمل پالیسی آپٹیمائزیشن (پی پی او) کی ایک قسم کے طور پر ایک نیا کمک سیکھنے کا الگورتھم، GRPO تجویز کیا گیا ہے۔ GRPO کی اہم خصوصیت یہ ہے۔ PPO میں عام طور پر استعمال ہونے والے تنقیدی ماڈل کو ترک کر دیتا ہے اور گروپ سکور کے ذریعے بیس لائن کا تخمینہ لگاتا ہے، اس طرح تربیت کے لیے درکار کمپیوٹیشنل وسائل کو بہت حد تک کم کر دیتا ہے۔

GRPO تاثیر کا مظاہرہ: کاغذ تجرباتی طور پر ظاہر کرتا ہے کہ GRPO کر سکتا ہے۔ کمانڈ فائن ٹیوننگ ماڈلز کی کارکردگی کو مؤثر طریقے سے بہتر بناتا ہے، بشمول ڈومین کے اندر اور ڈومین سے باہر دونوں ریاضیاتی کام.

کمک سیکھنے کے طریقوں کے لیے متحد فریم ورک: مقالہ مختلف کمک سیکھنے کے طریقوں کو سمجھنے کے لیے ایک متحد فریم ورک کی تجویز پیش کرتا ہے، جیسے ریجیکشن سیمپلنگ فائن ٹیوننگ (RFT)، ڈائریکٹ پریفرنس آپٹیمائزیشن (DPO)، PPO اور GRPO. فریم ورک ان طریقوں کو براہ راست یا آسان کمک سیکھنے کی تکنیک کے طور پر دیکھتا ہے۔

کمک سیکھنے کے عناصر کی گہرائی سے تحقیق: کاغذ گہرائی سے دریافت کرتا ہے۔ کمک سیکھنے کے کلیدی عناصر، جیسے آن لائن تربیت اور آف لائن تربیت، نتیجہ کی نگرانی اور عمل کی نگرانی، سنگل راؤنڈ کمک سیکھنے اور تکراری کمک سیکھنےتفصیلی تجربات کے ذریعے، اور کمک سیکھنے کی تاثیر کو بہتر بنانے کے لیے ممکنہ سمتوں کا خلاصہ کرتا ہے۔

GRPO (گروپ ریلیٹیو پالیسی آپٹیمائزیشن) الگورتھم

کی حدود PPO: پی پی او عام طور پر استعمال ہونے والا کمک سیکھنے کا الگورتھم ہے، لیکن اس کے لیے تربیت کی ضرورت ہوتی ہے۔ اضافی تنقیدی ماڈل ویلیو فنکشن کا اندازہ لگانے کے لیے، جو لگاتا ہے۔ ایک اضافی کمپیوٹیشنل اور میموری بوجھ. اس کے علاوہ، LLM منظر نامے میں، تنقیدی ماڈل کی تربیت پیچیدہ ہو سکتی ہے کیونکہ اس کے لیے جانچ کی ضرورت ہوتی ہے۔ ہر ٹوکن کا آؤٹ پٹ۔

GRPO بنیادی خیال: GRPO کا بنیادی خیال یہ ہے۔ تنقیدی ماڈل کو ترک کر دیں اور اس کے بجائے اسی مسئلے کے لیے آؤٹ پٹ کے ایک سیٹ کا اوسط سکور استعمال کریں جیسا کہ ایک بنیادی لائن۔ اس بیس لائن کو فائدہ کے فنکشن کا تخمینہ لگانے اور پالیسی کی اصلاح کے لیے استعمال کیا جا سکتا ہے۔. یہ نقطہ نظر تربیت کی پیچیدگی کو نمایاں طور پر کم کرتا ہے۔

فائدے کی تقریب کا حساب کتاب: GRPO فائدہ کے فنکشن کا حساب لگاتا ہے۔ ایک الگ ویلیو فنکشن پر انحصار کرنے کے بجائے آؤٹ پٹ کے ایک ہی سیٹ میں ہر آؤٹ پٹ کی رشتہ دار درجہ بندی کا حساب لگانا جیسا کہ پی پی او میں ہے۔

KL انحراف جرمانہ: جی آر پی او PPO کی طرح انعام میں KL ڈائیورجنس جرمانہ شامل نہیں کرتا ہے، بلکہ پالیسی ماڈل اور ریفرنس ماڈل کے درمیان KL ڈائیورجنس کو براہ راست نقصان کے فنکشن میں شامل کرتا ہے۔ یہ پیچیدہ فائدہ کے فنکشن کیلکولیشن سے بچتا ہے۔.

GRPO کا بنیادی خیال

تنقید کی ضرورت نہیں ہے (ویلیو فنکشن): GRPO ویلیو فنکشن کی ضرورت سے گریز کرتا ہے اور بیس لائن کا اندازہ لگانے کے لیے اندرون گروپ سکور استعمال کرتا ہے۔، اس طرح تربیتی وسائل کو کم کرنا۔

انٹرا گروپ رشتہ دار فائدہ: ہر مسئلہ q کے لیے، GRPO پرانی پالیسی π(θold) سے آؤٹ پٹ {o(1), o(2), …, o(G)} کا ایک سیٹ نمونہ کرتا ہے اور پھر مندرجہ ذیل مساوات کو مقصدی فعل کے طور پر زیادہ سے زیادہ کرکے پالیسی ماڈل کو بہتر بناتا ہے۔

خاص طور پر:

یہاں کلید Â(i,t) ہے، جو فائدہ کی نمائندگی کرتی ہے اور اس کا حساب کتاب کے ذریعے کیا جاتا ہے۔ انٹرا گروپ آؤٹ پٹ کا رشتہ دار انعام، PPO کی طرح ایک علیحدہ ویلیو فنکشن پر انحصار کرنے کے بجائے۔

مقصد فنکشن بھی براہ راست اضافہ کرتا ہے۔ کی شدت کو کنٹرول کرنے کے لیے ریگولرائزیشن کی اصطلاح کے طور پر KL ڈائیورجن پالیسی اپ ڈیٹس

اور انعامی ماڈل کی تقابلی نوعیت کے ساتھ سیدھ کریں: GRPO فائدہ کا حساب لگانے کے لیے رشتہ دار انٹرا گروپ انعام کا استعمال کرتا ہے، جو کہ انعام کے ماڈل کی نوعیت سے زیادہ مطابقت رکھتا ہے، جسے عام طور پر جوڑے کے مقابلے کی بنیاد پر تربیت دی جاتی ہے۔

GRPO کے ریوارڈ ماڈل کو کیسے ڈیزائن کیا جا سکتا ہے (DeepSeek R1 کا حوالہ دیں)؟

خصوصیات:

انعام کی شکل: لمبی نسل کو مجبور کرتا ہے۔ پلنگ نتائج، جو ماڈل کو تخمینہ کے عمل کو پیدا کرنے اور ماڈل کے قیاس اثر کو بہتر بنانے کے لیے دباؤ ڈال سکتے ہیں۔

درستگی کا انعام: ریاضی حتمی نتیجہ استعمال کر سکتی ہے، اور کوڈ کمپائلر فیڈ بیک استعمال کر سکتا ہے۔

GRPO کے فوائد

یادداشت کا کم نشان: کسی تنقیدی ماڈل کی ضرورت نہیں، میموری کی ضروریات کو کم کرنا۔

زیادہ موثر تربیت: انٹرا گروپ رشتہ دار فائدہ کا استعمال کرتے ہوئے حساب کتاب تربیت کے عمل کو آسان بناتا ہے۔

انعامی ماڈل کی نوعیت کے ساتھ زیادہ ہم آہنگ: تربیت کے استحکام اور کارکردگی کو بہتر بناتا ہے۔

RL یونیفائیڈ پیراڈائم کا خلاصہ

یونیفائیڈ پیراڈائم تجویز کردہ

مصنفین مختلف تربیتی طریقوں کو سمجھنے کے لیے ایک متفقہ نمونہ تجویز کرتے ہیں جیسے کہ SFT (Supervised Fine-tuning)، RFT (Rejection Sampling Fine-tuning)، DPO (براہ راست ترجیحی اصلاح)، PPO، GRPO، وغیرہ۔ RL کلیدی عناصر: متحد فریم ورک کے اہم عناصر میں شامل ہیں: ڈیٹا کے ذرائع، انعامی افعال، اور الگورتھم۔

  • ڈیٹا ماخذ: اس سے مراد وہ ڈیٹا ہے جو تربیت کے لیے استعمال کیا جاتا ہے، جو دستی لیبلنگ، SFT ماڈلز، یا حقیقی وقت کے پالیسی ماڈلز سے حاصل کیا جا سکتا ہے۔
  • انعام کی تقریب: اس سے مراد وہ فنکشن ہے جو آؤٹ پٹ کے معیار کو جانچنے کے لیے استعمال کیا جاتا ہے، جو ایک اصول یا ماڈل ہو سکتا ہے۔
  • الگورتھم: اس سے مراد وہ طریقہ ہے جو ڈیٹا اور ریوارڈ سگنل پر کارروائی کرنے اور ماڈل پیرامیٹرز کو اپ ڈیٹ کرنے کے لیے استعمال ہوتا ہے۔

ایک متحد نمونہ کی بنیاد پر مختلف طریقوں کا تجزیہ

جدول 10 SFT، RFT، DPO، آن لائن RFT، PPO اور GRPO کے درمیان ڈیٹا کے ذرائع، انعام کے افعال اور گریڈینٹ کوفیشینٹس کے لحاظ سے مماثلت اور فرق کا خلاصہ کرتا ہے۔

طریقہتربیت کا ڈیٹاانعام کی تقریبتدریجی عددتربیت کا طریقہفوائد/خصوصیاتقابل اطلاق منظرنامے۔
ایس ایف ٹیSFT ڈیٹا کو دستی طور پر لیبل کیا گیا۔دستی طور پر منتخب کیا گیا (مضمون انعام)1 پر طے کیا گیا۔زیر نگرانی تعلیمسادہ اور مستحکم، اعلیٰ معیار کے لیبل والے ڈیٹا پر منحصر ہے۔بنیادی ماڈل کی تربیت، ابتدائی صف بندی کا کام
آر ایف ٹیSFT ڈیٹاسیٹ کا مسئلہ + SFT ماڈل نمونہ آؤٹ پٹجواب کی درستگی کی بنیاد پر (اصول کا فیصلہ)0 (غلط) یا 1 (درست)آف لائن پالیسی کی اصلاحموثر حساب کتاب، اصول کی رائے کا براہ راست استعمالواضح قواعد کے ساتھ ریاضی/ منطقی کام
ڈی پی اوSFT ڈیٹاسیٹ کا مسئلہ + ماڈل کی پیداوارانسانی ترجیحی لیبلنگ یا اصول کا موازنہترجیحی امکانی حساب کی بنیاد پر (مثال کے طور پر، بریڈلی ٹیری ماڈل)موازنہ سیکھناواضح انعامی ماڈلنگ سے بچتا ہے، براہ راست ترجیحات کو بہتر بناتا ہے۔انسانی ترجیحی صف بندی کے کام (مثلاً مکالمے کی نسل)
آن لائن آر ایف ٹیریئل ٹائم پالیسی ماڈل کا نمونہ لینا مسئلہ آؤٹ پٹ جوڑےجواب کی درستگی کی بنیاد پر (اصول کا فیصلہ)0 (غلط) یا 1 (درست)آن لائن پالیسی کی اصلاحریئل ٹائم فیڈ بیک آپٹیمائزیشن کے ساتھ متحرک طور پر پالیسیوں کو اپ ڈیٹ کرتا ہے۔ایسے منظرنامے جن میں آن لائن تعامل کی ضرورت ہوتی ہے (مثلاً گیم AI)
پی پی اوSFT ڈیٹاسیٹ کا مسئلہ + پالیسی ماڈل سیمپلنگ آؤٹ پٹانعامی ماڈل (RM) تربیت یافتہغلبہ کی تقریب (انعام کے تخمینے کی بنیاد پر)پالیسی تدریجی طریقہموثر اور مستحکم، کثیر قدمی اصلاح کی حمایت کرتا ہے۔پیچیدہ کام (جیسے ٹیکسٹ جنریشن، روبوٹ کنٹرول)
جی آر پی اوSFT ڈیٹاسیٹ کا مسئلہ + پالیسی ماڈل کے نمونے لینے کی پیداوارانعامی ماڈل (RM) تربیت یافتہانٹرا گروپ رشتہ دار انعام (معمول کے مطابق موازنہ)گروپ پالیسی کی اصلاحانعام کے فرق کو کم کریں اور انٹرا گروپ موازنہ کو بہتر بنائیںاعلی تغیر کے ساتھ کام (مثال کے طور پر طویل متن کی نسل)

ڈیٹا کے ذرائع پر مشاہدات

آن لائن بمقابلہ آف لائن تربیت: آن لائن ٹریننگ سے مراد ریئل ٹائم پالیسی ماڈل کے آؤٹ پٹ کو ٹریننگ ڈیٹا کے طور پر استعمال کرنا ہے، جبکہ آف لائن ٹریننگ سے مراد ایک فکسڈ ماڈل (جیسے SFT ماڈل) کے آؤٹ پٹ کو ٹریننگ ڈیٹا کے طور پر استعمال کرنا ہے۔ تجرباتی نتائج بتاتے ہیں۔ آن لائن ٹریننگ عام طور پر آف لائن ٹریننگ سے بہتر ہوتی ہے۔.

نتائج کی نگرانی بمقابلہ عمل کی نگرانی: نتائج کی نگرانی سے مراد صرف آؤٹ پٹ کے آخری مرحلے پر انعام دینا ہے، جب کہ عمل کی نگرانی سے مراد استدلال کے عمل کے ہر قدم کو انعام دینا ہے۔ تجرباتی نتائج بتاتے ہیں۔ پیچیدہ کاموں میں عمل کی نگرانی زیادہ موثر ہے۔.

سنگل ایپیسوڈ بمقابلہ تکراری کمک سیکھنے: سنگل ایپیسوڈ ری انفورسمنٹ لرننگ سے مراد واحد حکمت عملی کی اصلاح ہے، جب کہ تکراری کمک سیکھنے سے مراد متعدد حکمت عملی کی اصلاح کے بعد انعامی ماڈل کی مسلسل اپ ڈیٹ کرنا ہے۔ تجرباتی نتائج بتاتے ہیں۔ تکراری کمک سیکھنے سے کارکردگی کو نمایاں طور پر بہتر بنایا جا سکتا ہے، خاص طور پر پہلی تکرار میں.

تدریجی گتانک کا مشاہدہ

اصول پر مبنی بمقابلہ ماڈل پر مبنی: اصول سے مراد جواب کی درستی کی بنیاد پر انعام کا تعین کرنا ہے، اور ماڈل سے مراد اسکور کرنے کے لیے انعام کے ماڈل کو تربیت دینا ہے۔

تدریجی گتانک میں فرق: GRPO اور کے درمیان کلیدی فرق آن لائن RFT یہ ہے کہ GRPO انعامی ماڈل کے ذریعہ فراہم کردہ انعامی قدروں کی بنیاد پر اپنے گریڈینٹ گتانک کو ایڈجسٹ کرتا ہے، جبکہ آن لائن RFT ایسا نہیں کرتا ہے۔

GRPO فوائد: تجربات بتاتے ہیں۔ GRPO آن لائن RFT سے برتر ہے، جو کہ گریڈیئنٹ کوفیشینٹس کے نشان کو تبدیل کرنے کی تاثیر کو ظاہر کرتا ہے۔ GRPO+PS GRPO+OS سے برتر ہے، باریک دانے والے، قدموں سے آگاہ گریڈینٹ کوفیشینٹس کے استعمال کے فوائد کو ظاہر کرتا ہے۔.

آر ایل کی تاثیر اور بہتری کے لیے ہدایات

RL کیوں مؤثر ہے؟

تجرباتی نتائج: RL Maj@K کی کارکردگی کو بہتر بناتا ہے لیکن Pass@K کو نہیں۔

وضاحت: RL آؤٹ پٹ ڈسٹری بیوشن کو مزید مضبوط بنا کر ماڈل کی مجموعی کارکردگی کو بہتر بناتا ہے، یعنی یہ ماڈل کی بنیادی صلاحیت کو بڑھانے کے بجائے TopK میں درست جوابات کے امکانات کو بہتر بناتا ہے۔

زیادہ موثر RL کیسے حاصل کیا جا سکتا ہے؟

متحد تمثیل کی بنیاد پر، مصنفین RL کو تین پہلوؤں میں بہتر بنانے کے لیے مستقبل کی ہدایات تجویز کرتے ہیں: ڈیٹا کے ذرائع، الگورتھم، اور انعامی افعال۔

  • ڈیٹا ذرائع:
    • SFT مرحلے سے باہر کے مسائل کو دریافت کریں۔
    • مزید جدید نمونے لینے (ڈی کوڈنگ) کی حکمت عملیوں کا استعمال کریں، جیسے درختوں کی تلاش پر مبنی طریقے۔
    • پالیسی ماڈل کی تلاش کی کارکردگی کو بہتر بنانے کے لیے موثر اندازے کی تکنیکوں کا استعمال کریں۔
  • الگورتھم:
    • کمک سیکھنے والے الگورتھم کو دریافت کریں جو شور مچانے والے انعامی سگنلز کے لیے زیادہ مضبوط ہیں۔
    • کمزور سے مضبوط قسم کی صف بندی کے طریقوں کا مطالعہ کریں۔
  • انعام کی تقریب:
    • آؤٹ آف ڈسٹری بیوشن کے مسائل اور ایڈوانس ڈی کوڈ آؤٹ پٹس کو ہینڈل کرنے کے لیے ریوارڈ ماڈل کی عمومی صلاحیت کو بہتر بنائیں۔
    • انعامی ماڈل کی غیر یقینی صورتحال کی عکاسی کریں اور اسے کمزور انعامی ماڈلز اور کمزور سے مضبوط سیکھنے کے الگورتھم کو جوڑنے کے لیے ایک پل کے طور پر استعمال کریں۔
    • مؤثر طریقے سے اعلی معیار کے عمل کے انعامی ماڈلز تیار کریں تاکہ اندازہ کے عمل کے لیے عمدہ تربیتی سگنل فراہم کریں۔

خلاصہ

DeepSeekMath نے ریاضیاتی استدلال میں اوپن سورس لینگویج ماڈلز کی صلاحیت کو بڑے پیمانے پر ریاضیاتی کارپس بنا کر اور ایک نئے کمک سیکھنے کے الگورتھم کی تجویز دے کر نمایاں طور پر بہتر کیا ہے۔ اس مقالے کی جھلکیاں یہ ہیں۔

  • DeepSeekMath کارپس کی تعمیر اور توثیق، ایک بڑے پیمانے پر، اعلیٰ معیار، کثیر لسانی ریاضیاتی کارپس۔
  • ماڈل کی ریاضیاتی استدلال کی صلاحیت کو بہتر بناتے ہوئے میموری کے استعمال کو کم کرنے کے لیے ایک موثر کمک سیکھنے کا الگورتھم، GRPO تجویز کیا گیا ہے۔
  • ریاضیاتی استدلال کی صلاحیت پر کوڈ ٹریننگ کے اثرات پر گہرائی سے بحث کی گئی ہے، اور یہ پایا گیا ہے کہ arXiv ڈیٹا کا اثر محدود ہے۔ DeepSeekMath کی قدر:
  • یہ اوپن سورس کمیونٹی کو ایک طاقتور ریاضیاتی استدلال ماڈل فراہم کرتا ہے اور ریاضیاتی AI کی ترقی کو فروغ دیتا ہے۔
  • یہ ریاضیاتی کارپورا بنانے اور ریاضیاتی استدلال کے ماڈلز کی تربیت کے لیے قیمتی تجربہ اور طریقے فراہم کرتا ہے۔
  • مجوزہ GRPO الگورتھم دوسرے شعبوں میں کمک سیکھنے کی تربیت کے لیے نئے آئیڈیاز فراہم کرتا ہے۔

ملتے جلتے پوسٹس

جواب دیں

آپ کا ای میل ایڈریس شائع نہیں کیا جائے گا۔ ضروری خانوں کو * سے نشان زد کیا گیا ہے