32B انفرنس ماڈل ڈیٹا کا صرف 1/8 استعمال کرتا ہے اور اسی سائز کے DeepSeek-R1 کے ساتھ بندھا ہوا ہے!
ابھی ابھی، اسٹینفورڈ، یو سی برکلے، اور یونیورسٹی آف واشنگٹن جیسے اداروں نے مشترکہ طور پر ایک SOTA سطح کا تخمینہ ماڈل جاری کیا ہے، OpenThinker-32B، اور 114k ٹریننگ ڈیٹا تک اوپن سورس بھی کیا ہے۔

OpenThinker کو گلے لگاتا ہوا چہرہ:
ٹیم کی دریافت: DeepSeek-R1 تصدیق شدہ تشریحات (R1 ڈسٹلیشن پر مبنی) کے ساتھ بڑے پیمانے پر اعلیٰ معیار کے ڈیٹاسیٹ کا استعمال کرتے ہوئے، ایک SOTA انفرنس ماڈل کو تربیت دی جا سکتی ہے۔
مخصوص طریقہ یہ ہے کہ ڈیٹا کو پیمانہ کیا جائے، تخمینہ کے عمل کی تصدیق کی جائے، اور ماڈل کی پیمائش کی جائے۔
نتیجے میں OpenThinker-32B نے ریاضی، کوڈنگ اور سائنس کے متعدد بینچ مارک ٹیسٹوں میں Li Fei-Fei کے s1 اور s1.1 ماڈلز کو پیچھے چھوڑ دیا، اور R1-Distill-32B کے قریب تھا۔
یہ بات قابل ذکر ہے کہ R1-Distill-32B کے مقابلے میں، جس نے 800k ڈیٹا (بشمول 600k inference نمونے) استعمال کیا، OpenThinker-32B نے تقریباً وہی بہترین نتائج حاصل کرنے کے لیے صرف 114k ڈیٹا استعمال کیا۔

اس کے علاوہ، OpenThinker-32 نے ماڈل کے تمام وزن، ڈیٹا سیٹ، ڈیٹا جنریشن کوڈ، اور ٹریننگ کوڈ کو بھی پبلک کیا!

ڈیٹا کیوریشن
محققین نے OpenThinker-32B کو اسی OpenThoughts-114k ڈیٹاسیٹ کا استعمال کرتے ہوئے تربیت دی جیسا کہ انہوں نے پہلے OpenThinker-7B کو تربیت دی تھی۔
انہوں نے DeepSeek-R1 ماڈل کو استدلال کے عمل کو جمع کرنے اور 173,000 سوالات کے احتیاط سے منتخب کردہ سیٹ کے جوابات دینے کے لیے استعمال کیا۔ اس خام ڈیٹا کو پھر OpenThoughts-Unverified-173k ڈیٹاسیٹ کے طور پر شائع کیا گیا۔
اس عمل کا آخری مرحلہ متعلقہ ڈیٹا کے نمونوں کو فلٹر کرنا ہے اگر استدلال کا عمل تصدیق کو پاس کرنے میں ناکام رہتا ہے۔
مندرجہ ذیل تصویر پورے عمل کو بصری طور پر دکھاتی ہے۔
تحقیقی ٹیم پہلے سورس ڈیٹا یا سوال کے اشارے داخل کرتی ہے، جو مختلف شعبوں اور پلیٹ فارمز سے آ سکتے ہیں، جیسے کہ BAAI/TACO، DeepMind، Python کی گذارشات، وغیرہ، جس میں کوڈ، پہیلیاں، سائنس اور ریاضی جیسے مختلف پہلوؤں کا احاطہ کیا گیا ہے۔
یہ متنوع ان پٹ اس کے بعد کور پروسیسنگ ماڈیول، DeepSeek-R1 کو بھیجے جاتے ہیں، جہاں ڈیٹا کا تجزیہ اور کارروائی کی جاتی ہے۔ سوالات کو تین زمروں میں تقسیم کیا گیا ہے: سائنس کے سوالات، ریاضی اور پہیلیاں، اور کوڈ۔
کچھ نتائج کی توثیق کی ضرورت نہیں ہوتی ہے اور یہ سادہ تجزیے یا براہ راست آؤٹ پٹ ہو سکتے ہیں۔ کچھ مواد کے لیے جس کے لیے گہرائی سے توثیق کی ضرورت ہوتی ہے، ایک بڑے لینگویج ماڈل (LLM) کا استعمال اس طرح سے کیا جاتا ہے کہ اس کا موازنہ GT (Ground Truth) سے کیا جا سکے۔ اگر یہ کوڈ ہے تو کوڈ پر عمل درآمد کیا جاتا ہے اور اس کی درستگی اور تاثیر کو یقینی بنانے کے لیے یونٹ ٹیسٹ کیے جاتے ہیں۔
آخر میں، مختلف سمتوں سے حاصل ہونے والے نتائج کو کھلے ذہن کی سوچ اور زیادہ جامع حل پیدا کرنے کے لیے ملایا جا سکتا ہے۔

تحقیقی ٹیم نے حتمی OpenThoughts-114k ڈیٹاسیٹ کو "میٹا ڈیٹا" نامی ترتیب کے ساتھ اپ ڈیٹ کیا ہے جس میں ڈیٹاسیٹ کی تعمیر کے لیے استعمال ہونے والے کچھ اضافی کالم ہیں:
- مسئلہ
- زمینی_سچائی_حل
- ٹیسٹ_کیسز (صرف کوڈ)
- starter_code (صرف کوڈ)
- DeepSeek_reasoning
- DeepSeek_حل
- ڈومین
- ذریعہ
یہ اضافی میٹا ڈیٹا اس ڈیٹاسیٹ کو نئے منظرناموں میں استعمال کرنا آسان بنائے گا، جیسے ڈیٹا فلٹرنگ، ڈومین سوئچنگ، تصدیقی جانچ پڑتال، اور انفرنس پروسیس ٹیمپلیٹ کو تبدیل کرنا۔
یہ اضافی میٹا ڈیٹا اس ڈیٹاسیٹ کو استعمال کرنا آسان بنا دے گا، اور یہ کوڈ کی صرف ایک لائن کے ساتھ کیا جا سکتا ہے، جیسے فلٹرنگ، ڈومین کو تبدیل کرنا، تصدیق کی جانچ کرنا، اور انفرنس ٹریکنگ ٹیمپلیٹ کو تبدیل کرنا۔
load_dataset("open-thoughts/OpenThoughts-114k"، "میٹا ڈیٹا"، split="train")
تحقیقی ٹیم کا کہنا ہے کہ وہ اوپن تھنکر ماڈل پر ریانفورسمنٹ لرننگ (RL) پر تحقیق کے لیے کمیونٹی کی جانب سے ان سوالات اور معیاری جوابات کو دیکھنے کے منتظر ہیں۔ DeepScaleR پہلے ہی یہ ظاہر کر چکا ہے کہ یہ طریقہ خاص طور پر چھوٹے پیمانے پر اچھا کام کرتا ہے۔
تصدیق
فائنل OpenThoughts-114k ڈیٹاسیٹ پر پہنچنے کے لیے، تحقیقی ٹیم نے جوابات کی تصدیق کی اور غلط جوابات کو ختم کیا۔
جیسا کہ نیچے دیے گئے جدول میں دکھایا گیا ہے، ان قیاسات کو برقرار رکھنے سے جو تصدیق کو پاس نہیں کرتے ہیں کارکردگی کو نقصان پہنچا سکتے ہیں، حالانکہ غیر تصدیق شدہ ماڈل اب بھی دیگر 32B انفرنس ماڈلز کے مقابلے میں اچھی کارکردگی کا مظاہرہ کرتا ہے۔
تصدیق کا کردار تربیتی پرامپٹ سیٹ کے تنوع اور سائز کو بڑھاتے ہوئے R1 تشریحات کے معیار کو برقرار رکھنا ہے۔ دوسری طرف، غیر تصدیق شدہ ڈیٹا کو زیادہ آسانی سے بڑھایا جا سکتا ہے اور اس لیے مزید دریافت کرنے کے قابل بھی ہے۔

کوڈ کے مسائل کے لیے، ہم موجودہ ٹیسٹ کیسز کے خلاف جوابی کوششوں کی توثیق کرکے انفرنس کے عمل کی تصدیق مکمل کرتے ہیں۔
کوڈ پر عمل درآمد کے دوران درپیش چیلنجوں سے متاثر ہو کر، ہم نے کیوریٹر میں کوڈ پر عمل درآمد کا فریم ورک نافذ کیا جو صارفین کو کوڈ کو پیمانے پر، محفوظ طریقے سے، اور متوقع آؤٹ پٹ کے خلاف اس کی تصدیق کرنے کے قابل بناتا ہے۔
ریاضی کے مسائل کے لیے، تحقیقی ٹیم نے تصدیق کے لیے ایک LLM (Large Language Model) جج کا استعمال کیا، جو معیاری جواب اور DeepSeek-R1 حل دونوں حاصل کرتا ہے۔
یہ پایا گیا کہ زیادہ سخت پارسنگ انجن (Math-Verify) کے بجائے ڈیٹا جنریشن کے لیے LLM ایویلیویٹر کا استعمال کرنے کے نتیجے میں ڈیٹا کی شرح زیادہ موثر ہوئی اور بہتر کارکردگی کے ساتھ نیچے دھارے والے ماڈلز کی تربیت کی اجازت دی گئی۔

تربیت
تحقیقی ٹیم نے Qwen2.5-32B-Instruct کو تین بار OpenThoughts-114k ڈیٹاسیٹ پر 16k کے سیاق و سباق کی لمبائی کے ساتھ ٹھیک کرنے کے لیے LLaMa-Factory کا استعمال کیا۔ مکمل تربیتی ترتیب GitHub پر مل سکتی ہے۔
OpenThinker-32B کو AWS SageMaker کلسٹر پر چار 8xH100 P5 نوڈس کا استعمال کرتے ہوئے 90 گھنٹے تک تربیت دی گئی، مجموعی طور پر 2,880 H100 گھنٹے۔
دریں اثنا، OpenThinker-32B-Unverified نے لیونارڈو سپر کمپیوٹر پر 96 4xA100 نوڈس (64GB فی GPU) استعمال کرتے ہوئے 30 گھنٹے تک تربیت حاصل کی، 11,520 A100 گھنٹے جمع ہوئے۔
تشخیص
تحقیقی ٹیم نے تمام ماڈلز کا جائزہ لینے کے لیے اوپن سورس ایویلیویشن لائبریری Evalchemy کا استعمال کیا۔
AIME24 اور AIME25 کے لیے، انہوں نے پانچ رنز کے نتائج کی اوسط سے درستگی کا حساب لگایا۔ تشخیص کی ترتیب نے 0.7 کا درجہ حرارت پیرامیٹر استعمال کیا، ماڈل کے ردعمل کو 32,768 ٹوکن تک محدود کیا، کوئی اضافی سسٹم یا صارف کے فوری الفاظ شامل نہیں کیے، اور کوئی خاص ضابطہ کشائی کی حکمت عملی (جیسے بجٹ پر مجبور کرنا) کا استعمال نہیں کیا۔
جب OpenThoughts پروجیکٹ شروع کیا گیا، تو انہوں نے کارکردگی کے ساتھ ایک اوپن ڈیٹا ماڈل بنانے کا ہدف مقرر کیا جو DeepSeek-R1-Distill-Qwen-32B سے مماثل ہو۔
اب یہ خلا تقریباً ختم ہو چکا ہے۔
آخر میں، تحقیقی ٹیم گزشتہ چند ہفتوں کے دوران کمیونٹی کی جانب سے اوپن ڈیٹا انفرنس ماڈلز بنانے میں تیزی سے پیشرفت سے پرجوش ہے، اور ایک دوسرے کی بصیرت کی بنیاد پر آگے بڑھنے کے لیے آگے بڑھنے کی امید رکھتی ہے۔
OpenThinker-32B کی اوپن سورس ریلیز اس بات کو ظاہر کرتی ہے کہ اعداد و شمار، توثیق، اور ماڈل کے سائز کے درمیان ہم آہنگی انفرنس کی صلاحیتوں کو بہتر بنانے کی کلید ہیں۔
یہ نتیجہ نہ صرف اوپن سورس انفرنس ماڈلز کی ترقی کو فروغ دیتا ہے بلکہ پوری AI کمیونٹی کے لیے قیمتی وسائل اور تحریک بھی فراہم کرتا ہے۔