ہم میں سے کسی کو یہ توقع نہیں تھی کہ AI فیلڈ میں 2025 کا آغاز اس طرح ہوگا۔

DeepSeek R1 واقعی حیرت انگیز ہے!

حال ہی میں، "پراسرار مشرقی طاقت" DeepSeek سلیکون ویلی کو "مشکل کنٹرول" کر رہا ہے۔

میں نے R1 سے پائتھاگورین تھیوریم کی تفصیل سے وضاحت کرنے کو کہا۔ یہ سب AI نے بغیر کسی غلطی کے 30 سیکنڈ سے بھی کم وقت میں کیا۔ مختصر میں، یہ ختم ہو گیا ہے.

ملکی اور غیر ملکی AI حلقوں میں، عام netizens نے حیرت انگیز اور طاقتور نئے AI (جو اوپن سورس بھی ہے) دریافت کیا ہے، اور تعلیمی ماہرین نے "ہمیں پکڑنا چاہیے" کا نعرہ لگایا ہے۔ یہ بھی سنائی دے رہی ہے کہ بیرون ملک مقیم AI کمپنیوں کو پہلے ہی ایک بڑے خطرے کا سامنا ہے۔

صرف اس ہفتے جاری کردہ DeepSeek R1 کو لے لو۔ بغیر کسی زیر نگرانی تربیت کے اس کا خالص کمک سیکھنے کا راستہ چونکا دینے والا ہے۔ پچھلے سال دسمبر میں Deepseek-v3 بیس کی ترقی سے لے کر OpenAI o1 کے مقابلے موجودہ سوچ چین کی صلاحیتوں تک، یہ وقت کی بات ہے۔

لیکن جب کہ AI کمیونٹی تکنیکی رپورٹس کو پڑھنے اور اصل پیمائشوں کا موازنہ کرنے میں مصروف ہے، لوگوں کو اب بھی R1 کے بارے میں شکوک و شبہات ہیں: بینچ مارکس کے ایک گروپ کو پیچھے چھوڑنے کے علاوہ، کیا یہ واقعی قیادت کر سکتا ہے؟

کیا یہ "جسمانی قوانین" کی اپنی نقلیں بنا سکتا ہے؟

آپ کو یقین نہیں آتا؟ آئیے بڑے ماڈل کو پنبال کے ساتھ کھیلنے دیں؟

حالیہ دنوں میں، AI کمیونٹی کے کچھ لوگ ایک ٹیسٹ کے جنون میں مبتلا ہو گئے ہیں - کسی مسئلے کو حل کرنے کے لیے مختلف AI بڑے ماڈلز (خاص طور پر نام نہاد ریجننگ ماڈلز) کی جانچ کرنا: "کسی خاص کے اندر پیلی گیند کو اچھالنے کے لیے ایک ازگر کا اسکرپٹ لکھیں۔ شکل شکل کو آہستہ سے گھمائیں اور یقینی بنائیں کہ گیند شکل کے اندر ہی رہے۔"

کچھ ماڈل اس "گھومنے والی گیند" بینچ مارک میں دوسروں کو پیچھے چھوڑ دیتے ہیں۔ CoreView CTO Ivan Fioravanti کے مطابق، DeepSeek، ایک گھریلو مصنوعی ذہانت کی لیبارٹری میں ایک اوپن سورس بڑا ماڈل R1 ہے جو OpenAI کے o1 پرو ماڈل کو مات دیتا ہے، جس کی قیمت OpenAI کے ChatGPT Pro پروگرام کے حصے کے طور پر $200 ماہانہ ہے۔

بائیں جانب OpenAI o1 ہے، اور دائیں جانب DeepSeek R1 ہے۔ جیسا کہ اوپر ذکر کیا گیا ہے، یہاں پر اشارہ یہ ہے: "ایک مربع کے اندر اچھلتی ہوئی پیلی گیند کے لیے ازگر کا اسکرپٹ لکھیں، اس بات کو یقینی بنائیں کہ تصادم کا پتہ لگانے کو مناسب طریقے سے ہینڈل کریں۔ مربع کو آہستہ آہستہ گھمائیں. اسے ازگر میں لاگو کریں۔ اس بات کو یقینی بنائیں کہ گیند مربع کے اندر رہے۔"

X پر ایک اور صارف کے مطابق، Anthropic Claude 3.5 Sonnet اور Google کے Gemini 1.5 Pro ماڈلز نے جسمانی اصولوں کے بارے میں غلط فیصلے کیے، جس کی وجہ سے گیند اپنی شکل سے ہٹ گئی۔ کچھ صارفین نے یہ بھی اطلاع دی ہے کہ گوگل کا تازہ ترین جیمنی 2.0 فلیش تھنکنگ تجرباتی، نیز نسبتاً پرانا OpenAI GPT-4o، ایک ہی وقت میں تشخیص پاس کر چکا ہے۔

لیکن یہاں فرق بتانے کا ایک طریقہ ہے:

اس ٹویٹ کے تحت نیٹیزنز نے کہا: o1 کی صلاحیت اصل میں بہت اچھی تھی، لیکن OpenAI کی جانب سے رفتار کو بہتر بنانے کے بعد یہ کمزور ہو گئی، یہاں تک کہ $200/ماہ رکنیت ورژن کے ساتھ۔

ایک اچھالتی گیند کی نقل کرنا ایک کلاسک پروگرامنگ چیلنج ہے۔ درست تخروپن تصادم کا پتہ لگانے والے الگورتھم کو یکجا کرتی ہے، جس کو شناخت کرنے کی ضرورت ہوتی ہے کہ جب دو اشیاء (جیسے گیند اور کسی شکل کا پہلو) آپس میں ٹکراتی ہیں۔ غلط طریقے سے لکھا گیا الگورتھم تخروپن کی کارکردگی کو متاثر کرسکتا ہے یا واضح جسمانی غلطیوں کا سبب بن سکتا ہے۔

این 8 پروگرامز، AI اسٹارٹ اپ نوس ریسرچ کے ایک محقق نے کہا کہ اسے شروع سے گھومنے والے ہیپٹاگون میں اچھالتی ہوئی گیند کو لکھنے میں تقریباً دو گھنٹے لگے۔ "متعدد کوآرڈینیٹ سسٹمز کو ٹریک کیا جانا چاہیے، ہر سسٹم میں تصادم کو کیسے ہینڈل کیا جاتا ہے اس کی سمجھ کی ضرورت ہے، اور کوڈ کو مضبوط ہونے کے لیے شروع سے ڈیزائن کیا جانا چاہیے۔"

اگرچہ اچھالتی گیندیں اور گھومنے والی شکلیں پروگرامنگ کی مہارت کا ایک معقول امتحان ہیں، لیکن یہ بڑے ماڈلز کے لیے اب بھی نئے منصوبے ہیں، اور اشارے میں چھوٹی تبدیلیاں بھی مختلف نتائج پیدا کر سکتی ہیں۔ لہذا اگر یہ بالآخر بڑے AI ماڈلز کے بینچ مارک ٹیسٹ کا حصہ بننا ہے، تو اسے اب بھی بہتر کرنے کی ضرورت ہے۔

کسی بھی صورت میں، عملی ٹیسٹ کی اس لہر کے بعد، ہمیں بڑے ماڈلز کے درمیان صلاحیتوں میں فرق کا احساس ہے۔

DeepSeek نیا "سلیکن ویلی کا افسانہ ہے۔

DeepSeek پورے بحرالکاہل میں خوف و ہراس پھیلا رہا ہے۔

میٹا ملازمین نے پوسٹ کیا ہے کہ "میٹا انجینئرز DeepSeek کا بے دلی سے تجزیہ کر رہے ہیں تاکہ وہ اس سے کسی بھی چیز کو کاپی کرنے کی کوشش کریں۔"

AI ٹیکنالوجی اسٹارٹ اپ اسکیل AI کے بانی، الیگزینڈر وانگ نے بھی عوامی طور پر کہا کہ DeepSeek کے AI بڑے ماڈل کی کارکردگی تقریباً امریکہ کے بہترین ماڈل کے برابر ہے۔

اس کا یہ بھی ماننا ہے کہ امریکہ پچھلی دہائی کے دوران AI مقابلے میں چین سے آگے ہو سکتا ہے، لیکن DeepSeek کا اپنے AI بڑے ماڈل کی ریلیز "سب کچھ بدل سکتی ہے۔"

X Blogger @8teAPi کا خیال ہے کہ DeepSeek کوئی "سائیڈ پروجیکٹ" نہیں ہے بلکہ لاک ہیڈ مارٹن کے سابقہ "Skunk Works" کی طرح ہے۔

نام نہاد "Skunk Works" سے مراد ایک انتہائی خفیہ، نسبتاً آزاد چھوٹی ٹیم ہے جسے Lockheed Martin نے اصل میں بہت سے جدید طیارے تیار کرنے کے لیے ترتیب دیا تھا، جو جدید یا غیر روایتی ٹیکنالوجی کی تحقیق اور ترقی میں مصروف ہے۔ U-2 جاسوس طیارے اور SR-71 بلیک برڈ سے لے کر F-22 Raptor اور F-35 Lightning II فائٹر تک، وہ سب یہاں سے آئے تھے۔

بعد میں، یہ اصطلاح دھیرے دھیرے ایک عام اصطلاح میں تیار ہوئی جسے "چھوٹا لیکن ٹھیک"، نسبتاً خود مختار اور زیادہ لچکدار اختراعی ٹیمیں جو بڑی کمپنیوں یا تنظیموں کے اندر قائم کی گئی ہیں، بیان کرنے کے لیے استعمال ہوتی ہیں۔

اس نے دو وجوہات بیان کیں:

  • ایک طرف، DeepSeek کے پاس بڑی تعداد میں GPUs ہیں، جن کی تعداد 10,000 سے زیادہ ہے، اور Scale AI کے سی ای او الیگزینڈر وانگ نے یہاں تک کہا کہ یہ 50,000 تک پہنچ سکتا ہے۔
  • دوسری طرف، DeepSeek صرف چین کی ٹاپ تین یونیورسٹیوں سے ٹیلنٹ کو بھرتی کرتا ہے، جس کا مطلب ہے کہ DeepSeek علی بابا اور Tencent کی طرح مسابقتی ہے۔

صرف یہ دو حقائق یہ ظاہر کرتے ہیں کہ DeepSeek نے واضح طور پر تجارتی کامیابی حاصل کی ہے اور ان وسائل کو حاصل کرنے کے لیے کافی مشہور ہے۔

جہاں تک DeepSeek کے ترقیاتی اخراجات کا تعلق ہے، بلاگر نے کہا کہ چینی ٹیکنالوجی کمپنیاں مختلف قسم کی سبسڈی حاصل کر سکتی ہیں، جیسے بجلی کی کم قیمت اور زمین کا استعمال۔

اس لیے، یہ بہت ممکن ہے کہ DeepSeek کے زیادہ تر اخراجات بنیادی کاروبار سے باہر کسی اکاؤنٹ میں یا کسی قسم کی ڈیٹا سینٹر کی تعمیر کی سبسڈی کی شکل میں "رکھے" گئے ہوں۔

یہاں تک کہ بانیوں کے علاوہ، کوئی بھی تمام مالیاتی انتظامات کو پوری طرح نہیں سمجھتا ہے۔ کچھ معاہدے محض "زبانی معاہدے" ہو سکتے ہیں جنہیں صرف ساکھ کی بنیاد پر حتمی شکل دی جاتی ہے۔

قطع نظر، چند چیزیں واضح ہیں:

  • یہ ماڈل بہترین ہے، جس کا موازنہ اوپن اے آئی کے دو ماہ قبل جاری کردہ ورژن سے کیا جاسکتا ہے، اور یقیناً یہ ممکن ہے کہ یہ اتنا اچھا نہ ہو جتنا کہ اوپن اے آئی اور اینتھروپک نے ابھی تک جاری کیا ہے۔
  • موجودہ نقطہ نظر سے، تحقیق کی سمت اب بھی امریکی کمپنیوں کا غلبہ ہے۔ DeepSeek ماڈل o1 ورژن کا ایک "فوری فالو اپ" ہے، لیکن DeepSeek کی تحقیق اور ترقی کی پیشرفت بہت تیز ہے، جو توقع سے زیادہ تیزی سے پکڑ رہی ہے۔ وہ سرقہ یا دھوکہ نہیں دے رہے ہیں، زیادہ سے زیادہ وہ ریورس انجینئرنگ ہیں۔
  • DeepSeek بنیادی طور پر امریکی تربیت یافتہ پی ایچ ڈیز پر انحصار کرنے کے بجائے اپنے ٹیلنٹ کی تربیت کر رہا ہے، جو ٹیلنٹ پول کو بہت زیادہ پھیلاتا ہے۔
  • امریکی کمپنیوں کے مقابلے میں، DeepSeek دانشورانہ املاک کے لائسنسنگ، رازداری، سیکورٹی، سیاست، وغیرہ کے لحاظ سے کم رکاوٹوں کے ساتھ مشروط ہے، اور ڈیٹا کے غلط استعمال کے بارے میں کم خدشات ہیں جن پر لوگ تربیت حاصل نہیں کرنا چاہتے ہیں۔ کم مقدمے، کم وکلاء، اور کم خدشات ہیں۔

اس میں کوئی شک نہیں کہ زیادہ سے زیادہ لوگوں کو یقین ہے کہ 2025 ایک فیصلہ کن سال ہو گا۔ اس دوران، کمپنیاں اس کے لیے تیاری کر رہی ہیں۔ میٹا، مثال کے طور پر، 2025 تک $60-65 بلین کی تخمینی سرمایہ کاری کے ساتھ، 2GW+ ڈیٹا سینٹر بنا رہا ہے، اور سال کے آخر تک 1.3 ملین سے زیادہ GPUs ہوں گے۔

میٹا نے اپنے 2 گیگا واٹ ڈیٹا سینٹر کا مین ہٹن، نیویارک سے موازنہ کرنے کے لیے ایک چارٹ کا بھی استعمال کیا۔

لیکن اب DeepSeek نے کم قیمت اور کم GPUs کے ساتھ بہتر کارکردگی کا مظاہرہ کیا ہے۔ یہ کیسے لوگوں کو پریشان نہیں کر سکتا؟

Yann LeCun: ہمیں CTO اور کے شریک بانی کا شکریہ ادا کرنا ہوگا۔ دی اوپن سورس

ہائپربولک، یوچن جن، پوسٹ کرنے کے لیے کہ صرف 4 دنوں میں، DeepSeek-R1 نے ہمارے لیے 4 حقائق ثابت کیے ہیں:

  • اوپن سورس AI بند سورس AI سے صرف 6 ماہ پیچھے ہے۔
  • چین اوپن سورس AI مقابلے پر غلبہ حاصل کر رہا ہے۔
  • ہم بڑے لینگویج ماڈل ری انفورسمنٹ سیکھنے کے سنہری دور میں داخل ہو رہے ہیں۔
  • ڈسٹلیشن ماڈل بہت طاقتور ہیں، اور ہم موبائل فون پر انتہائی ذہین AI چلائیں گے۔

DeepSeek کے ذریعے شروع ہونے والا سلسلہ رد عمل اب بھی جاری ہے، جیسے OpenAI o3-mini کو آزادانہ طور پر دستیاب کرایا جا رہا ہے، کمیونٹی میں AGI/ASI کے بارے میں مبہم بحث کو کم کرنے کی امید، اور یہ افواہ کہ Meta گھبراہٹ کا شکار ہے۔

ان کا خیال ہے کہ یہ پیشین گوئی کرنا مشکل ہے کہ آخر کار کون جیتے گا، لیکن ہمیں دیر سے آنے والے کے فائدہ کی طاقت کو نہیں بھولنا چاہیے۔ بہر حال، ہم سب جانتے ہیں کہ یہ گوگل ہی تھا جس نے ٹرانسفارمر ایجاد کیا، جبکہ اوپن اے آئی نے اس کی حقیقی صلاحیت کو کھولا۔

اس کے علاوہ ٹیورنگ ایوارڈ ونر اور میٹا کے چیف اے آئی سائنٹسٹ یان لیکون نے بھی اپنے خیالات کا اظہار کیا۔

"ان لوگوں کے لیے، جو DeepSeek کی کارکردگی کو دیکھ کر سوچتے ہیں، 'چین AI میں امریکہ کو پیچھے چھوڑ رہا ہے،' آپ کو یہ غلط ہے۔ صحیح فہم یہ ہے کہ اوپن سورس ماڈلز ملکیتی ماڈلز کو پیچھے چھوڑ رہے ہیں۔

LeCun نے کہا کہ DeepSeek نے اس بار اس طرح کی چھڑکاؤ کرنے کی وجہ یہ ہے کہ انہوں نے اوپن ریسرچ اور اوپن سورس (جیسے میٹا کی پائ ٹارچ اور لاما) سے فائدہ اٹھایا ہے۔ DeepSeek نئے آئیڈیاز کے ساتھ آیا ہے اور دوسروں کے کام پر بنایا گیا ہے۔ کیونکہ ان کا کام عوامی سطح پر جاری اور اوپن سورس ہے، اس لیے ہر کوئی اس سے فائدہ اٹھا سکتا ہے۔ یہ اوپن ریسرچ اور اوپن سورس کی طاقت ہے۔

نیٹیزنز کی عکاسی جاری ہے۔ جہاں وہ نئی ٹیکنالوجیز کی ترقی کے بارے میں پرجوش ہیں، وہیں وہ تھوڑی بے چینی کا ماحول بھی محسوس کر سکتے ہیں۔ سب کے بعد، DeepSeekers کے ابھرنے کا ایک حقیقی اثر ہو سکتا ہے.

ملتے جلتے پوسٹس

جواب دیں

آپ کا ای میل ایڈریس شائع نہیں کیا جائے گا۔ ضروری خانوں کو * سے نشان زد کیا گیا ہے