DeepSeek کیسے بنایا گیا؟ DeepSeek کی ترقی کی تاریخ کا تجزیہ

مستقبل میں، زیادہ سے زیادہ کٹر جدت ہو جائے گا. اب یہ سمجھنا آسان نہیں ہوگا، کیونکہ پورے سماجی گروہ کو حقائق سے آگاہ کرنے کی ضرورت ہے۔ جب یہ معاشرہ ایسے لوگوں کو کامیاب ہونے دیتا ہے جو اختراعات کرتے ہیں تو اجتماعی ذہنیت بدل جائے گی۔ ہمیں صرف حقائق اور عمل کی ضرورت ہے۔ — لیانگ وینفینگ، DeepSeek کے بانی

حالیہ دنوں میں، DeepSeek پوری دنیا میں پھٹ چکا ہے، لیکن چونکہ کمپنی بہت کم اہمیت کی حامل ہے اور اس نے کوئی اعلان نہیں کیا ہے، اس لیے عوام اس ٹیکنالوجی کمپنی کے بارے میں بہت کم جانتے ہیں جس میں بڑی صلاحیت ہے - چاہے یہ اس کا بانی پس منظر ہو، کاروباری دائرہ کار ، یا مصنوعات کی ترتیب۔

تمام مواد کی چھانٹی مکمل کرنے کے بعد، میں نے یہ مضمون لکھا

موجودہ AI کھلاڑیوں کا پس منظر کیا ہے، وہ کیا کر رہے ہیں، اور وہ کس کو بھرتی کر رہے ہیں؟

اور شاید DeepSeek کا سب سے مکمل تاریخی جائزہ۔

اس بار پچھلے سال، میجک کیوب کوانٹ کا ایک دوست میرے پاس آیا اور پوچھا، "کیا آپ چین میں کوئی بڑا ماڈل بنانا چاہتے ہیں؟" اور میں نے دوپہر کو کافی پیتے ہوئے گزارا۔ جیسا کہ توقع کی جاتی ہے، زندگی اب بھی انتخاب پر منحصر ہے۔

دی میجک کیوب کوانٹ کا ذکر یہاں سرمایہ کار ہے۔، یا DeepSeek کی پیرنٹ کمپنی۔

نام نہاد "کوانٹ" ایک سرمایہ کاری کا ادارہ ہے جو انسانی طاقت سے نہیں بلکہ الگورتھم کے ذریعے فیصلے کرتا ہے۔ کوانٹ فینٹسی کا قیام زیادہ عرصہ نہیں ہے، 2015 میں شروع ہوا۔ 2021 تک، جب یہ چھ سال کا تھا، Quant Fantasy کا اثاثہ جات کا انتظام 100 بلین سے تجاوز کر چکا تھا، اور اسے چین کے "چار عظیم کوانٹ بادشاہوں" میں سے ایک کے طور پر سراہا گیا۔

فینٹسی اسکوائر کے بانی، لیانگ وینفینگ، جو DeepSeek کے بانی بھی ہیں، 1980 کی دہائی میں پیدا ہونے والا ایک "نان مین اسٹریم" مالیاتی رہنما ہے: اس کے پاس بیرون ملک مطالعہ کا کوئی تجربہ نہیں ہے، وہ اولمپک مقابلے کا فاتح نہیں ہے، اور ژیجیانگ یونیورسٹی کے الیکٹرانک انجینئرنگ کے شعبہ سے گریجویشن کیا ہے، جس میں مصنوعی ذہانت میں بڑی مہارت ہے۔ وہ ایک مقامی ٹکنالوجی کا ماہر ہے جو ہر روز "کاغذات پڑھنا، کوڈ لکھنا، اور گروپ ڈسکشن میں حصہ لینا" کم اہم انداز میں کام کرتا ہے۔

لیانگ وینفینگ میں روایتی کاروباری مالک کی عادات نہیں ہیں، لیکن وہ خالص "ٹیک گیک" کی طرح ہیں۔. بہت سے صنعت کے اندرونی اور DeepSeek محققین نے لیانگ وینفینگ کی بہت زیادہ تعریف کی ہے: "کوئی ایسا شخص جس کے پاس انفرا انجینئرنگ کی مضبوط صلاحیتیں اور ماڈل ریسرچ کی صلاحیتیں ہیں، اور وہ وسائل کو بھی متحرک کر سکتا ہے،" "کوئی ایسا شخص جو اعلیٰ سطح سے درست فیصلے کر سکتا ہے، لیکن اس سے بہتر بھی فرنٹ لائن محققین کے بارے میں تفصیلات پر، اور اس کے پاس "ایک خوفناک سیکھنے کی صلاحیت" بھی ہے۔

DeepSeek کے قائم ہونے سے بہت پہلے، Huanfang نے AI صنعت میں طویل مدتی منصوبے بنانا شروع کر دیے تھے۔. مئی 2023 میں، لیانگ وینفینگ نے ڈارک سرج کے ساتھ ایک انٹرویو میں ذکر کیا: "2020 میں OpenAI کے GPT3 کو جاری کرنے کے بعد، AI کی ترقی کی سمت بہت واضح ہو گئی ہے، اور کمپیوٹنگ پاور ایک اہم عنصر بن جائے گی؛ لیکن یہاں تک کہ 2021 میں، جب ہم نے فائر فلائی 2 کی تعمیر میں سرمایہ کاری کی، تب بھی زیادہ تر لوگ اسے سمجھ نہیں سکے۔

اس فیصلے کی بنیاد پر، Huanfang نے اپنا کمپیوٹنگ انفراسٹرکچر بنانا شروع کیا۔ ابتدائی 1 کارڈ سے 2015 میں 100 کارڈز، 2019 میں 1,000 کارڈز اور پھر 10,000 کارڈز تک، یہ عمل آہستہ آہستہ ہوا۔ چند سو کارڈز سے پہلے، ہم ایک IDC میں میزبان تھے۔ جب پیمانہ بڑا ہو گیا، ہوسٹنگ مزید ضروریات کو پورا نہیں کر سکتی تھی، اس لیے ہم نے اپنا کمپیوٹر روم بنانا شروع کر دیا۔

بعد میں، فائنانس الیون نے اطلاع دی، "پانچ سے زیادہ نہیں ہیں۔ گھریلو کمپنیاں جن میں 10,000 سے زیادہ GPUs ہیں، اور چند بڑے مینوفیکچررز کے علاوہ، ان میں میجک کیوب نامی ایک مقداری فنڈ کمپنی بھی شامل ہے۔" عام طور پر یہ خیال کیا جاتا ہے کہ 10,000 Nvidia A100 چپس بڑے ماڈلز کو تربیت دینے کے لیے کمپیوٹنگ پاور کی حد ہے۔

ایک پچھلے انٹرویو میں، لیانگ وینفینگ نے بھی ایک دلچسپ نکتہ کا ذکر کیا: بہت سے لوگ سوچیں گے کہ اس کے پیچھے ایک نامعلوم کاروباری منطق ہے، لیکن حقیقت میں، یہ بنیادی طور پر تجسس سے کارفرما ہے۔

مندرجات کا جدول

DeepSeekکی پہلی ملاقات

مئی 2023 میں ڈارک سرج کے ساتھ ایک انٹرویو میں جب پوچھا گیا۔ "کچھ عرصہ قبل، Huanfang نے بڑے ماڈل بنانے کے اپنے فیصلے کا اعلان کیا، ایک مقداری فنڈ ایسا کام کیوں کرے گا؟"

لیانگ وینفینگ کا جواب گونجنے والا تھا: "ایک بڑا ماڈل بنانے کے ہمارے فیصلے کا کوانٹیفیکیشن یا فنانس سے کوئی لینا دینا نہیں ہے۔ ہم نے ایسا کرنے کے لیے DeepSeek نامی ایک نئی کمپنی قائم کی ہے۔ Mianfang میں ٹیم کے بہت سے اہم ارکان مصنوعی ذہانت سے وابستہ ہیں۔ اس وقت، ہم نے بہت سے منظرنامے آزمائے اور آخر کار فنانس پر طے پایا، جو کافی پیچیدہ ہے۔ عام مصنوعی ذہانت حاصل کرنے کے لیے اگلی مشکل ترین چیزوں میں سے ایک ہو سکتی ہے، اس لیے ہمارے لیے یہ ایک سوال ہے کہ اسے کیسے کیا جائے، کیوں نہیں۔

تجارتی مفادات یا مارکیٹ کے رجحانات کا پیچھا کرتے ہوئے نہیں، بلکہ صرف خود AGI ٹیکنالوجی کو دریافت کرنے کی خواہش اور "سب سے اہم اور مشکل چیز" کے مسلسل تعاقب سے کارفرما ہے۔ "DeepSeek" نام کی باضابطہ طور پر مئی 2023 میں تصدیق ہوئی تھی۔. 17 جولائی 2023 کو، "Hangzhou DeepSeek مصنوعی ذہانت بنیادی ٹیکنالوجی ریسرچ کمپنی، لمیٹڈ۔" شامل کیا گیا تھا.

پر 2 نومبر 2023، DeepSeek نے اپنا پہلا جواب دیا: DeepSeek Coder، اوپن سورس کوڈ کا ایک بڑا ماڈل. اس ماڈل میں متعدد سائز شامل ہیں جیسے 1B، 7B، اور 33B۔ اوپن سورس مواد میں بیس ماڈل اور کمانڈ ٹیوننگ ماڈل شامل ہیں۔

اس وقت، اوپن سورس ماڈلز میں، Meta's CodeLlama انڈسٹری کا بینچ مارک تھا۔ تاہم، DeepSeek Coder کے جاری ہونے کے بعد، اس نے CodeLlama کے مقابلے میں کثیر جہتی نمایاں پوزیشن کا مظاہرہ کیا: کوڈ جنریشن میں، HumanEval 9.3% آگے، MBPP 10.8% آگے، اور DS-1000 5.9% آگے تھا۔

ذہن میں رکھیں کہ DeepSeek کوڈر ایک 7B ماڈل ہے، جبکہ CodeLlama 34B ماڈل ہے۔ اس کے علاوہ، DeepSeek کوڈر ماڈل، ہدایات کے ساتھ ٹیون ہونے کے بعد، جامع طور پر GPT3.5-Turbo کو پیچھے چھوڑ گیا ہے۔

نہ صرف کوڈ جنریشن متاثر کن ہے، بلکہ DeepSeek کوڈر ریاضی اور استدلال میں اپنے عضلات کو بھی دکھاتا ہے۔

تین دن بعد، 5 نومبر 2023 کو، DeepSeek نے اپنے WeChat پبلک اکاؤنٹ کے ذریعے بھرتی کے مواد کی ایک بڑی مقدار جاری کی، جس میں AGI بڑے ماڈل انٹرن، ڈیٹا ایکسپرٹ، ڈیٹا آرکیٹیکچر ٹیلنٹ، سینئر ڈیٹا اکٹھا کرنے والے انجینئر، گہری سیکھنے کی تحقیق اور ترقی جیسے عہدے شامل ہیں۔ انجینئر، وغیرہ، اور فعال طور پر ٹیم کو بڑھانے کے لئے شروع کر دیا.

جیسا کہ لیانگ وینفینگ نے کہا، ٹیلنٹ کی بھرتی کے لیے DeepSeek کی "ضروری ضروریات" "جذبہ اور ٹھوس بنیادی مہارتیں" ہیں۔، اور اس نے اس پر زور دیا۔ "جدت کے لیے ممکنہ حد تک کم مداخلت اور انتظام کی ضرورت ہوتی ہے، تاکہ ہر ایک کو غلطی کرنے اور نئی چیزوں کو آزمانے کی آزادی ہو۔ جدت اکثر اندر سے آتی ہے، جان بوجھ کر ترتیب سے نہیں، اور یہ یقینی طور پر پڑھانے سے نہیں آتی۔

ماڈلز کثرت سے جاری کیے جاتے ہیں، اور اوپن سورس پر عمل کیا جاتا ہے۔

DeepSeek کوڈر نے ایک سپلیش کرنے کے بعد، DeepSeek نے اپنی توجہ مرکزی میدان جنگ کی طرف موڑ دی: عام زبان کے ماڈل۔

پر 29 نومبر 2023، DeepSeek نے اپنا پہلا عام مقصد کے بڑے لینگوئج ماڈل، DeepSeek LLM 67B کو جاری کیا۔ اس ماڈل کو اسی سطح کے Meta کے LLaMA2 70B ماڈل کے خلاف بینچ مارک کیا گیا ہے اور اس نے چینی اور انگریزی میں تقریباً 20 عوامی تشخیصی فہرستوں میں بہتر کارکردگی کا مظاہرہ کیا ہے۔ خاص طور پر، اس کی استدلال، ریاضی، اور پروگرامنگ کی صلاحیتیں (مثال کے طور پر، HumanEval، MATH، CEval، اور CMMLU) شاندار ہیں۔

DeepSeek LLM 67B نے اوپن سورس روٹ کا بھی انتخاب کیا ہے اور تجارتی استعمال کی حمایت کرتا ہے۔ اوپن سورس کے لیے اپنے خلوص اور عزم کو مزید ظاہر کرنے کے لیے، DeepSeek نے، بے مثال طور پر، بیک وقت مختلف پیمانے کے دو ماڈلز 7B اور 67B کو کھولا ہے، اور یہاں تک کہ محققین کے لیے ڈاؤن لوڈ اور استعمال کرنے کے لیے ماڈل ٹریننگ کے عمل کے دوران پیدا ہونے والی نو چوکیوں کو بھی پبلک کر دیا ہے۔ اس قسم کا آپریشن، جو "سب کچھ سکھانے" کے مترادف ہے، پوری اوپن سورس کمیونٹی میں انتہائی نایاب ہے۔

DeepSeek LLM 67B کی حقیقی صلاحیتوں کو زیادہ جامع اور معروضی طور پر جانچنے کے لیے، DeepSeek ریسرچ ٹیم نے "تناؤ کی جانچ" کے لیے "نئے سوالات" کی ایک سیریز کو بھی احتیاط سے ڈیزائن کیا۔ ان سوالات میں اعلیٰ سطحی، اعلیٰ امتیازی امتحانات جیسے کہ ہنگری کے ہائی اسکول کے ریاضی کے امتحان کے سوالات، تشخیصی سیٹوں کے بعد گوگل کمانڈ، اور LeetCode ہفتہ وار مقابلہ کے سوالات شامل ہیں۔ ٹیسٹ کے نتائج حوصلہ افزا تھے۔ DeepSeek LLM 67B نے نمونے سے ہٹ کر عام کرنے کی صلاحیت کے لحاظ سے حیرت انگیز صلاحیت کا مظاہرہ کیا، اور اس کی مجموعی کارکردگی اس وقت کے جدید ترین GPT-4 ماڈل کے بھی قریب تھی۔

پر 18 دسمبر 2023، DeepSeek نے ونسنٹ 3D ماڈل DreamCraft3D کو کھولا: یہ AIGC میں 2D طیاروں سے 3D اسپیس تک چھلانگ حاصل کرتے ہوئے ایک جملے سے اعلیٰ معیار کے 3D ماڈل تیار کر سکتا ہے۔ مثال کے طور پر، اگر صارف ان پٹ دیتا ہے: "جنگل میں دوڑنا، سور کے سر اور بندر بادشاہ کے جسم کی ایک مضحکہ خیز ہائبرڈ تصویر،" DreamCraft3D اعلیٰ معیار کے مواد کو آؤٹ پٹ کر سکتا ہے:

اصولی طور پر، ماڈل پہلے وین ڈایاگرام کو مکمل کرتا ہے، اور پھر 2D تصوراتی نقشے کی بنیاد پر مجموعی ہندسی ساخت کی تکمیل کرتا ہے:

اس کے بعد ہونے والی موضوعی تشخیص میں، 90% سے زیادہ صارفین نے کہا کہ ڈریم کرافٹ 3D کو پچھلی نسل کے طریقوں کے مقابلے جنریشن کوالٹی میں فائدہ ہے۔

7 جنوری 2024 کو، DeepSeek نے DeepSeek LLM 67B تکنیکی رپورٹ جاری کی۔ اس 40+ صفحات کی رپورٹ میں DeepSeek LLM 67B کی بہت سی تفصیلات شامل ہیں، بشمول خود ساختہ پیمانے کے قوانین، ماڈل کی صف بندی کی مکمل عملی تفصیلات، اور ایک جامع AGI صلاحیت کی تشخیص کا نظام۔

کاغذ کا پتہ

پر 11 جنوری 2024، DeepSeek نے چین میں پہلا MoE (مخلوط ماہر فن تعمیر) بڑے ماڈل کو اوپن سورس کیا، DeepSeekMoE: ایک بالکل نیا فن تعمیر جو چینی اور انگریزی کو سپورٹ کرتا ہے اور تجارتی استعمال کے لیے مفت ہے۔ اس وقت عام طور پر MoE فن تعمیر کو OpenAI GPT-4 کی کارکردگی میں پیش رفت کی کلید سمجھا جاتا تھا۔ DeepSeek کا خود سے تیار کردہ MoE فن تعمیر 2B، 16B، اور 145B جیسے متعدد پیمانے میں سرفہرست ہے، اور اس کا کمپیوٹیشنل بھی بہت قابل تعریف ہے۔

25 جنوری 2024 کو، DeepSeek نے DeepSeek کوڈر تکنیکی رپورٹ جاری کی۔ یہ رپورٹ اس کے تربیتی ڈیٹا، تربیت کے طریقوں، اور ماڈل کی کارکردگی کا ایک جامع تکنیکی تجزیہ فراہم کرتی ہے۔ اس رپورٹ میں، ہم دیکھ سکتے ہیں کہ پہلی بار، اس نے گودام کی سطح کا کوڈ ڈیٹا بنایا ہے اور فائلوں کے درمیان انحصار کا تجزیہ کرنے کے لیے ٹاپولوجیکل چھانٹی کا استعمال کیا ہے، جس سے لمبی دوری کی کراس فائلوں کو سمجھنے کی صلاحیت میں نمایاں اضافہ ہوا ہے۔ تربیت کے طریقوں کے لحاظ سے، Fill-In-Middle طریقہ شامل کیا گیا، جس نے کوڈ کی تکمیل کی صلاحیت کو بہت بہتر بنایا۔

کاغذ کا پتہ

30 جنوری 2024 کو، DeepSeek اوپن پلیٹ فارم کو باضابطہ طور پر لانچ کیا گیا، اور DeepSeek لارج ماڈل API سروس نے جانچ شروع کر دی۔ مفت میں 10 ملین ٹوکن حاصل کرنے کے لیے رجسٹر ہوں۔ انٹرفیس OpenAI API انٹرفیس کے ساتھ مطابقت رکھتا ہے، اور دونوں چیٹ/کوڈر ڈوئل ماڈل دستیاب ہیں۔ اس وقت، DeepSeek نے ٹیکنالوجی کی تحقیق اور ترقی کے علاوہ ٹیکنالوجی سروس فراہم کرنے والے کے راستے کو تلاش کرنا شروع کیا۔

پر 5 فروری 2024، DeepSeek نے ایک اور عمودی ڈومین ماڈل جاری کیا، DeepSeekMath، ایک ریاضیاتی استدلال کا ماڈل۔ اس ماڈل میں صرف 7B پیرامیٹرز ہیں، لیکن اس کی ریاضیاتی استدلال کی صلاحیت GPT-4 کے قریب ہے۔ مستند MATH بینچ مارک لسٹ پر، یہ ہجوم کو پیچھے چھوڑ دیتا ہے اور 30B اور 70B کے درمیان پیرامیٹر سائز کے ساتھ متعدد اوپن سورس ماڈلز کو پیچھے چھوڑ دیتا ہے۔ DeepSeekMath کی ریلیز DeepSeek کی تکنیکی طاقت اور عمودی کی تحقیق اور ترقی اور ماڈل ریسرچ اور ڈیولپمنٹ میں اس کے مستقبل کے حوالے سے لے آؤٹ کو مکمل طور پر ظاہر کرتی ہے۔

پر 28 فروری 2024، DeepSeek اوپن سورس ماڈلز کے استعمال کے بارے میں ڈویلپرز کے خدشات کو مزید دور کرنے کے لیے، DeepSeek نے ایک اوپن سورس پالیسی FAQ جاری کیا۔، جو اکثر پوچھے جانے والے سوالات جیسے ماڈل اوپن سورس لائسنسنگ اور تجارتی استعمال کی پابندیوں کے تفصیلی جوابات فراہم کرتا ہے۔ DeepSeek زیادہ شفاف اور کھلے رویے کے ساتھ اوپن سورس کو قبول کرتا ہے:

پر 11 مارچ 2024 کو DeepSeek نے ملٹی ماڈل بڑے ماڈل DeepSeek-VL کو جاری کیا. یہ ملٹی ماڈل AI ٹیکنالوجی میں DeepSeek کی ابتدائی کوشش ہے۔ ماڈل 7B اور 1.3B سائز کا ہے، اور ماڈل اور تکنیکی کاغذات بیک وقت اوپن سورس ہیں۔

پر 20 مارچ، 2024، ہوان فینگ AI اور DeepSeek کو ایک بار پھر NVIDIA GTC 2024 کانفرنس میں شرکت کے لیے مدعو کیا گیا، اور بانی لیانگ وینفینگ نے ایک تکنیکی کلیدی تقریر کی۔ "تنوع میں ہم آہنگی: بڑی زبان کے ماڈلز کی قدروں کو سیدھ میں لانا اور ڈیکپلنگ" کے عنوان سے۔ "ایک واحد قدر والے بڑے ماڈل اور ایک تکثیری معاشرے اور ثقافت کے درمیان تنازعہ،" "بڑے ماڈل کی قدر کی سیدھ کو ڈیکپلنگ" اور "ڈی ڈوپلڈ ویلیو الائنمنٹ کے کثیر جہتی چیلنجز" جیسے مسائل پر تبادلہ خیال کیا گیا۔ اس نے تکنیکی تحقیق اور ترقی کے علاوہ AI کی ترقی کے لیے DeepSeek کی انسانی دیکھ بھال اور سماجی ذمہ داری کا مظاہرہ کیا۔

مارچ 2024 میں، DeepSeek API باضابطہ طور پر بامعاوضہ خدمات کا آغاز کیا، جس نے چین کی بڑی ماڈل مارکیٹ میں قیمتوں کی جنگ کو مکمل طور پر بھڑکا دیا: 1 یوآن فی ملین ان پٹ ٹوکن اور 2 یوآن فی ملین آؤٹ پٹ ٹوکن۔

2024 میں، DeepSeek نے چین میں بڑے ماڈلز کے ریکارڈ کو کامیابی کے ساتھ پاس کیا، اپنی API سروسز کے مکمل افتتاح کے لیے پالیسی کی رکاوٹوں کو دور کیا۔

مئی 2024 میں، DeepSeek-V2، ایک اوپن سورس جنرل MoE لارج ماڈل، جاری کیا گیا، اور قیمتوں کی جنگ باضابطہ طور پر شروع ہوئی۔ DeepSeek-V2 ایم ایل اے (ملٹی ہیڈ لینٹنٹ توجہ کا طریقہ کار) استعمال کرتا ہے، جو ماڈل کے میموری فوٹ پرنٹ کو روایتی MHA کے 5%-13% تک کم کر دیتا ہے۔ ایک ہی وقت میں، اس نے آزادانہ طور پر DeepSeek MoE اسپارس اسپارس ڈھانچہ بھی تیار کیا ہے، جو ماڈل کی کمپیوٹیشنل پیچیدگی کو بہت حد تک کم کرتا ہے۔ اس کی بدولت، ماڈل "1 یوآن/ملین ان پٹ اور 2 یوآن/ملین آؤٹ پٹ" کی API قیمت برقرار رکھتا ہے۔

DeepSeek کا بہت بڑا اثر ہوا ہے۔ اس سلسلے میں، SemiAnalysis کے مرکزی تجزیہ کار کا خیال ہے کہ DeepSeek V2 پیپر "اس سال بہترین میں سے ایک ہو سکتا ہے۔" اسی طرح، اوپن اے آئی کے ایک سابق ملازم اینڈریو کار کا خیال ہے کہ یہ کاغذ "حیرت انگیز حکمت سے بھرا ہوا" ہے اور اس نے اپنی تربیتی ترتیبات کو اپنے ماڈل پر لاگو کیا ہے۔

واضح رہے کہ یہ ایک ایسا ماڈل ہے جو GPT-4-Turbo کو بینچ مارک کرتا ہے، اور API کی قیمت مؤخر الذکر کا صرف 1/70 ہے۔

جون کو 17، 2024، DeepSeek نے ایک بار پھر DeepSeek Coder V2 کوڈ ماڈل کو جاری کرتے ہوئے ایک بڑا زور دیا۔ اوپن سورس اور یہ دعویٰ کرتے ہوئے کہ اس کی کوڈ کی صلاحیتوں نے GPT-4-Turbo کو پیچھے چھوڑ دیا ہے، جو اس وقت کا سب سے جدید کلوز سورس ماڈل تھا۔ DeepSeek Coder V2 DeepSeek کی مستقل اوپن سورس حکمت عملی کو جاری رکھے ہوئے ہے، جس میں تمام ماڈلز، کوڈ، اور پیپرز اوپن سورس ہیں، اور دو ورژن، 236B اور 16B فراہم کیے گئے ہیں۔ DeepSeek C oder V2 کی API سروسز آن لائن بھی دستیاب ہیں، اور قیمت "1 یوآن/ملین ان پٹ اور 2 یوآن/ملین آؤٹ پٹس" پر برقرار ہے۔

پر 21 جون 2024، DeepSeek کوڈر نے آن لائن کوڈ پر عمل درآمد کی حمایت کی۔ اسی دن، Claude3.5 Sonnet جاری کیا گیا، نئے آرٹفیکٹس فیچر کے ساتھ، جو خود بخود کوڈ تیار کرتا ہے اور اسے براہ راست براؤزر میں چلاتا ہے۔ اسی دن، DeepSeek ویب سائٹ پر کوڈ اسسٹنٹ نے بھی وہی خصوصیت شروع کی: کوڈ تیار کریں اور اسے ایک کلک سے چلائیں۔

آئیے اس دور کے اہم واقعات کا جائزہ لیتے ہیں:

مسلسل کامیابیاں، عالمی توجہ اپنی طرف مبذول کر رہی ہیں۔

مئی 2024 میں، DeepSeek DeepSeek V2 جاری کر کے راتوں رات مشہور ہو گیا، جو MoE پر مبنی ایک اوپن سورس ماڈل ہے۔ یہ GPT-4-Turbo کی کارکردگی سے مماثل ہے، لیکن صرف 1 یوآن/ملین ان پٹ کی قیمت پر، جو GPT-4-Turbo کا 1/70 تھا۔ اس وقت، DeepSeek انڈسٹری میں ایک مشہور "قیمت کا قصائی" بن گیا، اور پھر مرکزی دھارے کے کھلاڑی جیسے Zhicheng، ByteDance، اور Alibaba… اور دیگر بڑے کھلاڑیوں نے تیزی سے اس کی پیروی کی اور اپنی قیمتیں کم کر دیں۔ یہ وہ وقت تھا جب GPT پابندی کا ایک اور دور تھا، اور بڑی تعداد میں AI ایپلی کیشنز نے پہلی بار گھریلو ماڈلز کو آزمانا شروع کیا۔

جولائی 2024 میں، DeepSeek کے بانی لیانگ وینفینگ نے ایک بار پھر ڈارک سرج کے ساتھ انٹرویو قبول کیا اور قیمتوں کی جنگ کا براہ راست جواب دیا: "بہت غیر متوقع۔ مجھے توقع نہیں تھی کہ قیمت سب کو اتنا حساس بنا دے گی۔ ہم صرف اپنی رفتار سے چیزیں کرتے ہیں اور پھر قیمت پر مبنی قیمت۔ ہمارا اصول پیسہ کمانا یا بے تحاشا منافع کمانا نہیں ہے۔ یہ قیمت بھی تھوڑا سا منافع کے ساتھ لاگت سے کچھ زیادہ ہے۔

یہ دیکھا جا سکتا ہے کہ بہت سے حریفوں کے برعکس جو سبسڈی دینے کے لیے اپنی جیب سے ادائیگی کرتے ہیں، اس قیمت پر DeepSeek منافع بخش ہے۔

کچھ لوگ کہہ سکتے ہیں: قیمتوں میں کمی صارفین کو لوٹنے کے مترادف ہے، اور یہ عام طور پر انٹرنیٹ کے دور میں قیمتوں کی جنگ میں ہوتا ہے۔

جواب میں، لیانگ وینفینگ نے بھی جواب دیا: "صارفین کو لوٹنا ہمارا بنیادی مقصد نہیں ہے۔ ہم نے قیمت کم کی کیونکہ، ایک طرف، اگلی نسل کے ماڈل کے ڈھانچے کو دریافت کرتے ہوئے لاگت میں کمی آئی ہے، اور دوسری طرف، ہم محسوس کرتے ہیں کہ API اور AI دونوں ہی سستی اور ہر کسی کے لیے قابل رسائی ہونے چاہئیں۔ "

تو کہانی لیانگ وینفینگ کے آئیڈیلزم کے ساتھ جاری ہے۔

4 جولائی 2024 کو، DeepSeek API آن لائن ہوا۔ 128K سیاق و سباق کی قیمت میں کوئی تبدیلی نہیں ہوئی۔ ماڈل کی تخمینہ لاگت کا سیاق و سباق کی لمبائی سے گہرا تعلق ہے۔ لہذا، بہت سے ماڈلز میں اس لمبائی پر سخت پابندیاں ہیں: GPT-3.5 کے ابتدائی ورژن میں صرف 4k سیاق و سباق ہے۔

اس وقت، DeepSeek نے قیمت میں کوئی تبدیلی نہیں کرتے ہوئے سیاق و سباق کی لمبائی کو پچھلے 32k سے بڑھا کر 128k کر دیا ہے (1 یوآن فی ملین ان پٹ ٹوکن اور 2 یوآن فی ملین آؤٹ پٹ ٹوکن)۔

پر 10 جولائی 2024 کو دنیا کے پہلے AI اولمپیاڈ (AIMO) کے نتائج کا اعلان کیا گیا، اور DeepSeekMath ماڈل ٹاپ ٹیموں کا مشترکہ انتخاب بن گیا۔. جیتنے والی ٹاپ 4 ٹیموں نے اپنے انٹری ماڈلز کی بنیاد کے طور پر DeepSeekMath-7B کا انتخاب کیا اور مقابلے میں شاندار نتائج حاصل کیے۔

پر 18 جولائی 2024، DeepSeek-V2 چیٹ بوٹ ایرینا پر اوپن سورس ماڈلز کی فہرست میں سرفہرست ہے، Llama3-70B، Qwen2-72B، Nemotron-4-340B، اور Gemma2-27B جیسے اسٹار ماڈلز کو پیچھے چھوڑنا، اور اوپن سورس بڑے ماڈلز کے لیے ایک نیا معیار بننا۔

میں جولائی 2024، DeepSeek نے ٹیلنٹ کو بھرتی کرنا جاری رکھا اور مستقبل کی تکنیکی جدت طرازی اور مصنوعات کی ترقی کے لیے تیار کرنے کے لیے AI الگورتھم، AI Infra، AI Tutor، اور AI مصنوعات سمیت متعدد شعبوں میں دنیا بھر سے اعلیٰ ہنر مندوں کو بھرتی کیا۔

پر 26 جولائی 2024، DeepSeek API نے ایک اہم اپ گریڈ کا آغاز کیا، جس میں مکمل طور پر اعلی درجے کی خصوصیات جیسے کہ اوور رائٹنگ، FIM (Fill-in-the-Middle) تکمیل، فنکشن کالنگ، اور JSON آؤٹ پٹ کی ایک سیریز کی حمایت کی گئی۔ FIM فنکشن بہت دلچسپ ہے: صارف شروع اور اختتام دیتا ہے، اور بڑا ماڈل درمیان میں بھرتا ہے، جو پروگرامنگ کے عمل کے لیے بالکل موزوں ہے تاکہ فنکشن کوڈ کو مکمل کیا جا سکے۔ فبونیکی ترتیب کو بطور مثال لکھیں:

پر 2 اگست 2024، DeepSeek نے جدت کے ساتھ ہارڈ ڈسک کیشنگ ٹیکنالوجی متعارف کرائی، API کی قیمتوں کو ٹخنوں تک کم کر دیا۔ پہلے، API کی قیمتیں صرف £1 فی ملین ٹوکنز تھیں۔ اب، تاہم، ایک بار کیش ہٹ ہونے کے بعد، API فیس براہ راست £0.1 پر گر جاتی ہے۔

یہ خصوصیت بہت عملی ہے جب مسلسل بات چیت اور بیچ پروسیسنگ کے کام شامل ہوں۔

پر 16 اگست 2024، DeepSeek نے اپنا ریاضیاتی تھیوری ثابت کرنے والا ماڈل DeepSeek-Prover-V1.5 جاری کیا۔ اوپن سورس کے طور پر، جس نے ہائی اسکول اور کالج کے ریاضیاتی تھیوریم ثابت کرنے والے ٹیسٹوں میں بہت سے معروف اوپن سورس ماڈلز کو پیچھے چھوڑ دیا۔

پر 6 ستمبر 2024، DeepSeek نے DeepSeek-V2.5 فیوژن ماڈل جاری کیا۔ اس سے پہلے، DeepSeek نے بنیادی طور پر دو ماڈل فراہم کیے تھے: چیٹ ماڈل عام گفتگو کی مہارت پر مرکوز تھا، اور کوڈ ماڈل کوڈ پروسیسنگ کی مہارتوں پر مرکوز تھا۔ اس بار، دونوں ماڈلز کو ایک میں ملا کر DeepSeek-V2.5 میں اپ گریڈ کیا گیا ہے، جو انسانی ترجیحات کے ساتھ بہتر طور پر ہم آہنگ ہے اور اس نے تحریری کاموں، کمانڈ کی پیروی اور دیگر پہلوؤں میں بھی نمایاں بہتری حاصل کی ہے۔

پر ستمبر 18، 2024، DeepSeek-V2.5 ایک بار پھر تازہ ترین LMSYS فہرست میں شامل تھا، جو گھریلو ماڈلز کی قیادت کر رہا تھا۔ اور متعدد انفرادی صلاحیتوں میں گھریلو ماڈلز کے لیے نئے بہترین اسکور قائم کرنا۔

پر 20 نومبر 2024، DeepSeek نے DeepSeek-R1-Lite جاری کیا سرکاری ویب سائٹ پر۔ یہ ایک تخمینہ ماڈل ہے جس کا موازنہ o1-preview سے کیا جاسکتا ہے، اور V3 کی پوسٹ ٹریننگ کے لیے کافی مقدار میں مصنوعی ڈیٹا بھی فراہم کرتا ہے۔

پر 10 دسمبر 2024 کو، DeepSeek V2 سیریز نے DeepSeek-V2.5-1210 کے حتمی فائن ٹیونڈ ورژن کی ریلیز کے ساتھ اپنے اختتام کو شروع کیا۔ یہ ورژن متعدد صلاحیتوں کو جامع طور پر بہتر بناتا ہے جن میں ریاضی، کوڈنگ، تحریر، اور تربیت کے بعد کے ذریعے کردار ادا کرنا شامل ہے۔

اس ورژن کی آمد کے ساتھ، DeepSeek ویب ایپ نے نیٹ ورک سرچ فنکشن کو بھی کھول دیا۔

پر 13 دسمبر 2024 کو، DeepSeek نے ملٹی موڈیلٹی کے میدان میں ایک اور پیش رفت کی اور اوپن سورس ملٹی موڈل لارج ماڈل DeepSeek-VL2 جاری کیا۔ DeepSeek-VL2 MoE فن تعمیر کو اپناتا ہے، جو اس کی بصری صلاحیتوں کو نمایاں طور پر بہتر بناتا ہے۔ یہ تین سائزوں میں دستیاب ہے: 3B، 16B، اور 27B، اور تمام میٹرکس میں اس کا فائدہ ہے۔

پر 26 دسمبر 2024، DeepSeek-V3 کو اوپن سورس کے ساتھ جاری کیا گیا: تربیت کی تخمینہ لاگت صرف 5.5 ملین امریکی ڈالر تھی۔ DeepSeek-V3 نے بیرون ملک مقیم معروف بند سورس ماڈلز کی کارکردگی کو مکمل طور پر بینچ مارک کیا اور جنریشن کی رفتار کو بہت بہتر کیا۔

API خدمات کی قیمتوں کو ایڈجسٹ کیا گیا تھا، لیکن ساتھ ہی، نئے ماڈل کے لیے 45 دن کی ترجیحی آزمائش کی مدت مقرر کی گئی تھی۔

15 جنوری 2025 کو، آفیشل DeepSeek ایپ کو باضابطہ طور پر جاری کیا گیا اور بڑی iOS/Android ایپ مارکیٹس پر مکمل طور پر لانچ کیا گیا۔

20 جنوری 2025 کو، چینی نئے سال کے قریب، DeepSeek-R1 انفرنس ماڈل کو باضابطہ طور پر جاری کیا گیا اور اوپن سورس کیا گیا۔ DeepSeek-R1 نے اپنی کارکردگی کو آفیشل OpenAI o1 ریلیز کے ساتھ مکمل طور پر ہم آہنگ کیا اور سوچ چین آؤٹ پٹ فنکشن کو کھول دیا۔ اسی وقت، DeepSeek نے یہ بھی اعلان کیا کہ ماڈل اوپن سورس لائسنس کو MIT لائسنس میں تبدیل کر دیا جائے گا، اور صارف کا معاہدہ واضح طور پر "ماڈل ڈسٹلیشن" کی اجازت دے گا، مزید اوپن سورس کو اپنائے گا اور ٹیکنالوجی کے اشتراک کو فروغ دے گا۔

بعد میں، یہ ماڈل بہت مقبول ہوا اور ایک نئے دور کا آغاز ہوا۔

نتیجے کے طور پر، 27 جنوری 2025 تک، DeepSeek ایپ نے کامیابی کے ساتھ ChatGPT کو پیچھے چھوڑ دیا اور یو ایس iOS ایپ اسٹور پر مفت ایپ ڈاؤن لوڈ کی فہرست میں سرفہرست ہے، جو ایک غیر معمولی AI ایپ بن گئی۔

27 جنوری 2025 کو، نئے سال کے موقع پر صبح 1:00 بجے، DeepSeek Janus-Pro کو اوپن سورس کے طور پر جاری کیا گیا۔ یہ ایک ملٹی موڈل ماڈل ہے جس کا نام قدیم رومن افسانوں میں دو چہروں والے دیوتا جانس کے نام پر رکھا گیا ہے: اسے ماضی اور مستقبل دونوں کا سامنا ہے۔ یہ ماڈل کی دو صلاحیتوں کی بھی نمائندگی کرتا ہے — بصری تفہیم اور تصویر کی تخلیق — اور متعدد درجہ بندیوں پر اس کا غلبہ۔

DeepSeek کی دھماکہ خیز مقبولیت نے فوری طور پر ایک عالمی ٹیکنالوجی شاک ویو کو جنم دیا، یہاں تک کہ براہ راست NVIDIA کے سٹاک کی قیمت 18% گرنے کا سبب بنی، اور عالمی ٹیکنالوجی اسٹاک مارکیٹ کی مارکیٹ ویلیو تقریباً 1 ٹریلین امریکی ڈالر سے کم ہو گئی۔ وال سٹریٹ اور ٹیکنالوجی میڈیا نے کہا کہ DeepSeek کا عروج عالمی AI انڈسٹری کے منظر نامے کو تباہ کر رہا ہے اور امریکی ٹیکنالوجی کمپنیوں کے لیے ایک بے مثال چیلنج کھڑا کر رہا ہے۔

DeepSeek کی کامیابی نے اعلی بین الاقوامی توجہ اور چین کی AI تکنیکی جدت طرازی کی صلاحیتوں کے بارے میں گرما گرم بات چیت کو بھی متحرک کیا ہے۔ امریکی صدر ڈونلڈ ٹرمپ نے ایک غیر معمولی عوامی تبصرے میں DeepSeek کے اضافے کو "مثبت" قرار دیتے ہوئے اس کی تعریف کی اور کہا کہ یہ ریاستہائے متحدہ کے لیے "ویک اپ کال" ہے۔ مائیکروسافٹ کے سی ای او ستیہ نڈیلا اور اوپن اے آئی کے سی ای او سیم آلٹ مین نے بھی DeepSeek کی تعریف کی اور اس کی ٹیکنالوجی کو "بہت متاثر کن" قرار دیا۔

یقینا، ہمیں یہ بھی سمجھنا چاہیے کہ ان کی تعریف جزوی طور پر DeepSeek کی طاقت کی پہچان ہے، اور جزوی طور پر ان کے اپنے مقاصد کی عکاسی ہے۔ مثال کے طور پر، جبکہ Anthropic DeepSeek کی کامیابیوں کو تسلیم کرتا ہے، وہ امریکی حکومت سے چین پر چپ کنٹرول کو مضبوط کرنے کا بھی مطالبہ کر رہا ہے۔

اینتھروپک سی ای او نے 10,000 الفاظ کا مضمون شائع کیا: DeepSeek کے عروج کا مطلب ہے کہ وائٹ ہاؤس کو کنٹرول بڑھانا چاہیے۔

خلاصہ اور نقطہ نظر

DeepSeek کے پچھلے دو سالوں پر نظر ڈالیں، یہ واقعی ایک "چینی معجزہ" رہا ہے: ایک نامعلوم آغاز سے لے کر "پراسرار مشرقی طاقت" تک جو اب عالمی AI اسٹیج پر چمک رہی ہے، DeepSeek نے ایک کے بعد ایک "ناممکن" لکھا ہے۔ طاقت اور جدت.

اس تکنیکی مہم کے گہرے معنی تجارتی مسابقت کے دائرہ کار سے بہت آگے نکل چکے ہیں۔ DeepSeek نے حقائق کے ساتھ اعلان کیا ہے کہ مصنوعی ذہانت کے تزویراتی شعبے میں جو مستقبل سے متعلق ہے، چینی کمپنیاں بنیادی ٹیکنالوجی کی بلندیوں پر چڑھنے کی پوری صلاحیت رکھتی ہیں۔

ٹرمپ کی طرف سے بجائی گئی "خطرے کی گھنٹی" اور انتھروپک کا پوشیدہ خوف چین کی AI صلاحیتوں کی اہمیت کی قطعی طور پر تصدیق کرتا ہے: یہ نہ صرف لہروں پر سوار ہو سکتا ہے، بلکہ یہ لہر کی سمت کو بھی تبدیل کر رہا ہے۔

گہری تلاش کریں۔ مصنوعات رہائی سنگ میل

2 نومبر 2023: DeepSeek کوڈر بڑا ماڈل
29 نومبر 2023: DeepSeek LLM 67B یونیورسل ماڈل
18 دسمبر 2023: DreamCraft3D 3D ماڈل
11 جنوری 2024: DeepSeekMoE MoE بڑا ماڈل
5 فروری 2024: DeepSeekMath ریاضیاتی استدلال کا ماڈل
11 مارچ 2024: DeepSeek-VL ملٹی موڈل بڑا ماڈل
مئی 2024: DeepSeek-V2 MoE جنرل ماڈل
17 جون 2024: DeepSeek کوڈر V2 کوڈ ماڈل
6 ستمبر 2024: DeepSeek-V2.5 عام اور کوڈ قابلیت کے ماڈلز کا فیوژن
13 دسمبر 2024: DeepSeek-VL2 ملٹی موڈل MoE ماڈل
26 دسمبر 2024: عام مقصد کے بڑے ماڈلز کی DeepSeek-V3 نئی سیریز
20 جنوری 2025: DeepSeek-R1 انفرنس ماڈل
20 جنوری 2025: DeepSeek آفیشل ایپ (iOS اور Android)
27 جنوری 2025: DeepSeek جانس پرو ملٹی موڈل ماڈل

DeepSeek کیسے بنایا گیا؟ DeepSeek کی ترقی کی تاریخ کا تجزیہ

DeepSeekکی پہلی ملاقات

ماڈلز کثرت سے جاری کیے جاتے ہیں، اور اوپن سورس پر عمل کیا جاتا ہے۔

مسلسل کامیابیاں، عالمی توجہ اپنی طرف مبذول کر رہی ہیں۔

خلاصہ اور نقطہ نظر

گہری تلاش کریں۔ مصنوعات رہائی سنگ میل

جیمنی 2.0 چارٹس پر حاوی ہے، جبکہ DeepSeek V3 اپنی قیمت میں روتا ہے، اور ایک نیا سرمایہ کاری مؤثر چیمپئن پیدا ہوا ہے!

بڑی زبان کے ماڈل کے انتظام کے نمونے جیسے DeepSeek: Cherry Studio، Chatbox، AnythingLLM، آپ کی کارکردگی کو تیز کرنے والا کون ہے؟

DeepSeek نے یہ کیا ہے! اوپن اے آئی نے بند سورس کی غلطی کو تسلیم کیا، اہم کنارے کا فائدہ چھوٹا ہو جاتا ہے۔

Paper-DeepSeek-R1: کمک سیکھنے کے ذریعے LLMs میں استدلال کی صلاحیت کو ترغیب دینا

گوگل نے ایک ساتھ تین نئے ماڈلز جاری کیے ہیں: Gemini-2.0-Pro مفت ہے، اس کا شاندار سکور ہے اور پہلے نمبر پر ہے، اور پیچیدہ اشارے کوڈنگ اور پروسیسنگ کے لیے موزوں ہے!

DeepSeek R1 کاغذ کی تشریح اور اہم تکنیکی نکات

جواب دیں جواب منسوخ کریں

DeepSeekکی پہلی ملاقات

ماڈلز کثرت سے جاری کیے جاتے ہیں، اور اوپن سورس پر عمل کیا جاتا ہے۔

مسلسل کامیابیاں، عالمی توجہ اپنی طرف مبذول کر رہی ہیں۔

خلاصہ اور نقطہ نظر

گہری تلاش کریں۔ مصنوعات رہائی سنگ میل

ملتے جلتے پوسٹس

جواب دیں جواب منسوخ کریں