گوگل نے ایک ساتھ تین نئے ماڈلز جاری کیے ہیں: Gemini-2.0-Pro مفت ہے، اس کا شاندار سکور ہے اور پہلے نمبر پر ہے، اور پیچیدہ اشارے کوڈنگ اور پروسیسنگ کے لیے موزوں ہے!

کی کہانی جیمی n i 2.0 تیز ہو رہا ہے.

دسمبر میں فلیش تھنکنگ تجرباتی ورژن نے ڈویلپرز کو کم تاخیر اور اعلی کارکردگی کے ساتھ کام کرنے والا ماڈل لایا۔

اس سال کے شروع میں، Google AI اسٹوڈیو میں 2.0 Flash Thinking Experimental کو اپ ڈیٹ کیا گیا تھا تاکہ Flash کی رفتار کو بہتر اندازے کی صلاحیتوں کے ساتھ ملا کر کارکردگی کو مزید بہتر بنایا جا سکے۔

پچھلے ہفتے، اپ ڈیٹ شدہ ورژن 2.0 فلیش کو مکمل طور پر جیمنی ڈیسک ٹاپ اور موبائل ایپس پر لانچ کیا گیا تھا۔

آج، ایک ہی وقت میں تین نئے اراکین کی نقاب کشائی کی گئی ہے: Gemini 2.0 Pro کا تجرباتی ورژن، جس نے اب تک کوڈنگ اور پیچیدہ اشارے میں بہترین کارکردگی کا مظاہرہ کیا ہے، لاگت سے موثر 2.0 Flash-Lite، اور سوچ میں اضافہ شدہ ورژن 2.0 Flash Thinking۔

Gemini 2.0 Pro تمام زمروں میں پہلے نمبر پر ہے۔ Gemini-2.0-Flash کوڈنگ، ریاضی اور پہیلیاں میں سرفہرست تین میں ہے۔ فلیش لائٹ تمام زمروں میں ٹاپ ٹین میں ہے۔

تین ماڈلز کی صلاحیتوں کا موازنہ چارٹ:

تمام ماڈل ملٹی موڈل ان پٹ اور آؤٹ پٹ ٹیکسٹ کو سپورٹ کرتے ہیں۔

مزید موڈل صلاحیتیں راستے میں ہیں۔ کوڈنگ کے میدان میں ماڈل کی طاقت کا چارٹ

جیت کی شرح گرمی کا نقشہ

گوگل مفت صارفین کے ساتھ اوپن اے آئی پلس کے صارفین سے بہتر سلوک کرتا ہے۔ AI اسٹوڈیو میں Gemini 2.0 Pro تجرباتی تک مفت رسائی:

کھیلنے کے لیے کلک کریں۔

ڈیپ سیک سروس ہمیشہ انتظار میں ایرر دکھاتی ہے… یاد رہے کہ پہلا انفرنس فری ماڈل بھی 2.0 فلیش تھنکنگ تھا، جو گوگل aistudio میں استعمال ہوتا تھا۔

اس کے علاوہ، وہاں ہے جیمنی کا ویب ورژن:

یہاں ایک منسلک تخمینہ ماڈل بھی ہے (تو اسے الگ کیوں کریں…)

گوگل نے جیمنی 2.0 پرو کا تجرباتی ورژن جاری کیا، اور سرکاری بینچ مارک ٹیسٹوں میں بہتری کافی دلکش ہے۔

اس میں سب سے زیادہ طاقتور کوڈنگ کی صلاحیتیں ہیں اور پیچیدہ اشارے پر کارروائی کرنے کی صلاحیت ہے، اور اس میں گوگل کے اب تک جاری کردہ کسی بھی ماڈل کے مقابلے میں عالمی معلومات کو سمجھنے اور استدلال کرنے کی بہتر صلاحیت ہے۔

اس میں سیاق و سباق کی سب سے بڑی ونڈو ہے (200k، اور میرا طویل سیاق و سباق جیمنی ماڈل کا نسبتاً بڑا فائدہ ہے)، جو اسے معلومات کی ایک بڑی مقدار کا جامع تجزیہ کرنے اور سمجھنے، اور گوگل سرچ اور کوڈ پر عمل درآمد جیسے ٹولز کو کال کرنے کے قابل بناتا ہے۔

MATH ٹیسٹ میں، اس نے 91.8% حاصل کیا، جو کہ ورژن 1.5 کے مقابلے میں تقریباً 5 فیصد پوائنٹس کا اضافہ ہے۔ GPQA استدلال کی صلاحیت 64.7% تک پہنچ گئی، اور SimpleQA ورلڈ نالج ٹیسٹ یہاں تک کہ 44.3% تک پہنچ گیا۔

سب سے زیادہ قابل ذکر پروگرامنگ کی صلاحیت ہے۔ اس نے LiveCodeBench ٹیسٹ میں 36.0% حاصل کیا، اور Bird-SQL کی تبدیلی کی درستگی 59.3% سے تجاوز کر گئی۔ 2 ملین ٹوکنز کی انتہائی بڑی سیاق و سباق والی ونڈو کے ساتھ مل کر، یہ سب سے پیچیدہ کوڈ تجزیہ کاموں کو سنبھالنے کے لیے کافی ہے۔

آپ اسے کرسر میں آزما سکتے ہیں۔

86.5% کے گلوبل MMLU ٹیسٹ سکور کے ساتھ کثیر زبانوں کو سمجھنے کی صلاحیت بھی متاثر کن ہے۔ تصویری تفہیم MMMU 72.7% ہے، اور ویڈیو تجزیہ کرنے کی صلاحیت 71.9% ہے۔

جیمنی 2.0 فلیش لائٹ ایک دلچسپ توازن ہے۔

یہ 1.5 فلیش کی رفتار اور قیمت کو برقرار رکھتا ہے، لیکن بہتر کارکردگی لاتا ہے۔ 1 ملین ٹوکن کے ساتھ سیاق و سباق کی ونڈو اسے مزید معلومات پر کارروائی کرنے کی اجازت دیتی ہے۔

سب سے زیادہ عملی چیز اس کی قیمت/کارکردگی کا تناسب ہے: 40,000 تصاویر کے لیے کیپشن جنریشن کی قیمت $1 سے کم ہے۔ یہ AI کو مزید نیچے سے زمین بناتا ہے۔

بلاگر شریواستو نے ذکر کیا: جیمنی 2.0 پرو انکوڈنگ پاگل ہے!

ٹپ: شمسی نظام کا تخروپن بنانے کے لیے Three.js استعمال کریں۔ ٹائم اسکیل، فوکس ڈراپ ڈاؤن مینو شامل کریں، مدار دکھائیں اور لیبل دکھائیں۔ ہر چیز کو ایک فائل میں بنائیں تاکہ میں اسے آن لائن ایڈیٹر میں پیسٹ کر سکوں اور آؤٹ پٹ دیکھ سکوں۔

اس کے علاوہ، کچھ صارفین نے بتایا کہ جیمنی 2.0 فلیش نے اپنے ہی ایک پیراڈاکس ٹیسٹ میں بہتر نتائج پیش کیے:

آخر میں، گوگل نے ذکر کیا کہ جیمنی 2.0 کی سیکیورٹی، نہ صرف پیچ، شروع سے ہی ڈیزائن کے مرکز میں ہے۔

ماڈل کو خود تنقیدی بننا سیکھنے دیں۔ جیمنی کو اپنے جوابات کا جائزہ لینے اور زیادہ درست تاثرات فراہم کرنے کے لیے کمک سیکھنے کا استعمال کریں۔ یہ حساس موضوعات سے نمٹنے کے وقت اسے زیادہ مضبوط بناتا ہے۔

خودکار ریڈ ٹیم کی جانچ دلچسپ ہے۔ یہ خاص طور پر بالواسطہ فوری الفاظ کے انجیکشن کو روکنے کے لیے ڈیزائن کیا گیا ہے، جو کہ AI کو مدافعتی نظام سے لیس کرنے کے مترادف ہے تاکہ کسی کو ڈیٹا میں بدنیتی پر مبنی احکامات کو چھپانے سے روکا جا سکے۔

غیر زمرہ بندی

Paper-DeepSeek-R1: کمک سیکھنے کے ذریعے LLMs میں استدلال کی صلاحیت کو ترغیب دینا

کی طرف سےdeepseeker 29 جنوری 202529 جنوری 2025

خلاصہ یہ مقالہ DeepSeek کے پہلی نسل کے استدلال کے ماڈلز کو متعارف کراتا ہے: DeepSeek-R1-Zero اور DeepSeek-R1۔ DeepSeek-R1-Zero، بغیر نگرانی کے فائن ٹیوننگ (SFT) کے بڑے پیمانے پر کمک سیکھنے (RL) کے ذریعے تربیت یافتہ، قابل ذکر استدلال کی صلاحیتوں کو ظاہر کرتا ہے۔ RL کے ذریعے، یہ قدرتی طور پر طاقتور استدلال کے طرز عمل کو تیار کرتا ہے۔ تاہم، اسے کمزور پڑھنے کی اہلیت اور زبان کے اختلاط جیسے چیلنجوں کا سامنا ہے۔ ان مسائل کو حل کرنے اور استدلال کی کارکردگی کو بڑھانے کے لیے، DeepSeek-R1 تیار کیا گیا،…

غیر زمرہ بندی

دنیا کی مرکزی دھارے کی AI مصنوعات تجزیہ اور جامع صارف کے تجربے کے رہنما خطوط پر توجہ مرکوز کرتی ہیں (بشمول DeepSeek اور GPT)

کی طرف سےzddeepseeker 10 فروری 202510 فروری 2025

فنکشن پوزیشننگ اور بنیادی فائدہ کا تجزیہ ChatGPT (OpenAI) – آل راؤنڈرز کے لیے عالمی معیار ChatGPT تکنیکی جینز: بڑے ماڈلز کی GPT سیریز پر مبنی جنریٹو AI جس کے بنیادی فوائد کے طور پر عمومی گفتگو کی مہارت اور منطقی استدلال ہے۔ کثیر لسانی پروسیسنگ: انگریزی میں بہترین کارکردگی کا مظاہرہ کرتا ہے، چینی میں مسلسل بہتری کے ساتھ؛ لیکن ہم انگریزی کو استعمال کرنے کا مشورہ دیتے ہیں…

غیر زمرہ بندی

ٹاپ فور ماڈلز کا شو ڈاؤن! ایک جائزہ دکھاتا ہے کہ ڈیپ سیک R1 کتنا طاقتور ہے۔

کی طرف سےzddeepseeker یکم جون 2025یکم جون 2025

پچھلے کچھ دنوں میں، Deepseek-R1 0528 کو باضابطہ طور پر اوپن سورس کیا گیا ہے۔ LiveCodeBench پر، اس کی کارکردگی تقریباً OpenAI کے o3 (اعلی) کے برابر ہے۔ Aider کے کثیر زبان کے بینچ مارک ٹیسٹ میں، یہ Claude Opus کے خلاف اپنی پوزیشن رکھتا ہے۔ جب اسے آفیشل ویب سائٹ پر لانچ کیا گیا تو ہم نے جلدی سے اس کی فرنٹ اینڈ صلاحیتوں کا تجربہ کیا اور انہیں غیر معمولی پایا…

غیر زمرہ بندی

لی چیٹ سو بلین ڈالر کی سرمایہ کاری کے ساتھ چارٹ میں سرفہرست ہے۔ کیا امریکہ اور چین کے بعد یہ تیسری AI طاقت ہے؟

کی طرف سےzddeepseeker 11 فروری 202511 فروری 2025

9 فروری کو، فرانسیسی صدر ایمانوئل میکرون نے اعلان کیا کہ فرانس آئندہ چند سالوں میں AI کے شعبے میں 109 بلین یورو (113 بلین امریکی ڈالر) کی سرمایہ کاری کرے گا۔ اس سرمایہ کاری کا استعمال فرانس میں ایک AI پارک بنانے، انفراسٹرکچر کو بہتر بنانے اور مقامی AI اسٹارٹ اپس میں سرمایہ کاری کے لیے کیا جائے گا۔ دریں اثنا، Mistral، ایک فرانسیسی اسٹارٹ اپ،…

غیر زمرہ بندی

Qwen2.5-max بمقابلہ DeepSeek R1: ماڈلز کا گہرا موازنہ: درخواست کے منظرناموں کا مکمل تجزیہ

کی طرف سےzddeepseeker 14 فروری 202514 فروری 2025

تعارف آج، بڑے زبان کے ماڈلز (LLMs) ایک اہم کردار ادا کرتے ہیں۔ 2025 کے اوائل میں، جیسا کہ AI کا مقابلہ تیز ہوا، علی بابا نے نیا Qwen2.5-max AI ماڈل لانچ کیا، اور Hangzhou، چین کی ایک کمپنی DeepSeek نے R1 ماڈل لانچ کیا، جو LLM ٹیکنالوجی کے عروج کی نمائندگی کرتا ہے۔ Deepseek R1 ایک اوپن سورس AI ماڈل ہے جس نے اپنی طرف متوجہ کیا ہے…

غیر زمرہ بندی

جیمنی 2.0 چارٹس پر حاوی ہے، جبکہ DeepSeek V3 اپنی قیمت میں روتا ہے، اور ایک نیا سرمایہ کاری مؤثر چیمپئن پیدا ہوا ہے!

کی طرف سےzddeepseeker 8 فروری 20258 فروری 2025

گوگل جیمنی 2.0 فیملی آخر کار مکمل ہو گئی! جیسے ہی یہ ریلیز ہوتا ہے چارٹ پر حاوی ہوجاتا ہے۔ Deepseek، Qwen اور o3 کے تعاقب اور ناکہ بندیوں کے درمیان، Google نے آج صبح ایک ہی بار میں تین ماڈلز جاری کیے: Gemini 2.0 Pro، Gemini 2.0 Flash اور Gemini 2.0 Flash-Lite۔ بڑے ماڈل LMSYS درجہ بندی پر، Gemini…

ملتے جلتے پوسٹس

جواب دیں جواب منسوخ کریں