Некатегоризирано - Deepseek R1

Тајната зад DeepSeek 1 | Детали за DeepSeekMath и GRPO

Некатегоризирано

Тајната зад DeepSeek 1 | Детали за DeepSeekMath и GRPO

Од страна наzddeepseeker 9 февруари 2025 година9 февруари 2025 година

Денес би сакал да споделам статија од DeepSeek, насловена како DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. Оваа статија го воведува DeepSeekMath 7B, кој е претходно обучен на DeepSeek-Coder-Base-v1.5 7B врз основа на колекција од 120B математички токени, природен јазик и податоци за кодови. Моделот постигна неверојатен резултат од 51,7% на конкурентно ниво…

Некатегоризирано

Откриена е технологијата DeepSeek-R1: основните принципи на хартијата се расчленети и клучот за пробивните перформанси на моделот е откриен

Од страна наzddeepseeker 9 февруари 2025 година9 февруари 2025 година

Денес ќе споделиме DeepSeek R1, Наслов: DeepSeek-R1: Поттикнување на способноста за расудување кај LLM преку учење за зајакнување: Поттикнување на способноста за расудување на LLM преку учење за засилување. Овој труд ја воведува првата генерација на модели за расудување на DeepSeek, DeepSeek-R1-Zero и DeepSeek-R1. Моделот DeepSeek-R1-Zero беше обучен преку учење за засилување од големи размери (RL) без надгледувано фино подесување (SFT) како почетен чекор,…

Некатегоризирано

DeepSeek R1 толкување на хартија и клучни технички точки

Од страна наzddeepseeker 9 февруари 2025 година9 февруари 2025 година

1 Позадина За време на пролетниот фестивал, DeepSeek R1 повторно привлече големо внимание, па дури и написот за толкување на DeepSeek V3 што претходно го напишавме исто така беше повторно пренесен и многу дискутиран. Иако имаше многу анализи и репродукции на DeepSeek R1, овде решивме да составиме некои соодветни белешки за читање. Ќе користиме три…

Евтиниот модел на Google, серијата Gemini 2.0, напаѓа: битката за исплатливост кај големите модели се интензивира

Некатегоризирано

Евтиниот модел на Google, серијата Gemini 2.0, напаѓа: битката за исплатливост кај големите модели се интензивира

Од страна наzddeepseeker 8 февруари 2025 година8 февруари 2025 година

Високата цена за користење на големи модели со вештачка интелигенција е главна причина зошто многу апликации за вештачка интелигенција сè уште не се имплементирани и промовирани. Изборот на екстремни перформанси значи огромни трошоци за компјутерска моќ, што доведува до високи трошоци за користење што обичните корисници не можат да ги прифатат. Конкуренцијата за големи модели со вештачка интелигенција е како војна без чад. По…

Gemini 2.0 доминира на топ листите, додека DeepSeek V3 плаче по својата цена и се раѓа нов економичен шампион!

Некатегоризирано

Gemini 2.0 доминира на топ листите, додека DeepSeek V3 плаче по својата цена и се раѓа нов економичен шампион!

Од страна наzddeepseeker 8 февруари 2025 година8 февруари 2025 година

Семејството Google Gemini 2.0 конечно е комплетирано! Доминира на топ листите веднаш штом ќе биде објавен. Среде потера и блокади на Deepseek, Qwen и o3, Google рано утрово објави три модели во едно движење: Gemini 2.0 Pro, Gemini 2.0 Flash и Gemini 2.0 Flash-Lite. На рангирањето на големиот модел LMSYS, Gemini…

a16z дијалог со 27-годишен извршен директор: Агентот за вештачка интелигенција има огромен ефект на потпора, а долгорочните цени ќе бидат поврзани со трошоците за работна сила

Некатегоризирано

a16z дијалог со 27-годишен извршен директор: Агентот за вештачка интелигенција има огромен ефект на потпора, а долгорочните цени ќе бидат поврзани со трошоците за работна сила

Од страна наzddeepseeker 8 февруари 2025 година8 февруари 2025 година

Определување Агентот за вештачка интелигенција го преобликува искуството на клиентите Џеси Џанг: Како всушност се конструира агент? Нашиот став е дека со текот на времето, тој ќе станува се повеќе како агент заснован на природен јазик бидејќи на тој начин се обучуваат големите јазични модели (LLMs). На долг рок, ако имате супер интелигентен агент кој…

Некатегоризирано

Кети Вуд: DeepSeek само го забрзува процесот на намалување на трошоците; ќе се промени екстремната концентрирана пазарна структура споредлива со Големата депресија

Од страна наzddeepseeker 8 февруари 2025 година8 февруари 2025 година

Определување Конкуренцијата со DeepSeek е добра за американската Кети Вуд: Мислам дека покажува дека цената на иновациите драстично паѓа и дека овој тренд веќе започна. На пример, пред DeepSeek, трошоците за обука за вештачка интелигенција паднаа за 75% годишно, а цената на заклучоците дури падна за 85% на…

Некатегоризирано

Google објави три нови модели одеднаш: Gemini-2.0-Pro е бесплатен, има извонреден резултат и се рангира на прво место и е погоден за кодирање и обработка на сложени инструкции!

Од страна наzddeepseeker 8 февруари 2025 година8 февруари 2025 година

Приказната за Gemini 2.0 се забрзува. Flash Thinking Experimental верзијата во декември им донесе на програмерите работен модел со мала латентност и високи перформанси. Претходно оваа година, 2.0 Flash Thinking Experimental беше ажуриран во Google AI Studio за дополнително подобрување на перформансите со комбинирање на брзината на Flash со подобрени способности за заклучување. Минатата недела,…

DeepSeek TOP17 Најдобри алтернативи: сеопфатна анализа (2025)

Некатегоризирано

DeepSeek TOP17 Најдобри алтернативи: сеопфатна анализа (2025)

Од страна на1TP7 Тер 6 февруари 2025 година6 февруари 2025 година

Вовед Во пејзажот на вештачката интелигенција кој брзо се развива, DeepSeek се појави како моќен јазичен модел. Оваа сеопфатна анализа ги истражува најдобрите 17 алтернативи на DeepSeek, испитувајќи ги нивните уникатни карактеристики, способности и случаи на употреба. Нашето истражување се фокусира и на меѓународни и на кинески платформи кои нудат интеграција на DeepSeek или слични способности. Анализа на врвни алтернативи 1….

Некатегоризирано

Ali Qwen2.5-Max го престигна DeepSeek-V3! Нетизен: Кинеската вештачка интелигенција брзо го намалува јазот

Од страна наzddeepseeker 5 февруари 2025 година5 февруари 2025 година

Само сега, на листата на Big Model Arena беше додаден уште еден домашен модел од Ali, Qwen2.5-Max, кој го надмина DeepSeek-V3 и се најде на седмото место во вкупната ранг-листа со вкупен резултат од 1332. Исто така, ги надмина моделите како Claude 3.5 Sonnet и Llama 3.1 inwop 40 Особено, тој се истакнува во програмирањето…