Како беше создаден DeepSeek? Анализа на историјата на раст на DeepSeek

Во иднина ќе има се повеќе и повеќе хардкор иновации. Можеби сега не е лесно да се разбере, бидејќи целата општествена група треба да се едуцира со факти. Кога ова општество ќе им дозволи на луѓето кои иновираат хардкор да успеат, колективниот начин на размислување ќе се промени. Ни требаат само еден куп факти и процес. - Лианг Венфенг, основач на DeepSeek

Во последниве денови, DeepSeek експлодираше низ целиот свет, но бидејќи компанијата е толку ниска и не дава никакви најави, јавноста многу малку знае за оваа технолошка компанија со голем потенцијал – дали е тоа нејзиното основачко потекло, бизнис опсегот , или распоред на производот.

Откако завршив со сортирање на сите материјали, ја напишав оваа статија

Каква е позадината на сегашните играчи со вештачка интелигенција, со што се занимаваат и кого регрутираат?

и веројатно најкомплетниот историски преглед на DeepSeek.

Минатата година ова време, пријател од Magic Cube Quant дојде кај мене и ме праша: „Дали сакате да изградите голем модел во Кина? И едноставно попладнето го поминав пиејќи кафе. Како што се очекуваше, животот сепак зависи од изборите.

На Magic Cube Quant споменат овде е инвеститорот, или матична компанија, на DeepSeek.

Таканаречениот „квант“ е инвестициска институција која донесува одлуки не со човечка сила, туку со алгоритми. Основањето на Quant Fantasy не е долго, почнувајќи од 2015 година. До 2021 година, кога имаше шест години, скалата за управување со средства на Quant Fantasy надмина 100 милијарди, и беше поздравен како еден од „четирите големи квантни кралеви“ на Кина.

Основачот на Fantasy Square, Лианг Венфенг, кој е и основач на DeepSeek, е „не-мејнстрим“ финансиски лидер роден во 1980-тите: тој нема искуство во странство, не е победник на олимписки натпревари и дипломирал на Катедрата за електронско инженерство на Универзитетот Жеџијанг, отсек вештачка интелигенција. Тој е мајчин технолошки експерт кој дејствува на тивок начин, „читајќи трудови, пишувајќи код и учествува во групни дискусии“ секој ден.

Лианг Венфенг нема навики на традиционален сопственик на бизнис, туку е повеќе како чист „технолошки гик“. Многу инсајдери во индустријата и истражувачи на DeepSeek му дадоа на Лианг Венфенг исклучително високи пофалби: „некој кој има и силни инфра инженерски способности и способности за истражување модели, а исто така може да мобилизира ресурси“, „некој кој може да донесе точни проценки од високо ниво, но и да се истакнува на деталите за истражувачите од првите редови“, а исто така има „застрашувачка способност за учење“.

Долго пред да се основа DeepSeek, Хуанфанг веќе почна да прави долгорочни планови во индустријата за вештачка интелигенција. Во мај 2023 година, Лианг Венфенг спомна во интервју за Darksurge: „Откако OpenAI го објави GPT3 во 2020 година, насоката на развојот на вештачката интелигенција стана многу јасна, а компјутерската моќ ќе стане клучен елемент; но дури и во 2021 година, кога инвестиравме во изградбата на Firefly 2, повеќето луѓе сè уште не можеа да го разберат тоа“.

Врз основа на оваа пресуда, Хуанфанг започна да гради сопствена компјутерска инфраструктура. „Од најраната 1 карта, до 100 карти во 2015 година, 1.000 картички во 2019 година, а потоа и 10.000 карти, овој процес се случи постепено. Пред неколку стотици картички, бевме домаќини во IDC. Кога скалата стана поголема, хостирањето повеќе не можеше да ги исполни барањата, па почнавме да градиме сопствена компјутерска соба“.

Подоцна, Finance Eleven објави: „Нема повеќе од пет домашни компании со повеќе од 10.000 графички процесори, а покрај неколку големи производители, тие вклучуваат и компанија со квантитативни фондови наречена Magic Cube.“ Генерално се верува дека 10.000 Nvidia A100 чипови е прагот за компјутерска моќ за обука на големи модели.

Во претходното интервју, Лианг Венфенг спомена и една интересна точка: многу луѓе би помислиле дека зад тоа се крие непозната деловна логика, но всушност, тоа е главно водено од љубопитноста.

Содржина

DeepSeekпрвата средба на

Во интервју за Darksurge во мај 2023 година, на прашањето „Неодамна, Huanfang ја објави својата одлука да прави големи модели, зошто квантитативниот фонд би направил такво нешто?

Одговорот на Лианг Венфенг беше гласен:Нашата одлука да изградиме голем модел нема никаква врска со квантификација или финансии. Формиравме нова компанија наречена DeepSeek за да го направи тоа. Многу од клучните членови на тимот во Мианфанг се вклучени во вештачката интелигенција. Во тоа време пробавме многу сценарија и конечно се решивме за финансиите, кои се доволно сложени. Општата вештачка интелигенција можеби е една од следните најтешки работи за постигнување, така што за нас е прашање како да го направиме тоа, а не зошто.

Не водени од комерцијални интереси или бркање трендови на пазарот, туку едноставно водени од желбата да се истражува самата AGI технологија и упорното стремење кон „најважната и најтешката работа“. името „DeepSeek“ беше официјално потврдено во мај 2023 година. На 17 јули 2023 година, „Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Co., Ltd.“ беше инкорпорирана.

Вклучено 2 ноември 2023 година, DeepSeek го даде својот прв одговор: DeepSeek Coder, голем модел на код со отворен код. Овој модел вклучува повеќе големини како 1B, 7B и 33B. Содржината со отворен код ги вклучува основниот модел и моделот за подесување на команди.

Во тоа време, меѓу моделите со отворен код, CodeLlama на Мета беше репер во индустријата. Меѓутоа, откако беше објавен DeepSeek Coder, тој покажа повеќеслојна водечка позиција во споредба со CodeLlama: во генерирањето код, HumanEval беше 9,3% напред, MBPP беше 10,8% напред, а DS-1000 беше 5,9% напред.

Имајте на ум дека DeepSeek Coder е модел 7B, додека CodeLlama е модел 34B. Дополнително, моделот DeepSeek Coder, откако беше подесен со инструкции, сеопфатно го надмина GPT3.5-Turbo.

Не само што генерирањето код е импресивно, туку и DeepSeek Coder ги покажува своите мускули во математиката и расудувањето.

Три дена подоцна, на 5 ноември 2023 година, DeepSeek објави голема количина на содржина за регрутирање преку својата јавна сметка на WeChat, вклучително и позиции како практикант за голем модел на AGI, експерт за податоци, талент за архитектура на податоци, виш инженер за собирање податоци, истражување и развој за длабоко учење инженер итн., и почна активно да го шири тимот.

Како што рече Лианг Венфенг, „Задолжителните барања“ на DeepSeek за регрутирање таленти се „страст и солидни основни вештини“, и тоа го нагласи „Иновацијата бара што е можно помала интервенција и управување, за секој да има слобода да прави грешки и да пробува нови работи. Иновацијата често доаѓа одвнатре, а не од намерни аранжмани, и секако не доаѓа од наставата“.

Моделите често се објавуваат и се практикува отворен код

Откако DeepSeek Coder направи шпиц, DeepSeek го сврте вниманието на главното бојно поле: моделите на општи јазици.

Вклучено На 29 ноември 2023 година, DeepSeek го објави својот прв јазичен модел за општа намена, DeepSeek LLM 67B. Овој модел е спореден со моделот LLaMA2 70B на Мета од истото ниво и се покажа подобро во речиси 20 списоци за јавна евалуација на кинески и англиски јазик. Особено, неговите способности за расудување, математика и програмирање (на пример, HumanEval, MATH, CEval и CMMLU) се извонредни.

DeepSeek LLM 67B исто така ја избра рутата со отворен код и поддржува комерцијална употреба. За дополнително да ја покаже својата искреност и одлучност за софтвер со отворен код, DeepSeek, невидено, истовремено отвори два модели од различни размери, 7B и 67B, па дури и јавно ги објави деветте контролни точки генерирани за време на процесот на обука на моделот за истражувачите да ги преземат и користат. Овој вид на операција, која е слична на „учење на сè“, е исклучително ретка во целата заедница со отворен код.

Со цел посеопфатно и пообјективно да се проценат вистинските способности на DeepSeek LLM 67B, истражувачкиот тим DeepSeek исто така внимателно дизајнираше серија „нови прашања“ за „тестирање на стрес“. Овие прашања опфаќаат тестови на високо ниво и со висока дискриминација, како што се прашањата за испитот по математика во средно училиште во Унгарија, командата на Google по сетови за оценување и прашањата за неделни натпревари на LeetCode. Резултатите од тестот беа охрабрувачки. DeepSeek LLM 67B покажа неверојатен потенцијал во однос на неговата способност да се генерализира надвор од примерокот, а неговите вкупни перформанси беа дури блиску до оние на тогаш најнапредниот модел GPT-4.

Вклучено 18 декември 2023 година, DeepSeek со отворен код Vincent 3D модел DreamCraft3D: може да генерира висококвалитетни 3D модели од реченица, постигнувајќи скок од 2D авиони до 3D простор во AIGC. На пример, ако корисникот внесе: „Трчање низ шумата, смешна хибридна слика од глава на свиња и телото на кралот мајмун“, DreamCraft3D може да емитува висококвалитетна содржина:

Во принцип, моделот прво го комплетира Венов дијаграм, а потоа ја надополнува целокупната геометриска структура врз основа на 2Д концептната мапа:

Во субјективната евалуација што следеше, повеќе од 90% корисници рекоа дека DreamCraft3D има предност во квалитетот на генерацијата во споредба со методите на претходната генерација.

На 7 јануари 2024 година, DeepSeek го објави техничкиот извештај DeepSeek LLM 67B. Овој извештај од 40+ страници содржи многу детали за DeepSeek LLM 67B, вклучувајќи закони за скалирање создадени самостојно, целосни практични детали за усогласување на моделите и сеопфатен систем за евалуација на способноста AGI.

Адреса на хартија

Вклучено 11 јануари 2024 година, DeepSeek го отвори првиот голем модел на MoE (мешана експертска архитектура) во Кина, DeepSeekMoE: сосема нова архитектура која поддржува кинески и англиски јазик и е бесплатна за комерцијална употреба. Архитектурата на Министерството за економија во тоа време генерално се сметаше за клучот за пробивот на перформансите на OpenAI GPT-4. Саморазвиената архитектура на MoE на DeepSeek е водечка во повеќе размери како што се 2B, 16B и 145B, а нејзината пресметковност е исто така многу за пофалба.

На 25 јануари 2024 година, DeepSeek го објави техничкиот извештај DeepSeek Coder. Овој извештај обезбедува сеопфатна техничка анализа на неговите податоци за обука, методи за обука и перформанси на моделот. Во овој извештај, можеме да видиме дека за прв пат, конструирал податоци за код на ниво на складиште и користел тополошко сортирање за да ги анализира зависностите помеѓу датотеките, што значително ја подобрува способноста за разбирање вкрстени датотеки на долги растојанија. Во однос на методите за обука, додаден е методот Fill-In-Middle, кој во голема мера ја подобри способноста за пополнување на кодот.

Адреса на хартија

На 30 јануари 2024 година, отворената платформа DeepSeek беше официјално лансирана, а услугата DeepSeek Large Model API започна со тестирање. Регистрирајте се за да добиете 10 милиони токени бесплатно. Интерфејсот е компатибилен со интерфејсот OpenAI API, а достапни се и двата модели на Chat/Coder. Во тоа време, DeepSeek почна да го истражува патот на давател на технолошки услуги покрај истражувањето и развојот на технологијата.

Вклучено На 5 февруари 2024 година, DeepSeek објави друг модел на вертикален домен, DeepSeekMath, модел на математичко расудување. Овој модел има само 7B параметри, но неговата математичка способност за расудување е блиска до онаа на GPT-4. На авторитативната листа на репер за МАТЕМ, тој ја надминува толпата и надминува голем број модели со отворен код со големини на параметри помеѓу 30B и 70B. Објавувањето на DeepSeekMath целосно ја демонстрира техничката сила и изгледот на иднината на DeepSeek во истражувањето и развојот на вертикалата и неговиот изглед на иднината во истражувањето и развојот на моделите.

Вклучено На 28 февруари 2024 година, со цел дополнително да се ублажи загриженоста на програмерите за користење на модели со отворен код DeepSeek, DeepSeek објави ЧПП за политика со отворен код, кој дава детални одговори на често поставуваните прашања како што се моделирање лиценцирање со отворен код и ограничувања за комерцијална употреба. DeepSeek опфаќа отворен код со потранспарентен и отворен став:

Вклучено 11 март 2024 година, DeepSeek го објави мултимодалниот голем модел DeepSeek-VL. Ова е првичниот обид на DeepSeek за мулти-модална вештачка интелигенција технологија. Моделот е со големина 7B и 1,3B, а моделот и техничките документи се истовремено со отворен код.

Вклучено На 20 март 2024 година, Huanfang AI & DeepSeek повторно беше поканет да учествува на конференцијата NVIDIA GTC 2024, а основачот Лианг Венфенг одржа технички главен говор со наслов „Хармонија во различноста: усогласување и раздвојување на вредностите на големите јазични модели“. Беа дискутирани прашањата како што се „конфликтот помеѓу големиот модел со една вредност и плуралистичкото општество и култура“, „раздвојувањето на усогласувањето на вредностите на големиот модел“ и „мултидимензионалните предизвици на раздвоеното усогласување на вредностите“. Ова ја покажа хуманистичката грижа и општествената одговорност на DeepSeek за развојот на вештачката интелигенција, покрај неговото технолошко истражување и развој.

Во март 2024 г. DeepSeek API официјално лансирани платени услуги, што целосно ја запали увертирата за ценовната војна на кинескиот пазар на големи модели: 1 јуани за милион влезни токени и 2 јуани за милион излезни токени.

Во 2024 година, DeepSeek успешно го помина рекордот на големи модели во Кина, отстранувајќи ги политичките пречки за целосно отворање на своите API услуги.

Во мај 2024 година, беше пуштен во продажба DeepSeek-V2, генерален модел со отворен код, голем модел на MoE, и официјално започна ценовната војна. DeepSeek-V2 користи MLA (механизам за латентно внимание со повеќе глави), што го намалува меморискиот отпечаток на моделот на 5%-13% од оној на традиционалниот MHA. Во исто време, тој исто така независно ја разви DeepSeek MoE Sparse ретка структура, што во голема мера ја намалува пресметковната комплексност на моделот. Благодарение на ова, моделот одржува цена на API од „1 јуани/милион влезови и 2 јуани/милион излези“.

DeepSeek имаше огромно влијание. Во овој поглед, водечкиот аналитичар во SemiAnalysis верува дека хартијата DeepSeek V2 „можеби е еден од најдобрите оваа година“. Слично на тоа, Ендрју Кар, поранешен вработен во OpenAI, верува дека весникот е „полн со неверојатна мудрост“ и ги применил поставките за обука на неговиот сопствен модел.

Треба да се напомене дека ова е модел кој го мери GPT-4-Turbo, а цената на API е само 1/70 од второто

Во јуни 17, 2024 година, DeepSeek уште еднаш направи голем притисок, ослободувајќи го моделот со код DeepSeek Coder V2 со отворен код и тврдејќи дека неговите способности за код го надминале GPT-4-Turbo, најнапредниот модел со затворен код во тоа време. DeepSeek Coder V2 ја продолжува конзистентната стратегија со отворен код на DeepSeek, со сите модели, кодови и трудови со отворен код, а обезбедени се две верзии, 236B и 16B. API услугите на DeepSeek C oder V2 се исто така достапни на интернет, а цената останува на „1 јуани/милион влезови и 2 јуани/милион излези“.

Вклучено 21 јуни 2024 година, DeepSeek Coder поддржа онлајн извршување на код. Истиот ден беше објавен и Claude3.5 Sonnet, со новата функција Artifacts, која автоматски генерира код и го извршува директно во прелистувачот. Истиот ден, асистентот за кодови на веб-страницата DeepSeek исто така ја лансираше истата функција: генерирајте код и стартувајте го со еден клик.

Да ги разгледаме главните настани од овој период:

Континуирани откритија, привлекувајќи глобално внимание

Во мај 2024 година, DeepSeek стана познат преку ноќ со објавување на DeepSeek V2, модел со отворен код базиран на MoE. Тој одговараше на перформансите на GPT-4-Turbo, но по цена од само 1 јуани/милион влез, што беше 1/70 од GPT-4-Turbo. Во тоа време, DeepSeek стана добро познат „месар на цени“ во индустријата, а потоа мејнстрим играчите како Zhicheng, ByteDance и Alibaba… и другите големи играчи брзо го следеа примерот и ги намалија своите цени. Исто така, во тоа време имаше уште една рунда забрана за GPT, а голем број апликации за вештачка интелигенција за прв пат почнаа да ги испробуваат домашните модели.

Во јули 2024 година, основачот на DeepSeek, Лианг Венфенг, уште еднаш го прифати интервјуто со Dark Surge и директно одговори на ценовната војна: „Многу неочекувано. Не очекував дека цената ќе ги направи сите толку чувствителни. Ние само ги правиме работите по наше темпо, а потоа цената врз основа на трошоците. Нашиот принцип е да не губиме пари или да правиме преголеми профити. Оваа цена е исто така малку над цената со мал профит“.

Се гледа дека за разлика од многу конкуренти кои плаќаат од свој џеб за субвенционирање, DeepSeek е профитабилен по оваа цена.

Некои луѓе може да речат: намалувањето на цените е како ограбување корисници, а тоа е обично случај во војните со цени во ерата на Интернет.

Како одговор, Лианг Венфенг исто така одговори: „Ограбувањето корисници не е наша главна цел. Ја намаливме цената затоа што, од една страна, трошоците се намалија додека ја истражуваме структурата на моделот од следната генерација, а од друга страна, сметаме дека и API и AI треба да бидат достапни и достапни за секого. ”

Така, приказната продолжува со идеализмот на Лианг Венфенг.

На 4 јули 2024 година, DeepSeek API стана онлајн. Цената за 128K контекст остана непроменета. Цената на заклучоците на моделот е тесно поврзана со должината на контекстот. Затоа, многу модели имаат строги ограничувања за оваа должина: почетната верзија на GPT-3.5 има само 4k контекст.

Во тоа време, DeepSeek ја зголеми должината на контекстот од претходните 32k на 128k додека ја задржа цената непроменета (1 јуани на милион влезни токени и 2 јуани на милион излезни токени).

Вклучено На 10 јули 2024 година беа објавени резултатите од првата светска Олимпијада за вештачка интелигенција (AIMO), а моделот DeepSeekMath стана заеднички избор на Топ тимовите. Победничките Топ 4 тимови сите го избраа DeepSeekMath-7B како основа за нивните влезни модели и постигнаа импресивни резултати на натпреварот.

Вклучено 18 јули 2024 година, DeepSeek-V2 беше на врвот на листата на модели со отворен код на Chatbot Arena, надминувајќи ги моделите со ѕвезди како што се Llama3-70B, Qwen2-72B, Nemotron-4-340B и Gemma2-27B и станувајќи нов репер за големите модели со отворен код.

Во Јули 2024 година, DeepSeek продолжи да регрутира таленти и регрутираше врвни таленти од целиот свет во повеќе полиња, вклучувајќи алгоритми за вештачка интелигенција, AI Infra, AI Tutor и производи за вештачка интелигенција, за да се подготват за идните технолошки иновации и развој на производи.

Вклучено На 26 јули 2024 година, DeepSeek API воведе важна надградба, целосно поддржувајќи серија напредни функции како што се препишување, завршување на FIM (Пополнете во средината), Повикување на функции и излез JSON. Функцијата FIM е многу интересна: корисникот ги дава почетокот и крајот, а големиот модел пополнува во средината, што е многу погодно за процесот на програмирање да го пополни точниот код на функцијата. Земете ја пишувањето на низата Фибоначи како пример:

Вклучено На 2 август 2024 година, DeepSeek иновативно воведе технологија за кеширање на тврдиот диск, намалувајќи ги цените на API до глуждовите. Претходно, цените на API беа само 1 £ за милион токени. Сега, сепак, штом ќе се постигне удар на кешот, надоместокот за API паѓа директно на 0,1 ￥.

Оваа функција е многу практична кога се вклучени континуирани разговори и задачи за сериска обработка.

Вклучено 16 август 2024 година, DeepSeek го објави својот модел за докажување на математичка теорема DeepSeek-Prover-V1.5 како отворен код, кој надмина многу познати модели со отворен код во тестовите за докажување математичка теорема во средно училиште и факултет.

Вклучено На 6 септември 2024 година, DeepSeek го објави моделот на фузија DeepSeek-V2.5. Претходно, DeepSeek главно обезбедуваше два модели: моделот Chat фокусиран на општи вештини за разговор и моделот Code фокусиран на вештини за обработка на код. Овој пат, двата модели беа комбинирани во еден, надграден до DeepSeek-V2.5, што подобро се усогласува со човечките преференци и исто така постигна значителни подобрувања во задачите за пишување, следење на команди и други аспекти.

Вклучено 18 септември 2024 година, DeepSeek-V2.5 повторно се најде на најновата листа LMSYS, водечки кај домашните модели и поставување на нови најдобри резултати за домашните модели во повеќе индивидуални способности.

Вклучено 20 ноември 2024 година, DeepSeek објавен DeepSeek-R1-Lite на официјалната веб-страница. Ова е модел за заклучување споредлив со o1-преглед, а исто така обезбедува доволно количество синтетички податоци за пост-тренинг на V3.

Вклучено На 10 декември 2024 година, серијата DeepSeek V2 го започна своето финале со објавувањето на последната фино подесена верзија на DeepSeek-V2.5-1210. Оваа верзија сеопфатно подобрува повеќекратни способности, вклучувајќи математика, кодирање, пишување и играње улоги преку пост-тренинг.

Со доаѓањето на оваа верзија, веб-апликацијата DeepSeek ја отвори и функцијата за пребарување на мрежата.

Вклучено На 13 декември 2024 година, DeepSeek направи уште еден пробив во областа на мултимодалноста и го објави мултимодалниот голем модел со отворен код DeepSeek-VL2. DeepSeek-VL2 ја прифаќа архитектурата MoE, што значително ги подобрува неговите визуелни способности. Достапен е во три големини: 3B, 16B и 27B и има предност во сите метрики.

Вклучено На 26 декември 2024 година, DeepSeek-V3 беше објавен со отворен код: проценетите трошоци за обука беа само 5,5 милиони американски долари. DeepSeek-V3 целосно ги мери перформансите на водечките модели со затворен код во странство и значително ја подобри брзината на генерирање.

Цената на услугите API беше прилагодена, но во исто време беше поставен 45-дневен повластен пробен период за новиот модел.

На 15 јануари 2025 година, официјалната апликација DeepSeek беше официјално објавена и целосно лансирана на главните пазари за апликации за iOS/Android.

На 20 јануари 2025 година, блиску до кинеската Нова година, моделот за заклучување DeepSeek-R1 беше официјално објавен и со отворен извор. DeepSeek-R1 целосно ги усогласи своите перформанси со официјалното издание на OpenAI o1 и ја отвори функцијата за излез на синџирот на размислување. Во исто време, DeepSeek, исто така, објави дека моделот на лиценца со отворен код ќе биде сменет во лиценца MIT, а корисничкиот договор експлицитно ќе дозволи „модел дестилација“, дополнително прифаќајќи го отворен код и промовирајќи споделување технологија.

Подоцна, овој модел стана многу популарен и воведе нова ера

Како резултат на тоа, од 27 јануари 2025 година, апликацијата DeepSeek успешно го надмина ChatGPT и се најде на врвот на листата за бесплатни преземања на апликации на американската продавница за апликации за iOS, станувајќи феноменална апликација за вештачка интелигенција.

На 27 јануари 2025 година, во 01:00 часот на новогодишната ноќ, DeepSeek Janus-Pro беше објавен како отворен код. Ова е мултимодален модел именуван по богот со две лица Јанус во античката римска митологија: се соочува и со минатото и со иднината. Ова, исто така, ги претставува двете способности на моделот - визуелно разбирање и генерирање слики - и неговата доминација на повеќекратно рангирање.

Експлозивната популарност на DeepSeek веднаш предизвика глобален технолошки шок, дури и директно предизвика пад на цената на акциите на NVIDIA за 18%, а пазарната вредност на глобалната технолошка берза испарува за околу 1 трилион американски долари. Волстрит и технолошките медиуми извикуваа дека подемот на DeepSeek го урива глобалниот пејзаж на индустријата за вештачка интелигенција и претставува невиден предизвик за американските технолошки гиганти.

Успехот на DeepSeek, исто така, предизвика големо меѓународно внимание и жестоки дискусии за технолошките иновативни способности за вештачка интелигенција на Кина. Американскиот претседател Доналд Трамп, во редок јавен коментар, го пофали подемот на DeepSeek како „позитивен“ и рече дека тоа е „повик за будење“ за Соединетите држави. Извршниот директор на Мајкрософт, Сатја Надела и извршниот директор на OpenAI, Сем Алтман, исто така го пофалија DeepSeek, нарекувајќи ја неговата технологија „многу импресивна“.

Секако, мораме да разбереме и дека нивната пофалба е делумно признание за силата на DeepSeek, а делумно одраз на нивните сопствени мотиви. На пример, иако Anthropic ги препознава достигнувањата на DeepSeek, тој исто така ја повикува американската влада да ја зајакне контролата на чиповите врз Кина.

Извршниот директор на Anthropic објави статија од 10.000 зборови: Подемот на DeepSeek значи дека Белата куќа треба да ги засили контролите

Резиме и изглед

Гледајќи наназад на минатите две години на DeepSeek, тоа навистина беше „кинеско чудо“: од непознат стартап до „мистериозната источна сила“ која сега блеска на глобалната сцена на вештачката интелигенција, DeepSeek пишува едно по друго „невозможно“ со своите сила и иновација.

Подлабокото значење на оваа технолошка експедиција одамна го надмина опсегот на комерцијалната конкуренција. 1ТП8Т со факти објави дека во стратешкото поле на вештачката интелигенција што се однесува на иднината, кинеските компании се целосно способни да се искачат до височините на основната технологија.

„Алармното ѕвоно“ што го труби Трамп и скриениот страв од Антропик прецизно ја потврдуваат важноста на кинеските способности за вештачка интелигенција: не само што може да ги вози брановите, туку и ја менува насоката на плимата.

Длабоко барај производ ослободување пресвртници

2 ноември 2023 година: DeepSeek Кодер голем модел
29 ноември 2023 година: Универзален модел DeepSeek LLM 67B
18 декември 2023 година: DreamCraft3D 3D модел
11 јануари 2024 година: DeepSeekMoE MoE голем модел
5 февруари 2024 година: DeepSeekMath Математичко расудување модел
11 март 2024 година: DeepSeek-VL Мултимодален голем модел
мај 2024 година: DeepSeek-V2 MoE општ модел
17 јуни 2024 година: Модел со код DeepSeek Coder V2
6 септември 2024 година: DeepSeek-V2.5 спој на модели на општа и кодна компетентност
13 декември 2024 година: DeepSeek-VL2 мултимодален MoE модел
26 декември 2024 година: DeepSeek-V3 нова серија на големи модели за општа намена
20 јануари 2025 година: Модел за заклучување DeepSeek-R1
20 јануари 2025 година: Официјална апликација DeepSeek (iOS и Android)
27 јануари 2025 година: Мултимодален модел DeepSeek Janus-Pro

Како е создаден DeepSeek? Анализа на историјата на раст на DeepSeek

DeepSeekпрвата средба на

Моделите често се објавуваат и се практикува отворен код

Континуирани откритија, привлекувајќи глобално внимание

Резиме и изглед

Длабоко барај производ ослободување пресвртници

Што е FlashMLA? Сеопфатен водич за неговото влијание врз кернелите за декодирање на вештачката интелигенција

Пресметката на четирите најдобри модели! Преглед покажува колку е моќен Deepseek R1

Paper-DeepSeek-R1: Поттикнување на способноста за расудување кај LLM преку учење за зајакнување

Евтиниот модел на Google, серијата Gemini 2.0, напаѓа: битката за исплатливост кај големите модели се интензивира

Gemini 2.0 доминира на топ листите, додека DeepSeek V3 плаче по својата цена и се раѓа нов економичен шампион!

DeepSeek TOP17 Најдобри алтернативи: сеопфатна анализа (2025)

Напишете коментар Откажи одговор

DeepSeekпрвата средба на

Моделите често се објавуваат и се практикува отворен код

Континуирани откритија, привлекувајќи глобално внимание

Резиме и изглед

Длабоко барај производ ослободување пресвртници

Слични објави

Напишете коментар Откажи одговор