Kaip buvo sukurtas DeepSeek? DeepSeek augimo istorijos analizė

Ateityje bus vis daugiau griežtų naujovių. Dabar tai gali būti nelengva suprasti, nes visą socialinę grupę reikia šviesti faktais. Kai ši visuomenė leis žmonėms, diegiantiems hardcore inovacijas, pasiekti sėkmę, kolektyvinis mąstymas pasikeis. Mums tereikia krūvos faktų ir proceso. - Liangas Wenfengas, DeepSeek įkūrėjas

Pastarosiomis dienomis "DeepSeek" išsiplėtė visame pasaulyje, tačiau kadangi bendrovė yra labai santūri ir nepateikė jokių pranešimų, visuomenė apie šią didelį potencialą turinčią technologijų bendrovę žino labai mažai - tiek apie jos įkūrimo aplinkybes, tiek apie veiklos sritį ar produktų išdėstymą.

Baigęs rūšiuoti visą medžiagą, parašiau šį straipsnį

Kokia dabartinių AI žaidėjų praeitis, ką jie veikia ir ką verbuoja?

ir tikriausiai išsamiausia DeepSeek istorinė apžvalga.

Praėjusiais metais šiuo metu pas mane atėjo draugas iš "Magic Cube" Kvantas ir paklausė: "Ar nori sukurti didelį modelį Kinijoje?" O aš tiesiog praleidau popietę gerdamas kavą. Kaip ir reikėjo tikėtis, gyvenimas vis dar priklauso nuo pasirinkimų.

Svetainė "Magic Cube" Kvantas Čia minimas investuotojasarba DeepSeek patronuojančioji bendrovė.

Vadinamoji "quant" - tai investavimo institucija, kuri priima sprendimus ne žmogaus jėgomis, o algoritmais. Quant Fantasy įsikūrimas nėra ilgas, prasidėjo 2015 m. Iki 2021 m., kai jai buvo šešeri metai, "Quant Fantasy" turto valdymo mastas viršijo 100 mlrd. ir ji buvo vadinama vienu iš Kinijos "keturių didžiųjų kvantinių karalių".

"Fantasy Square" įkūrėjas Liangas Wenfengas, kuris taip pat yra "DeepSeek" įkūrėjas, yra "ne pagrindinės srovės" finansų lyderis, gimęs devintajame dešimtmetyje: neturi užsienio studijų patirties, nėra olimpinių varžybų nugalėtojas, baigė Džedziango universiteto Elektronikos inžinerijos fakultetą, dirbtinio intelekto specialybę. Jis yra vietinis technologijų ekspertas, kuris elgiasi santūriai, kasdien "skaito dokumentus, rašo kodus ir dalyvauja grupės diskusijose".

Liangas Wenfengas neturi tradicinio verslo savininko įpročių, bet yra labiau panašus į gryną "technologijų maniaką".. Daugelis pramonės atstovų ir DeepSeek tyrėjų Liangą Wenfengą labai gerai įvertino: "Žmogus, kuris turi ir stiprių infrainžinerinių gebėjimų, ir modelių tyrimo gebėjimų, ir gali mobilizuoti išteklius", "žmogus, kuris gali priimti tikslius sprendimus iš aukšto lygio, bet taip pat puikiai išmano detales, palyginti su pirmosios grandies tyrėjais", taip pat turi "siaubingą gebėjimą mokytis".

"Huanfang" dar gerokai iki "DeepSeek" įkūrimo pradėjo kurti ilgalaikius planus dirbtinio intelekto pramonėje.. 2023 m. gegužę Liangas Wenfengas interviu Darksurge'ui minėjo: "Po to, kai 2020 m. "OpenAI" išleido GPT3, dirbtinio intelekto kūrimo kryptis tapo labai aiški, o skaičiavimo galia taps pagrindiniu elementu; tačiau net 2021 m., kai investavome į "Firefly 2" kūrimą, dauguma žmonių vis dar negalėjo to suprasti."

Remdamasi šiuo sprendimu, "Huanfang" pradėjo kurti savo kompiuterių infrastruktūrą. "Nuo pirmosios 1 kortelės iki 100 kortelių 2015 m., 1 000 kortelių 2019 m. ir 10 000 kortelių - šis procesas vyko palaipsniui. Prieš kelis šimtus kortelių buvome įsikūrę IDC. Kai mastas tapo didesnis, prieglobos paslaugos nebegalėjo atitikti reikalavimų, todėl pradėjome kurti savo kompiuterių salę."

Vėliau "Finance Eleven" pranešė: "Yra ne daugiau kaip penki šalies bendrovių, turinčių daugiau nei 10 000 GPU, ir be kelių pagrindinių gamintojų, tarp jų taip pat yra kiekybinio fondo bendrovė "Magic Cube".." Paprastai manoma, kad 10 000 "Nvidia A100" mikroschemų yra riba, nuo kurios skaičiuojamosios galios reikia dideliems modeliams apmokyti.

Ankstesniame interviu Liangas Wenfengas taip pat paminėjo įdomų dalyką: daugelis žmonių manytų, kad už to slypi nežinoma verslo logika, tačiau iš tiesų tai daugiausia lemia smalsumas.

Turinys

DeepSeekpirmasis susitikimas

2023 m. gegužės mėn. interviu su Darksurge, paklaustas "Ne taip seniai "Huanfang" paskelbė apie savo sprendimą kurti didelius modelius, kodėl kiekybinis fondas taip elgtųsi?"

Liang Wenfengas atsakė garsiai: "Mūsų sprendimas sukurti didelį modelį neturi nieko bendra su kiekybiniu vertinimu ar finansais. Šiam tikslui įsteigėme naują įmonę "DeepSeek". Daugelis pagrindinių "Mianfang" komandos narių dirba dirbtinio intelekto srityje. Tuo metu išbandėme daugybę scenarijų ir galiausiai apsistojome ties finansais, kurie yra pakankamai sudėtingi. Bendrasis dirbtinis intelektas gali būti vienas iš kitų sunkiausiai pasiekiamų dalykų, todėl mums kyla klausimas, kaip tai padaryti, o ne kodėl.

Ne dėl komercinių interesų ar rinkos tendencijų, o tiesiog dėl noro tyrinėti pačią AGI technologiją ir nuolatinio "svarbiausio ir sunkiausio dalyko" ieškojimo. pavadinimas "DeepSeek" oficialiai patvirtintas 2023 m. gegužės mėn.. 2023 m. liepos 17 d. buvo įsteigta "Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Co., Ltd.".

Svetainėje 2023 m. lapkričio 2 d. DeepSeek pateikė pirmąjį atsakymą: DeepSeek Coder, didelis atvirojo kodo modelis. Šis modelis apima kelis dydžius, pvz., 1B, 7B ir 33B. Atvirojo kodo turinį sudaro bazinis modelis ir komandų derinimo modelis.

Tuo metu tarp atvirojo kodo modelių "Meta CodeLlama" buvo pramonės etalonas. Tačiau išleidus "DeepSeek Coder", jo lyderio pozicija, palyginti su "CodeLlama", buvo daugialypė: kuriant kodą "HumanEval" buvo 9,3% pranašesnis, MBPP - 10,8%, o DS-1000 - 5,9%.

Atminkite, kad "DeepSeek Coder" yra 7B modelis, o "CodeLlama" - 34B modelis. Be to, "DeepSeek Coder" modelis, suderinus jį su instrukcijomis, visapusiškai pranoko GPT3.5-Turbo.

"DeepSeek Coder" ne tik įspūdingai generuoja kodą, bet ir demonstruoja savo matematikos ir mąstymo raumenis.

Po trijų dienų, 2023 m. lapkričio 5 d., "DeepSeek" per savo "WeChat" viešąją paskyrą išleido daug įdarbinimo turinio, įskaitant tokias pozicijas kaip AGI didelio modelio stažuotojas, duomenų ekspertas, duomenų architektūros talentas, vyresnysis duomenų rinkimo inžinierius, gilaus mokymosi tyrimų ir plėtros inžinierius ir kt., ir pradėjo aktyviai plėsti komandą.

Kaip sakė Liangas Wenfengas, DeepSeek "privalomi reikalavimai" talentų atrankai yra "aistra ir tvirti pagrindiniai įgūdžiai".ir pabrėžė, kad "inovacijoms reikia kuo mažiau įsikišimo ir valdymo, kad kiekvienas galėtų laisvai klysti ir išbandyti naujus dalykus. Inovacijos dažnai ateina iš vidaus, o ne dėl sąmoningų susitarimų, ir jos tikrai neatsiranda mokant."

Modeliai dažnai išleidžiami, o atvirojo kodo programinė įranga praktikuojama

Po to, kai "DeepSeek Coder" išpopuliarėjo, "DeepSeek" atkreipė dėmesį į pagrindinį mūšio lauką - bendrinės kalbos modelius.

Svetainėje 2023 m. lapkričio 29 d. "DeepSeek" išleido pirmąjį bendrosios paskirties didelės kalbos modelį - DeepSeek LLM 67B. Šis modelis lyginamas su to paties lygio "Meta" LLaMA2 70B modeliu ir beveik 20-yje viešų vertinimo sąrašų kinų ir anglų kalbomis pasirodė geriau. Ypač išsiskiria jo samprotavimo, matematikos ir programavimo gebėjimai (pvz., HumanEval, MATH, CEval ir CMMLU).

DeepSeek LLM 67B taip pat pasirinko atvirojo kodo kelią ir palaiko komercinį naudojimą. Siekdama dar labiau pademonstruoti savo nuoširdumą ir pasiryžimą naudoti atvirąjį kodą, DeepSeek beprecedentiniu būdu vienu metu atvėrė dviejų skirtingų mastelių modelių - 7B ir 67B - atvirąjį kodą ir net paviešino devynis modelio mokymo proceso metu sukurtus kontrolinius taškus, kuriuos mokslininkai gali atsisiųsti ir naudoti. Tokia operacija, prilygstanti "mokymui visko", yra itin reta visoje atvirojo kodo bendruomenėje.

Siekdama išsamiau ir objektyviau įvertinti tikrąsias DeepSeek LLM 67B galimybes, DeepSeek tyrėjų komanda taip pat kruopščiai parengė keletą "naujų klausimų" testavimui nepalankiausiomis sąlygomis. Šie klausimai apima aukšto lygio, didelio diskriminavimo testus, pavyzdžiui, Vengrijos vidurinės mokyklos matematikos egzamino klausimus, "Google" komandų po vertinimo rinkinius ir "LeetCode" savaitinio konkurso klausimus. Testavimo rezultatai buvo džiuginantys. DeepSeek LLM 67B parodė nuostabų potencialą, kalbant apie jo gebėjimą apibendrinti už imties ribų, o jo bendras našumas buvo net artimas tuo metu pažangiausio GPT-4 modelio našumui.

Svetainėje 2023 m. gruodžio 18 d., DeepSeek atvėrė šaltinį Vincento 3D modelis DreamCraft3D: juo galima sukurti aukštos kokybės 3D modelius iš sakinio, taip AIGC sistemoje peršokant iš 2D plokštumų į 3D erdvę. Pavyzdžiui, jei naudotojas įveda: "Bėgdamas per mišką, juokingas hibridinis kiaulės galvos ir beždžionių karaliaus kūno vaizdas", "DreamCraft3D" gali sukurti aukštos kokybės turinį:

Iš esmės modelis iš pradžių papildo Venno diagramą, o paskui papildo bendrą geometrinę struktūrą, pagrįstą 2D sąvokų žemėlapiu:

Atlikus subjektyvų vertinimą, daugiau nei 90% naudotojų teigė, kad "DreamCraft3D" turi pranašumą generavimo kokybės atžvilgiu, palyginti su ankstesniais generavimo metodais.

2024 m. sausio 7 d. DeepSeek išleido DeepSeek LLM 67B techninę ataskaitą. Šioje daugiau kaip 40 puslapių ataskaitoje pateikiama daug išsamios informacijos apie DeepSeek LLM 67B, įskaitant savarankiškai sukurtus mastelio dėsnius, išsamią praktinę modelio derinimo informaciją ir išsamią AGI gebėjimų vertinimo sistemą.

Popieriaus adresas

Svetainėje 2024 m. sausio 11 d. "DeepSeek" atvėrė pirmąjį Kinijoje didelį MoE (mišrios ekspertų architektūros) modelį, DeepSeekMoE: visiškai naują architektūrą, kuri palaiko kinų ir anglų kalbas ir yra nemokama komerciniam naudojimui. Tuo metu buvo manoma, kad "MoE" architektūra yra "OpenAI GPT-4" našumo proveržio raktas. DeepSeek savarankiškai sukurta MoE architektūra pirmauja daugelyje mastelių, pavyzdžiui, 2B, 16B ir 145B, o jos skaičiavimai taip pat yra labai pagirtini.

2024 m. sausio 25 d. DeepSeek išleido DeepSeek Coder techninę ataskaitą. Šioje ataskaitoje pateikiama išsami techninė mokymo duomenų, mokymo metodų ir modelio veikimo analizė. Šioje ataskaitoje matome, kad pirmą kartą joje sukurti sandėlio lygmens kodo duomenys ir panaudotas topologinis rūšiavimas analizuojant failų tarpusavio priklausomybes, taip gerokai padidinant gebėjimą suprasti tolimus kryžminius failus. Kalbant apie mokymo metodus, buvo pridėtas Fill-In-Middle metodas, kuris labai pagerino kodo užbaigimo gebėjimą.

Popieriaus adresas

2024 m. sausio 30 d. oficialiai pradėta naudoti DeepSeek atvira platforma, o DeepSeek didelio modelio API paslauga pradėta testuoti. Užsiregistruokite ir nemokamai gaukite 10 milijonų žetonų. Sąsaja suderinama su "OpenAI API" sąsaja, galimi abu pokalbių ir kodavimo dvigubi modeliai. Šiuo metu "DeepSeek" pradėjo žvalgytis ne tik technologijų tyrimų ir plėtros, bet ir technologijų paslaugų teikėjo kelio.

Svetainėje 2024 m. vasario 5 d. DeepSeek išleido dar vieną vertikalųjį domeno modelį, DeepSeekMath, matematinis samprotavimo modelis. Šis modelis turi tik 7B parametrų, tačiau jo matematinio samprotavimo gebėjimai artimi GPT-4 gebėjimams. Autoritetingame MATH etalonų sąraše jis pranoksta minią ir lenkia daugelį atvirojo kodo modelių, kurių parametrų dydis yra nuo 30B iki 70B. DeepSeekMath išleidimas visiškai įrodo DeepSeek techninę stiprybę ir į ateitį orientuotą vertikaliųjų tyrimų ir plėtros išdėstymą bei į ateitį orientuotą modelių tyrimų ir plėtros išdėstymą.

Svetainėje 2024 m. vasario 28 d., siekdama dar labiau sumažinti kūrėjų susirūpinimą dėl DeepSeek atvirojo kodo modelių naudojimo, DeepSeek išleido atvirojo kodo politikos DUK., kurioje pateikiami išsamūs atsakymai į dažniausiai užduodamus klausimus, pavyzdžiui, apie atvirojo kodo licencijavimo modelį ir komercinio naudojimo apribojimus. DeepSeek priima atvirąjį kodą, laikydamasi skaidresnio ir atviresnio požiūrio:

Svetainėje 2024 m. kovo 11 d. "DeepSeek" išleido daugiarūšį didelį modelį DeepSeek-VL. Tai pirmasis DeepSeek bandymas naudoti daugiamodalę dirbtinio intelekto technologiją. Modelis yra 7B ir 1,3B dydžio, o modelis ir techniniai dokumentai vienu metu yra atviri.

Svetainėje 2024 m. kovo 20 d. "Huanfang AI & DeepSeek" vėl buvo pakviesta dalyvauti "NVIDIA GTC 2024" konferencijoje, o įkūrėjas Liangas Wenfengas pristatė techninę pagrindinę kalbą. pavadinimu "Harmonija įvairovėje: Didžiųjų kalbos modelių vertybių derinimas ir atskyrimas". Buvo aptarti tokie klausimai kaip "konfliktas tarp vienos vertybės didelio modelio ir pliuralistinės visuomenės bei kultūros", "didelio modelio vertybių derinimo atsiejimas" ir "daugialypiai atsietų vertybių derinimo iššūkiai". Tai parodė, kad DeepSeek ne tik vykdo technologinius mokslinius tyrimus ir technologinę plėtrą, bet ir rūpinasi humanitariniais aspektais bei prisiima socialinę atsakomybę už dirbtinio intelekto kūrimą.

2024 m. kovo mėn, DeepSeek API oficialiai pradėjo teikti mokamas paslaugas, kurios visiškai įžiebė kainų karo Kinijos didelių modelių rinkoje preliudiją: Tai buvo pradžia naujo modelio modelio kūrimo.

2024 m. "DeepSeek" sėkmingai išlaikė didelių modelių rekordą Kinijoje, pašalindama politines kliūtis, trukdančias visiškai atverti API paslaugas.

2024 m. gegužę buvo išleistas atvirojo kodo DeepSeek-V2, bendrasis MoE didelis modelis, ir oficialiai prasidėjo kainų karas. DeepSeek-V2 naudoja MLA (kelių galvų latentinio dėmesio mechanizmą), kuris sumažina modelio atminties plotą iki 5%-13% tradicinio MHA. Kartu savarankiškai sukurta DeepSeek MoE Sparse retoji struktūra, kuri labai sumažina modelio skaičiavimo sudėtingumą. Dėl to modelis išlaiko API kainą "1 juanis už milijoną įvesties ir 2 juaniai už milijoną išvesties".

DeepSeek turėjo didžiulį poveikį. Šiuo atžvilgiu pagrindinis "SemiAnalysis" analitikas mano, kad DeepSeek V2 dokumentas "gali būti vienas geriausių šiais metais". Panašiai mano ir Andrew Carr, buvęs "OpenAI" darbuotojas, kuris mano, kad šis dokumentas "kupinas nuostabios išminties", ir pritaikė jo mokymo nustatymus savo modeliui.

Reikėtų pažymėti, kad tai yra modelis, kuris lyginamas su "GPT-4-Turbo", o API kaina yra tik 1/70 pastarojo.

Birželio mėn. 2024 m. gegužės 17 d. DeepSeek vėl padarė didelį postūmį, išleisdama DeepSeek Coder V2 kodo modelį. atvirojo kodo ir teigė, kad jo kodo galimybės pranoksta tuo metu pažangiausią uždarojo kodo modelį GPT-4-Turbo. DeepSeek Coder V2 tęsia nuoseklią DeepSeek atvirojo kodo strategiją: visi modeliai, kodas ir dokumentai yra atviri, pateikiamos dvi versijos - 236B ir 16B. DeepSeek C oder V2 API paslaugos taip pat prieinamos internete, o kaina išlieka tokia pati: "1 juanis už milijoną įvesties duomenų ir 2 juaniai už milijoną išvesties duomenų".

Svetainėje 2024 m. birželio 21 d., DeepSeek Kodavimo programa palaiko kodo vykdymą internetu. Tą pačią dieną buvo išleista "Claude3.5 Sonnet" su nauja funkcija "Artifacts", kuri automatiškai generuoja kodą ir paleidžia jį tiesiai naršyklėje. Tą pačią dieną DeepSeek svetainėje pradėta naudoti ta pati kodo asistento funkcija: generuoti kodą ir paleisti jį vienu spustelėjimu.

Apžvelkime svarbiausius šio laikotarpio įvykius:

Nuolatinis proveržis, sulaukiantis pasaulinio dėmesio

2024 m. gegužę "DeepSeek" išgarsėjo per vieną naktį išleidusi atvirojo kodo modelį "DeepSeek V2", paremtą "MoE". Jo našumas prilygo GPT-4-Turbo našumui, tačiau jo kaina buvo tik 1 juanis už milijoną sąnaudų, t. y. 1/70 GPT-4-Turbo kainos. Tuo metu DeepSeek tapo gerai žinomu "kainų mėsininku" pramonėje, o vėliau pagrindiniai žaidėjai, tokie kaip Zhicheng, ByteDance ir Alibaba... ir kiti pagrindiniai žaidėjai greitai pasekė jo pavyzdžiu ir sumažino kainas. Be to, maždaug tuo metu įvyko dar vienas GPT uždraudimo etapas ir daugybė dirbtinio intelekto programų pirmą kartą pradėjo bandyti vietinius modelius.

2024 m. liepą "DeepSeek" įkūrėjas Liangas Wenfengas dar kartą davė interviu "Dark Surge" ir tiesiogiai atsakė į kainų karą: "Labai netikėta. Nesitikėjau, kad dėl kainos visi bus tokie jautrūs. Mes tiesiog viską darome savo tempu, o tada kainą nustatome atsižvelgdami į sąnaudas. Mūsų principas - neprarasti pinigų ir negauti pernelyg didelio pelno. Ši kaina taip pat šiek tiek viršija sąnaudas su nedideliu pelnu."

Matyti, kad, priešingai nei daugelis konkurentų, kurie moka subsidijas iš savo kišenės, DeepSeek tokia kaina yra pelninga.

Kai kurie žmonės gali sakyti, kad kainų mažinimas yra tarsi naudotojų apiplėšimas, ir taip paprastai būna interneto eros kainų karuose.

Į tai atsakė ir Liang Wenfengas: "Vartotojų apiplėšimas nėra mūsų pagrindinis tikslas. Kainą sumažinome, nes, viena vertus, sąnaudos sumažėjo, nes tyrinėjame naujos kartos modelio struktūrą, kita vertus, manome, kad ir API, ir dirbtinis intelektas turėtų būti įperkami ir prieinami visiems."

Taigi, istorija tęsiasi ir Liang Wenfeng idealizmo pavyzdžiu.

2024 m. liepos 4 d. pradėjo veikti DeepSeek API. 128K konteksto kaina išliko nepakitusi. Modelio išvedimo sąnaudos yra glaudžiai susijusios su konteksto ilgiu. Todėl daugeliui modelių taikomi griežti šio ilgio apribojimai: pradinė GPT-3.5 versija turi tik 4k kontekstą.

Tuo metu DeepSeek padidino konteksto ilgį nuo ankstesnių 32 iki 128 k, o kainą paliko nepakitusią (1 juanis už milijoną įvesties žetonų ir 2 juaniai už milijoną išvesties žetonų).

Svetainėje 2024 m. liepos 10 d. buvo paskelbti pirmosios pasaulyje AI olimpiados (AIMO) rezultatai, o DeepSeekMath modelis tapo bendru geriausių komandų pasirinkimu.. Visos 4 geriausios komandos pasirinko DeepSeekMath-7B kaip savo modelių pagrindą ir pasiekė įspūdingų rezultatų konkurse.

Svetainėje 2024 m. liepos 18 d. "Chatbot Arena" atvirojo kodo modelių sąrašo viršūnėje atsidūrė DeepSeek-V2, pranoksta tokius žvaigždžių modelius kaip Llama3-70B, Qwen2-72B, Nemotron-4-340B ir Gemma2-27B ir tampa nauju atvirojo kodo didelių modelių etalonu.

Svetainėje 2024 m. liepos mėn., DeepSeek toliau įdarbino talentus ir įdarbino geriausius talentus iš viso pasaulio įvairiose srityse, įskaitant dirbtinio intelekto algoritmus, dirbtinio intelekto infrastruktūrą, dirbtinio intelekto mokytoją ir dirbtinio intelekto produktus, kad pasirengtų būsimoms technologinėms naujovėms ir produktų kūrimui.

Svetainėje 2024 m. liepos 26 d. "DeepSeek API" pradėjo svarbų atnaujinimą, kuris visiškai palaiko daugybę pažangių funkcijų, tokių kaip perrašymas, FIM (Fill-in-the-Middle) užbaigimas, funkcijų iškvietimas ir JSON išvestis. FIM funkcija yra labai įdomi: naudotojas nurodo pradžią ir pabaigą, o didelis modelis užpildo vidurį, kuris labai tinka programavimo procesui, kad būtų galima užpildyti tikslų funkcijos kodą. Kaip pavyzdį paimkime Fibonačio sekos rašymą:

Svetainėje 2024 m. rugpjūčio 2 d. "DeepSeek" naujoviškai pristatė kietojo disko spartinimo technologiją ir sumažino API kainas iki kulkšnių. Anksčiau API kainos buvo tik ￥1 už milijoną žetonų. Tačiau dabar, kai tik pasiekiamas talpyklos pasiekimas, API mokestis sumažėja iki ￥0,1.

Ši funkcija yra labai praktiška, kai reikia atlikti nepertraukiamus pokalbius ir paketinio apdorojimo užduotis.

Svetainėje 2024 m. rugpjūčio 16 d. "DeepSeek" išleido savo matematinių teoremų įrodymo modelį DeepSeek-Prover-V1.5 kaip atvirojo kodo programa, kuri vidurinių mokyklų ir koledžų matematinių teoremų įrodymo testuose pranoko daugelį gerai žinomų atvirojo kodo modelių.

Svetainėje 2024 m. rugsėjo 6 d. "DeepSeek" išleido DeepSeek-V2.5 sintezės modelį. Anksčiau DeepSeek daugiausia naudojo du modelius: pokalbių modelį, skirtą bendriesiems pokalbių įgūdžiams, ir kodo modelį, skirtą kodų apdorojimo įgūdžiams. Šį kartą šie du modeliai buvo sujungti į vieną ir atnaujinti į DeepSeek-V2.5, kuris geriau atitinka žmonių pageidavimus, taip pat gerokai patobulintos rašymo užduotys, komandų vykdymas ir kiti aspektai.

Svetainėje 2024 m. rugsėjo 18 d. DeepSeek-V2.5 vėl pateko į naujausią LMSYS sąrašą, pirmauja tarp vietinių modelių ir nustatė naujus geriausius šalies modelių rezultatus keliuose individualiuose gebėjimuose.

Svetainėje 2024 m. lapkričio 20 d. "DeepSeek" išleido "DeepSeek-R1-Lite oficialioje svetainėje. Tai yra išvedimo modelis, panašus į o1-preview, be to, jis suteikia pakankamą kiekį sintetinių duomenų, reikalingų V3 mokymui po apmokymo.

Svetainėje 2024 m. gruodžio 10 d. išleidus galutinę suderintą DeepSeek-V2.5-1210 versiją, prasidėjo DeepSeek V2 serijos finalas. Ši versija visapusiškai tobulina įvairius gebėjimus, įskaitant matematikos, kodavimo, rašymo ir vaidmenų atlikimo po mokymų.

Pasirodžius šiai versijai, DeepSeek žiniatinklio programėlėje taip pat atsirado tinklo paieškos funkcija.

Svetainėje 2024 m. gruodžio 13 d. "DeepSeek" padarė dar vieną proveržį daugialypės terpės srityje ir išleido atvirojo kodo daugialypės terpės didelį modelį DeepSeek-VL2. "DeepSeek-VL2" naudoja "MoE" architektūrą, kuri gerokai pagerina jo vaizdo galimybes. Jį galima įsigyti trijų dydžių: 3B, 16B ir 27B, ir turi pranašumą pagal visus rodiklius.

Svetainėje 2024 m. gruodžio 26 d. DeepSeek-V3 buvo išleistas su atviruoju kodu: apskaičiuota mokymo kaina buvo tik 5,5 milijono JAV dolerių. "DeepSeek-V3" visiškai palygino pirmaujančių užjūrio uždarųjų šaltinių modelių našumą ir labai pagerino generavimo greitį.

Buvo pakoreguota API paslaugų kainodara, tačiau kartu nustatytas 45 dienų lengvatinis naujojo modelio bandomasis laikotarpis.

2025 m. sausio 15 d. oficialiai išleista oficiali DeepSeek programėlė, kuri visiškai įdiegta pagrindinėse "iOS" ir "Android" programėlių rinkose.

2025 m. sausio 20 d., netoli kinų Naujųjų metų, DeepSeek-R1 išvadų modelis buvo oficialiai išleistas ir tapo atviruoju šaltiniu. DeepSeek-R1 visiškai suderino savo veikimą su oficialia "OpenAI o1" versija ir atvėrė minčių grandinės išvesties funkciją. Kartu DeepSeek taip pat paskelbė, kad modelio atvirojo kodo licencija bus pakeista į MIT licenciją, o naudotojo sutartyje bus aiškiai leidžiama "modelio distiliavimas", taip dar labiau įtvirtinant atvirąjį kodą ir skatinant dalijimąsi technologijomis.

Vėliau šis modelis tapo labai populiarus ir pradėjo naują erą

Todėl 2025 m. sausio 27 d. "DeepSeek" programėlė sėkmingai aplenkė "ChatGPT" ir užėmė pirmąją vietą JAV "iOS App Store" nemokamų atsisiunčiamų programėlių sąraše, tapdama fenomenalia dirbtinio intelekto programėle.

2025 m. sausio 27 d., Naujųjų metų išvakarėse 1:00 val. nakties, DeepSeek "Janus-Pro" buvo išleistas kaip atvirasis kodas. Tai multimodalinis modelis, pavadintas senovės romėnų mitologijos dievo Januso, turinčio du veidus, vardu: jis nukreiptas ir į praeitį, ir į ateitį. Tai taip pat reiškia du modelio gebėjimus - vizualinį supratimą ir vaizdų kūrimą - ir jo dominavimą keliuose reitinguose.

DeepSeek staigus išpopuliarėjimas iš karto sukėlė pasaulinę technologijų šoko bangą, dėl kurios net tiesiogiai nukrito NVIDIA akcijų kaina 18%, o pasaulinės technologijų akcijų rinkos vertė išgaravo apie 1 trilijoną JAV dolerių. Volstritas ir technologijų žiniasklaida skelbė, kad DeepSeek iškilimas griauna pasaulinį dirbtinio intelekto pramonės kraštovaizdį ir meta precedento neturintį iššūkį Amerikos technologijų milžinėms.

"DeepSeek" sėkmė taip pat sukėlė didelį tarptautinį dėmesį ir karštas diskusijas apie Kinijos dirbtinio intelekto technologinių inovacijų pajėgumus. JAV prezidentas Donaldas Trumpas, retai viešai komentuodamas situaciją, pagyrė DeepSeek iškilimą kaip "pozityvų" ir sakė, kad tai yra "perspėjimas" Jungtinėms Valstijoms. Bendrovės "Microsoft" generalinis direktorius Satya Nadella ir "OpenAI" generalinis direktorius Samas Altmanas taip pat gyrė DeepSeek, pavadinę jos technologiją "labai įspūdinga".

Žinoma, taip pat turime suprasti, kad jų pagyrimai iš dalies yra DeepSeek stiprybės pripažinimas, o iš dalies - jų pačių motyvų atspindys. Pavyzdžiui, nors "Anthropic" pripažįsta DeepSeek pasiekimus, ji taip pat ragina JAV vyriausybę sustiprinti lustų kontrolę Kinijoje.

"Anthropic CEO" paskelbia 10 000 žodžių straipsnį: DeepSeek iškilimas reiškia, kad Baltieji rūmai turėtų sustiprinti kontrolę

Apibendrinimas ir perspektyvos

Žvelgiant į pastaruosius dvejus metus, DeepSeek tikrai buvo "Kinijos stebuklas": nuo nežinomo startuolio iki "paslaptingos Rytų galios", kuri dabar spindi pasaulinėje dirbtinio intelekto scenoje, DeepSeek savo stiprybe ir inovacijomis rašė vieną "neįmanoma" po kito.

Giluminė šio technologinio žygio prasmė jau seniai peržengė komercinės konkurencijos ribas. DeepSeek paskelbė faktus, kad strateginėje dirbtinio intelekto srityje, susijusioje su ateitimi, Kinijos bendrovės yra visiškai pajėgios įkopti į pagrindinių technologijų aukštumas.

D. Trumpo paskelbtas "pavojaus varpas" ir paslėpta antropinės baimės baimė tiksliai patvirtina Kinijos dirbtinio intelekto gebėjimų svarbą: ji ne tik gali plaukti ant bangų, bet ir keičia bangų kryptį.

"Deepseek" produktas išleisti etapai

2023 m. lapkričio 2 d: DeepSeek kodavimo įrenginys Didelis modelis
2023 m. lapkričio 29 d: DeepSeek LLM 67B universalus modelis
2023 m. gruodžio 18 d: "DreamCraft3D" 3D modelis
2024 m. sausio 11 d: DeepSeekMoE MoE didelis modelis
2024 m. vasario 5 d: DeepSeekMath Matematinis samprotavimo modelis
2024 m. kovo 11 d: DeepSeek-VL Daugiamodis didelis modelis
2024 m. gegužės mėn: DeepSeek-V2 MoE bendrasis modelis
2024 m. birželio 17 d: DeepSeek kodavimo įrenginio V2 kodo modelis
2024 m. rugsėjo 6 d: DeepSeek-V2.5 Bendrųjų ir kodinių kompetencijų modelių sujungimas
2024 m. gruodžio 13 d: DeepSeek-VL2 multimodalinis MoE modelis
2024 m. gruodžio 26 d: DeepSeek-V3 nauja bendrosios paskirties didelių modelių serija
2025 m. sausio 20 d: DeepSeek-R1 išvedimo modelis
2025 m. sausio 20 d: DeepSeek oficiali programėlė (iOS ir Android)
2025 m. sausio 27 d: DeepSeek "Janus-Pro" multimodalinis modelis

Kaip buvo sukurtas DeepSeek? DeepSeek augimo istorijos analizė

DeepSeekpirmasis susitikimas

Modeliai dažnai išleidžiami, o atvirojo kodo programinė įranga praktikuojama

Nuolatinis proveržis, sulaukiantis pasaulinio dėmesio

Apibendrinimas ir perspektyvos

"Deepseek" produktas išleisti etapai

„Le Chat“ yra topų viršūnėje, investavusi šimtą milijardų dolerių. Ar tai trečioji AI galia po JAV ir Kinijos?

Išsamus "OpenAI" naujai išleistų "o3-mini" ir DeepSeek R1 palyginimas

DeepSeek išleido savo šaltinio kodą, išsamų FlashMLA paaiškinimą

The Showdown of the Top Four Models! A Review Showcases How Powerful Deepseek R1 Is

„Google“ pigus modelis Gemini 2.0 serija puola: kova dėl didelių modelių ekonomiškumo efektyvumo

Ali Qwen2.5-Max aplenkė DeepSeek-V3! Internautas: Kinijos AI sparčiai mažina atotrūkį

Parašykite komentarą Atšaukti atsakymą

DeepSeekpirmasis susitikimas

Modeliai dažnai išleidžiami, o atvirojo kodo programinė įranga praktikuojama

Nuolatinis proveržis, sulaukiantis pasaulinio dėmesio

Apibendrinimas ir perspektyvos

"Deepseek" produktas išleisti etapai

Panašios žinutės

Parašykite komentarą Atšaukti atsakymą