Kuidas loodi DeepSeek? DeepSeek kasvuloo analüüs

Tulevikus on üha rohkem ja rohkem uuendusi. Praegu ei pruugi see olla lihtne mõista, sest kogu sotsiaalset rühma tuleb harida faktidega. Kui see ühiskond lubab inimestel, kes uuendavad hardcore, edu saavutada, muutub kollektiivne mõtteviis. Me vajame lihtsalt hulga fakte ja protsessi. - Liang Wenfeng, DeepSeek asutaja

Viimastel päevadel on DeepSeek plahvatanud üle kogu maailma, kuid kuna ettevõte on nii tagasihoidlik ja ei ole teinud ühtegi teadet, teab avalikkus sellest suure potentsiaaliga tehnoloogiaettevõttest väga vähe - olgu selleks siis selle asutamishäda, äritegevuse ulatus või tootekujundus.

Pärast kõikide materjalide sorteerimise lõpetamist kirjutasin selle artikli

Milline on praeguste tehisintellekti mängijate taust, mida nad teevad ja keda nad värbavad?

ja tõenäoliselt kõige täielikum ajalooline ülevaade DeepSeek-st.

Eelmisel aastal sel ajal tuli minu juurde üks sõber Magic Cube Quantist ja küsis: "Kas sa tahad Hiinas suurt mudelit ehitada?". Ja ma lihtsalt veetsin pärastlõuna kohvi joomisega. Nagu oodata, sõltub elu ikkagi valikutest.

The Magic Cube Quant siin mainitud investorehk DeepSeek emaettevõtja.

Niinimetatud kvant on investeerimisasutus, mis teeb otsuseid mitte inimjõu, vaid algoritmide abil. Quant Fantasy asutamine ei ole pikk, alates 2015. aastast. 2021. aastaks, kui see oli kuus aastat vana, oli Quant Fantasy varahalduse maht ületanud 100 miljardit ja seda tervitati kui ühte Hiina "neljast suurest kvant-kuningast".

Fantasy Square'i asutaja Liang Wenfeng, kes on ka DeepSeek asutaja, on 1980ndatel sündinud "mitte-majanduslik" finantsjuht: tal puudub välismaal õppimise kogemus, ta ei ole olümpiavõitja ja ta on lõpetanud Zhejiangi ülikooli elektroonikainseneri osakonna, mille põhierialaks on tehisintellekt. Ta on emakeelne tehnoloogiaekspert, kes tegutseb tagasihoidlikult, "lugedes iga päev pabereid, kirjutades koodi ja osaledes grupiaruteludel".

Liang Wenfengil ei ole traditsioonilise ettevõtte omaniku harjumusi, vaid ta on pigem puhas "tehnikahull".. Paljud tööstusharu asjatundjad ja DeepSeek teadlased on Liang Wenfengi väga kõrgelt kiitnud: "keegi, kellel on nii tugevad infrastruktuuritehnilised võimed kui ka mudeliuuringute võimed ja kes suudab ka ressursse mobiliseerida", "keegi, kes suudab teha täpseid otsuseid kõrgel tasemel, kuid paistab silma ka üksikasjadega eesliini teadlaste üle" ja kellel on ka "hirmutav õppimisvõime".

Juba ammu enne DeepSeek asutamist oli Huanfang alustanud pikaajaliste plaanide tegemist tehisintellekti tööstuses.. 2023. aasta mais mainis Liang Wenfeng Darksurge'ile antud intervjuus: "Pärast seda, kui OpenAI avaldas 2020. aastal GPT3, on AI arengu suund muutunud väga selgeks ja arvutusvõimsus muutub võtmeelemendiks; kuid isegi 2021. aastal, kui me investeerisime Firefly 2 ehitamisse, ei saanud enamik inimesi sellest ikka veel aru."

Selle otsuse põhjal hakkas Huanfang ehitama oma arvutiinfrastruktuuri. "Alates esimesest 1 kaardist kuni 100 kaardini 2015. aastal, 1000 kaardini 2019. aastal ja seejärel 10 000 kaardini, see protsess toimus järk-järgult. Enne mõnisada kaarti majutati meid IDC-s. Kui mastaap muutus suuremaks, ei suutnud hosting enam nõuetele vastata, seega hakkasime oma arvutiruumi ehitama."

Hiljem teatas Finance Eleven: "Seal ei ole rohkem kui viis kodumaised ettevõtted, kellel on üle 10 000 GPU, ja lisaks mõnele suuremale tootjale kuulub nende hulka ka kvantitatiivsete fondide ettevõte Magic Cube." Üldiselt arvatakse, et 10 000 Nvidia A100 kiipi on arvutusvõimsuse künnis suurte mudelite treenimiseks.

Ühes varasemas intervjuus mainis Liang Wenfeng ka ühte huvitavat punkti: paljud inimesed arvavad, et selle taga on tundmatu äriloogika, kuid tegelikult ajendab seda peamiselt uudishimu.

Sisukord

DeepSeekesimene kohtumine

Intervjuus Darksurge'ile mais 2023, kui küsiti, et "Mitte kaua aega tagasi teatas Huanfang oma otsusest teha suuri mudeleid, miks peaks kvantitatiivne fond sellist asja tegema?"

Liang Wenfengi vastus oli kõnekas: "Meie otsus ehitada suur mudel ei ole seotud kvantifitseerimise või rahandusega. Selleks oleme loonud uue ettevõtte nimega DeepSeek. Paljud Mianfangi meeskonna võtmeisikud tegelevad tehisintellektiga. Sel ajal proovisime mitmeid stsenaariume ja lõpuks otsustasime finantsvaldkonna kasuks, mis on piisavalt keeruline. Üldine tehisintellekt võib olla üks järgmistest kõige keerulisematest asjadest, seega on meie jaoks küsimus selles, kuidas seda teha, mitte miks.

Mitte ärilistest huvidest või turutrendide tagaajamisest ajendatuna, vaid lihtsalt soovist uurida AGI tehnoloogiat ennast ja järjekindlalt püüelda "kõige tähtsama ja raskema asja" poole," nimi "DeepSeek" kinnitati ametlikult 2023. aasta mais.. 17. juulil 2023 asutati "Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Co., Ltd.".

Veebilehel 2. novembril 2023 andis DeepSeek oma esimese vastuse: DeepSeek Coder, avatud lähtekoodiga koodi suur mudel.. See mudel sisaldab mitut suurust, näiteks 1B, 7B ja 33B. Avatud lähtekoodiga sisu sisaldab baasmudelit ja käsu häälestusmudelit.

Tollal oli avatud lähtekoodiga mudelite seas Meta CodeLlama tööstusharu võrdlusalus. Kui aga DeepSeek Coder ilmus, näitas see CodeLlamaga võrreldes mitmekülgset liidripositsiooni: koodi genereerimisel oli HumanEval 9,3% ees, MBPP 10,8% ees ja DS-1000 5,9% ees.

Pidage meeles, et DeepSeek Coder on 7B mudel, samas kui CodeLlama on 34B mudel. Lisaks on DeepSeek Coder mudel pärast juhistega häälestamist ületanud GPT3.5-Turbo ulatuslikult.

DeepSeek Coder ei ole mitte ainult muljetavaldav koodide genereerimine, vaid näitab ka oma matemaatilisi ja loogilisi võimeid.

Kolm päeva hiljem, 5. novembril 2023, avaldas DeepSeek oma WeChati avaliku konto kaudu suure hulga värbamissisu, sealhulgas sellised ametikohad nagu AGI suur mudelpraktikant, andmeekspert, andmearhitektuuri talent, vanem andmekogumisinsener, sügav õppimise teadus- ja arendusinsener jne, ning hakkas aktiivselt meeskonda laiendama.

Nagu Liang Wenfeng ütles, DeepSeek "must-have nõuded" talentide värbamisel on "kirg ja kindlad põhioskused".ja ta rõhutas, et "innovatsioon nõuab võimalikult vähe sekkumist ja juhtimist, et igaühel oleks vabadus teha vigu ja proovida uusi asju. Innovatsioon tuleb sageli seestpoolt, mitte tahtlikest korraldustest, ja kindlasti ei tule see õpetamisest."

Mudeleid antakse sageli välja ja avatud lähtekoodiga praktiseeritakse

Pärast seda, kui DeepSeek Coder oli saavutanud edu, pööras DeepSeek oma tähelepanu peamisele lahinguväljale: üldistele keelemudelitele.

Veebilehel 29. novembril 2023 andis DeepSeek välja oma esimese üldotstarbelise suure keele mudeli DeepSeek LLM 67B. Seda mudelit võrreldakse Meta sama taseme LLaMA2 70B mudeliga ja see on peaaegu 20 avalikus hiina- ja ingliskeelses hindamisnimekirjas paremini esinenud. Eelkõige on selle arutlus-, matemaatika- ja programmeerimisvõime (nt HumanEval, MATH, CEval ja CMMLU) silmapaistev.

DeepSeek LLM 67B on samuti valinud avatud lähtekoodiga tee ja toetab ärilist kasutamist. Et veelgi enam näidata oma siirust ja otsustavust avatud lähtekoodiga seotud küsimustes, on DeepSeek enneolematult avanud üheaegselt lähtekoodi kahele erineva mastaabiga mudelile, 7B ja 67B, ning avalikustanud isegi üheksa mudeli treenimise käigus loodud kontrollpunktid, mida teadlased saavad alla laadida ja kasutada. Selline tegevus, mis sarnaneb "kõike õpetada", on kogu avatud lähtekoodiga kogukonnas äärmiselt haruldane.

Selleks, et hinnata põhjalikumalt ja objektiivsemalt DeepSeek LLM 67B tegelikke võimeid, koostas DeepSeek uurimisrühm hoolikalt ka rea "uusi küsimusi" "stressitestimiseks". Need küsimused hõlmavad kõrgetasemelisi, kõrge diskrimineerimisvõimega teste, nagu näiteks Ungari keskkooli matemaatikaeksami küsimused, Google'i käskude järgsed hindamiskomplektid ja LeetCode'i iganädalase konkursi küsimused. Testi tulemused olid julgustavad. DeepSeek LLM 67B näitas hämmastavat potentsiaali seoses oma võimega üldistada väljapoole valimit ning tema üldine jõudlus oli isegi lähedane tollase kõige arenenuma GPT-4 mudeli omale.

Veebilehel 18. detsember 2023, DeepSeek avas Vincenti 3D-mudeli DreamCraft3D allika.: see suudab lause põhjal luua kvaliteetseid 3D-mudeleid, saavutades AIGC-s hüppe 2D-tasanditest 3D-ruumi. Näiteks kui kasutaja sisestab: "Läbi metsa jookseb naljakas hübriidkujutis sea peast ja ahvikuninga kehast", suudab DreamCraft3D väljastada kvaliteetse sisu:

Põhimõtteliselt täiendab mudel kõigepealt Venni diagrammi ja seejärel täiendab üldist geomeetrilist struktuuri 2D mõistekaardi alusel:

Järgnenud subjektiivses hinnangus ütles üle 90% kasutaja, et DreamCraft3D on võrreldes varasemate põlvkondade moodustamise meetoditega eelis.

7. jaanuaril 2024 avaldas DeepSeek DeepSeek LLM 67B tehnilise aruande. See üle 40-leheküljeline aruanne sisaldab palju üksikasju DeepSeek LLM 67B kohta, sealhulgas isehitatud skaleerimisseadusi, täielikke praktilisi üksikasju mudeli ühtlustamise kohta ja põhjalikku AGI-võimekuse hindamise süsteemi.

Paberi aadress

Veebilehel 11. jaanuaril 2024 avas DeepSeek esimese MoE (segatud ekspertide arhitektuuri) suure mudeli Hiinas, DeepSeekMoE: täiesti uus arhitektuur, mis toetab hiina ja inglise keelt ning on tasuta kaubanduslikuks kasutamiseks. MoE arhitektuuri peeti toona üldiselt OpenAI GPT-4 jõudluse läbimurde võtmeks. DeepSeek ise välja töötatud MoE-arhitektuur on juhtiv mitmes skaalas, nagu 2B, 16B ja 145B, ning selle arvutuslikkus on samuti väga kiiduväärt.

25. jaanuaril 2024 avaldas DeepSeek tehnilise aruande DeepSeek Coder. Käesolevas aruandes esitatakse põhjalik tehniline analüüs selle koolitusandmete, koolitusmeetodite ja mudeli tulemuslikkuse kohta. Selles aruandes näeme, et esmakordselt on ta konstrueerinud laotasemel koodiandmed ja kasutanud topoloogilist sorteerimist, et analüüsida failidevahelisi sõltuvusi, parandades oluliselt võimet mõista kaugele ulatuvaid ristfaile. Koolitusmeetodite osas lisati Fill-In-Middle meetod, mis parandas oluliselt koodi täitmise võimekust.

Paberi aadress

30. jaanuaril 2024 käivitati ametlikult avatud platvorm DeepSeek ja DeepSeek Large Model API teenus alustas testimist. Registreeru, et saada 10 miljonit žetooni tasuta. Kasutajaliides ühildub OpenAI API liidesega ja saadaval on nii vestlus- kui ka kooderikaksikmudelid. Sel ajal hakkas DeepSeek lisaks tehnoloogia uurimis- ja arendustegevusele uurima ka tehnoloogiateenuse pakkuja teed.

Veebilehel 5. veebruaril 2024 avaldas DeepSeek veel ühe vertikaalse domeeni mudeli, DeepSeekMath., matemaatiline arutlusmudel. Sellel mudelil on ainult 7B parameetrit, kuid selle matemaatiline arutlusvõime on lähedane GPT-4-le. Autoriteetses MATH võrdlusuuringu nimekirjas ületab see massi ja edestab mitmeid avatud lähtekoodiga mudeleid, mille parameetrite suurus jääb vahemikku 30B kuni 70B. DeepSeekMathi vabastamine näitab täielikult DeepSeeki tehnilist tugevust ja tulevikku suunatud paigutust vertikaalsete uuringute ja arenduse ning selle tulevikku suunatud paigutust mudelite uurimis- ja arendustegevuses.

Veebilehel 28. veebruaril 2024 avaldas DeepSeek avatud lähtekoodiga mudelite kasutamisega seotud arendajate murede edasiseks leevendamiseks avatud lähtekoodiga poliitika KKK., mis annab üksikasjalikud vastused sageli esitatavatele küsimustele, nagu näiteks avatud lähtekoodiga litsentside mudel ja kommertskasutuspiirangud. DeepSeek võtab avatud lähtekoodi omaks läbipaistvama ja avatuma suhtumisega:

Veebilehel 11. märtsil 2024 avaldas DeepSeek multi-modaalse suure mudeli DeepSeek-VL.. See on DeepSeek esimene katse multimodaalse AI-tehnoloogia vallas. Mudel on 7B ja 1,3B suurune ning mudel ja tehnilised dokumendid on samaaegselt avatud.

Veebilehel 20. märtsil 2024 kutsuti Huanfang AI & DeepSeek taas kord osalema NVIDIA GTC 2024 konverentsil ja asutaja Liang Wenfeng pidas tehnilise põhikõne. pealkirjaga "Harmoonia mitmekesisuses: Suurte keelemudelite väärtuste ühtlustamine ja lahtisidumine". Arutati selliseid küsimusi nagu "ühe väärtusega suure mudeli ning pluralistliku ühiskonna ja kultuuri vaheline konflikt", "suurte mudelite väärtuste ühtlustamise lahtisidumine" ja "lahtisidumise mitmemõõtmelised väljakutsed". See näitas DeepSeek humanistlikku hoolivust ja sotsiaalset vastutust tehisintellekti arendamise eest lisaks tehnoloogilistele teadusuuringutele ja arendustegevusele.

Märtsis 2024, DeepSeek API käivitas ametlikult tasulised teenused, mis käivitas täielikult Hiina suurte mudelite turu hinnasõja eelmängu: 1 jüaan miljoni sisendmärgi ja 2 jüaani miljoni väljundmärgi kohta.

2024. aastal läbis DeepSeek edukalt suurte mudelite rekordilise hindamise Hiinas, kõrvaldades poliitilised takistused oma API-teenuste täielikuks avamiseks.

Mais 2024 ilmus avatud lähtekoodiga üldine MoE suur mudel DeepSeek-V2 ja hinnasõda algas ametlikult. DeepSeek-V2 kasutab MLA-d (mitme peaga latentse tähelepanu mehhanism), mis vähendab mudeli mälumahtu 5%-13% traditsioonilise MHA mälumahuni. Samal ajal on iseseisvalt välja töötatud ka DeepSeek MoE Sparse hõre struktuur, mis vähendab oluliselt mudeli arvutuskomplekssust. Tänu sellele säilitab mudel API hinna "1 jüaan/miljon sisendit ja 2 jüaani/miljon väljundit".

DeepSeek on avaldanud suurt mõju. Sellega seoses usub SemiAnalyse juhtiv analüütik, et DeepSeek V2 paber "võib olla üks selle aasta parimaid". Sarnaselt usub endine OpenAI töötaja Andrew Carr, et paber on "täis hämmastavat tarkust" ja on rakendanud selle treeningseadistusi omaenda mudelis.

Tuleb märkida, et tegemist on mudeliga, mis võrdleb GPT-4-Turbo ja API hind on ainult 1/70 viimasest.

Juunis 17, 2024, DeepSeek tegi taas suure tõuke, vabastades DeepSeek Coder V2 koodimudeli. avatud lähtekoodiga ja väites, et selle koodi võimalused ületasid GPT-4-Turbo, mis oli tollal kõige arenenum suletud lähtekoodiga mudel. DeepSeek Coder V2 jätkab DeepSeek järjekindlat avatud lähtekoodiga strateegiat: kõik mudelid, kood ja dokumendid on avatud lähtekoodiga ning saadaval on kaks versiooni, 236B ja 16B. DeepSeek Coder V2 API teenused on samuti veebis kättesaadavad ja hind jääb "1 jüaani/miljon sisendit ja 2 jüaani/miljon väljundit".

Veebilehel 21. juuni 2024, DeepSeek Kooder toetas online-koodi täitmist. Samal päeval ilmus Claude3.5 Sonnet koos uue funktsiooniga Artifacts, mis genereerib automaatselt koodi ja käivitab selle otse brauseris. Samal päeval käivitati ka DeepSeek veebisaidil olev koodiaparaat, mis pakub sama funktsiooni: koodi genereerimine ja käivitamine ühe klõpsuga.

Vaatame üle selle perioodi tähtsamad sündmused:

Pidevad läbimurded, mis äratavad ülemaailmset tähelepanu

Mais 2024 sai DeepSeek üleöö kuulsaks, kui ta avaldas MoE-l põhineva avatud lähtekoodiga mudeli DeepSeek V2. See vastas GPT-4-Turbo jõudlusele, kuid selle hind oli vaid 1 jüaan/miljon sisendit, mis oli 1/70 GPT-4-Turbo hinnast. Sel ajal sai DeepSeek-st tuntud "hinnamõrvar" tööstuses ning seejärel järgisid peavoolu mängijad nagu Zhicheng, ByteDance ja Alibaba... ja teised suured mängijad kiiresti oma eeskuju ja langetasid oma hindu. Umbes sel ajal toimus ka järjekordne GPT-keeld ja suur hulk tehisintellekti rakendusi hakkas esimest korda kodumaiseid mudeleid proovima.

Juulis 2024 võttis DeepSeek asutaja Liang Wenfeng taas kord vastu intervjuu Dark Surge'ile ja vastas otse hinnasõjale: "Väga ootamatu. Ma ei oodanud, et hind teeb kõik nii tundlikuks. Me lihtsalt teeme asju omas tempos ja siis hinda lähtuvalt maksumusest. Meie põhimõte on mitte kaotada raha ega teenida ülemäärast kasumit. Ka see hind on veidi üle omahinna koos väikese kasumiga."

On näha, et erinevalt paljudest konkurentidest, kes maksavad oma taskust subsiidiume, on DeepSeek selle hinnaga kasumlik.

Mõned inimesed võivad öelda: hinnaalandused on nagu kasutajate röövimine, ja see on tavaliselt nii hinnasõdade puhul Interneti-ajastul.

Vastuseks vastas ka Liang Wenfeng: "Kasutajate röövimine ei ole meie peamine eesmärk. Me langetasime hinda, sest ühelt poolt on kulud langenud, kuna me uurime järgmise põlvkonna mudeli struktuuri, ja teiselt poolt tunneme, et nii API kui ka tehisintellekt peaks olema taskukohane ja kõigile kättesaadav."

Nii jätkub lugu Liang Wenfengi idealismiga.

4. juulil 2024 läks DeepSeek API võrku. 128K konteksti hind jäi muutumatuks. Mudeli tuletamise kulu on tihedalt seotud konteksti pikkusega. Seetõttu on paljudel mudelitel selle pikkuse suhtes ranged piirangud: GPT-3.5 esialgne versioon sisaldab ainult 4k konteksti.

Sel ajal suurendas DeepSeek konteksti pikkust varasemalt 32klt 128kle, säilitades samal ajal hinna muutumatuna (1 jüaan miljoni sisendmärgi kohta ja 2 jüaani miljoni väljundmärgi kohta).

Veebilehel 10. juulil 2024 kuulutati välja maailma esimese AI-olümpiaadi (AIMO) tulemused ja DeepSeekMath mudel sai tippmeeskondade ühiseks valikuks.. Võitnud 4 parimat meeskonda valisid kõik oma võistlusmudelite aluseks DeepSeekMath-7B ja saavutasid võistlusel muljetavaldavaid tulemusi.

Veebilehel 18. juuli 2024, DeepSeek-V2 oli avatud lähtekoodiga mudelite nimekirja tipus Chatbot Arenal, ületades selliseid tähtmudeleid nagu Llama3-70B, Qwen2-72B, Nemotron-4-340B ja Gemma2-27B ning muutudes uueks mõõdupuuks avatud lähtekoodiga suurte mudelite seas.

Veebilehel Juuli 2024, DeepSeek jätkas talentide värbamist ja värbasid tipptegijaid üle maailma mitmes valdkonnas, sealhulgas AI-algoritmide, AI Infra, AI Tutori ja AI-toodete valdkonnas, et valmistuda tulevasteks tehnoloogilisteks uuendusteks ja tootearenduseks.

Veebilehel 26. juuli 2024, DeepSeek API tõi kaasa olulise uuenduse, mis toetab täielikult mitmeid täiustatud funktsioone, nagu ülekirjutamine, FIM (Fill-in-the-Middle) lõpetamine, funktsioonide kutsumine ja JSON-väljund. FIM-funktsioon on väga huvitav: kasutaja annab alguse ja lõpu ning suur mudel täidab keskel, mis on väga sobiv programmeerimisprotsessi jaoks, et täita täpne funktsioonikood. Võtame näiteks Fibonacci jada kirjutamise:

Veebilehel 2. augustil 2024 võttis DeepSeek uuenduslikult kasutusele kõvaketta vahemälu tehnoloogia, vähendades API hindu kuni pahkluudeni. Varem olid API hinnad ainult ￥1 miljoni žetooni kohta. Nüüd aga langeb API-tasu pärast vahemälu tabamist otse ￥0,1-le.

See funktsioon on väga praktiline, kui tegemist on pidevate vestluste ja partiitöötlusülesannetega.

Veebilehel 16. augustil 2024 avaldas DeepSeek oma matemaatilise teoreemitõendaja mudeli DeepSeek-Prover-V1.5. avatud lähtekoodina, mis edestas paljusid tuntud avatud lähtekoodiga mudeleid keskkooli ja kõrgkooli matemaatiliste teoreemide tõestamise testides.

Veebilehel 6. septembril 2024 andis DeepSeek välja DeepSeek-V2.5 fusioonimudeli. Varem pakkus DeepSeek peamiselt kahte mudelit: vestlusmudel keskendus üldistele vestlusoskustele ja koodimudel kooditöötlusoskustele. Seekord on need kaks mudelit ühendatud üheks, mis on uuendatud versiooniks DeepSeek-V2.5, mis vastab paremini inimeste eelistustele ja on saavutanud olulisi parandusi ka kirjutamisülesannete, käskude järgimise ja muude aspektide osas.

Veebilehel 18. september 2024, DeepSeek-V2.5 oli taas kord viimases LMSYS-i nimekirjas, juhtides kodumaiseid mudeleid ja kodumaiste mudelite uute parimate tulemuste saavutamine mitmetes individuaalsetes võimetes.

Veebilehel 20. novembril 2024 avaldas DeepSeek DeepSeek-R1-Lite. ametlikul veebisaidil. See on o1-preview'ga võrreldav järeldusmudel, mis annab ka piisava hulga sünteetilisi andmeid V3 järeltreeninguks.

Veebilehel 10. detsembril 2024 tähistas DeepSeek V2-seeria oma finaali, kui ilmus lõplik peenhäälestatud versioon DeepSeek-V2.5-1210. See versioon parandab põhjalikult mitmeid oskusi, sealhulgas matemaatikat, kodeerimist, kirjutamist ja rollimängu järeltreeningute kaudu.

Selle versiooni ilmumisega avas DeepSeek veebirakendus ka võrguotsingu funktsiooni.

Veebilehel 13. detsembril 2024 tegi DeepSeek järjekordse läbimurde multimodaalsuse valdkonnas ja avaldas avatud lähtekoodiga multimodaalse suure mudeli DeepSeek-VL2. DeepSeek-VL2 võtab kasutusele MoE-arhitektuuri, mis parandab oluliselt selle visuaalseid võimalusi. See on saadaval kolmes suuruses: 3B, 16B ja 27B ning selle eelis on kõigis näitajates.

Veebilehel 26. detsembril 2024 ilmus DeepSeek-V3 avatud lähtekoodiga: hinnanguline koolitusmaksumus oli ainult 5,5 miljonit USA dollarit. DeepSeek-V3 võrdles täielikult juhtivate suletud lähtekoodiga mudelite jõudlust välismaal ja parandas oluliselt genereerimise kiirust.

API teenuste hinnakujundust kohandati, kuid samal ajal kehtestati uue mudeli jaoks 45-päevane soodusprooviperiood.

15. jaanuaril 2025 avaldati ametlikult ametlik DeepSeek rakendus ja see käivitati täielikult peamistel iOS/Android-rakendusturgudel.

20. jaanuaril 2025, Hiina uue aasta lähistel, avaldati ametlikult DeepSeek-R1 järeldusmudel ja selle avatud versioon. DeepSeek-R1 viis oma jõudluse täielikult vastavusse ametliku OpenAI o1 versiooniga ja avas mõtteahela väljundfunktsiooni. Samal ajal teatas DeepSeek ka, et mudeli avatud lähtekoodiga litsents muudetakse MIT-litsentsiks ja kasutajakokkulepe lubab selgesõnaliselt "mudeli destilleerimist", mis hõlmab veelgi enam avatud lähtekoodi ja edendab tehnoloogia jagamist.

Hiljem sai see mudel väga populaarseks ja juhatas sisse uue ajastu.

Selle tulemusena ületas DeepSeek rakendus 27. jaanuaril 2025 edukalt ChatGPT ja tõusis USA iOS App Store'i tasuta rakenduste allalaadimisnimekirja esikohale, muutudes fenomenaalseks AI-rakenduseks.

27. jaanuaril 2025, kell 1:00 öösel uue aasta öösel, avaldati DeepSeek Janus-Pro avatud lähtekoodina. Tegemist on multimodaalse mudeliga, mis on saanud oma nime Vana-Rooma mütoloogia kahe näoga jumala Januse järgi: see on suunatud nii minevikku kui ka tulevikku. See tähistab ka mudeli kahte võimet - visuaalset mõistmist ja pildi genereerimist - ning selle domineerimist mitmes pingereas.

DeepSeek plahvatuslik populaarsus vallandas kohe ülemaailmse tehnoloogiaalase šokilaine, põhjustades isegi otseselt NVIDIA aktsia hinna languse 18% ja ülemaailmse tehnoloogiaaktsiaturu turuväärtuse haihtumise umbes 1 triljoni USA dollari võrra. Wall Street ja tehnoloogiameedia hüüdsid, et DeepSeek tõusu tõttu on globaalne tehisintellekti tööstusmaastik ümber pööratud ja see kujutab endast enneolematut väljakutset Ameerika tehnoloogiahiiglastele.

DeepSeek edu on tekitanud ka suurt rahvusvahelist tähelepanu ja tuliseid arutelusid Hiina tehisintellekti tehnoloogilise innovatsiooni võimekuse üle. USA president Donald Trump kiitis harvaesinevas avalikus kommentaaris DeepSeek tõusu kui "positiivset" ja ütles, et see on "äratuskell" Ameerika Ühendriikide jaoks. Microsofti tegevjuht Satya Nadella ja OpenAI tegevjuht Sam Altman kiitsid samuti DeepSeek-d, nimetades selle tehnoloogiat "väga muljetavaldavaks".

Loomulikult peame ka mõistma, et nende kiitus on osaliselt DeepSeek tugevuse tunnustamine ja osaliselt nende endi motiivide peegeldus. Näiteks, kuigi Anthropic tunnustab DeepSeek saavutusi, kutsub ta samal ajal USA valitsust üles tugevdama Hiina kiipide kontrolli.

Anthropic CEO avaldab 10 000-sõnalise artikli: DeepSeek tõus tähendab, et Valge Maja peaks tõhustama kontrolle

Kokkuvõte ja väljavaated

Vaadates tagasi DeepSeek viimase kahe aasta jooksul, on see olnud tõeliselt "Hiina ime": tundmatust idufirmast "salapäraseks idamaa jõuks", mis nüüd särab ülemaailmsel AI-laval, on DeepSeek oma jõu ja innovatsiooniga kirjutanud ühe "võimatu" teise järel.

Selle tehnoloogilise ekspeditsiooni sügavam tähendus on juba ammu ületanud kaubandusliku konkurentsi ulatuse. DeepSeek on teatanud faktidega, et tulevikku puudutavas strateegilises tehisintellekti valdkonnas on Hiina ettevõtted täiesti võimelised tõusma tuumiktehnoloogia kõrgusele.

Trumpi poolt trompetitud "häirekell" ja varjatud hirm antropoloogilise ees kinnitavad täpselt Hiina tehisintellekti võimekuse tähtsust: ta ei saa mitte ainult sõita lainetega, vaid on ka ümber kujundamas tõusulaine suunda.

Deepseek toode vabastada verstapostid

2. november 2023: DeepSeek kodeerija suur mudel
29. november 2023: DeepSeek LLM 67B universaalne mudel
18. detsember 2023: DreamCraft3D 3D mudel
11. jaanuar 2024: DeepSeekMoE MoE suur mudel
5. veebruar 2024: DeepSeekMath Matemaatiline arutlusmudel
11. märts 2024: DeepSeek-VL Multimodaalne suur mudel
mai 2024: DeepSeek-V2 MoE üldmudel
17. juuni 2024: DeepSeek Coder V2 koodimudel
6. september 2024: DeepSeek-V2.5 üldiste ja koodipädevuse mudelite ühendamine
13. detsember 2024: DeepSeek-VL2 multimodaalne MoE mudel
26. detsember 2024: DeepSeek-V3 uus üldotstarbeliste suurte mudelite seeria
20. jaanuar 2025: DeepSeek-R1 tuletamise mudel
20. jaanuar 2025: DeepSeek ametlik rakendus (iOS ja Android)
27. jaanuar 2025: DeepSeek Janus-Pro multimodaalne mudel

Kuidas loodi DeepSeek? DeepSeek kasvuloo analüüs

DeepSeekesimene kohtumine

Mudeleid antakse sageli välja ja avatud lähtekoodiga praktiseeritakse

Pidevad läbimurded, mis äratavad ülemaailmset tähelepanu

Kokkuvõte ja väljavaated

Deepseek toode vabastada verstapostid

Murranguline uudis! OpenAI avaldas täna 2 uut järeldusmudelit: o3-mini ja o3-mini-high.

Google'i odav mudel Gemini 2.0 seeria ründab: võitlus suurte mudelite kuluefektiivsuse pärast teravneb

Paper-DeepSeek-R1: Põhjendamisvõime stimuleerimine LLM-ides tugevdamise õppimise kaudu

DeepSeek-R1-0528 uuendus: sügavam mõtlemine, tugevam arutluskäik

OpenAI o3-mini vs. DeepSeek-R1: kes on uue põlvkonna tehisintellekti mudelite kuningas?

Tehisintellekti ringis on DeepSeek R1 füüsilistes testides pidevalt o1 ja Claude'i ületanud ja me oleme jõudnud RL-i kuldajastusse.

Lisa kommentaar Tühista vastus

DeepSeekesimene kohtumine

Mudeleid antakse sageli välja ja avatud lähtekoodiga praktiseeritakse

Pidevad läbimurded, mis äratavad ülemaailmset tähelepanu

Kokkuvõte ja väljavaated

Deepseek toode vabastada verstapostid

Sarnased postitused

Lisa kommentaar Tühista vastus