Kako je nastal DeepSeek? Analiza zgodovine rasti DeepSeek

V prihodnosti bo vedno več hardcore inovacij. Morda tega zdaj ni lahko razumeti, saj je treba celotno družbeno skupino poučiti z dejstvi. Ko bo ta družba ljudem, ki uvajajo hardcore inovacije, omogočila uspeh, se bo kolektivna miselnost spremenila. Potrebujemo le kup dejstev in postopek. — Liang Wenfeng, ustanovitelj DeepSeek

V zadnjih dneh je DeepSeek eksplodiral po vsem svetu, a ker je podjetje tako skromno in ni dalo nobenih napovedi, javnost o tem tehnološkem podjetju z velikim potencialom ve zelo malo – ne glede na to, ali gre za ustanovitveno ozadje, poslovni obseg. , ali postavitev izdelka.

Ko sem končal z razvrščanjem vseh materialov, sem napisal ta članek

Kakšno je ozadje trenutnih igralcev AI, kaj nameravajo in koga najemajo?

in verjetno najpopolnejši zgodovinski pregled DeepSeek.

Lani ob tem času je k meni prišel prijatelj iz Magic Cube Quant in me vprašal: "Ali želiš zgraditi velik model na Kitajskem?" In preprosto popoldne sem preživela ob kavici. Po pričakovanjih je življenje še vedno odvisno od izbir.

The Tukaj omenjeni Magic Cube Quant je vlagatelj, ali matična družba DeepSeek.

Tako imenovani "quant" je naložbena institucija, ki ne sprejema odločitev s pomočjo človeške moči, temveč z algoritmi. Ustanovitev Quant Fantasyja ni dolga, začela se je leta 2015. Do leta 2021, ko je bila stara šest let, je obseg upravljanja premoženja Quant Fantasyja presegel 100 milijard in je bil razglašen za enega od kitajskih »štirih velikih kvantnih kraljev«.

Ustanovitelj Fantasy Square, Liang Wenfeng, ki je tudi ustanovitelj DeepSeek, je »nemainstream« finančni vodja, rojen v osemdesetih letih prejšnjega stoletja: nima izkušenj s študijem v tujini, ni zmagovalec olimpijskega tekmovanja in je diplomiral na oddelku za elektronski inženiring na univerzi Zhejiang, smer umetna inteligenca. Je domači strokovnjak za tehnologijo, ki deluje skromno, vsak dan »bere članke, piše kodo in sodeluje v skupinskih razpravah«.

Liang Wenfeng nima navad tradicionalnega lastnika podjetja, ampak je bolj podoben čistemu "tech geeku". Številni poznavalci industrije in raziskovalci DeepSeek so Liang Wenfenga izredno visoko pohvalili: »nekdo, ki ima močne zmogljivosti infra inženiringa in zmožnosti raziskovanja modelov ter lahko tudi mobilizira vire«, »nekdo, ki lahko natančno presoja na visoki ravni, a je tudi odličen v podrobnostih nad prvimi raziskovalci« in ima tudi »grozljivo sposobnost učenja«.

Dolgo preden je bil ustanovljen DeepSeek, je Huanfang že začel delati dolgoročne načrte v industriji umetne inteligence. Maja 2023 je Liang Wenfeng v intervjuju za Darksurge omenil: »Po tem, ko je OpenAI leta 2020 izdal GPT3, je smer razvoja umetne inteligence postala zelo jasna in računalniška moč bo postala ključni element; a tudi leta 2021, ko smo investirali v gradnjo Firefly 2, večina ljudi tega še vedno ni mogla razumeti.«

Na podlagi te sodbe je Huanfang začel graditi lastno računalniško infrastrukturo. »Od prve 1 kartice do 100 kartic leta 2015, 1000 kartic leta 2019 in nato 10.000 kartic se je ta proces odvijal postopoma. Pred nekaj sto kartami so nas gostili v IDC. Ko se je obseg povečal, gostovanje ni moglo več izpolnjevati zahtev, zato smo začeli graditi lastno računalniško sobo.«

Kasneje je Finance Eleven poročal: »Ni jih več kot pet domača podjetja z več kot 10.000 grafičnimi procesorji, poleg nekaj večjih proizvajalcev pa vključujejo tudi kvantitativno skladno podjetje Magic Cube..” Na splošno velja, da je 10.000 čipov Nvidia A100 prag za računalniško moč za treniranje velikih modelov.

V prejšnjem intervjuju je Liang Wenfeng omenil tudi zanimivo točko: marsikdo bi mislil, da se za tem skriva neznana poslovna logika, a v resnici ga poganja predvsem radovednost.

Kazalo

DeepSeekprvo srečanje

V intervjuju za Darksurge maja 2023, ko so ga vprašali "Nedolgo nazaj je Huanfang objavil svojo odločitev o izdelavi velikih modelov, zakaj bi kvantitativni sklad naredil kaj takega?"

Odgovor Liang Wenfenga je bil odmeven: "Naša odločitev, da zgradimo velik model, nima nobene zveze s kvantificiranjem ali financami. Za to smo ustanovili novo podjetje z imenom DeepSeek. Številni ključni člani ekipe pri Mianfangu se ukvarjajo z umetno inteligenco. Takrat smo preizkusili veliko scenarijev in se na koncu odločili za finance, ki so dovolj kompleksne. Splošna umetna inteligenca je morda ena od stvari, ki jih je najtežje doseči, zato je za nas vprašanje, kako to narediti, ne zakaj.

Ne vodijo ga komercialni interesi ali lovijo tržni trendi, temveč preprosto želja po raziskovanju same tehnologije AGI in vztrajno prizadevanje za »najpomembnejšo in najtežjo stvar« ime "DeepSeek" je bilo uradno potrjeno maja 2023. 17. julija 2023 je »Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Co., Ltd.« je bila vključena.

Vklopljeno 2. novembra 2023 je DeepSeek podal svoj prvi odgovor: DeepSeek Coder, velik model odprtokodne kode. Ta model vključuje več velikosti, kot so 1B, 7B in 33B. Odprtokodna vsebina vključuje osnovni model in model za nastavitev ukazov.

Takrat je bil med odprtokodnimi modeli merilo v industriji Metin CodeLlama. Ko pa je bil kodirnik DeepSeek izdan, je pokazal vodilni položaj v več vidikih v primerjavi s CodeLlamo: pri ustvarjanju kode je bil HumanEval 9,3% naprej, MBPP 10,8% in DS-1000 5,9% naprej.

Ne pozabite, da je DeepSeek Coder model 7B, medtem ko je CodeLlama model 34B. Poleg tega je model DeepSeek Coder po nastavitvi z navodili v celoti presegel GPT3.5-Turbo.

Ne samo, da je ustvarjanje kode impresivno, ampak tudi kodirnik DeepSeek pokaže svoje mišice v matematiki in sklepanju.

Tri dni pozneje, 5. novembra 2023, je DeepSeek prek svojega javnega računa WeChat izdal veliko vsebino za zaposlovanje, vključno s položaji, kot so pripravnik za velike modele AGI, podatkovni strokovnjak, talent za podatkovno arhitekturo, višji inženir za zbiranje podatkov, raziskave in razvoj globokega učenja inženir itd., ter začel aktivno širiti ekipo.

Kot je dejal Liang Wenfeng, "Obvezne zahteve" DeepSeek za zaposlovanje talentov so "strast in trdne osnovne veščine", pri čemer je poudaril, da »inovativnost zahteva čim manj posegov in upravljanja, tako da ima vsak svobodo delati napake in preizkušati nove stvari. Inovativnost pogosto prihaja od znotraj, ne iz namernih dogovorov, in zagotovo ne prihaja iz poučevanja.«

Modeli se pogosto objavljajo in uporablja se odprta koda

Potem ko je koder DeepSeek naredil velik pečat, je DeepSeek svojo pozornost usmeril na glavno bojno polje: splošne jezikovne modele.

Vklopljeno 29. novembra 2023 je DeepSeek izdal svoj prvi splošni model velikega jezika, DeepSeek LLM 67B. Ta model je primerjan z Metinim modelom LLaMA2 70B iste ravni in se je izkazal bolje na skoraj 20 javnih ocenjevalnih seznamih v kitajščini in angleščini. Zlasti njegove sposobnosti sklepanja, matematike in programiranja (npr. HumanEval, MATH, CEval in CMMLU) so izjemne.

DeepSeek LLM 67B je prav tako izbral odprtokodno pot in podpira komercialno uporabo. Da bi dodatno dokazal svojo iskrenost in odločenost odprtokodnosti, je DeepSeek brez primere istočasno odprl kodo dva modela različnih lestvic, 7B in 67B, in celo javno objavil devet kontrolnih točk, ustvarjenih med postopkom usposabljanja modela, da jih lahko raziskovalci prenesejo in uporabijo. Tovrstno delovanje, ki je podobno »poučevanju vsega«, je izjemno redko v celotni odprtokodni skupnosti.

Da bi celoviteje in objektivneje ocenili resnične zmogljivosti DeepSeek LLM 67B, je raziskovalna skupina DeepSeek prav tako skrbno oblikovala vrsto "novih vprašanj" za "testiranje izjemnih situacij". Ta vprašanja zajemajo teste na visoki ravni z visoko diskriminacijo, kot so vprašanja za izpit iz matematike v madžarski srednji šoli, nizi ocenjevanja, ki sledijo ukazom Google, in vprašanja tedenskega tekmovanja LeetCode. Rezultati testiranja so bili spodbudni. DeepSeek LLM 67B je pokazal neverjeten potencial v smislu svoje sposobnosti posploševanja preko vzorca, njegova splošna zmogljivost pa je bila celo blizu zmogljivosti takrat najnaprednejšega modela GPT-4.

Vklopljeno 18. december 2023, DeepSeek je odprl kodo Vincent 3D model DreamCraft3D: lahko ustvari visokokakovostne 3D modele iz stavka, s čimer doseže preskok iz 2D ravnin v 3D prostor v AIGC. Na primer, če uporabnik vnese: »Teče skozi gozd, smešna hibridna slika prašičje glave in telesa opičjega kralja,« lahko DreamCraft3D ustvari visokokakovostno vsebino:

Načeloma model najprej dopolni Vennov diagram, nato pa dopolni celotno geometrijsko strukturo na podlagi 2D konceptualne karte:

V subjektivni oceni, ki je sledila, je več kot 90% uporabnikov izjavilo, da ima DreamCraft3D prednost v kakovosti generiranja v primerjavi s prejšnjimi generacijskimi metodami.

7. januarja 2024 je DeepSeek izdal tehnično poročilo DeepSeek LLM 67B. To poročilo na več kot 40 straneh vsebuje veliko podrobnosti o DeepSeek LLM 67B, vključno z zakoni skaliranja, ki so jih sami izdelali, popolnimi praktičnimi podrobnostmi o poravnavi modela in celovitim sistemom ocenjevanja sposobnosti AGI.

Naslov na papirju

Vklopljeno 11. januarja 2024 je DeepSeek objavil prvi velik model MoE (mešana strokovna arhitektura) na Kitajskem, DeepSeekMoE: popolnoma nova arhitektura, ki podpira kitajščino in angleščino in je brezplačna za komercialno uporabo. Arhitektura MoE je takrat na splošno veljala za ključ do preboja zmogljivosti OpenAI GPT-4. Samorazvita arhitektura MoE DeepSeek je vodilna na več lestvicah, kot so 2B, 16B in 145B, zelo pohvale vredna pa je tudi njena računska zmogljivost.

25. januarja 2024 je DeepSeek izdal tehnično poročilo DeepSeek Coder. To poročilo ponuja celovito tehnično analizo podatkov o usposabljanju, metod usposabljanja in učinkovitosti modela. V tem poročilu lahko vidimo, da je prvič zgradil podatke kode na ravni skladišča in uporabil topološko razvrščanje za analizo odvisnosti med datotekami, s čimer je znatno izboljšal zmožnost razumevanja navzkrižnih datotek na dolge razdalje. Pri metodah usposabljanja je bila dodana metoda Fill-In-Middle, ki je močno izboljšala zmožnost dokončanja kode.

Naslov na papirju

30. januarja 2024 je bila odprta platforma DeepSeek uradno predstavljena in storitev API za veliki model DeepSeek se je začela testirati. Registrirajte se in prejmite 10 milijonov žetonov brezplačno. Vmesnik je združljiv z vmesnikom OpenAI API, na voljo pa sta oba dvojna modela Chat/Coder. V tem času je DeepSeek poleg tehnoloških raziskav in razvoja začel raziskovati pot ponudnika tehnoloških storitev.

Vklopljeno 5. februarja 2024 je DeepSeek izdal še en model navpične domene, DeepSeekMath, model matematičnega sklepanja. Ta model ima samo 7B parametrov, vendar je njegova sposobnost matematičnega sklepanja blizu sposobnosti GPT-4. Na verodostojnem seznamu meril uspešnosti MATH prekaša množico in prekaša številne odprtokodne modele z velikostmi parametrov med 30B in 70B. Izdaja DeepSeekMath v celoti prikazuje tehnično moč in v prihodnost usmerjeno postavitev DeepSeek pri raziskavah in razvoju vertikale ter njegovo v prihodnost usmerjeno postavitev pri raziskavah in razvoju modelov.

Vklopljeno 28. februarja 2024 je DeepSeek izdal pogosta vprašanja o politiki odprte kode, da bi dodatno ublažil skrbi razvijalcev glede uporabe odprtokodnih modelov DeepSeek., ki ponuja podrobne odgovore na pogosto zastavljena vprašanja, kot so vzorčno odprtokodno licenciranje in omejitve komercialne uporabe. DeepSeek sprejema odprto kodo z bolj preglednim in odprtim odnosom:

Vklopljeno 11. marca 2024 je DeepSeek izdal večmodalni veliki model DeepSeek-VL. To je prvi poskus DeepSeek z večmodalno tehnologijo umetne inteligence. Model je velikosti 7B in 1,3B, model in tehnični dokumenti pa so odprtokodni hkrati.

Vklopljeno 20. marca 2024 sta bila Huanfang AI & DeepSeek ponovno povabljena k sodelovanju na konferenci NVIDIA GTC 2024, ustanovitelj Liang Wenfeng pa je imel tehnični uvodni govor. z naslovom "Harmonija v raznolikosti: usklajevanje in ločevanje vrednot velikih jezikovnih modelov". Razpravljali so o vprašanjih, kot so »konflikt med enovrednostnim velikim modelom ter pluralistično družbo in kulturo«, »ločevanje usklajevanja vrednosti velikega modela« in »večdimenzionalni izzivi nevezanega usklajevanja vrednot«. To je pokazalo humanistično skrb in družbeno odgovornost DeepSeek za razvoj umetne inteligence, poleg njegovih tehnoloških raziskav in razvoja.

marca 2024 DeepSeek API uradno lansiral plačljive storitve, ki so popolnoma zanetile uvod v cenovno vojno na kitajskem trgu velikih modelov: 1 juan na milijon vhodnih žetonov in 2 juana na milijon izhodnih žetonov.

Leta 2024 je DeepSeek uspešno prestal rekord velikih modelov na Kitajskem, s čimer je odstranil ovire politike za popolno odprtje svojih storitev API.

Maja 2024 je bil izdan odprtokodni splošni model MoE DeepSeek-V2 in uradno se je začela cenovna vojna. DeepSeek-V2 uporablja MLA (mehanizem latentne pozornosti z več glavami), ki zmanjša pomnilniški odtis modela na 5%-13% v primerjavi s tradicionalnim MHA. Hkrati je neodvisno razvil tudi redko strukturo DeepSeek MoE Sparse, ki močno zmanjša računsko kompleksnost modela. Zahvaljujoč temu model ohranja ceno API-ja "1 juan/milijon vhodov in 2 juanov/milijon izhodov".

DeepSeek je imel velik vpliv. V zvezi s tem glavni analitik pri SemiAnalysis meni, da je dokument DeepSeek V2 "morda eden najboljših letos." Podobno Andrew Carr, nekdanji uslužbenec OpenAI, verjame, da je dokument "poln neverjetne modrosti" in je svoje nastavitve usposabljanja uporabil za svoj model.

Opozoriti je treba, da gre za model, ki primerja GPT-4-Turbo, cena API pa je le 1/70 slednjega

junija 17. 2024 je DeepSeek znova naredil velik korak z izdajo kodnega modela DeepSeek Coder V2 odprto kodo in trdi, da so njegove zmogljivosti kode presegle GPT-4-Turbo, najnaprednejši zaprtokodni model v tistem času. DeepSeek Coder V2 nadaljuje dosledno odprtokodno strategijo DeepSeek, pri čemer so vsi modeli, koda in dokumenti odprtokodni, na voljo pa sta dve različici, 236B in 16B. Storitve API DeepSeek C koder V2 so na voljo tudi na spletu, cena pa ostaja pri »1 juan/milijon vnosov in 2 juana/milijon izhodov«.

Vklopljeno 21. junij 2024, kodirnik DeepSeek podpira spletno izvajanje kode. Istega dne je bil izdan Claude3.5 Sonnet z novo funkcijo Artifacts, ki samodejno ustvari kodo in jo izvaja neposredno v brskalniku. Istega dne je asistent za kodo na spletnem mestu DeepSeek predstavil isto funkcijo: ustvarite kodo in jo zaženite z enim klikom.

Oglejmo si glavne dogodke tega obdobja:

Nenehni preboji, ki pritegnejo svetovno pozornost

Maja 2024 je DeepSeek čez noč zaslovel z izdajo DeepSeek V2, odprtokodnega modela, ki temelji na MoE. Ujemal se je z zmogljivostjo GPT-4-Turbo, vendar po ceni samo 1 juana/milijon vhoda, kar je bilo 1/70 GPT-4-Turbo. Takrat je DeepSeek postal dobro poznan »mesar za cene« v industriji, nato pa so glavni igralci, kot so Zhicheng, ByteDance in Alibaba ... ter drugi veliki igralci hitro sledili zgledu in znižali svoje cene. Približno v tistem času je bil tudi drugi krog prepovedi GPT in veliko število aplikacij AI je začelo prvič preizkušati domače modele.

Julija 2024 je ustanovitelj DeepSeek Liang Wenfeng ponovno sprejel intervju z Dark Surge in se neposredno odzval na cenovno vojno: »Zelo nepričakovano. Nisem pričakoval, da bodo zaradi cene vsi tako občutljivi. Stvari delamo s svojim tempom in nato določimo ceno glede na stroške. Naše načelo je, da ne izgubljamo denarja ali ustvarjamo pretiranih dobičkov. Ta cena je tudi nekoliko višja od stroškov z majhnim dobičkom.«

Vidi se, da je za razliko od mnogih konkurentov, ki subvencionirajo iz svojega žepa, DeepSeek pri tej ceni dobičkonosen.

Nekateri bodo morda rekli: znižanje cen je kot oropanje uporabnikov, in to je običajno v cenovnih vojnah v dobi interneta

V odgovor se je odzval tudi Liang Wenfeng: »Ropanje uporabnikov ni naš glavni cilj. Ceno smo znižali, ker so se po eni strani stroški znižali, ko raziskujemo strukturo modela naslednje generacije, po drugi strani pa menimo, da bi morala biti API in AI cenovno dostopna in dostopna vsem. ”

Zgodba se torej nadaljuje z idealizmom Liang Wenfenga.

4. julija 2024 je DeepSeek API postal spleten. Cena za 128K kontekst je ostala nespremenjena. Stroški sklepanja modela so tesno povezani z dolžino konteksta. Zato ima veliko modelov stroge omejitve glede te dolžine: začetna različica GPT-3.5 ima samo kontekst 4k.

V tem času je DeepSeek povečal dolžino konteksta s prejšnjih 32k na 128k, medtem ko je cena ostala nespremenjena (1 juan na milijon vhodnih žetonov in 2 juana na milijon izhodnih žetonov).

Vklopljeno 10. julija 2024 so bili objavljeni rezultati prve svetovne AI olimpijade (AIMO) in model DeepSeekMath je postal skupna izbira najboljših ekip.. Vse zmagovalne najboljše 4 ekipe so izbrale DeepSeekMath-7B kot osnovo za svoje vstopne modele in na tekmovanju dosegle impresivne rezultate.

Vklopljeno 18. julija 2024 je bil DeepSeek-V2 na vrhu seznama odprtokodnih modelov na Chatbot Areni, presegel zvezdniške modele, kot so Llama3-70B, Qwen2-72B, Nemotron-4-340B in Gemma2-27B, in postal novo merilo za odprtokodne velike modele.

notri Julija 2024 je DeepSeek nadaljeval z zaposlovanjem talentov in zaposlili vrhunske talente z vsega sveta na več področjih, vključno z algoritmi AI, AI Infra, AI Tutor in izdelki AI, da bi se pripravili na prihodnje tehnološke inovacije in razvoj izdelkov.

Vklopljeno 26. julij 2024 je API DeepSeek uvedel pomembno nadgradnjo, ki v celoti podpira vrsto naprednih funkcij, kot so prepisovanje, dokončanje FIM (Fill-in-the-Middle), klicanje funkcij in izhod JSON. Funkcija FIM je zelo zanimiva: uporabnik poda začetek in konec, velik model pa zapolni sredino, kar je zelo primerno za proces programiranja, da se izpolni točno kodo funkcije. Vzemimo pisanje Fibonaccijevega zaporedja kot primer:

Vklopljeno 2. avgusta 2024 je DeepSeek inovativno uvedel tehnologijo predpomnjenja trdega diska, ki je znižala cene API-jev do gležnjev. Prej so bile cene API-ja le 1 JPY na milijon žetonov. Zdaj pa, ko pride do zadetka v predpomnilniku, se pristojbina za API zniža neposredno na 0,1 ￥.

Ta funkcija je zelo praktična, ko gre za neprekinjene pogovore in opravila paketne obdelave.

Vklopljeno 16. avgusta 2024 je DeepSeek izdal svoj model za dokazovanje matematičnih izrekov DeepSeek-Prover-V1.5 kot odprtokodni, ki je presegel številne dobro znane odprtokodne modele pri testih dokazovanja matematičnih izrekov v srednjih in fakultetah.

Vklopljeno 6. septembra 2024 je DeepSeek izdal fuzijski model DeepSeek-V2.5. Prej je DeepSeek ponujal predvsem dva modela: model klepeta, ki je bil osredotočen na splošne pogovorne veščine, in model kode, ki je bil osredotočen na spretnosti obdelave kode. Tokrat sta bila oba modela združena v enega, nadgrajenega na DeepSeek-V2.5, ki se bolje ujema s človeškimi preferencami in je dosegel tudi pomembne izboljšave pri pisnih nalogah, sledenju ukazom in drugih vidikih.

Vklopljeno 18. septembra 2024 je bil DeepSeek-V2.5 ponovno na najnovejšem seznamu LMSYS in vodilni med domačimi modeli in določanje novih najboljših rezultatov za domače modele v več posameznih sposobnostih.

Vklopljeno 20. november 2024 je DeepSeek izdal DeepSeek-R1-Lite na uradni spletni strani. To je sklepni model, primerljiv z o1-predogledom, zagotavlja pa tudi zadostno količino sintetičnih podatkov za naknadno usposabljanje V3.

Vklopljeno 10. decembra 2024 je serija DeepSeek V2 začela svoj finale z izdajo končne natančno prilagojene različice DeepSeek-V2.5-1210. Ta različica celovito izboljša številne sposobnosti, vključno z matematiko, kodiranjem, pisanjem in igranjem vlog po usposabljanju.

S prihodom te različice je spletna aplikacija DeepSeek odprla tudi funkcijo iskanja omrežja.

Vklopljeno 13. decembra 2024 je DeepSeek naredil še en preboj na področju multimodalnosti in izdal odprtokodni multimodalni veliki model DeepSeek-VL2. DeepSeek-VL2 sprejme arhitekturo MoE, ki znatno izboljša njegove vizualne zmogljivosti. Na voljo je v treh velikostih: 3B, 16B in 27B in ima prednost pri vseh metrikah.

Vklopljeno 26. decembra 2024 je bil DeepSeek-V3 izdan z odprto kodo: ocenjeni stroški usposabljanja so bili samo 5,5 milijona ameriških dolarjev. DeepSeek-V3 je v celoti primerjal zmogljivost vodilnih zaprtokodnih modelov v tujini in močno izboljšal hitrost generiranja.

Cene API storitev so bile prilagojene, hkrati pa je bilo za novi model določeno 45-dnevno prednostno preizkusno obdobje.

15. januarja 2025 je bila uradna aplikacija DeepSeek uradno izdana in v celoti predstavljena na glavnih trgih aplikacij za iOS/Android.

20. januarja 2025, blizu kitajskega novega leta, je bil inferenčni model DeepSeek-R1 uradno izdan in odprtokoden. DeepSeek-R1 je popolnoma uskladil svojo zmogljivost z uradno izdajo OpenAI o1 in odprl funkcijo izpisa miselne verige. Hkrati je DeepSeek tudi napovedal, da bo vzorčna odprtokodna licenca spremenjena v licenco MIT, uporabniška pogodba pa bo izrecno dovoljevala "destilacijo modela", ki bo še bolj vključevala odprto kodo in spodbujala skupno rabo tehnologije.

Kasneje je ta model postal zelo priljubljen in začel novo dobo

Posledično je 27. januarja 2025 aplikacija DeepSeek uspešno presegla ChatGPT in se uvrstila na vrh seznama brezplačnih prenosov aplikacij v ameriški trgovini iOS App Store ter postala fenomenalna aplikacija z umetno inteligenco.

27. januarja 2025, ob 1:00 zjutraj na silvestrovo, je bil DeepSeek Janus-Pro izdan kot odprtokodni. To je multimodalni model, poimenovan po dvoličnem bogu Janusu iz starorimske mitologije: sooča se s preteklostjo in prihodnostjo. To predstavlja tudi dve zmožnosti modela – vizualno razumevanje in generiranje slik – ter njegovo prevlado več razvrstitev.

Eksplozivna priljubljenost DeepSeek je takoj sprožila globalni tehnološki šok, kar je celo neposredno povzročilo strmoglavi padec cene delnice NVIDIA 18%, tržna vrednost svetovne tehnološke borze pa je izhlapela za približno 1 bilijon ameriških dolarjev. Wall Street in tehnološki mediji so vzklikali, da vzpon DeepSeek spodkopava globalno pokrajino industrije umetne inteligence in predstavlja izziv brez primere za ameriške tehnološke velikane.

Uspeh DeepSeek je sprožil tudi veliko mednarodno pozornost in vroče razprave o kitajskih tehnoloških inovacijskih zmogljivostih AI. Ameriški predsednik Donald Trump je v redkih javnih komentarjih pohvalil dvig DeepSeek kot "pozitiven" in dejal, da je to "zbudilka" za Združene države. Izvršni direktor Microsofta Satya Nadella in izvršni direktor OpenAI Sam Altman sta prav tako pohvalila DeepSeek in njeno tehnologijo označila za "zelo impresivno".

Seveda moramo tudi razumeti, da je njihova pohvala deloma priznanje moči DeepSeek, deloma pa odraz njihovih lastnih motivov. Na primer, medtem ko Anthropic priznava dosežke DeepSeek, hkrati poziva vlado ZDA, naj okrepi nadzor nad čipi na Kitajskem.

Generalni direktor Anthropic objavil članek z 10.000 besedami: Vzpon DeepSeek pomeni, da bi morala Bela hiša okrepiti nadzor

Povzetek in pogled

Če se ozremo nazaj na zadnji dve leti DeepSeek, je bil to resnično "kitajski čudež": od neznanega zagona do "skrivnostne vzhodne sile", ki zdaj sije na svetovnem odru umetne inteligence, je DeepSeek pisal eno "nemogoče" za drugim s svojim moč in inovativnost.

Globlji pomen te tehnološke ekspedicije je že zdavnaj presegel okvire komercialne konkurence. DeepSeek je sporočil z dejstvi, ki na strateškem področju umetne inteligence, ki zadeva prihodnost, so kitajska podjetja popolnoma sposobna povzpeti se v višave temeljne tehnologije.

»Alarmni zvonec«, ki ga je zatrobil Trump, in skriti strah pred Anthropicom natančno potrjujeta pomen kitajskih zmogljivosti umetne inteligence: ne samo, da lahko jezdi valove, ampak tudi preoblikuje smer plime.

Deepseek izdelek sprostitev mejniki

2. november 2023: Velik model kodirnika DeepSeek
29. november 2023: DeepSeek LLM 67B univerzalni model
18. december 2023: DreamCraft3D 3D model
11. januar 2024: DeepSeekMoE MoE velik model
5. februar 2024: DeepSeekMmath Model matematičnega sklepanja
11. marec 2024: DeepSeek-VL Multimodalni velik model
maj 2024: DeepSeek-V2 MoE splošni model
17. junij 2024: Kodni model DeepSeek kodirnika V2
6. september 2024: DeepSeek-V2.5 fuzija splošnih modelov in modelov kompetenc kode
13. december 2024: DeepSeek-VL2 multimodalni model MoE
26. december 2024: DeepSeek-V3 nova serija velikih modelov za splošno uporabo
20. januar 2025: Inferenčni model DeepSeek-R1
20. januar 2025: Uradna aplikacija DeepSeek (iOS in Android)
27. januar 2025: DeepSeek Janus-Pro multimodalni model

Kako je nastal DeepSeek? Analiza zgodovine rasti DeepSeek

DeepSeekprvo srečanje

Modeli se pogosto objavljajo in uporablja se odprta koda

Nenehni preboji, ki pritegnejo svetovno pozornost

Povzetek in pogled

Deepseek izdelek sprostitev mejniki

Gemini 2.0 dominira na lestvicah, medtem ko DeepSeek V3 joka zaradi svoje cene in nov stroškovno učinkovit prvak je rojen!

Qwen2.5-max proti DeepSeek R1: Poglobljena primerjava modelov: popolna analiza aplikacijskih scenarijev

Ali Qwen2.5-Max prehitel DeepSeek-V3! Netizen: Kitajska umetna inteligenca hitro zmanjšuje vrzel

Glavni izdelki umetne inteligence na svetu se osredotočajo na analizo in celovite smernice za uporabniško izkušnjo (vključno z DeepSeek in GPT)

DeepSeek TOP17 najboljših alternativ: celovita analiza (2025)

Googlov nizkocenovni model, serija Gemini 2.0, napada: bitka za stroškovno učinkovitost pri velikih modelih se zaostruje

Dodaj odgovor Prekliči odgovor

DeepSeekprvo srečanje

Modeli se pogosto objavljajo in uporablja se odprta koda

Nenehni preboji, ki pritegnejo svetovno pozornost

Povzetek in pogled

Deepseek izdelek sprostitev mejniki

Podobne objave

Dodaj odgovor Prekliči odgovor