Kako je nastao DeepSeek? Analiza povijesti rasta DeepSeek

U budućnosti će biti sve više hardcore inovacija. Možda to sada nije lako razumjeti, jer cijela društvena skupina treba biti obrazovana činjenicama. Kada ovo društvo dopusti ljudima koji inoviraju hardcore da uspiju, kolektivni način razmišljanja će se promijeniti. Treba nam samo hrpa činjenica i proces. — Liang Wenfeng, osnivač DeepSeek

Posljednjih dana DeepSeek je eksplodirao u cijelom svijetu, ali budući da je tvrtka toliko skromna i da se nije oglasila, javnost zna vrlo malo o ovoj tehnološkoj tvrtki s velikim potencijalom – bilo da se radi o osnivanju, opsegu poslovanja , ili izgled proizvoda.

Nakon što sam završio s sortiranjem svih materijala, napisao sam ovaj članak

Koja je pozadina trenutnih AI igrača, što namjeravaju i koga regrutiraju?

i vjerojatno najpotpuniji povijesni pregled DeepSeek.

Prošle godine u ovo doba došao mi je prijatelj iz Magic Cube Quanta i pitao me: "Želiš li napraviti veliki model u Kini?" I jednostavno sam popodne provela ispijajući kavu. Očekivano, život i dalje ovisi o izborima.

The Ovdje spomenuti Magic Cube Quant je investitor, ili matična tvrtka, DeepSeek.

Takozvani “quant” je investicijska institucija koja odluke ne donosi ljudskom snagom, već algoritmima. Osnivanje Quant Fantasyja nije dugo, počevši od 2015. Do 2021., kada je bilo šest godina, ljestvica upravljanja imovinom Quant Fantasyja premašila je 100 milijardi, te je hvaljen kao jedan od kineska "četiri velika kvantitativna kralja".

Osnivač Fantasy Squarea, Liang Wenfeng, koji je ujedno i osnivač DeepSeek, je "ne-mainstream" financijski čelnik rođen 1980-ih: nema iskustva studiranja u inozemstvu, nije pobjednik olimpijskog natjecanja i diplomirao je na Odsjeku za elektroničko inženjerstvo na Sveučilištu Zhejiang, smjer umjetna inteligencija. On je izvorni stručnjak za tehnologiju koji se ponaša skromno, "čitajući radove, pišući kod i sudjelujući u grupnim raspravama" svaki dan.

Liang Wenfeng nema navike tradicionalnog vlasnika tvrtke, već je više poput čistog "tech geeka". Mnogi insajderi u industriji i istraživači DeepSeek dali su Liang Wenfengu izuzetno visoke pohvale: "netko tko ima i snažne infra inženjerske sposobnosti i mogućnosti istraživanja modela, a također može mobilizirati resurse", "netko tko može donositi točne prosudbe s visoke razine, ali i izvrstan u detaljima u odnosu na istraživače na prvoj liniji", a također ima "zastrašujuću sposobnost učenja".

Mnogo prije nego što je DeepSeek osnovan, Huanfang je već počeo raditi dugoročne planove u industriji umjetne inteligencije. U svibnju 2023. Liang Wenfeng spomenuo je u intervjuu za Darksurge: “Nakon što je OpenAI objavio GPT3 2020., smjer razvoja umjetne inteligencije postao je vrlo jasan, a računalna snaga postat će ključni element; ali čak i 2021., kada smo uložili u izgradnju Firefly 2, većina ljudi to još nije mogla razumjeti.”

Na temelju ove presude Huanfang je počeo graditi vlastitu računalnu infrastrukturu. “Od najranije 1 kartice, do 100 kartica u 2015., 1000 kartica u 2019., a potom 10.000 kartica, ovaj se proces odvijao postupno. Prije nekoliko stotina kartica, bili smo ugošćeni u IDC-u. Kad je opseg postao veći, hosting više nije mogao zadovoljiti zahtjeve, pa smo počeli graditi vlastitu računalnu sobu.”

Kasnije je Finance Eleven izvijestio: “Nema ih više od pet domaće tvrtke s više od 10.000 GPU-a, a osim nekoliko velikih proizvođača, uključuju i tvrtku kvantitativnog fonda Magic Cube.” Općenito se vjeruje da je 10.000 Nvidia A100 čipova prag za računalnu snagu za treniranje velikih modela.

U prethodnom intervjuu, Liang Wenfeng također je spomenuo zanimljivu točku: mnogi bi ljudi pomislili da iza toga stoji nepoznata poslovna logika, ali zapravo je uglavnom vođena znatiželjom.

Sadržaj

DeepSeekprvi susret

U intervjuu za Darksurge u svibnju 2023., na pitanje "Ne tako davno, Huanfang je objavio svoju odluku o izradi velikih modela, zašto bi kvantitativni fond učinio tako nešto?"

Liang Wenfengov odgovor bio je odjekujući: “Naša odluka da napravimo veliki model nema nikakve veze s kvantifikacijom ili financijama. Osnovali smo novu tvrtku pod nazivom DeepSeek da to učinimo. Mnogi od ključnih članova tima u Mianfangu uključeni su u umjetnu inteligenciju. U to smo vrijeme isprobali mnoge scenarije i na kraju se odlučili na financije, koje su dovoljno složene. Opća umjetna inteligencija možda je jedna od sljedećih stvari koje je najteže postići, pa je za nas pitanje kako to učiniti, a ne zašto.

Ne vođeni komercijalnim interesima ili jurnjavom za tržišnim trendovima, već jednostavno vođeni željom za istraživanjem same AGI tehnologije i ustrajne potrage za "najvažnijom i najtežom stvari", naziv “DeepSeek” službeno je potvrđen u svibnju 2023. Dana 17. srpnja 2023., “Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Co., Ltd.” bio je inkorporiran.

Na 2. studenog 2023. DeepSeek je dao svoj prvi odgovor: DeepSeek Coder, veliki model otvorenog koda. Ovaj model uključuje više veličina kao što su 1B, 7B i 33B. Sadržaj otvorenog koda uključuje osnovni model i model podešavanja naredbi.

U to vrijeme, među modelima otvorenog koda, Meta's CodeLlama bila je mjerilo u industriji. Međutim, nakon što je DeepSeek Coder objavljen, pokazao je vodeću poziciju s više strana u usporedbi s CodeLlamom: u generiranju koda, HumanEval je bio 9,3% ispred, MBPP je bio 10,8% ispred, a DS-1000 je bio 5,9% ispred.

Imajte na umu da je DeepSeek Coder model 7B, dok je CodeLlama model 34B. Osim toga, model DeepSeek Coder, nakon ugađanja s uputama, sveobuhvatno je nadmašio GPT3.5-Turbo.

Ne samo da je generiranje koda impresivno, već DeepSeek Coder također pokazuje svoje mišiće u matematici i zaključivanju.

Tri dana kasnije, 5. studenog 2023., DeepSeek je objavio veliku količinu sadržaja za zapošljavanje putem svog javnog računa na WeChatu, uključujući pozicije kao što su pripravnik za AGI veliki model, stručnjak za podatke, talent za arhitekturu podataka, viši inženjer za prikupljanje podataka, istraživanje i razvoj dubokog učenja inženjer itd. te je počeo aktivno širiti tim.

Kao što je rekao Liang Wenfeng, DeepSeek “obavezni zahtjevi” za regrutiranje talenata su “strast i solidne osnovne vještine”, a naglasio je da „inovacija zahtijeva što manje intervencija i upravljanja, tako da svatko ima slobodu griješiti i isprobavati nove stvari. Inovacija često dolazi iznutra, a ne iz namjernih dogovora, a sigurno ne dolazi iz podučavanja.”

Modeli se često objavljuju, a prakticira se i open source

Nakon što je DeepSeek Coder napravio senzaciju, DeepSeek je svoju pozornost usmjerio na glavno bojno polje: opće jezične modele.

Na 29. studenog 2023. DeepSeek je objavio svoj prvi model za veliki jezik opće namjene, DeepSeek LLM 67B. Ovaj je model uspoređen s Meta-inim modelom LLaMA2 70B iste razine i pokazao se boljim u gotovo 20 javnih popisa za procjenu na kineskom i engleskom jeziku. Konkretno, njegove sposobnosti zaključivanja, matematike i programiranja (npr. HumanEval, MATH, CEval i CMMLU) su izvanredne.

DeepSeek LLM 67B također je odabrao put otvorenog koda i podržava komercijalnu upotrebu. Kako bi dodatno demonstrirao svoju iskrenost i odlučnost prema otvorenom kodu, DeepSeek je, bez presedana, istovremeno otvorio kodni kod dva modela različitih mjerila, 7B i 67B, i čak je javno objavio devet kontrolnih točaka generiranih tijekom procesa obuke modela za istraživače da preuzmu i koriste. Ova vrsta operacije, koja je slična "poučavanju svega", iznimno je rijetka u cijeloj zajednici otvorenog koda.

Kako bi sveobuhvatnije i objektivnije procijenio stvarne mogućnosti DeepSeek LLM 67B, istraživački tim DeepSeek također je pažljivo osmislio niz "novih pitanja" za "testiranje otpornosti na stres". Ova pitanja pokrivaju testove visoke razine, visoke diskriminacije, kao što su pitanja za ispit iz matematike u mađarskoj srednjoj školi, skupovi ocjenjivanja koji slijede Googleove naredbe i pitanja za tjedna natjecanja LeetCode. Rezultati ispitivanja bili su ohrabrujući. DeepSeek LLM 67B pokazao je nevjerojatan potencijal u smislu svoje sposobnosti generalizacije izvan uzorka, a njegova ukupna izvedba bila je čak blizu onoj tada najnaprednijeg modela GPT-4.

Na 18. prosinca 2023., DeepSeek otvorio je kod Vincent 3D model DreamCraft3D: može generirati visokokvalitetne 3D modele iz rečenice, postižući skok iz 2D ravnina u 3D prostor u AIGC-u. Na primjer, ako korisnik unese: "Trči kroz šumu, smiješna hibridna slika svinjske glave i tijela Kralja majmuna", DreamCraft3D može ispisati sadržaj visoke kvalitete:

U principu, model prvo dovršava Vennov dijagram, a zatim nadopunjuje cjelokupnu geometrijsku strukturu temeljenu na 2D konceptualnoj mapi:

U subjektivnoj procjeni koja je uslijedila, više od 90% korisnika reklo je da DreamCraft3D ima prednost u kvaliteti generiranja u usporedbi s metodama prethodne generacije.

7. siječnja 2024. DeepSeek je objavio tehničko izvješće DeepSeek LLM 67B. Ovo izvješće na više od 40 stranica sadrži mnoge pojedinosti o DeepSeek LLM 67B, uključujući zakone skaliranja koje smo izradili sami, potpune praktične detalje o usklađivanju modela i sveobuhvatan AGI sustav procjene sposobnosti.

Adresa na papiru

Na 11. siječnja 2024. DeepSeek otvorio je prvi MoE (mješovita ekspertna arhitektura) veliki model u Kini, DeepSeekMoE: potpuno nova arhitektura koja podržava kineski i engleski i besplatna je za komercijalnu upotrebu. Arhitektura MoE općenito se u to vrijeme smatrala ključnom za proboj u performansama OpenAI GPT-4. DeepSeek-ova samorazvijena MoE arhitektura vodeća je u višestrukim ljestvicama kao što su 2B, 16B i 145B, a njezino računanje također je vrlo pohvalno.

25. siječnja 2024. DeepSeek je objavio tehničko izvješće o DeepSeek koderu. Ovo izvješće pruža sveobuhvatnu tehničku analizu podataka o obuci, metodama obuke i izvedbi modela. U ovom izvješću možemo vidjeti da je po prvi put konstruirao podatke koda na razini skladišta i upotrijebio topološko sortiranje za analizu ovisnosti između datoteka, značajno poboljšavajući sposobnost razumijevanja unakrsnih datoteka na velike udaljenosti. Što se tiče metoda obuke, dodana je metoda Fill-In-Middle, koja je uvelike poboljšala mogućnost dovršavanja koda.

Adresa na papiru

Dana 30. siječnja 2024. službeno je pokrenuta otvorena platforma DeepSeek, a započela je testiranje API usluge DeepSeek Large Model. Registrirajte se kako biste dobili 10 milijuna tokena besplatno. Sučelje je kompatibilno s OpenAI API sučeljem, a dostupna su oba Chat/Coder dual modela. U to je vrijeme DeepSeek počeo istraživati put pružatelja tehnoloških usluga uz tehnološko istraživanje i razvoj.

Na 5. veljače 2024., DeepSeek je objavio još jedan vertikalni model domene, DeepSeekMath, model matematičkog zaključivanja. Ovaj model ima samo 7B parametara, ali je njegova sposobnost matematičkog zaključivanja bliska onoj GPT-4. Na autoritativnom popisu referentnih vrijednosti MATH nadmašuje mnoštvo i nadmašuje brojne modele otvorenog koda s veličinama parametara između 30B i 70B. Izdanje DeepSeekMath u potpunosti demonstrira tehničku snagu DeepSeek i izgled usmjeren prema budućnosti u istraživanju i razvoju vertikale i njegov izgled usmjeren prema budućnosti u istraživanju i razvoju modela.

Na 28. veljače 2024., kako bi dodatno ublažio zabrinutost programera o korištenju DeepSeek modela otvorenog koda, DeepSeek je objavio FAQ o politici otvorenog koda, koji pruža detaljne odgovore na često postavljana pitanja kao što su model licenciranja otvorenog koda i ograničenja komercijalne upotrebe. DeepSeek prihvaća otvoreni kod s transparentnijim i otvorenijim stavom:

Na 11. ožujka 2024. DeepSeek je objavio multimodalni veliki model DeepSeek-VL. Ovo je prvi pokušaj DeepSeek s multimodalnom AI tehnologijom. Model je veličine 7B i 1.3B, a model i tehnički dokumenti su istovremeno otvoreni.

Na 20. ožujka 2024. Huanfang AI & DeepSeek ponovno je pozvan da sudjeluje na konferenciji NVIDIA GTC 2024, a osnivač Liang Wenfeng održao je tehnički uvodni govor pod naslovom “Harmonija u različitosti: usklađivanje i razdvajanje vrijednosti velikih jezičnih modela”. Raspravljalo se o pitanjima kao što su "sukob između velikog modela s jednom vrijednošću i pluralističkog društva i kulture", "odvajanje usklađivanja vrijednosti velikog modela" i "višedimenzionalni izazovi razdvojenog usklađivanja vrijednosti". Ovo je pokazalo humanističku brigu i društvenu odgovornost DeepSeek za razvoj umjetne inteligencije, uz tehnološko istraživanje i razvoj.

U ožujku 2024. DeepSeek API službeno pokrenuo plaćene usluge, što je u potpunosti zapalilo uvod u rat cijenama na kineskom tržištu velikih modela: 1 juan za milijun ulaznih tokena i 2 juana za milijun izlaznih tokena.

Godine 2024. DeepSeek uspješno je prošao rekord velikih modela u Kini, uklanjajući političke prepreke za potpuno otvaranje svojih API usluga.

U svibnju 2024. objavljen je DeepSeek-V2, open source generalni MoE veliki model, i službeno je započeo rat cijenama. DeepSeek-V2 koristi MLA (mehanizam latentne pažnje s više glava), koji smanjuje memorijski otisak modela na 5%-13% u odnosu na tradicionalni MHA. U isto vrijeme, također je neovisno razvio DeepSeek MoE Sparse rijetku strukturu, koja uvelike smanjuje računsku složenost modela. Zahvaljujući tome, model održava API cijenu od "1 juana/milijun ulaza i 2 juana/milijun izlaza".

DeepSeek je imao ogroman utjecaj. U tom smislu, vodeći analitičar u SemiAnalysis vjeruje da bi dokument DeepSeek V2 "mogao biti jedan od najboljih ove godine." Slično tome, Andrew Carr, bivši zaposlenik OpenAI-ja, vjeruje da je rad "pun nevjerojatne mudrosti" i primijenio je svoje postavke obuke na vlastiti model.

Treba napomenuti da je ovo model koji mjeri GPT-4-Turbo, a cijena API-ja je samo 1/70 potonjeg

U lipnju 17., 2024., DeepSeek je još jednom napravio veliki pomak, izdajući model koda DeepSeek Coder V2 otvorenog koda i tvrdeći da su njegove mogućnosti koda nadmašile GPT-4-Turbo, najnapredniji model zatvorenog koda u to vrijeme. DeepSeek Coder V2 nastavlja DeepSeek-ovu dosljednu strategiju otvorenog koda, sa svim modelima, kodom i dokumentima otvorenog izvora, a dostupne su dvije verzije, 236B i 16B. DeepSeek C koder V2 API usluge također su dostupne online, a cijena ostaje na “1 juana/milijun ulaza i 2 juana/milijun izlaza”.

Na 21. lipnja 2024., DeepSeek Coder podržava online izvršavanje koda. Istog dana objavljen je Claude3.5 Sonnet s novom značajkom Artifacts koja automatski generira kod i pokreće ga izravno u pregledniku. Istog dana, pomoćnik koda na web stranici DeepSeek također je pokrenuo istu značajku: generirajte kod i pokrenite ga jednim klikom.

Pogledajmo glavne događaje ovog razdoblja:

Neprestani prodori, privlačeći globalnu pozornost

U svibnju 2024. DeepSeek postao je slavan preko noći izdavanjem DeepSeek V2, modela otvorenog koda temeljenog na MoE. Poklapao se s učinkom GPT-4-Turbo, ali po cijeni od samo 1 juana/milijun ulaza, što je 1/70 GPT-4-Turbo. U to vrijeme, DeepSeek je postao dobro poznati "kosač cijena" u industriji, a zatim su glavni igrači kao što su Zhicheng, ByteDance i Alibaba... i drugi veliki igrači brzo slijedili njegov primjer i spustili svoje cijene. Otprilike u to vrijeme došlo je i do druge runde zabrane GPT-a, a veliki broj AI aplikacija počeo je po prvi put isprobavati domaće modele.

U srpnju 2024. osnivač DeepSeek Liang Wenfeng ponovno je prihvatio intervju s Dark Surgeom i izravno odgovorio na rat cijenama: “Vrlo neočekivano. Nisam očekivao da će cijena sve učiniti tako osjetljivima. Mi samo radimo stvari vlastitim tempom, a zatim cijenu na temelju cijene. Naše načelo nije gubiti novac ili ostvarivati pretjeranu zaradu. Ova je cijena također malo iznad cijene s malim profitom.”

Vidi se da je, za razliku od mnogih konkurenata koji subvencioniraju iz vlastitog džepa, DeepSeek po ovoj cijeni isplativ.

Neki ljudi mogu reći: smanjenje cijena je kao pljačka korisnika, a to je obično slučaj u ratovima cijena u eri interneta

Kao odgovor, Liang Wenfeng je također odgovorio: “Pljačka korisnika nije naš glavni cilj. Snizili smo cijenu jer je, s jedne strane, cijena pala dok istražujemo strukturu modela sljedeće generacije, a s druge strane, smatramo da bi i API i AI trebali biti pristupačni i dostupni svima. ”

Dakle, priča se nastavlja s idealizmom Liang Wenfenga.

Dana 4. srpnja 2024. DeepSeek API postao je online. Cijena za 128K kontekst ostala je nepromijenjena. Trošak zaključivanja modela usko je povezan s duljinom konteksta. Stoga mnogi modeli imaju stroga ograničenja ove duljine: početna verzija GPT-3.5 ima samo 4k kontekst.

U ovom trenutku, DeepSeek je povećao duljinu konteksta s prethodnih 32k na 128k, dok je cijena ostala nepromijenjena (1 juan po milijun ulaznih tokena i 2 juana po milijun izlaznih tokena).

Na 10. srpnja 2024. objavljeni su rezultati prve svjetske AI olimpijade (AIMO), a model DeepSeekMath postao je zajednički izbor Top timova. Sva pobjednička Top 4 tima odabrala su DeepSeekMath-7B kao osnovu za svoje ulazne modele i postigla impresivne rezultate u natjecanju.

Na 18. srpnja 2024., DeepSeek-V2 je bio na vrhu popisa modela otvorenog koda na Chatbot Areni, nadmašivši zvjezdane modele kao što su Llama3-70B, Qwen2-72B, Nemotron-4-340B i Gemma2-27B, i postavši novo mjerilo za velike modele otvorenog koda.

U U srpnju 2024. DeepSeek nastavio je regrutirati talente i regrutirao vrhunske talente iz cijelog svijeta u više područja, uključujući AI algoritme, AI Infra, AI Tutor i AI proizvode, kako bi se pripremili za buduće tehnološke inovacije i razvoj proizvoda.

Na 26. srpnja 2024. DeepSeek API uveo je važnu nadogradnju, u potpunosti podržavajući niz naprednih značajki kao što su prepisivanje, FIM (Fill-in-the-Middle) dovršavanje, pozivanje funkcija i JSON izlaz. Funkcija FIM je vrlo zanimljiva: korisnik daje početak i kraj, a veliki model ispunjava sredinu, što je vrlo pogodno za proces programiranja za popunjavanje točnog koda funkcije. Uzmimo pisanje Fibonaccijevog niza kao primjer:

Na 2. kolovoza 2024., DeepSeek je inovativno uveo tehnologiju predmemoriranja tvrdog diska, srušivši cijene API-ja do gležnjeva. Prethodno su cijene API-ja bile samo 1 JPY za milijun tokena. Sada, međutim, nakon što se napravi pogodak u predmemoriju, naknada za API pada izravno na 0,1 ￥.

Ova je značajka vrlo praktična kada su uključeni kontinuirani razgovori i zadaci skupne obrade.

Na 16. kolovoza 2024. DeepSeek je objavio svoj model za dokazivanje matematičkih teorema DeepSeek-Prover-V1.5 kao otvoreni kod, koji je nadmašio mnoge dobro poznate modele otvorenog koda u srednjoškolskim i fakultetskim testovima za dokazivanje matematičkih teorema.

Na 6. rujna 2024. DeepSeek je objavio fuzijski model DeepSeek-V2.5. Prethodno je DeepSeek uglavnom pružao dva modela: Chat model usmjeren na opće vještine razgovora i Code model usmjeren na vještine obrade koda. Ovaj put su dva modela spojena u jedan, nadograđen na DeepSeek-V2.5, koji je bolje usklađen s ljudskim preferencijama, a također je postigao značajna poboljšanja u zadacima pisanja, praćenju naredbi i drugim aspektima.

Na 18. rujna 2024. DeepSeek-V2.5 ponovno je bio na najnovijoj LMSYS listi, vodeći među domaćim modelima i postavljanje novih najboljih rezultata za domaće modele u više pojedinačnih sposobnosti.

Na 20. studenog 2024., DeepSeek je objavio DeepSeek-R1-Lite na službenoj stranici. Ovo je model zaključivanja usporediv s o1-previewom, a također pruža dovoljnu količinu sintetičkih podataka za post-obuku V3.

Na 10. prosinca 2024. serija DeepSeek V2 započela je s izdavanjem konačne fino podešene verzije DeepSeek-V2.5-1210. Ova verzija sveobuhvatno poboljšava višestruke sposobnosti, uključujući matematiku, kodiranje, pisanje i igranje uloga kroz post-trening.

S dolaskom ove verzije web aplikacija DeepSeek otvorila je i funkciju pretraživanja mreže.

Na 13. prosinca 2024., DeepSeek napravio je još jedan iskorak u polju multimodalnosti i objavio otvoreni multimodalni veliki model DeepSeek-VL2. DeepSeek-VL2 usvaja MoE arhitekturu, koja značajno poboljšava njegove vizualne mogućnosti. Dostupan je u tri veličine: 3B, 16B i 27B i ima prednost u svim metrikama.

Na 26. prosinca 2024. DeepSeek-V3 objavljen je s otvorenim kodom: procijenjeni trošak obuke bio je samo 5,5 milijuna američkih dolara. DeepSeek-V3 u potpunosti je usporedio performanse vodećih modela zatvorenog koda u inozemstvu i znatno poboljšao brzinu generiranja.

Prilagođene su cijene API usluga, ali je istovremeno za novi model postavljeno povlašteno probno razdoblje od 45 dana.

15. siječnja 2025. službena aplikacija DeepSeek službeno je objavljena i u potpunosti pokrenuta na glavnim tržištima aplikacija za iOS/Android.

Dana 20. siječnja 2025., blizu Kineske nove godine, model zaključivanja DeepSeek-R1 službeno je objavljen i otvoren. DeepSeek-R1 u potpunosti je uskladio svoje performanse sa službenim izdanjem OpenAI o1 i otvorio izlaznu funkciju lanca misli. U isto vrijeme, DeepSeek je također najavio da će model licence otvorenog koda biti promijenjen u licencu MIT, a korisnički ugovor će izričito dopustiti "destilaciju modela", daljnje prihvaćanje otvorenog koda i promicanje dijeljenja tehnologije.

Kasnije je ovaj model postao vrlo popularan i otvorio novu eru

Kao rezultat toga, od 27. siječnja 2025. aplikacija DeepSeek uspješno je nadmašila ChatGPT i zauzela prvo mjesto na popisu besplatnih preuzimanja aplikacija u US iOS App Storeu, postavši fenomenalna AI aplikacija.

Dana 27. siječnja 2025., u 1:00 ujutro na Silvestrovo, DeepSeek Janus-Pro pušten je u prodaju kao open source. Ovo je multimodalni model nazvan po bogu Janusu s dva lica u starorimskoj mitologiji: suočava se i s prošlošću i s budućnošću. Ovo također predstavlja dvije sposobnosti modela—vizualno razumijevanje i generiranje slike—i njegovu dominaciju višestrukim rangiranjem.

Eksplozivna popularnost DeepSeek odmah je pokrenula globalni tehnološki udar, čak je izravno uzrokovala pad cijene dionica NVIDIA-e na 18%, a tržišna vrijednost globalnog tržišta dionica tehnologije isparila za oko 1 trilijun američkih dolara. Wall Street i tehnološki mediji uzviknuli su da uspon DeepSeek potkopava globalnu industriju umjetne inteligencije i predstavlja izazov bez presedana američkim tehnološkim divovima.

Uspjeh DeepSeek također je izazvao veliku međunarodnu pozornost i žestoke rasprave o kineskim tehnološkim inovacijama AI. Američki predsjednik Donald Trump, u rijetkom javnom komentaru, pohvalio je porast DeepSeek kao "pozitivan" i rekao da je to "poziv na buđenje" za Sjedinjene Države. Izvršni direktor Microsofta Satya Nadella i izvršni direktor OpenAI-ja Sam Altman također su pohvalili DeepSeek, nazvavši njegovu tehnologiju "vrlo impresivnom".

Naravno, također moramo shvatiti da je njihova pohvala dijelom priznanje snage DeepSeek, a dijelom odraz njihovih vlastitih motiva. Na primjer, iako Anthropic priznaje postignuća DeepSeek, također poziva američku vladu da ojača kontrolu čipova u Kini.

CEO Anthropica objavljuje članak od 10.000 riječi: Uspon DeepSeek znači da bi Bijela kuća trebala pojačati kontrolu

Sažetak i izgledi

Gledajući unatrag na DeepSeek u posljednje dvije godine, to je doista bilo "kinesko čudo": od nepoznatog startupa do "tajanstvene istočne sile" koja sada blista na globalnoj pozornici umjetne inteligencije, DeepSeek je pisao jedno "nemoguće" za drugim svojim snagu i inovativnost.

Dublje značenje ove tehnološke ekspedicije odavno je nadišlo okvire komercijalnog natjecanja. DeepSeek je objavio s činjenicama koje u strateškom području umjetne inteligencije koje se tiče budućnosti, kineske tvrtke su potpuno sposobne popeti se do visina temeljne tehnologije.

“Zvono za uzbunu” koje je oglasio Trump i skriveni strah od Anthropica upravo potvrđuju važnost kineskih AI sposobnosti: ne samo da može jahati na valovima, već također mijenja smjer plime

Deepseek proizvod osloboditi prekretnice

2. studenog 2023.: Veliki model kodera DeepSeek
29. studenog 2023.: DeepSeek LLM 67B univerzalni model
18. prosinca 2023.: DreamCraft3D 3D model
11. siječnja 2024.: DeepSeekMoE MoE veliki model
5. veljače 2024.: DeepSeekMath Model matematičkog zaključivanja
11. ožujka 2024.: DeepSeek-VL Multimodalni veliki model
svibanj 2024.: DeepSeek-V2 MoE opći model
17. lipnja 2024.: DeepSeek Coder V2 kodni model
6. rujna 2024.: DeepSeek-V2.5 fuzija općih modela i modela kompetencije koda
13. prosinca 2024.: DeepSeek-VL2 multimodalni MoE model
26. prosinca 2024.: DeepSeek-V3 nova serija velikih modela opće namjene
20. siječnja 2025.: DeepSeek-R1 inferencijski model
20. siječnja 2025.: Službena aplikacija DeepSeek (iOS i Android)
27. siječnja 2025.: DeepSeek Janus-Pro multimodalni model

Kako je nastao DeepSeek? Analiza povijesti rasta DeepSeek

DeepSeekprvi susret

Modeli se često objavljuju, a prakticira se i open source

Neprestani prodori, privlačeći globalnu pozornost

Sažetak i izgledi

Deepseek proizvod osloboditi prekretnice

Glavni svjetski AI proizvodi usredotočeni su na analizu i sveobuhvatne smjernice za korisničko iskustvo (uključujući DeepSeek i GPT)

Qwen2.5-max protiv DeepSeek R1: Duboka usporedba modela: potpuna analiza scenarija primjene

Što Deepseek može postići? Čak ni OpenAI to ne može?

Google je objavio tri nova modela odjednom: Gemini-2.0-Pro je besplatan, ima izvrsnu ocjenu i prvi je na ljestvici, a prikladan je za kodiranje i obradu složenih upita!

Artefakti upravljanja velikim jezičnim modelom kao što su DeepSeek: Cherry Studio, Chatbox, AnythingLLM, tko je vaš akcelerator učinkovitosti?

OpenAI o3-mini protiv DeepSeek-R1: Tko je kralj nove generacije AI modela?

Odgovori Otkaži odgovor

DeepSeekprvi susret

Modeli se često objavljuju, a prakticira se i open source

Neprestani prodori, privlačeći globalnu pozornost

Sažetak i izgledi

Deepseek proizvod osloboditi prekretnice

Slični postovi

Odgovori Otkaži odgovor