I framtiden kommer det att finnas fler och fler hardcore-innovationer. Det kanske inte är lätt att förstå nu, eftersom hela samhällsgruppen måste utbildas med hjälp av fakta. När detta samhälle tillåter människor som innoverar hardcore att lyckas, kommer det kollektiva tänkesättet att förändras. Vi behöver bara en massa fakta och en process. - Liang Wenfeng, grundare av DeepSeek
Under de senaste dagarna har DeepSeek exploderat över hela världen, men eftersom företaget är så lågmält och inte har gjort några tillkännagivanden, vet allmänheten mycket lite om detta teknikföretag med stor potential - oavsett om det är dess grundande bakgrund, affärsområde eller produktlayout.
Efter att ha sorterat igenom allt material skrev jag den här artikeln
Vad är bakgrunden till de nuvarande AI-spelarna, vad gör de och vem rekryterar de?
och förmodligen den mest kompletta historiska översikten över DeepSeek.
Vid den här tiden förra året kom en vän från Magic Cube Quant till mig och frågade: "Vill du bygga en stor modell i Kina?" Och jag tillbringade helt enkelt eftermiddagen med att dricka kaffe. Som förväntat beror livet fortfarande på val.
Den Magic Cube Quant som nämns här är investerareneller moderbolag, till DeepSeek.
Den så kallade "quant" är en investeringsinstitution som fattar beslut inte genom mänsklig kraft utan genom algoritmer. Etableringen av Quant Fantasy är inte lång, med början 2015. År 2021, när det var sex år gammalt, hade Quant Fantasys kapitalförvaltningsskala överskridit 100 miljarder, och det hyllades som en av Kinas "fyra stora kvantkungar".
Grundaren av Fantasy Square, Liang Wenfeng, som också är grundaren av DeepSeek, är en "icke-mainstream" finansiell ledare född på 1980-talet: han har ingen utländsk studieerfarenhet, är inte en olympisk tävlingsvinnare och tog examen från Institutionen för elektronisk teknik vid Zhejiang University, med inriktning på artificiell intelligens. Han är en infödd teknikexpert som agerar på ett lågmält sätt och "läser papper, skriver kod och deltar i gruppdiskussioner" varje dag.
Liang Wenfeng har inte vanorna hos en traditionell företagare, utan är mer som en ren "tekniknörd". Många branschinsiders och DeepSeek-forskare har gett Liang Wenfeng extremt högt beröm: "någon som har både starka infratekniska förmågor och modellforskningsfunktioner, och som också kan mobilisera resurser", "någon som kan göra exakta bedömningar från en hög nivå, men som också utmärker sig i detaljerna över frontlinjeforskare" och som också har "en skrämmande inlärningsförmåga".
Långt innan DeepSeek grundades hade Huanfang redan börjat göra upp långsiktiga planer inom AI-industrin. I maj 2023 nämnde Liang Wenfeng i en intervju med Darksurge: "Efter att OpenAI släppte GPT3 2020 har riktningen för AI-utveckling blivit mycket tydlig och datorkraft kommer att bli ett nyckelelement; men till och med 2021, när vi investerade i byggandet av Firefly 2, kunde de flesta fortfarande inte förstå det."
Baserat på denna bedömning började Huanfang bygga sin egen datainfrastruktur. "Från det tidigaste 1 kortet, till 100 kort 2015, 1.000 kort 2019 och sedan 10.000 kort, skedde denna process gradvis. Innan vi hade några hundra kort var vi hostade i en IDC. När skalan blev större kunde hosting inte längre uppfylla kraven, så vi började bygga vårt eget datorrum."
Senare rapporterade Finance Eleven: "Det finns inte mer än fem inhemska företag med mer än 10.000 GPU:er, och förutom några stora tillverkare ingår också ett kvantitativt fondbolag som heter Magic Cube." Det anses allmänt att 10.000 Nvidia A100-chip är tröskeln för datorkraft för att träna stora modeller.
I en tidigare intervju nämnde Liang Wenfeng också en intressant punkt: Många skulle tro att det ligger en okänd affärslogik bakom, men i själva verket är det främst nyfikenhet som styr.
DeepSeekförsta möte
I en intervju med Darksurge i maj 2023, när han tillfrågades "För inte så länge sedan meddelade Huanfang sitt beslut att göra stora modeller, varför skulle en kvantitativ fond göra en sådan sak?"
Liang Wenfengs svar var rungande: "Vårt beslut att bygga en stor modell har inget att göra med kvantifiering eller ekonomi. Vi har startat ett nytt företag som heter DeepSeek för att göra detta. Många av nyckelpersonerna i teamet på Mianfang är involverade i artificiell intelligens. Vi prövade då många scenarier och landade till slut i finans, vilket är tillräckligt komplext. Allmän artificiell intelligens kan vara en av de näst svåraste sakerna att uppnå, så för oss är det en fråga om hur vi ska göra det, inte varför.
Vi drivs inte av kommersiella intressen eller av att jaga marknadstrender, utan helt enkelt av en önskan att utforska AGI-tekniken i sig och en ihärdig strävan efter "det viktigaste och svåraste". namnet "DeepSeek" bekräftades officiellt i maj 2023. Den 17 juli 2023 bolagiserades "Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Co., Ltd.".
På Den 2 november 2023 levererade DeepSeek sitt första svar: DeepSeek Coder, en stor modell av öppen källkod. Denna modell omfattar flera storlekar, t.ex. 1B, 7B och 33B. Innehållet i den öppna källan omfattar basmodellen och modellen för kommandotuning.
Vid den tidpunkten var Metas CodeLlama branschriktmärket bland modellerna med öppen källkod. Men när DeepSeek Coder släpptes visade den en mångfacetterad ledande position jämfört med CodeLlama: i kodgenerering var HumanEval 9,3% före, MBPP var 10,8% före och DS-1000 var 5,9% före.
Tänk på att DeepSeek Coder är en 7B-modell, medan CodeLlama är en 34B-modell. Dessutom har DeepSeek Coder-modellen, efter att ha ställts in med instruktioner, helt överträffat GPT3.5-Turbo.
Det är inte bara kodgenereringen som är imponerande, utan DeepSeek Coder visar också sina muskler inom matematik och resonemang.
Tre dagar senare, den 5 november 2023, släppte DeepSeek en stor mängd rekryteringsinnehåll genom sitt WeChat-offentliga konto, inklusive positioner som AGI stor modellpraktikant, dataexpert, dataarkitekturtalang, senior datainsamlingsingenjör, djupinlärningsforsknings- och utvecklingsingenjör etc. och började aktivt utöka teamet.
Som Liang Wenfeng sa, DeepSeek:s "måste-ha-krav" för rekrytering av talanger är "passion och gedigna baskunskaper", och han betonade att "innovation kräver så lite ingripande och ledning som möjligt, så att alla har frihet att göra misstag och prova nya saker. Innovation kommer ofta inifrån, inte från medvetna arrangemang, och den kommer absolut inte från undervisning."
Modeller släpps ofta och öppen källkod används
Efter att DeepSeek Coder gjort succé vände DeepSeek blickarna mot det stora slagfältet: generella språkmodeller.
På Den 29 november 2023 släppte DeepSeek sin första stora språkmodell för allmänt bruk, DeepSeek LLM 67B. Denna modell jämförs med Metas LLaMA2 70B-modell på samma nivå och har presterat bättre i nästan 20 offentliga utvärderingslistor på kinesiska och engelska. I synnerhet är dess resonemang, matematik och programmeringsförmåga (t.ex. HumanEval, MATH, CEval och CMMLU) enastående.
DeepSeek LLM 67B har också valt öppen källkod och stöder kommersiell användning. För att ytterligare visa sin uppriktighet och beslutsamhet när det gäller öppen källkod har DeepSeek, vilket saknar motstycke, samtidigt öppnat källkod för två modeller i olika skalor, 7B och 67B, och till och med offentliggjort de nio kontrollpunkter som genererats under modellutbildningsprocessen så att forskare kan ladda ner och använda dem. Den här typen av verksamhet, som kan liknas vid att "lära ut allt", är extremt sällsynt i hela open source-communityn.
För att mer omfattande och objektivt utvärdera den verkliga kapaciteten hos DeepSeek LLM 67B utformade DeepSeek-forskargruppen också noggrant en serie "nya frågor" för "stresstestning". Dessa frågor täcker tester på hög nivå med hög diskriminering, till exempel ungerska gymnasieprovsfrågor i matematik, Google-kommandon som följer utvärderingsuppsättningar och LeetCode veckovisa tävlingsfrågor. Testresultaten var uppmuntrande. DeepSeek LLM 67B visade en fantastisk potential när det gäller dess förmåga att generalisera bortom urvalet, och dess övergripande prestanda var till och med nära den då mest avancerade GPT-4-modellen.
På 18 december 2023, DeepSeek öppnade källkoden Vincent 3D-modellen DreamCraft3D: den kan generera högkvalitativa 3D-modeller från en mening och därmed ta steget från 2D-plan till 3D-rymd i AIGC. Till exempel, om användaren skriver in: "Löpande genom skogen, en rolig hybridbild av ett grishuvud och kroppen av Monkey King", kan DreamCraft3D mata ut högkvalitativt innehåll:
I princip kompletterar modellen först Venn-diagrammet och kompletterar sedan den övergripande geometriska strukturen baserat på 2D-konceptkartan:
I den subjektiva utvärderingen som följde sa mer än 90% av användarna att DreamCraft3D hade en fördel i generationskvalitet jämfört med tidigare generationsmetoder.
Den 7 januari 2024 publicerade DeepSeek den tekniska rapporten DeepSeek LLM 67B. Denna 40+ sidor långa rapport innehåller många detaljer om DeepSeek LLM 67B, inklusive självbyggda skalningslagar, fullständiga praktiska detaljer om modelljustering och ett omfattande utvärderingssystem för AGI-förmåga.
På Den 11 januari 2024 lanserade DeepSeek den första stora MoE-modellen (mixed expert architecture) i Kina, DeepSeekMoE: en helt ny arkitektur som stöder kinesiska och engelska och som är fri för kommersiellt bruk. MoE-arkitekturen ansågs då allmänt vara nyckeln till OpenAI GPT-4:s prestandagenombrott. DeepSeek:s egenutvecklade MoE-arkitektur är ledande i flera skalor som 2B, 16B och 145B, och dess beräkningar är också mycket lovvärda.
Den 25 januari 2024 publicerade DeepSeek den tekniska rapporten DeepSeek Coder. Denna rapport ger en omfattande teknisk analys av dess utbildningsdata, utbildningsmetoder och modellprestanda. I den här rapporten kan vi se att man för första gången har konstruerat koddata på lagernivå och använt topologisk sortering för att analysera beroendena mellan filer, vilket avsevärt förbättrar förmågan att förstå korsfiler på långa avstånd. När det gäller utbildningsmetoder lades Fill-In-Middle-metoden till, vilket avsevärt förbättrade förmågan att komplettera kod.
Den 30 januari 2024 lanserades den öppna plattformen DeepSeek officiellt och API-tjänsten DeepSeek Large Model började testas. Registrera dig för att få 10 miljoner tokens gratis. Gränssnittet är kompatibelt med OpenAI API-gränssnittet, och både Chat/Coder dual-modeller finns tillgängliga. Vid den här tiden började DeepSeek utforska vägen till en teknologitjänsteleverantör utöver teknisk forskning och utveckling.
På 5 februari 2024, DeepSeek släppte en annan vertikal domänmodell, DeepSeekMath, en matematisk resonemangsmodell. Denna modell har endast 7B parametrar, men dess matematiska resonemangsförmåga ligger nära den hos GPT-4. På den auktoritativa MATH-benchmarklistan överträffar den mängden och överträffar ett antal modeller med öppen källkod med parameterstorlekar mellan 30B och 70B. Lanseringen av DeepSeekMath visar till fullo DeepSeek:s tekniska styrka och framåtblickande layout inom forskning och utveckling av vertikala och dess framåtblickande layout inom modellforskning och utveckling.
På 28 februari 2024, för att ytterligare lindra utvecklarnas oro för att använda DeepSeek-modeller med öppen källkod, släppte DeepSeek en FAQ för öppen källkodspolicysom ger detaljerade svar på vanliga frågor, t.ex. om licenser för öppen källkod och begränsningar för kommersiell användning. DeepSeek anammar öppen källkod med en mer transparent och öppen attityd:
På 11 mars 2024 släppte DeepSeek den multimodala stora modellen DeepSeek-VL. Detta är DeepSeek:s första försök med multimodal AI-teknik. Modellen är 7B och 1,3B stor, och modellen och de tekniska dokumenten är öppna samtidigt.
På Den 20 mars 2024 bjöds Huanfang AI & DeepSeek återigen in att delta i NVIDIA GTC 2024-konferensen, och grundaren Liang Wenfeng höll ett tekniskt huvudtal med titeln "Harmoni i mångfalden: Aligning and Decoupling the Values of Large Language Models". Frågor som "konflikten mellan en stor modell med ett enda värde och ett pluralistiskt samhälle och en pluralistisk kultur", "frikoppling av värdeanpassning av stora modeller" och "de flerdimensionella utmaningarna med frikopplad värdeanpassning" diskuterades. Detta visade på DeepSeek:s humanistiska omsorg och sociala ansvar för AI-utvecklingen, utöver dess tekniska forskning och utveckling.
I mars 2024, DeepSeek API officiellt lanserade betaltjänster, vilket helt antände förspelet till priskriget på den kinesiska marknaden för stora modeller: 1 yuan per miljon input-tokens och 2 yuan per miljon output-tokens.
År 2024 klarade DeepSeek framgångsrikt rekordantalet stora modeller i Kina, vilket undanröjde de politiska hindren för den fullständiga öppningen av sina API-tjänster.
I maj 2024 släpptes DeepSeek-V2, en öppen källkod allmän MoE stor modell, och priskriget började officiellt. DeepSeek-V2 använder MLA (multi-head latent attention mechanism), vilket minskar modellens minnesavtryck till 5%-13% av det för traditionell MHA. Samtidigt har den också självständigt utvecklat DeepSeek MoE Sparse sparse-strukturen, vilket kraftigt minskar modellens beräkningskomplexitet. Tack vare detta upprätthåller modellen ett API-pris på "1 yuan/miljon ingångar och 2 yuan/miljon utgångar".
DeepSeek har haft en enorm inverkan. I detta avseende anser den ledande analytikern på SemiAnalysis att DeepSeek V2-papperet "kan vara ett av de bästa i år." På samma sätt anser Andrew Carr, en tidigare OpenAI-anställd, att dokumentet är "fullt av fantastisk visdom" och har tillämpat dess träningsinställningar på sin egen modell.
Det bör noteras att detta är en modell som benchmarker GPT-4-Turbo, och API-priset är bara 1/70 av den senare
Den juni 17, 2024, gjorde DeepSeek återigen ett stort tryck och släppte DeepSeek Coder V2-kodmodellen öppen källkod och hävdade att dess kodfunktioner överträffade GPT-4-Turbo, den mest avancerade modellen med sluten källkod vid den tiden. DeepSeek Coder V2 fortsätter DeepSeek:s konsekventa strategi för öppen källkod, med alla modeller, all kod och alla artiklar i öppen källkod, och två versioner, 236B och 16B, tillhandahålls. DeepSeek C oder V2:s API-tjänster finns också tillgängliga online, och priset ligger kvar på "1 yuan/miljon inputs och 2 yuan/miljon outputs".
På 21 juni 2024, DeepSeek Coder stödde online-kodkörning. Samma dag släpptes Claude3.5 Sonnet, med den nya funktionen Artifacts, som automatiskt genererar kod och kör den direkt i webbläsaren. Samma dag lanserades också kodassistenten på webbplatsen DeepSeek med samma funktion: generera kod och kör den med ett klick.
Låt oss gå igenom de viktigaste händelserna under denna period:
Kontinuerliga genombrott som väcker global uppmärksamhet
I maj 2024 blev DeepSeek berömd över en natt genom att släppa DeepSeek V2, en öppen källkodsmodell baserad på MoE. Den matchade prestandan hos GPT-4-Turbo, men till ett pris av endast 1 yuan/miljon input, vilket var 1/70 av GPT-4-Turbo. Vid den tiden blev DeepSeek en välkänd "prisslaktare" i branschen, och sedan följde vanliga aktörer som Zhicheng, ByteDance och Alibaba ... och andra stora aktörer snabbt efter och sänkte sina priser. Det var också ungefär vid den tiden som det blev en ny omgång av GPT-förbud och ett stort antal AI-applikationer började testa inhemska modeller för första gången.
I juli 2024 accepterade DeepSeek-grundaren Liang Wenfeng återigen en intervju med Dark Surge och svarade direkt på priskriget: "Mycket oväntat. Jag förväntade mig inte att priset skulle göra alla så känsliga. Vi gör bara saker i vår egen takt och prissätter sedan baserat på kostnaden. Vår princip är att inte förlora pengar eller göra orimliga vinster. Det här priset är också något över kostnad med en liten vinst."
Man kan se att DeepSeek, till skillnad från många konkurrenter som betalar ur egen ficka för att subventionera, är lönsamt till detta pris.
Vissa människor kanske säger: prissänkningar är som att råna användare, och detta är vanligtvis fallet i priskrig i Internet-eran
Som svar på detta svarade Liang Wenfeng också: "Att råna användare är inte vårt huvudmål. Vi sänkte priset eftersom kostnaden har sjunkit i takt med att vi utforskar strukturen för nästa generations modell, och eftersom vi anser att både API:et och AI:n bör vara överkomliga och tillgängliga för alla."
Så fortsätter historien med Liang Wenfengs idealism.
Den 4 juli 2024 gick DeepSeek API:et online. Priset för 128K kontext förblev oförändrat. Inferenskostnaden för en modell är nära relaterad till kontextens längd. Därför har många modeller strikta begränsningar för denna längd: den första versionen av GPT-3.5 har bara 4k kontext.
Vid den här tiden ökade DeepSeek kontextlängden från tidigare 32k till 128k samtidigt som priset hölls oförändrat (1 yuan per miljon input tokens och 2 yuan per miljon output tokens).
På Den 10 juli 2024 tillkännagavs resultaten från världens första AI-olympiad (AIMO), och DeepSeekMath-modellen blev det gemensamma valet för topplagen. De vinnande Top 4-lagen valde alla DeepSeekMath-7B som bas för sina modeller och uppnådde imponerande resultat i tävlingen.
På Den 18 juli 2024 toppade DeepSeek-V2 listan över modeller med öppen källkod på Chatbot Arena, överträffar stjärnmodeller som Llama3-70B, Qwen2-72B, Nemotron-4-340B och Gemma2-27B och blir ett nytt riktmärke för stora modeller med öppen källkod.
I Juli 2024, DeepSeek fortsatte att rekrytera talanger och rekryterat topptalanger från hela världen inom flera områden, inklusive AI-algoritmer, AI Infra, AI Tutor och AI-produkter, för att förbereda för framtida teknisk innovation och produktutveckling.
På 26 juli 2024 inledde DeepSeek API en viktig uppgradering, som fullt ut stöder en serie avancerade funktioner som överskrivning, FIM (Fill-in-the-Middle) -komplettering, funktionsanrop och JSON-utmatning. FIM-funktionen är mycket intressant: användaren anger början och slutet, och den stora modellen fyller i mitten, vilket är mycket lämpligt för programmeringsprocessen för att fylla i den exakta funktionskoden. Ta skrivandet av Fibonacci-sekvensen som ett exempel:
På 2 augusti 2024 introducerade DeepSeek innovativt hårddiskcachningsteknik, vilket sänkte API-priserna till anklarna. Tidigare var API-priserna endast ¥ 1 per miljon tokens. Nu, när en cache-träff görs, sjunker dock API-avgiften direkt till ¥ 0,1.
Denna funktion är mycket praktisk när det gäller kontinuerliga konversationer och batchbearbetning.
På 16 augusti 2024 släppte DeepSeek sin matematiska modell för bevis av teorem DeepSeek-Prover-V1.5 som öppen källkod, vilket överträffade många välkända modeller med öppen källkod i tester av matematiska teorembevis på gymnasie- och högskolenivå.
På Den 6 september 2024 släppte DeepSeek fusionsmodellen DeepSeek-V2.5. Tidigare hade DeepSeek huvudsakligen två modeller: Chat-modellen som fokuserade på allmänna konversationsfärdigheter och Code-modellen som fokuserade på färdigheter i kodbearbetning. Den här gången har de två modellerna kombinerats till en, uppgraderats till DeepSeek-V2.5, som bättre anpassar sig till mänskliga preferenser och har också uppnått betydande förbättringar i skrivuppgifter, kommandoföljning och andra aspekter.
På 18 september 2024 var DeepSeek-V2.5 återigen på den senaste LMSYS-listan och ledde de inhemska modellerna och sätter nya rekord för inhemska modeller i flera individuella förmågor.
På 20 november 2024, DeepSeek släppte DeepSeek-R1-Lite på den officiella webbplatsen. Detta är en inferensmodell som är jämförbar med o1-preview och som också ger en tillräcklig mängd syntetiska data för efterträning av V3.
På Den 10 december 2024 inledde DeepSeek V2-serien sin final med lanseringen av den sista finjusterade versionen av DeepSeek-V2.5-1210. Den här versionen förbättrar flera förmågor, inklusive matematik, kodning, skrivning och rollspel genom efterträning.
Med den här versionen öppnade DeepSeek-webbappen också upp nätverkssökfunktionen.
På Den 13 december 2024 gjorde DeepSeek ytterligare ett genombrott inom multimodalitet och släppte den multimodala stora modellen DeepSeek-VL2 med öppen källkod. DeepSeek-VL2 använder MoE-arkitekturen, vilket avsevärt förbättrar dess visuella kapacitet. Den finns tillgänglig i tre storlekar: 3B, 16B och 27B, och har en fördel i alla mätvärden.
På Den 26 december 2024 släpptes DeepSeek-V3 med öppen källkod: den beräknade utbildningskostnaden var bara 5,5 miljoner US-dollar. DeepSeek-V3 jämförde prestandan hos ledande modeller med sluten källkod utomlands och förbättrade genereringshastigheten avsevärt.
Prissättningen av API-tjänsterna justerades, men samtidigt infördes en 45-dagars förmånlig provperiod för den nya modellen.
Den 15 januari 2025 släpptes den officiella DeepSeek-appen officiellt och lanserades fullt ut på de stora appmarknaderna för iOS/Android.
Den 20 januari 2025, nära det kinesiska nyåret, släpptes DeepSeek-R1-inferensmodellen officiellt och open-sourced. DeepSeek-R1 anpassade sin prestanda helt till den officiella OpenAI o1-utgåvan och öppnade upp tankekedjans utgångsfunktion. Samtidigt meddelade DeepSeek också att modellens open source-licens skulle ändras till MIT-licensen, och användaravtalet skulle uttryckligen tillåta "modelldestillation", vilket ytterligare omfattar öppen källkod och främjar teknikdelning.
Senare blev denna modell mycket populär och inledde en ny era
Som ett resultat, från och med den 27 januari 2025, överträffade DeepSeek-appen framgångsrikt ChatGPT och toppade listan över gratis nedladdning av appar på US iOS App Store och blev en fenomenal AI-app.
Den 27 januari 2025, kl. 01.00 på nyårsafton, släpptes DeepSeek Janus-Pro som öppen källkod. Detta är en multimodal modell uppkallad efter den tvåansiktade guden Janus i den antika romerska mytologin: den vänder sig både mot det förflutna och mot framtiden. Detta representerar också modellens två förmågor - visuell förståelse och bildgenerering - och dess dominans i flera rankningar.
DeepSeek:s explosiva popularitet utlöste omedelbart en global teknisk chockvåg, som till och med direkt fick NVIDIA:s aktiekurs att rasa 18% och marknadsvärdet på den globala tekniska aktiemarknaden att förångas med cirka 1 biljon US-dollar. Wall Street och teknikmedier utropade att DeepSeek:s uppgång undergräver det globala AI-industrilandskapet och utgör en aldrig tidigare skådad utmaning för amerikanska teknikjättar.
DeepSeek:s framgångar har också lett till stor internationell uppmärksamhet och hetsiga diskussioner om Kinas AI-tekniska innovationsförmåga. USA:s president Donald Trump berömde i en sällsynt offentlig kommentar DeepSeek:s uppgång som "positiv" och sa att det var en "väckarklocka" för USA. Microsofts VD Satya Nadella och OpenAI:s VD Sam Altman berömde också DeepSeek och kallade dess teknik för "mycket imponerande".
Naturligtvis måste vi också förstå att deras beröm delvis är ett erkännande av DeepSeek:s styrka och delvis en återspegling av deras egna motiv. Till exempel, samtidigt som Anthropic erkänner DeepSeek:s prestationer, uppmanar de också den amerikanska regeringen att stärka chipkontrollerna i Kina.
Anthropic CEO publicerar en artikel på 10.000 ord: DeepSeek:s uppgång innebär att Vita huset bör intensifiera kontrollerna
Sammanfattning och framtidsutsikter
När man ser tillbaka på DeepSeek:s två senaste år har det verkligen varit ett "kinesiskt mirakel": från en okänd startup till den "mystiska östliga kraften" som nu lyser på den globala AI-scenen, har DeepSeek skrivit det ena "omöjliga" efter det andra med sin styrka och innovation.
Den djupare innebörden av denna tekniska expedition har för länge sedan överskridit omfattningen av kommersiell konkurrens. DeepSeek har meddelat följande med fakta inom det strategiska området artificiell intelligens som rör framtiden är kinesiska företag fullt kapabla att klättra upp till kärnteknikens höjder.
Trumps "alarmklocka" och den dolda rädslan för Anthropic bekräftar just vikten av Kinas AI-kapacitet: Kina kan inte bara rida på vågorna, utan omformar också tidvattnets riktning
Deepseek Produkt frigöring milstolpar
- 2 november 2023: DeepSeek kodare stor modell
- 29 november 2023: DeepSeek LLM 67B Universalmodell
- 18 december 2023: DreamCraft3D 3D-modell
- 11 januari 2024: DeepSeekMoE MoE stor modell
- 5 februari 2024: DeepSeekMath Matematisk resonemangsmodell
- 11 mars 2024: DeepSeek-VL Multimodal stor modell
- Maj 2024: DeepSeek-V2 MoE allmän modell
- 17 juni 2024: DeepSeek kodare V2 kodmodell
- 6 september 2024: DeepSeek-V2.5 sammanslagning av allmänna kompetensmodeller och kodkompetensmodeller
- 13 december 2024: DeepSeek-VL2 multimodal MoE-modell
- 26 december 2024: DeepSeek-V3 ny serie av stora modeller för allmänna ändamål
- 20 januari 2025: DeepSeek-R1 inferensmodell
- 20 januari 2025: DeepSeek:s officiella app (iOS & Android)
- 27 januari 2025: DeepSeek Janus-Pro multimodal modell