I fremtiden vil der være mere og mere hardcore innovation. Det er måske ikke let at forstå nu, fordi hele samfundsgruppen skal opdrages af fakta. Når dette samfund giver folk, der innoverer hardcore, mulighed for at få succes, vil den kollektive tankegang ændre sig. Vi har bare brug for en masse fakta og en proces. - Liang Wenfeng, grundlægger af DeepSeek
I de seneste dage er DeepSeek eksploderet over hele verden, men fordi virksomheden er så lavmælt og ikke er kommet med nogen udmeldinger, ved offentligheden meget lidt om denne teknologivirksomhed med stort potentiale - uanset om det drejer sig om dens grundlæggelsesbaggrund, forretningsområde eller produktlayout.
Da jeg var færdig med at sortere alle materialerne, skrev jeg denne artikel
Hvad er baggrunden for de nuværende AI-spillere, hvad har de gang i, og hvem rekrutterer de?
og nok den mest komplette historiske oversigt over DeepSeek.
På denne tid sidste år kom en ven fra Magic Cube Quant til mig og spurgte: "Vil du bygge en stor model i Kina?" Og jeg brugte bare eftermiddagen på at drikke kaffe. Som forventet afhænger livet stadig af valg.
Den Magic Cube Quant nævnt her er investoreneller moderselskab for DeepSeek.
Den såkaldte "quant" er en investeringsinstitution, der ikke træffer beslutninger ved hjælp af menneskelig kraft, men ved hjælp af algoritmer. Etableringen af Quant Fantasy er ikke lang og startede i 2015. I 2021, da den var seks år gammel, havde Quant Fantasys kapitalforvaltning oversteget 100 milliarder, og den blev hyldet som en af Kinas "fire store kvantekonger".
Grundlæggeren af Fantasy Square, Liang Wenfeng, som også er grundlæggeren af DeepSeek, er en "ikke-mainstream" finansiel leder født i 1980'erne: Han har ingen oversøisk studieerfaring, er ikke vinder af en olympisk konkurrence og er uddannet fra Institut for Elektronik på Zhejiang Universitet med kunstig intelligens som hovedfag. Han er en indfødt teknologiekspert, der agerer på en lavmælt måde og "læser papirer, skriver kode og deltager i gruppediskussioner" hver dag.
Liang Wenfeng har ikke vaner som en traditionel virksomhedsejer, men er mere som en ren "tech-nørd".. Mange insidere i branchen og DeepSeek-forskere har givet Liang Wenfeng ekstremt stor ros: "En person, der både har stærke evner inden for infrastruktur og modelforskning, og som også kan mobilisere ressourcer", "en person, der kan foretage nøjagtige vurderinger fra et højt niveau, men som også udmærker sig i detaljerne i forhold til frontlinjeforskere", og som også har "en skræmmende indlæringsevne".
Længe før DeepSeek blev grundlagt, var Huanfang allerede begyndt at lægge langsigtede planer inden for AI-industrien.. I maj 2023 nævnte Liang Wenfeng i et interview med Darksurge: "Efter at OpenAI udgav GPT3 i 2020, er retningen for AI-udvikling blevet meget klar, og computerkraft vil blive et nøgleelement; men selv i 2021, da vi investerede i konstruktionen af Firefly 2, kunne de fleste mennesker stadig ikke forstå det."
Baseret på denne vurdering begyndte Huanfang at opbygge sin egen computerinfrastruktur. "Fra det tidligste 1 kort til 100 kort i 2015, 1.000 kort i 2019 og derefter 10.000 kort skete denne proces gradvist. Før et par hundrede kort blev vi hostet i en IDC. Da skalaen blev større, kunne hosting ikke længere opfylde kravene, så vi begyndte at bygge vores eget computerrum."
Senere rapporterede Finance Eleven: "Der er ikke mere end fem indenlandske virksomheder med mere end 10.000 GPU'er, og ud over et par store producenter omfatter de også et kvantitativt fondsselskab ved navn Magic Cube." Det antages generelt, at 10.000 Nvidia A100-chips er grænsen for computerkraft til at træne store modeller.
I et tidligere interview nævnte Liang Wenfeng også en interessant pointe: Mange vil tro, at der ligger en ukendt forretningslogik bag, men faktisk er det primært drevet af nysgerrighed.
DeepSeek's første møde
I et interview med Darksurge i maj 2023, da han blev spurgt "For ikke så længe siden annoncerede Huanfang sin beslutning om at lave store modeller, hvorfor skulle en kvantitativ fond gøre sådan noget?"
Liang Wenfengs svar var rungende: "Vores beslutning om at bygge en stor model har intet at gøre med kvantificering eller økonomi. Vi har oprettet en ny virksomhed ved navn DeepSeek til at gøre dette. Mange af de vigtigste medlemmer af teamet hos Mianfang er involveret i kunstig intelligens. På det tidspunkt prøvede vi mange scenarier og besluttede os til sidst for finans, som er komplekst nok. Generel kunstig intelligens er måske noget af det næst sværeste at opnå, så for os er det et spørgsmål om, hvordan vi skal gøre det, ikke hvorfor.
Ikke drevet af kommercielle interesser eller jagten på markedstendenser, men simpelthen drevet af et ønske om at udforske selve AGI-teknologien og en vedholdende stræben efter "det vigtigste og sværeste". Navnet "DeepSeek" blev officielt bekræftet i maj 2023.. Den 17. juli 2023 blev "Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Co., Ltd." stiftet.
På Den 2. november 2023 leverede DeepSeek sit første svar: DeepSeek Coder, en stor model af open source-kode. Denne model omfatter flere størrelser som 1B, 7B og 33B. Open source-indholdet omfatter basismodellen og kommandotuningsmodellen.
På det tidspunkt var Metas CodeLlama branchens benchmark blandt open source-modellerne. Men da DeepSeek Coder blev udgivet, viste den en mangefacetteret førerposition i forhold til CodeLlama: I kodegenerering var HumanEval 9,3% foran, MBPP var 10,8% foran, og DS-1000 var 5,9% foran.
Husk på, at DeepSeek Coder er en 7B-model, mens CodeLlama er en 34B-model. Desuden har DeepSeek Coder-modellen, efter at være blevet tunet med instruktioner, overgået GPT3.5-Turbo.
Det er ikke kun kodegenereringen, der er imponerende, men DeepSeek Coder viser også sine muskler inden for matematik og ræsonnement.
Tre dage senere, den 5. november 2023, frigav DeepSeek en stor mængde rekrutteringsindhold via sin offentlige WeChat-konto, herunder stillinger som AGI-stor modelpraktikant, dataekspert, dataarkitekturtalent, senior dataindsamlingsingeniør, dyb læringsforsknings- og udviklingsingeniør osv. og begyndte aktivt at udvide teamet.
Som Liang Wenfeng sagde, DeepSeek's "must-have-krav" til talentrekruttering er "passion og solide grundlæggende færdigheder".og han understregede, at "Innovation kræver så lidt indblanding og styring som muligt, så alle har frihed til at begå fejl og prøve nye ting. Innovation kommer ofte indefra, ikke fra bevidste arrangementer, og den kommer bestemt ikke fra undervisning."
Modeller frigives ofte, og open source praktiseres
Efter at DeepSeek Coder havde slået igennem, vendte DeepSeek sin opmærksomhed mod den vigtigste slagmark: generelle sprogmodeller.
På Den 29. november 2023 udgav DeepSeek sin første store sprogmodel til generelle formål, DeepSeek LLM 67B. Denne model er benchmarket mod Metas LLaMA2 70B-model på samme niveau og har klaret sig bedre i næsten 20 offentlige evalueringslister på kinesisk og engelsk. Især er dens ræsonnement, matematik og programmeringsevner (f.eks. HumanEval, MATH, CEval og CMMLU) fremragende.
DeepSeek LLM 67B har også valgt open source-vejen og støtter kommerciel brug. For yderligere at demonstrere sin oprigtighed og beslutsomhed i forhold til open source har DeepSeek som noget helt nyt samtidig åbnet to modeller i forskellige skalaer, 7B og 67B, og endda offentliggjort de ni kontrolpunkter, der blev genereret under modeltræningsprocessen, så forskerne kunne downloade og bruge dem. Denne form for operation, som svarer til at "undervise i alt", er ekstremt sjælden i hele open source-samfundet.
For at kunne evaluere DeepSeek LLM 67B's sande evner på en mere omfattende og objektiv måde har DeepSeek-forskerteamet også omhyggeligt designet en række "nye spørgsmål" til "stresstest". Disse spørgsmål dækker tests på højt niveau med høj diskrimination, såsom ungarske matematikeksamensspørgsmål i gymnasiet, Google-kommandoer efter evalueringssæt og spørgsmål fra LeetCodes ugentlige konkurrence. Testresultaterne var opmuntrende. DeepSeek LLM 67B viste et fantastisk potentiale med hensyn til dens evne til at generalisere ud over prøven, og dens samlede præstation var endda tæt på den dengang mest avancerede GPT-4-model.
På 18. december 2023 åbnede DeepSeek kildekoden til Vincent 3D-modellen DreamCraft3DDen kan generere 3D-modeller af høj kvalitet ud fra en sætning og dermed tage springet fra 2D-plan til 3D-rum i AIGC. Hvis brugeren f.eks. indtaster: "Løb gennem skoven, et sjovt hybridbillede af et grisehoved og abekongens krop", kan DreamCraft3D producere indhold af høj kvalitet:
I princippet udfylder modellen først Venn-diagrammet og supplerer derefter den overordnede geometriske struktur baseret på 2D-konceptkortet:
I den efterfølgende subjektive evaluering sagde mere end 90% af brugerne, at DreamCraft3D havde en fordel med hensyn til produktionskvalitet sammenlignet med tidligere produktionsmetoder.
Den 7. januar 2024 udgav DeepSeek den tekniske rapport DeepSeek LLM 67B. Denne rapport på over 40 sider indeholder mange detaljer om DeepSeek LLM 67B, herunder selvbyggede skaleringslove, komplette praktiske detaljer om modeltilpasning og et omfattende system til evaluering af AGI-evner.
På Den 11. januar 2024 open-sourcede DeepSeek den første store MoE-model (mixed expert architecture) i Kina, DeepSeekMoE: en helt ny arkitektur, der understøtter kinesisk og engelsk og er gratis til kommerciel brug. MoE-arkitekturen blev på det tidspunkt generelt anset for at være nøglen til OpenAI GPT-4's ydelsesgennembrud. DeepSeek's selvudviklede MoE-arkitektur er førende i flere skalaer som 2B, 16B og 145B, og dens beregningsmæssige egenskaber er også meget prisværdige.
Den 25. januar 2024 udgav DeepSeek den tekniske rapport om DeepSeek Coder. Denne rapport giver en omfattende teknisk analyse af dens træningsdata, træningsmetoder og modelydelse. I denne rapport kan vi se, at den for første gang har konstrueret kodedata på lagerniveau og brugt topologisk sortering til at analysere afhængighederne mellem filer, hvilket markant forbedrer evnen til at forstå langdistance-krydsfiler. Med hensyn til træningsmetoder blev Fill-In-Middle-metoden tilføjet, hvilket i høj grad forbedrede evnen til kodefærdiggørelse.
Den 30. januar 2024 blev den åbne DeepSeek-platform officielt lanceret, og DeepSeek Large Model API-tjenesten begyndte at blive testet. Registrer dig for at få 10 millioner tokens gratis. Grænsefladen er kompatibel med OpenAI API-grænsefladen, og begge Chat/Coder-dualmodeller er tilgængelige. På dette tidspunkt begyndte DeepSeek at udforske vejen til en teknologitjenesteudbyder ud over teknologiforskning og -udvikling.
På 5. februar 2024 udgav DeepSeek endnu en vertikal domænemodel, DeepSeekMathen matematisk ræsonneringsmodel. Denne model har kun 7B parametre, men dens matematiske ræsonnementsevne er tæt på GPT-4's. På den autoritative MATH-benchmarkliste overgår den mængden og klarer sig bedre end en række open source-modeller med parameterstørrelser på mellem 30B og 70B. Udgivelsen af DeepSeekMath demonstrerer fuldt ud DeepSeek's tekniske styrke og fremadrettede layout inden for forskning og udvikling af vertikal og dets fremadrettede layout inden for modelforskning og -udvikling.
På Den 28. februar 2024 udgav DeepSeek en FAQ om open source-politik for yderligere at afhjælpe udviklernes bekymringer over at bruge DeepSeek's open source-modeller., som giver detaljerede svar på ofte stillede spørgsmål som f.eks. model for open source-licenser og begrænsninger for kommerciel brug. DeepSeek omfavner open source med en mere gennemsigtig og åben holdning:
På 11. marts 2024 udgav DeepSeek den multimodale store model DeepSeek-VL. Dette er DeepSeek's første forsøg på multimodal AI-teknologi. Modellen er 7B og 1,3B stor, og modellen og de tekniske artikler er open source samtidig.
På Den 20. marts 2024 blev Huanfang AI & DeepSeek igen inviteret til at deltage i NVIDIA GTC 2024-konferencen, og grundlægger Liang Wenfeng holdt en teknisk hovedtale. med titlen "Harmoni i mangfoldighed: Aligning and Decoupling the Values of Large Language Models". Emner som "konflikten mellem en stor model med én værdi og et pluralistisk samfund og kultur", "afkobling af store modellers værditilpasning" og "de flerdimensionelle udfordringer ved afkoblet værditilpasning" blev diskuteret. Dette demonstrerede DeepSeek's humanistiske omsorg og sociale ansvar for AI-udvikling ud over den teknologiske forskning og udvikling.
I marts 2024, DeepSeek API lancerede officielt betalte tjenester, som fuldstændig antændte optakten til priskrigen på det kinesiske marked for store modeller: 1 yuan pr. million input-tokens og 2 yuan pr. million output-tokens.
I 2024 bestod DeepSeek med succes rekorden for store modeller i Kina og fjernede de politiske forhindringer for den fulde åbning af sine API-tjenester.
I maj 2024 blev DeepSeek-V2, en open source generel MoE stor model, udgivet, og priskrigen begyndte officielt. DeepSeek-V2 bruger MLA (multi-head latent attention mechanism), som reducerer modellens hukommelsesfodaftryk til 5%-13% af den traditionelle MHA. Samtidig har den også uafhængigt udviklet DeepSeek MoE Sparse sparse-strukturen, som i høj grad reducerer modellens beregningskompleksitet. Takket være dette opretholder modellen en API-pris på "1 yuan/million inputs og 2 yuan/million outputs".
DeepSeek har haft en enorm indflydelse. I den forbindelse mener chefanalytikeren hos SemiAnalysis, at DeepSeek V2-papiret "måske er et af de bedste i år". På samme måde mener Andrew Carr, en tidligere OpenAI-medarbejder, at artiklen er "fuld af fantastisk visdom", og han har anvendt dens træningsindstillinger i sin egen model.
Det skal bemærkes, at dette er en model, der benchmarker GPT-4-Turbo, og API-prisen er kun 1/70 af sidstnævnte.
Den juni 17, 2024, gjorde DeepSeek endnu en gang et stort fremstød og frigav DeepSeek Coder V2-kodemodellen open source og hævdede, at dens kodefunktioner overgik GPT-4-Turbo, den mest avancerede closed source-model på det tidspunkt. DeepSeek Coder V2 fortsætter DeepSeek's konsekvente open source-strategi, hvor alle modeller, koder og artikler er open source, og der leveres to versioner, 236B og 16B. DeepSeek C oder V2's API-tjenester er også tilgængelige online, og prisen er fortsat "1 yuan/million inputs og 2 yuan/million outputs".
På 21. juni 2024, DeepSeek Coder understøttede online kodeudførelse. Samme dag blev Claude3.5 Sonnet udgivet med den nye Artifacts-funktion, som automatisk genererer kode og kører den direkte i browseren. Samme dag lancerede kodeassistenten på DeepSeek-webstedet også den samme funktion: generer kode og kør den med et enkelt klik.
Lad os se på de vigtigste begivenheder i denne periode:
Kontinuerlige gennembrud, der tiltrækker global opmærksomhed
I maj 2024 blev DeepSeek berømt fra den ene dag til den anden ved at udgive DeepSeek V2, en open source-model baseret på MoE. Den havde samme ydeevne som GPT-4-Turbo, men til en pris på kun 1 yuan/million input, hvilket var 1/70 af GPT-4-Turbo. På det tidspunkt blev DeepSeek en velkendt "prisslagter" i branchen, og derefter fulgte mainstream-aktører som Zhicheng, ByteDance og Alibaba ... og andre store aktører hurtigt efter og sænkede deres priser. Det var også på det tidspunkt, at der kom endnu en runde med GPT-forbud, og et stort antal AI-applikationer begyndte at afprøve indenlandske modeller for første gang.
I juli 2024 sagde DeepSeek's grundlægger Liang Wenfeng igen ja til et interview med Dark Surge og svarede direkte på priskrigen: "Meget uventet. Jeg havde ikke forventet, at prisen ville gøre alle så følsomme. Vi gør bare tingene i vores eget tempo og sætter prisen ud fra omkostningerne. Vores princip er ikke at tabe penge eller lave ublu overskud. Denne pris er også lidt over omkostningerne med en lille fortjeneste."
Man kan se, at i modsætning til mange konkurrenter, der betaler af egen lomme for at subsidiere, er DeepSeek rentabel til denne pris.
Nogle mennesker vil måske sige, at prisnedsættelser er som at stjæle fra brugerne, og det er normalt tilfældet i priskrige i internetæraen.
Som svar svarede Liang Wenfeng også: "At stjæle fra brugerne er ikke vores hovedmål. Vi har sænket prisen, fordi omkostningerne på den ene side er faldet i takt med, at vi udforsker strukturen i næste generations model, og på den anden side mener vi, at både API'en og AI'en skal være overkommelig og tilgængelig for alle."
Så historien fortsætter med Liang Wenfengs idealisme.
Den 4. juli 2024 gik DeepSeek API'en online. Prisen for 128K kontekst forblev uændret. Inferensomkostningerne for en model er tæt forbundet med længden af konteksten. Derfor har mange modeller strenge begrænsninger på denne længde: Den første version af GPT-3.5 har kun 4k kontekst.
På dette tidspunkt øgede DeepSeek kontekstlængden fra de tidligere 32k til 128k, mens prisen forblev uændret (1 yuan pr. million input-tokens og 2 yuan pr. million output-tokens).
På Den 10. juli 2024 blev resultaterne af verdens første AI-olympiade (AIMO) offentliggjort, og DeepSeekMath-modellen blev det fælles valg for topholdene.. De vindende Top 4-hold valgte alle DeepSeekMath-7B som grundlag for deres modeller og opnåede imponerende resultater i konkurrencen.
På 18. juli 2024 toppede DeepSeek-V2 listen over open source-modeller på Chatbot Arena, overgår stjernemodeller som Llama3-70B, Qwen2-72B, Nemotron-4-340B og Gemma2-27B og bliver et nyt benchmark for store open source-modeller.
I Juli 2024 fortsatte DeepSeek med at rekruttere talenter og rekrutteret toptalenter fra hele verden inden for flere områder, herunder AI-algoritmer, AI Infra, AI Tutor og AI-produkter, for at forberede sig på fremtidig teknologisk innovation og produktudvikling.
På 26. juli 2024 indledte DeepSeek API en vigtig opgradering, der fuldt ud understøtter en række avancerede funktioner såsom overskrivning, FIM (Fill-in-the-Middle)-afslutning, funktionskald og JSON-output. FIM-funktionen er meget interessant: Brugeren giver begyndelsen og slutningen, og den store model udfylder midten, hvilket er meget velegnet til programmeringsprocessen for at udfylde den nøjagtige funktionskode. Tag at skrive Fibonacci-sekvensen som et eksempel:
På Den 2. august 2024 introducerede DeepSeek en innovativ harddisk-caching-teknologi, der sænkede API-priserne til anklerne. Tidligere var API-priserne kun ¥1 pr. million tokens. Men nu falder API-gebyret direkte til 0,1 ¥, når der er lavet et cache-hit.
Denne funktion er meget praktisk, når der er tale om kontinuerlige samtaler og batch-processing-opgaver.
På 16. august 2024 udgav DeepSeek sin matematiske sætningsprøvningsmodel DeepSeek-Prover-V1.5 som open source, som overgik mange kendte open source-modeller i tests af matematiske sætninger på gymnasier og universiteter.
På Den 6. september 2024 udgav DeepSeek fusionsmodellen DeepSeek-V2.5. Tidligere havde DeepSeek hovedsageligt to modeller: Chat-modellen fokuserede på generelle samtalefærdigheder, og kodemodellen fokuserede på kodebehandlingsfærdigheder. Denne gang er de to modeller blevet kombineret til én, opgraderet til DeepSeek-V2.5, som bedre stemmer overens med menneskelige præferencer og også har opnået betydelige forbedringer i skriveopgaver, kommandofølgen og andre aspekter.
På 18. september 2024 var DeepSeek-V2.5 igen på den seneste LMSYS-liste og førte de indenlandske modeller an. og sætter nye bedste resultater for indenlandske modeller i flere individuelle evner.
På 20. november 2024 udgav DeepSeek DeepSeek-R1-Lite på den officielle hjemmeside. Dette er en inferensmodel, der kan sammenlignes med o1-preview, og som også giver en tilstrækkelig mængde syntetiske data til eftertræning af V3.
På Den 10. december 2024 indledte DeepSeek V2-serien sin finale med udgivelsen af den sidste finjusterede version af DeepSeek-V2.5-1210. Denne version forbedrer omfattende flere evner, herunder matematik, kodning, skrivning og rollespil gennem eftertræning.
Med ankomsten af denne version åbnede DeepSeek-webappen også op for netværkssøgningsfunktionen.
På Den 13. december 2024 gjorde DeepSeek endnu et gennembrud inden for multimodalitet og udgav den store open source multimodale model DeepSeek-VL2. DeepSeek-VL2 anvender MoE-arkitekturen, som forbedrer dens visuelle egenskaber betydeligt. Den fås i tre størrelser: 3B, 16B og 27B, og har en fordel i alle målinger.
På Den 26. december 2024 blev DeepSeek-V3 frigivet med open source: de anslåede uddannelsesomkostninger var kun 5,5 millioner amerikanske dollars. DeepSeek-V3 benchmarkede fuldt ud ydeevnen for førende closed source-modeller i udlandet og forbedrede genereringshastigheden betydeligt.
Priserne på API-tjenesterne blev justeret, men samtidig blev der indført en 45-dages prøveperiode med fortrinsret for den nye model.
Den 15. januar 2025 blev den officielle DeepSeek-app officielt udgivet og fuldt lanceret på de store iOS/Android-app-markeder.
Den 20. januar 2025, tæt på det kinesiske nytår, blev DeepSeek-R1-inferensmodellen officielt frigivet og open-sourced. DeepSeek-R1 tilpassede sin ydeevne fuldt ud til den officielle OpenAI o1-udgivelse og åbnede op for tankekædens outputfunktion. Samtidig meddelte DeepSeek også, at modellens open source-licens ville blive ændret til MIT-licensen, og at brugeraftalen udtrykkeligt ville tillade "modeldestillation", hvilket yderligere ville omfavne open source og fremme teknologideling.
Senere blev denne model meget populær og indvarslede en ny æra
Som følge heraf overgik DeepSeek-appen den 27. januar 2025 med succes ChatGPT og toppede listen over gratis app-downloads i den amerikanske iOS App Store og blev en fænomenal AI-app.
Den 27. januar 2025 kl. 1:00 nytårsaften blev DeepSeek Janus-Pro frigivet som open source. Dette er en multimodal model, der er opkaldt efter guden Janus med de to ansigter i den gamle romerske mytologi: Den vender sig både mod fortiden og fremtiden. Dette repræsenterer også modellens to evner - visuel forståelse og billedgenerering - og dens dominans på flere ranglister.
DeepSeek's eksplosive popularitet udløste straks en global teknologisk chokbølge, der endda direkte fik NVIDIA's aktiekurs til at styrtdykke 18%, og markedsværdien af det globale teknologimarked til at fordampe med omkring 1 billion amerikanske dollars. Wall Street og teknologimedier udbrød, at DeepSeek's fremgang undergraver det globale AI-industrilandskab og udgør en hidtil uset udfordring for amerikanske teknologigiganter.
DeepSeek's succes har også udløst stor international opmærksomhed og ophedede diskussioner om Kinas AI-teknologiske innovationsevne. USA's præsident Donald Trump roste i en sjælden offentlig kommentar DeepSeek's fremgang som "positiv" og sagde, at det var et "wake-up call" for USA. Microsofts CEO Satya Nadella og OpenAI's CEO Sam Altman roste også DeepSeek og kaldte dens teknologi "meget imponerende".
Vi må selvfølgelig også forstå, at deres ros til dels er en anerkendelse af DeepSeek's styrke og til dels en afspejling af deres egne motiver. For eksempel anerkender Anthropic DeepSeek's resultater, men opfordrer også den amerikanske regering til at styrke chipkontrollen i Kina.
Anthropic CEO udgiver en artikel på 10.000 ord: DeepSeek's fremgang betyder, at Det Hvide Hus bør intensivere kontrollen
Sammenfatning og fremtidsudsigter
Når man ser tilbage på DeepSeek's sidste to år, har det virkelig været et "kinesisk mirakel": Fra en ukendt startup til den "mystiske østlige magt", der nu skinner på den globale AI-scene, har DeepSeek skrevet det ene "umulige" efter det andet med sin styrke og innovation.
Den dybere mening med denne teknologiske ekspedition har for længst overskredet omfanget af den kommercielle konkurrence. DeepSeek har annonceret med fakta, at På det strategiske område kunstig intelligens, der vedrører fremtiden, er kinesiske virksomheder fuldt ud i stand til at klatre til højderne af kerneteknologi.
Trumps "alarmklokke" og den skjulte frygt for Anthropic bekræfter netop vigtigheden af Kinas AI-kapacitet: Ikke alene kan den ride på bølgerne, men den omformer også tidevandets retning.
Deepseek produkt frigivelse milepæle
- 2. november 2023: DeepSeek-koder stor model
- 29. november 2023: DeepSeek LLM 67B Universalmodel
- Den 18. december 2023: DreamCraft3D 3D-model
- Den 11. januar 2024: DeepSeekMoE MoE stor model
- Den 5. februar 2024: DeepSeekMath Matematisk ræsonneringsmodel
- Den 11. marts 2024: DeepSeek-VL Multimodal stor model
- Maj 2024: DeepSeek-V2 MoE generel model
- 17. juni 2024: DeepSeek Coder V2 kodemodel
- Den 6. september 2024: DeepSeek-V2.5 sammensmeltning af generelle og kodede kompetencemodeller
- Den 13. december 2024: DeepSeek-VL2 multimodal MoE-model
- Den 26. december 2024: DeepSeek-V3 ny serie af store modeller til generelle formål
- 20. januar 2025: DeepSeek-R1-inferensmodel
- 20. januar 2025: DeepSeek's officielle app (iOS & Android)
- 27. januar 2025: DeepSeek Janus-Pro multimodal model