In de toekomst zal er steeds meer hardcore innovatie komen. Het is nu misschien niet zo makkelijk te begrijpen, omdat de hele sociale groep moet worden opgevoed met feiten. Als deze maatschappij mensen die hardcore innoveren succesvol laat zijn, zal de collectieve denkwijze veranderen. We hebben alleen een aantal feiten en een proces nodig. - Liang Wenfeng, oprichter van DeepSeek

In de afgelopen dagen is DeepSeek over de hele wereld geëxplodeerd, maar omdat het bedrijf zo bescheiden is en geen aankondigingen heeft gedaan, weet het publiek heel weinig over dit technologiebedrijf met een groot potentieel - of het nu gaat om de oprichtingsachtergrond, de zakelijke reikwijdte of de productindeling.

Nadat ik klaar was met het sorteren van alle materialen, schreef ik dit artikel

Wat is de achtergrond van de huidige AI-spelers, wat zijn ze van plan en wie werven ze aan?

en waarschijnlijk het meest complete historische overzicht van DeepSeek.

Vorig jaar rond deze tijd kwam een vriend van Magic Cube Quant naar me toe en vroeg: "Wil je een groot model bouwen in China?". En ik bracht de middag door met koffiedrinken. Zoals verwacht hangt het leven nog steeds af van keuzes.

De Magic Cube Quant is de investeerderof moedermaatschappij van DeepSeek.

De zogenaamde "quant" is een beleggingsinstelling die beslissingen niet neemt op basis van menselijke kracht, maar op basis van algoritmes. De oprichting van Quant Fantasy duurt niet lang, vanaf 2015. In 2021, toen het zes jaar oud was, had de vermogensbeheerschaal van Quant Fantasy de 100 miljard overschreden en werd het geprezen als een van China's "vier grote quant-koningen".

De oprichter van Fantasy Square, Liang Wenfeng, is ook de oprichter van DeepSeek, is een "niet-mainstream" financieel leider geboren in de jaren '80: hij heeft geen buitenlandse studie-ervaring, is geen winnaar van een Olympische wedstrijd en is afgestudeerd aan de afdeling Electronic Engineering van de Zhejiang Universiteit, met als hoofdvak kunstmatige intelligentie. Hij is een autochtone technologie-expert die zich op een onopvallende manier gedraagt en elke dag "papers leest, code schrijft en deelneemt aan groepsdiscussies".

Liang Wenfeng heeft niet de gewoonten van een traditionele bedrijfseigenaar, maar is meer een pure "tech geek".. Veel insiders uit de industrie en onderzoekers van DeepSeek hebben Liang Wenfeng zeer veel lof toegezwaaid: "iemand die zowel sterke infratechnische capaciteiten als modelonderzoekscapaciteiten heeft, en ook middelen kan mobiliseren," "iemand die nauwkeurige oordelen kan vellen vanaf een hoog niveau, maar ook kan uitblinken in de details ten opzichte van frontlijnonderzoekers," en ook "een angstaanjagend leervermogen heeft."

Lang voordat DeepSeek werd opgericht, was Huanfang al begonnen met het maken van langetermijnplannen in de AI-industrie.. In mei 2023 zei Liang Wenfeng in een interview met Darksurge: "Nadat OpenAI in 2020 GPT3 uitbracht, is de richting van AI-ontwikkeling heel duidelijk geworden, en rekenkracht wordt een belangrijk element; maar zelfs in 2021, toen we investeerden in de bouw van Firefly 2, konden de meeste mensen het nog steeds niet begrijpen."

Op basis van dit oordeel begon Huanfang zijn eigen computerinfrastructuur op te bouwen. "Van de eerste 1 kaart, naar 100 kaarten in 2015, 1000 kaarten in 2019 en dan 10.000 kaarten, dit proces gebeurde geleidelijk. Voor een paar honderd kaarten werden we gehost in een IDC. Toen de schaal groter werd, kon hosting niet meer aan de eisen voldoen, dus zijn we onze eigen computerruimte gaan bouwen."

Later meldde Finance Eleven: "Er zijn niet meer dan vijf binnenlandse bedrijven met meer dan 10.000 GPU's, en naast een paar grote fabrikanten ook een kwantitatief fonds genaamd Magic Cube." Algemeen wordt aangenomen dat 10.000 Nvidia A100-chips de drempel is voor rekenkracht om grote modellen te trainen.

In een eerder interview noemde Liang Wenfeng ook een interessant punt: veel mensen zouden denken dat er een onbekende bedrijfslogica achter zit, maar in feite wordt het vooral gedreven door nieuwsgierigheid.

DeepSeekeerste ontmoeting

In een interview met Darksurge in mei 2023, toen hem werd gevraagd "Niet zo lang geleden kondigde Huanfang zijn besluit aan om grote modellen te maken, waarom zou een kwantitatief fonds zoiets doen?"

Liang Wenfeng's antwoord was klinkend: "Onze beslissing om een groot model te bouwen heeft niets te maken met kwantificering of financiën. Hiervoor hebben we het nieuwe bedrijf DeepSeek opgericht. Veel van de belangrijkste leden van het team van Mianfang houden zich bezig met kunstmatige intelligentie. We hebben destijds veel scenario's uitgeprobeerd en uiteindelijk gekozen voor financiën, wat al complex genoeg is. Algemene kunstmatige intelligentie is misschien wel een van de volgende moeilijkste dingen om te bereiken, dus voor ons is het een kwestie van hoe het te doen, niet waarom.

Niet gedreven door commerciële belangen of het najagen van markttrends, maar simpelweg gedreven door een verlangen om de AGI-technologie zelf te verkennen en een hardnekkig streven naar "het belangrijkste en moeilijkste". de naam "DeepSeek" werd officieel bevestigd in mei 2023. Op 17 juli 2023 werd "Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Co., Ltd." opgericht.

Op Op 2 november 2023 leverde DeepSeek zijn eerste antwoord: DeepSeek Coder, een groot model van open source code. Dit model bevat meerdere maten zoals 1B, 7B en 33B. De open source inhoud omvat het basismodel en het opdrachtafstemmingsmodel.

Op dat moment was CodeLlama van Meta de benchmark onder de open source modellen. Toen DeepSeek Coder echter eenmaal was uitgebracht, liet het een veelzijdige leidende positie zien ten opzichte van CodeLlama: bij het genereren van code lag HumanEval 9,3% voor, MBPP 10,8% en DS-1000 5,9%.

Houd in gedachten dat DeepSeek Coder een 7B-model is, terwijl CodeLlama een 34B-model is. Bovendien heeft het DeepSeek Coder-model, nadat het is afgestemd met instructies, GPT3.5-Turbo ruimschoots overtroffen.

Niet alleen het genereren van code is indrukwekkend, maar DeepSeek Coder laat ook zijn spieren zien op het gebied van wiskunde en redeneren.

Drie dagen later, op 5 november 2023, gaf DeepSeek een grote hoeveelheid rekruteringscontent vrij via zijn openbare WeChat-account, waaronder functies zoals AGI groot model stagiair, data-expert, data-architectuurtalent, senior dataverzamelingstechnicus, deep learning onderzoek en ontwikkelingstechnicus, enz. en begon het team actief uit te breiden.

Zoals Liang Wenfeng zei, DeepSeek's "must-have eisen" voor het werven van talent zijn "passie en solide basisvaardigheden".en hij benadrukte dat "Innovatie vereist zo min mogelijk interventie en management, zodat iedereen de vrijheid heeft om fouten te maken en nieuwe dingen te proberen. Innovatie komt vaak van binnenuit, niet van opzettelijke regelingen, en het komt zeker niet van onderwijzen."

Modellen worden regelmatig vrijgegeven en open source wordt toegepast.

Nadat DeepSeek Coder furore had gemaakt, richtte DeepSeek zijn aandacht op het belangrijkste slagveld: algemene taalmodellen.

Op Op 29 november 2023 bracht DeepSeek zijn eerste universele grote taalmodel uit, DeepSeek LLM 67B. Dit model is gebenchmarkt tegen Meta's LLaMA2 70B model van hetzelfde niveau en heeft beter gepresteerd in bijna 20 openbare evaluatielijsten in het Chinees en Engels. Met name de redeneer-, wiskunde- en programmeervaardigheden (bijv. HumanEval, MATH, CEval en CMMLU) zijn uitstekend.

DeepSeek LLM 67B heeft ook gekozen voor open source en ondersteunt commercieel gebruik. Om zijn oprechtheid en vastberadenheid op het gebied van open source verder te demonstreren, heeft DeepSeek op een nooit eerder vertoonde manier tegelijkertijd twee modellen van verschillende schaal, 7B en 67B, open source gemaakt en zelfs de negen checkpoints die tijdens het trainingsproces van het model werden gegenereerd, openbaar gemaakt zodat onderzoekers ze kunnen downloaden en gebruiken. Dit soort operaties, die verwant zijn aan "alles leren", is uiterst zeldzaam in de hele open-sourcegemeenschap.

Om uitgebreider en objectiever de werkelijke mogelijkheden van DeepSeek LLM 67B te evalueren, heeft het DeepSeek-onderzoeksteam ook zorgvuldig een reeks "nieuwe vragen" ontworpen voor "stresstests". Deze vragen hebben betrekking op tests van hoog niveau en met een hoge mate van discriminatie, zoals Hongaarse examenvragen voor wiskunde op de middelbare school, evaluatiesets voor het volgen van Google-commando's en wekelijkse LeetCode-wedstrijdvragen. De testresultaten waren bemoedigend. DeepSeek LLM 67B toonde een verbazingwekkend potentieel in termen van zijn vermogen om verder te generaliseren dan de steekproef en zijn algemene prestaties kwamen zelfs in de buurt van die van het op dat moment meest geavanceerde GPT-4 model.

Op 18 december 2023, DeepSeek opent de bron van het Vincent 3D-model DreamCraft3DHet kan 3D-modellen van hoge kwaliteit genereren uit een zin, waardoor de sprong van 2D-vlakken naar 3D-ruimte in AIGC wordt gemaakt. Als de gebruiker bijvoorbeeld invoert: "Rennend door het bos, een grappig hybride beeld van een varkenskop en het lichaam van de Apenkoning," kan DreamCraft3D inhoud van hoge kwaliteit genereren:

In principe vult het model eerst het Venn-diagram aan en vervolgens de algemene geometrische structuur op basis van de 2D-conceptkaart:

In de subjectieve evaluatie die volgde, zei meer dan 90% van de gebruikers dat DreamCraft3D een voordeel had in generatiekwaliteit in vergelijking met eerdere generatietechnieken.

Op 7 januari 2024 bracht DeepSeek het technisch rapport DeepSeek LLM 67B uit. Dit meer dan 40 pagina's tellende rapport bevat veel details van DeepSeek LLM 67B, waaronder zelfgemaakte schalingswetten, volledige praktische details van modeluitlijning en een uitgebreid evaluatiesysteem voor AGI-capaciteit.

Adres papier

Op 11 januari 2024, DeepSeek open-sourced de eerste MoE (gemengde expert architectuur) groot model in China, DeepSeekMoE: een gloednieuwe architectuur die Chinees en Engels ondersteunt en is vrij voor commercieel gebruik. De MoE-architectuur werd destijds algemeen beschouwd als de sleutel tot de prestatiedoorbraak van OpenAI GPT-4. De zelfontwikkelde MoE-architectuur van DeepSeek is toonaangevend in meerdere schalen, zoals 2B, 16B en 145B, en het rekenwerk is ook zeer prijzenswaardig.

Op 25 januari 2024 bracht DeepSeek het technisch rapport DeepSeek Coder uit. Dit rapport biedt een uitgebreide technische analyse van de trainingsgegevens, trainingsmethoden en modelprestaties. In dit rapport kunnen we zien dat het voor de eerste keer codegegevens op magazijnniveau heeft geconstrueerd en topologisch sorteren heeft gebruikt om de afhankelijkheden tussen bestanden te analyseren, waardoor het vermogen om lange-afstand cross-files te begrijpen aanzienlijk is verbeterd. Op het gebied van trainingsmethoden is de Fill-In-Middle methode toegevoegd, waardoor het vermogen om code aan te vullen sterk is verbeterd.

Adres papier

Op 30 januari 2024 werd het DeepSeek open platform officieel gelanceerd en begon de DeepSeek Large Model API service met testen. Registreer je om 10 miljoen tokens gratis te krijgen. De interface is compatibel met de OpenAI API-interface en er zijn zowel Chat/Coder dual-modellen beschikbaar. Op dit moment begon DeepSeek het pad van een technologieleverancier te verkennen, naast onderzoek en ontwikkeling van technologie.

Op Op 5 februari 2024 bracht DeepSeek een ander verticaal domeinenmodel uit, DeepSeekMatheen wiskundig redeneermodel. Dit model heeft slechts 7B parameters, maar het wiskundig redeneervermogen komt dicht in de buurt van dat van GPT-4. Op de gezaghebbende MATH-benchmarklijst overtreft het de massa en presteert het beter dan een aantal open source modellen met parametergroottes tussen 30B en 70B. De release van DeepSeekMath demonstreert volledig DeepSeek's technische kracht en toekomstgerichte opzet in het onderzoek en de ontwikkeling van verticale en zijn toekomstgerichte opzet in modelonderzoek en -ontwikkeling.

Op 28 februari 2024, met het oog op verdere verlichting van de bezorgdheid van ontwikkelaars over het gebruik van DeepSeek open source modellen, DeepSeek vrijgegeven een open source beleid FAQdie gedetailleerde antwoorden geeft op veelgestelde vragen zoals model open source licenties en commerciële gebruiksbeperkingen. DeepSeek omarmt open source met een meer transparante en open houding:

Op Op 11 maart 2024 bracht DeepSeek het multimodale grote model DeepSeek-VL uit.. Dit is de eerste poging van DeepSeek tot multimodale AI-technologie. Het model is 7B en 1,3B groot en het model en de technische documenten zijn tegelijkertijd open source.

Op 20 maart 2024, Huanfang AI & DeepSeek werd opnieuw uitgenodigd om deel te nemen aan de NVIDIA GTC 2024 conferentie, en oprichter Liang Wenfeng leverde een technische keynote speech getiteld "Harmonie in verscheidenheid: Afstemming en ontkoppeling van de waarden van grote taalmodellen". Onderwerpen zoals "het conflict tussen een groot model met één waarde en een pluralistische samenleving en cultuur", "de ontkoppeling van de afstemming van waarden van grote modellen" en "de multidimensionale uitdagingen van ontkoppelde afstemming van waarden" werden besproken. Dit demonstreerde DeepSeek's humanistische zorg en sociale verantwoordelijkheid voor AI-ontwikkeling, naast zijn technologische onderzoek en ontwikkeling.

In maart 2024, DeepSeek API officieel betaalde diensten gelanceerd, die volledig ontbrandde de opmaat naar de prijzenoorlog in de Chinese grote model markt: 1 yuan per miljoen input tokens en 2 yuan per miljoen output tokens.

In 2024 passeerde DeepSeek met succes het recordaantal grote modellen in China, waarmee de beleidsbelemmeringen voor de volledige openstelling van zijn API-services uit de weg werden geruimd.

In mei 2024 werd DeepSeek-V2, een open source algemeen MoE groot model, uitgebracht en begon de prijzenoorlog officieel. DeepSeek-V2 maakt gebruik van MLA (multi-head latente aandacht mechanisme), die het geheugen van het model verkleint tot 5%-13% van die van de traditionele MHA. Tegelijkertijd heeft het ook onafhankelijk de DeepSeek MoE Sparse sparse-structuur ontwikkeld, die de rekencomplexiteit van het model sterk vermindert. Hierdoor behoudt het model een API-prijs van "1 yuan/miljoen inputs en 2 yuan/miljoen outputs".

DeepSeek heeft een enorme impact gehad. In dit opzicht is de hoofdanalist van SemiAnalysis van mening dat de DeepSeek V2-paper "een van de beste van dit jaar kan zijn". Ook Andrew Carr, een voormalige OpenAI-medewerker, is van mening dat de paper "vol verbazingwekkende wijsheid zit" en heeft de trainingsinstellingen toegepast op zijn eigen model.

Er moet worden opgemerkt dat dit een model is dat de GPT-4-Turbo vergelijkt, en dat de API-prijs slechts 1/70 van deze laatste is.

Op juni 17, 2024, DeepSeek opnieuw een grote duw, het vrijgeven van de DeepSeek Coder V2 code model open source en beweerde dat de code beter was dan GPT-4-Turbo, het meest geavanceerde closed source model op dat moment. DeepSeek Coder V2 zet de consistente open-sourcestrategie van DeepSeek voort, met alle modellen, code en papers open-sourced, en er worden twee versies geleverd, 236B en 16B. De API-diensten van DeepSeek Coder V2 zijn ook online beschikbaar en de prijs blijft "1 yuan/miljoen invoer en 2 yuan/miljoen uitvoer".

Op 21 juni 2024, DeepSeek Coder ondersteunt online code-uitvoering. Op dezelfde dag werd Claude3.5 Sonnet uitgebracht, met de nieuwe Artifacts-functie, die automatisch code genereert en direct in de browser uitvoert. Op dezelfde dag lanceerde de code-assistent op de DeepSeek website dezelfde functie: code genereren en uitvoeren met één klik.

Laten we de belangrijkste gebeurtenissen uit deze periode eens op een rijtje zetten:

Voortdurende doorbraken, die wereldwijd de aandacht trekken

In mei 2024 werd DeepSeek in één klap beroemd door het uitbrengen van DeepSeek V2, een open source model gebaseerd op MoE. Het evenaarde de prestaties van GPT-4-Turbo, maar tegen een prijs van slechts 1 yuan/miljoen input, wat 1/70 was van GPT-4-Turbo. Op dat moment werd DeepSeek een bekende "prijsbreker" in de industrie, en toen volgden mainstreamspelers als Zhicheng, ByteDance en Alibaba... en andere grote spelers snel hun voorbeeld en verlaagden hun prijzen. Rond die tijd was er ook een nieuwe ronde van het GPT-verbod en een groot aantal AI-toepassingen begon voor het eerst binnenlandse modellen uit te proberen.

In juli 2024 accepteerde DeepSeek oprichter Liang Wenfeng opnieuw een interview met Dark Surge en reageerde direct op de prijzenoorlog: "Heel onverwacht. Ik had niet verwacht dat de prijs iedereen zo gevoelig zou maken. We doen de dingen gewoon in ons eigen tempo en bepalen dan de prijs op basis van de kosten. Ons principe is om geen geld te verliezen of exorbitante winsten te maken. Deze prijs is ook iets boven de kostprijs met een beetje winst."

Het is te zien dat, in tegenstelling tot veel concurrenten die uit eigen zak betalen om te subsidiëren, DeepSeek winstgevend is tegen deze prijs.

Sommige mensen zeggen misschien: prijsverlagingen zijn hetzelfde als het beroven van gebruikers, en dit is meestal het geval in prijsoorlogen in het internettijdperk.

Liang Wenfeng reageerde ook: "Gebruikers beroven is niet ons hoofddoel. We hebben de prijs verlaagd omdat enerzijds de kosten omlaag zijn gegaan terwijl we de structuur van het volgende-generatiemodel onderzoeken, en anderzijds omdat we vinden dat zowel de API als de AI betaalbaar en toegankelijk moeten zijn voor iedereen."

Het verhaal gaat dus verder met het idealisme van Liang Wenfeng.

Op 4 juli 2024 ging de DeepSeek API online. De prijs voor 128K context bleef ongewijzigd. De inferentiekosten van een model hangen nauw samen met de lengte van de context. Daarom hebben veel modellen strikte beperkingen op deze lengte: de eerste versie van GPT-3.5 heeft slechts 4k context.

Op dat moment verhoogde DeepSeek de contextlengte van de vorige 32k naar 128k terwijl de prijs ongewijzigd bleef (1 yuan per miljoen input tokens en 2 yuan per miljoen output tokens).

Op Op 10 juli 2024 werden de resultaten van 's werelds eerste AI Olympiade (AIMO) bekendgemaakt en werd het DeepSeekMath-model de algemene keuze van de topteams.. De winnende Top 4-teams kozen allemaal DeepSeekMath-7B als basis voor hun instapmodellen en behaalden indrukwekkende resultaten in de competitie.

Op Op 18 juli 2024 voerde DeepSeek-V2 de lijst van open source-modellen op de Chatbot Arena aan, overtreft stermodellen zoals Llama3-70B, Qwen2-72B, Nemotron-4-340B en Gemma2-27B en wordt een nieuwe benchmark voor open source grote modellen.

In Juli 2024, DeepSeek ging door met het werven van talent en rekruteerde toptalent van over de hele wereld op verschillende gebieden, waaronder AI-algoritmen, AI-infrastructuur, AI-tutor en AI-producten, ter voorbereiding op toekomstige technologische innovatie en productontwikkeling.

Op 26 juli 2024, DeepSeek API luidde een belangrijke upgrade in, met volledige ondersteuning van een reeks geavanceerde functies, zoals overschrijven, FIM (Fill-in-the-Middle) voltooiing, functie-aanroep en JSON Output. De FIM-functie is erg interessant: de gebruiker geeft het begin en het einde op en het grote model vult het midden in, wat erg geschikt is voor het programmeerproces om de exacte functiecode in te vullen. Neem als voorbeeld het schrijven van de Fibonacci-reeks:

Op Op 2 augustus 2024 introduceerde DeepSeek op innovatieve wijze de cachingtechnologie voor harde schijven, waardoor de API-prijzen tot aan de enkels daalden. Voorheen waren de API-prijzen slechts ¥1 per miljoen tokens. Nu echter, zodra er een cache-hit is gemaakt, daalt de API-prijs direct naar ¥0,1.

Deze functie is erg praktisch bij continue conversaties en batchverwerkingstaken.

Op 16 augustus 2024, DeepSeek heeft zijn wiskundig model voor het bewijzen van stellingen DeepSeek-Prover-V1.5 vrijgegeven. als open broncode, die veel bekende open bronmodellen overtrof in testen voor wiskundige stellingen op middelbare scholen en universiteiten.

Op Op 6 september 2024 bracht DeepSeek het fusiemodel DeepSeek-V2.5 uit. Voorheen bood DeepSeek voornamelijk twee modellen: het Chat-model dat zich richtte op algemene gespreksvaardigheden en het Code-model dat zich richtte op codeverwerkingsvaardigheden. Dit keer zijn de twee modellen gecombineerd tot één model, geüpgraded naar DeepSeek-V2.5, dat beter aansluit bij de menselijke voorkeuren en ook aanzienlijke verbeteringen heeft bereikt op het gebied van schrijftaken, commando's volgen en andere aspecten.

Op Op 18 september 2024 stond DeepSeek-V2.5 opnieuw op de nieuwste LMSYS-lijst en voerde de binnenlandse modellen aan. en het neerzetten van nieuwe beste scores voor binnenlandse modellen in meerdere individuele vaardigheden.

Op 20 november 2024, DeepSeek bracht DeepSeek-R1-Lite uit op de officiële website. Dit is een inferentiemodel dat vergelijkbaar is met o1-preview, en biedt ook voldoende synthetische gegevens voor de post-training van V3.

Op Op 10 december 2024 luidde de DeepSeek V2-serie zijn finale finale in met de release van de laatste verfijnde versie van DeepSeek-V2.5-1210. Deze versie verbetert uitgebreid meerdere vaardigheden, waaronder wiskunde, coderen, schrijven en rollenspel door middel van post-training.

Met de komst van deze versie heeft de DeepSeek web app ook de netwerk zoekfunctie geopend.

Op Op 13 december 2024 zorgde DeepSeek voor een nieuwe doorbraak op het gebied van multimodaliteit en bracht het open source multimodale grote model DeepSeek-VL2 uit. DeepSeek-VL2 maakt gebruik van de MoE-architectuur, die de visuele mogelijkheden aanzienlijk verbetert. Hij is verkrijgbaar in drie formaten: 3B, 16B en 27B, en heeft een voordeel in alle statistieken.

Op Op 26 december 2024 werd DeepSeek-V3 vrijgegeven met open source: de geschatte trainingskosten bedroegen slechts 5,5 miljoen dollar. DeepSeek-V3 heeft de prestaties van toonaangevende closed source modellen overzee volledig gebenchmarkt en de generatiesnelheid sterk verbeterd.

De prijzen van API-services werden aangepast, maar tegelijkertijd werd er een preferentiële proefperiode van 45 dagen ingesteld voor het nieuwe model.

Op 15 januari 2025 werd de officiële DeepSeek app officieel uitgebracht en volledig gelanceerd op de grote iOS / Android app markten.

Op 20 januari 2025, vlak voor Chinees Nieuwjaar, werd het DeepSeek-R1 inferentiemodel officieel vrijgegeven en open-sourced. DeepSeek-R1 stemde zijn prestaties volledig af op de officiële OpenAI o1-release en opende de uitvoerfunctie van de gedachteketen. Tegelijkertijd kondigde DeepSeek ook aan dat de open source licentie van het model zou worden gewijzigd in de MIT-licentie en dat de gebruikersovereenkomst expliciet "modeldistillatie" zou toestaan, waardoor open source verder zou worden omarmd en het delen van technologie zou worden bevorderd.

Later werd dit model erg populair en luidde het een nieuw tijdperk in

Het resultaat is dat vanaf 27 januari 2025 de DeepSeek App met succes ChatGPT heeft overtroffen en bovenaan de lijst van gratis app-downloads in de Amerikaanse iOS App Store staat en een fenomenale AI-app is geworden.

Op 27 januari 2025, om 1 uur 's nachts op oudejaarsavond, werd DeepSeek Janus-Pro vrijgegeven als open source. Dit is een multimodaal model vernoemd naar de god Janus met twee gezichten uit de oude Romeinse mythologie: het kijkt zowel naar het verleden als naar de toekomst. Dit vertegenwoordigt ook de twee vaardigheden van het model - visueel begrip en beeldgeneratie - en de dominantie van meerdere ranglijsten.

DeepSeek's explosieve populariteit veroorzaakte onmiddellijk een wereldwijde technologische schokgolf, waardoor de aandelenkoers van NVIDIA 18% kelderde en de marktwaarde van de wereldwijde technologiebeurs met ongeveer 1 biljoen dollar verdampte. Wall Street en technologiemedia riepen dat de opkomst van DeepSeek het wereldwijde AI-industrielandschap ondermijnt en een ongekende uitdaging vormt voor Amerikaanse technologiereuzen.

Het succes van DeepSeek heeft ook geleid tot grote internationale aandacht en verhitte discussies over de technologische innovatiecapaciteiten van China op het gebied van AI. De Amerikaanse president Donald Trump prees in een zeldzaam openbaar commentaar de opkomst van DeepSeek als "positief" en zei dat het een "wake-up call" was voor de Verenigde Staten. Ook Microsoft CEO Satya Nadella en OpenAI CEO Sam Altman prezen DeepSeek en noemden de technologie "zeer indrukwekkend".

Natuurlijk moeten we ook begrijpen dat hun lof deels een erkenning is van de kracht van DeepSeek en deels een weerspiegeling van hun eigen motieven. Bijvoorbeeld, terwijl Anthropic de prestaties van DeepSeek erkent, roept het ook de Amerikaanse regering op om de chipcontroles op China te versterken.

Anthropic CEO publiceert een artikel van 10.000 woorden: De opkomst van DeepSeek betekent dat het Witte Huis de controle moet opvoeren

Samenvatting en vooruitzichten

Terugkijkend op de afgelopen twee jaar van DeepSeek, is het echt een "Chinees wonder" geweest: van een onbekende startup tot de "mysterieuze oosterse kracht" die nu schittert op het wereldwijde AI-podium, heeft DeepSeek het ene "onmogelijke" na het andere geschreven met zijn kracht en innovatie.

De diepere betekenis van deze technologische expeditie overstijgt allang de reikwijdte van commerciële concurrentie. DeepSeek heeft met feiten aangekondigd dat Op het strategische gebied van kunstmatige intelligentie dat de toekomst betreft, zijn Chinese bedrijven volledig in staat om naar de hoogten van de kerntechnologie te klimmen.

De "alarmklok" die Trump luidde en de verborgen angst voor Antropisme bevestigen precies het belang van China's AI-capaciteiten: het kan niet alleen de golven berijden, maar het is ook de richting van het tij aan het veranderen.

Deepseek product vrijgave mijlpalen

  • 2 november 2023: DeepSeek Coder Groot Model
  • 29 november 2023: DeepSeek LLM 67B Universeel model
  • 18 december 2023: DreamCraft3D 3D-model
  • 11 januari 2024: DeepSeekMoE MoE groot model
  • 5 februari 2024: DeepSeekMath Wiskundig redeneermodel
  • 11 maart 2024: DeepSeek-VL Multimodaal groot model
  • Mei 2024: DeepSeek-V2 MoE algemeen model
  • 17 juni 2024: DeepSeek Coder V2 coderingsmodel
  • 6 september 2024: DeepSeek-V2.5 samenvoeging van algemene en codecompetentiemodellen
  • 13 december 2024: DeepSeek-VL2 multimodaal MoE-model
  • 26 december 2024: DeepSeek-V3 nieuwe serie universele grote modellen
  • 20 januari 2025: DeepSeek-R1 inferentiemodel
  • 20 januari 2025: DeepSeek officiële app (iOS & Android)
  • 27 januari 2025: DeepSeek Janus-Pro multimodaal model

Vergelijkbare berichten

Geef een reactie

Uw e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *