In die toekoms sal daar meer en meer hardcore-innovasie wees. Dit is dalk nie nou maklik om te verstaan nie, want die hele sosiale groep moet deur feite opgevoed word. Wanneer hierdie samelewing mense wat hardcore innoveer toelaat om sukses te behaal, sal die kollektiewe ingesteldheid verander. Ons het net 'n klomp feite en 'n proses nodig. - Liang Wenfeng, stigter van DeepSeek
In onlangse dae het DeepSeek oor die hele wêreld ontplof, maar omdat die maatskappy so laag-sleutel is en geen aankondigings gemaak het nie, weet die publiek baie min van hierdie tegnologiemaatskappy met groot potensiaal – of dit nou sy stigteragtergrond, besigheidsomvang is , of produkuitleg.
Nadat ek al die materiaal klaar gesorteer het, het ek hierdie artikel geskryf
Wat is die agtergrond van die huidige KI-spelers, waarmee is hulle besig en wie werf hulle?
en waarskynlik die mees volledige historiese oorsig van DeepSeek.
Hierdie tyd verlede jaar het 'n vriend van Magic Cube Quant na my toe gekom en gevra: "Wil jy 'n groot model in China bou?" En ek het sommer die middag spandeer om koffie te drink. Soos verwag, hang die lewe steeds van keuses af.
Die Magic Cube Quant wat hier genoem word, is die belegger, of moedermaatskappy, van DeepSeek.
Die sogenaamde "quant" is 'n beleggingsinstelling wat besluite neem nie deur menslike krag nie, maar deur algoritmes. Die vestiging van Quant Fantasy is nie lank nie, begin in 2015. Teen 2021, toe dit ses jaar oud was, het die batebestuurskaal van Quant Fantasy 100 miljard oorskry, en dit is beskou as een van China se “vier groot kwant konings”.
Die stigter van Fantasy Square, Liang Wenfeng, wat ook die stigter van DeepSeek is, is 'n "nie-hoofstroom" finansiële leier wat in die 1980's gebore is: hy het geen oorsese studie-ervaring nie, is nie 'n Olimpiese kompetisiewenner nie, en het gegradueer aan die Departement Elektroniese Ingenieurswese aan die Zhejiang Universiteit, met kunsmatige intelligensie as hoofvak. Hy is 'n inheemse tegnologie-kenner wat op 'n lae-sleutel manier optree, "lees vraestelle, skryf kode, en neem deel aan groepbesprekings" elke dag.
Liang Wenfeng het nie die gewoontes van 'n tradisionele sake-eienaar nie, maar is meer soos 'n suiwer "tegnologie geek". Baie insiders in die industrie en DeepSeek-navorsers het Liang Wenfeng uiters hoë lof gegee: "iemand wat beide sterk infra-ingenieursvermoëns en modelnavorsingsvermoëns het, en ook hulpbronne kan mobiliseer," "iemand wat akkurate oordeel van 'n hoë vlak kan maak, maar ook uitblink. by die besonderhede oor frontlinie-navorsers," en het ook "'n skrikwekkende leervermoë."
Lank voor DeepSeek gestig is, het Huanfang reeds begin om langtermynplanne in die KI-bedryf te maak. In Mei 2023 het Liang Wenfeng in 'n onderhoud met Darksurge genoem: "Nadat OpenAI GPT3 in 2020 vrygestel het, het die rigting van KI-ontwikkeling baie duidelik geword, en rekenaarkrag sal 'n sleutelelement word; maar selfs in 2021, toe ons in die konstruksie van Firefly 2 belê het, kon die meeste mense dit steeds nie verstaan nie.”
Op grond van hierdie oordeel het Huanfang begin om sy eie rekenaarinfrastruktuur te bou. “Van die vroegste 1 kaart, tot 100 kaarte in 2015, 1 000 kaarte in 2019, en dan 10 000 kaarte, het hierdie proses geleidelik plaasgevind. Voor 'n paar honderd kaarte was ons in 'n IDC gehuisves. Toe die skaal groter geword het, kon hosting nie meer aan die vereistes voldoen nie, daarom het ons ons eie rekenaarkamer begin bou.”
Later het Finance Eleven berig: “Daar is nie meer as vyf nie plaaslike maatskappye met meer as 10 000 GPU's, en benewens 'n paar groot vervaardigers, sluit hulle ook 'n kwantitatiewe fondsmaatskappy genaamd Magic Cube in.” Daar word algemeen geglo dat 10 000 Nvidia A100-skyfies die drempel is vir rekenaarkrag om groot modelle op te lei.
In 'n vorige onderhoud het Liang Wenfeng ook 'n interessante punt genoem: baie mense sou dink daar is 'n onbekende besigheidslogika daaragter, maar in werklikheid word dit hoofsaaklik deur nuuskierigheid gedryf.
DeepSeekse eerste ontmoeting
In 'n onderhoud met Darksurge in Mei 2023, by navraag "Nie lank gelede het Huanfang sy besluit aangekondig om groot modelle te maak nie, hoekom sal 'n kwantitatiewe fonds so iets doen?"
Liang Wenfeng se antwoord was dawerend: “Ons besluit om 'n groot model te bou het niks met kwantifisering of finansies te doen nie. Ons het 'n nuwe maatskappy genaamd DeepSeek gestig om dit te doen. Baie van die sleutellede van die span by Mianfang is betrokke by kunsmatige intelligensie. Ons het destyds baie scenario's probeer en uiteindelik op finansies besluit, wat kompleks genoeg is. Algemene kunsmatige intelligensie is dalk een van die volgende moeilikste dinge om te bereik, so vir ons is dit 'n kwessie van hoe om dit te doen, nie hoekom nie.
Nie gedryf deur kommersiële belange of om markneigings na te jaag nie, maar bloot gedryf deur 'n begeerte om AGI-tegnologie self te verken en 'n volgehoue strewe na "die belangrikste en moeilikste ding." die naam “DeepSeek” is amptelik in Mei 2023 bevestig. Op 17 Julie 2023, "Hangzhou DeepSeek Kunsmatige Intelligensie Basiese Tegnologie Research Co., Ltd." ingelyf is.
Aan 2 November 2023 het DeepSeek sy eerste antwoord gelewer: DeepSeek Coder, 'n groot model van oopbronkode. Hierdie model bevat verskeie groottes soos 1B, 7B en 33B. Die oopbron-inhoud sluit die basismodel en die opdragafstemmingsmodel in.
Destyds, onder die oopbronmodelle, was Meta se CodeLlama die industrie-maatstaf. Sodra DeepSeek Coder egter vrygestel is, het dit 'n veelsydige leidende posisie getoon in vergelyking met CodeLlama: in kodegenerering was HumanEval 9.3% voor, MBPP was 10.8% voor, en DS-1000 was 5.9% voor.
Hou in gedagte dat DeepSeek Coder 'n 7B-model is, terwyl CodeLlama 'n 34B-model is. Daarbenewens het die DeepSeek Coder-model, nadat dit met instruksies ingestel is, GPT3.5-Turbo omvattend oortref.
Nie net is kodegenerering indrukwekkend nie, maar DeepSeek Coder wys ook sy spiere in wiskunde en redenasie.
Drie dae later, op 5 November 2023, het DeepSeek 'n groot hoeveelheid werwingsinhoud deur sy WeChat publieke rekening vrygestel, insluitend poste soos AGI groot model intern, data deskundige, data argitektuur talent, senior data-insameling ingenieur, diep leer navorsing en ontwikkeling ingenieur, ens., en het die span aktief begin uitbrei.
Soos Liang Wenfeng gesê het, DeepSeek se “moet-hê-vereistes” vir talentwerwing is “passie en soliede basiese vaardighede”, en hy het dit beklemtoon “Innovasie verg so min moontlik ingryping en bestuur, sodat almal die vryheid het om foute te maak en nuwe dinge te probeer. Innovasie kom dikwels van binne, nie uit doelbewuste reëlings nie, en dit kom beslis nie uit onderrig nie.”
Modelle word gereeld vrygestel, en oopbron word beoefen
Nadat DeepSeek Coder 'n plons gemaak het, het DeepSeek sy aandag gevestig op die hoofslagveld: algemene taalmodelle.
Aan Op 29 November 2023 het DeepSeek sy eerste algemene doelgroot taalmodel, DeepSeek LLM 67B, vrygestel. Hierdie model word vergelyk met Meta se LLaMA2 70B-model van dieselfde vlak en het beter gevaar in byna 20 openbare evalueringslyste in Chinees en Engels. Veral sy redenasie-, wiskunde- en programmeringsvermoëns (bv. HumanEval, MATH, CEval en CMMLU) is uitstaande.
DeepSeek LLM 67B het ook die oopbronroete gekies en ondersteun kommersiële gebruik. Om sy opregtheid en vasberadenheid tot oopbron verder te demonstreer, het DeepSeek, ongekend, gelyktydig twee modelle van verskillende skale, 7B en 67B, oopgemaak en selfs die nege kontrolepunte wat tydens die modelopleidingsproses gegenereer is, vir navorsers bekend gemaak om af te laai en te gebruik. Hierdie soort operasie, wat soortgelyk is aan "om alles te leer", is uiters skaars in die hele oopbrongemeenskap.
Om die ware vermoëns van DeepSeek LLM 67B meer omvattend en objektief te evalueer, het die DeepSeek-navorsingspan ook 'n reeks "nuwe vrae" vir "strestoetsing" noukeurig ontwerp. Hierdie vrae dek hoëvlak-, hoë-diskriminasie-toetse soos Hongaarse hoërskool-wiskunde-eksamenvrae, Google-opdrag-volgende evalueringsstelle en LeetCode weeklikse kompetisievrae. Die toetsuitslae was bemoedigend. DeepSeek LLM 67B het ongelooflike potensiaal getoon in terme van sy vermoë om buite die steekproef te veralgemeen, en sy algehele prestasie was selfs naby aan dié van die destyds mees gevorderde GPT-4-model.
Aan 18 Desember 2023, DeepSeek het die Vincent 3D-model DreamCraft3D geopen: dit kan 3D-modelle van hoë gehalte uit 'n sin genereer, wat die sprong van 2D-vliegtuie na 3D-ruimte in AIGC bereik. Byvoorbeeld, as die gebruiker invoer: "Hardloop deur die bos, 'n snaakse basterbeeld van 'n vark se kop en die liggaam van die Monkey King," kan DreamCraft3D inhoud van hoë gehalte uitvoer:
In beginsel voltooi die model eers die Venn-diagram, en vul dan die algehele geometriese struktuur aan gebaseer op die 2D-konsepkaart:
In die subjektiewe evaluasie wat gevolg het, het meer as 90% gebruikers gesê dat DreamCraft3D 'n voordeel in generasie kwaliteit in vergelyking met vorige generasie metodes het.
Op 7 Januarie 2024 het DeepSeek die DeepSeek LLM 67B tegniese verslag vrygestel. Hierdie verslag van 40+ bladsye bevat baie besonderhede van DeepSeek LLM 67B, insluitend selfgeboude skaalwette, volledige praktiese besonderhede van modelbelyning, en 'n omvattende AGI-vermoë-evalueringstelsel.
Aan Op 11 Januarie 2024 het DeepSeek die eerste MoE (gemengde deskundige argitektuur) groot model in China, DeepSeekMoE, oopbron: 'n splinternuwe argitektuur wat Chinees en Engels ondersteun en gratis is vir kommersiële gebruik. Die MoE-argitektuur is destyds algemeen beskou as die sleutel tot OpenAI GPT-4 se prestasie-deurbraak. DeepSeek se self-ontwikkelde MoE-argitektuur is toonaangewende in veelvuldige skale soos 2B, 16B en 145B, en die berekening daarvan is ook baie prysenswaardig.
Op 25 Januarie 2024 het DeepSeek die DeepSeek Coder tegniese verslag vrygestel. Hierdie verslag verskaf 'n omvattende tegniese ontleding van sy opleidingsdata, opleidingsmetodes en modelprestasie. In hierdie verslag kan ons sien dat dit vir die eerste keer kodedata op pakhuisvlak gekonstrueer het en topologiese sortering gebruik het om die afhanklikhede tussen lêers te ontleed, wat die vermoë om langafstand-kruislêers aansienlik verbeter het. Wat opleidingsmetodes betref, is die Fill-In-Middle-metode bygevoeg, wat die vermoë van kodevoltooiing aansienlik verbeter het.
Op 30 Januarie 2024 is die DeepSeek oop platform amptelik bekendgestel, en die DeepSeek Large Model API-diens het begin toets. Registreer om 10 miljoen tokens gratis te kry. Die koppelvlak is versoenbaar met die OpenAI API-koppelvlak, en beide Chat/Coder-dubbele modelle is beskikbaar. Op hierdie tydstip het DeepSeek begin om die pad van 'n tegnologiediensverskaffer bykomend tot tegnologienavorsing en -ontwikkeling te verken.
Aan Op 5 Februarie 2024 het DeepSeek nog 'n vertikale domeinmodel, DeepSeekMath, vrygestel, 'n wiskundige redenasiemodel. Hierdie model het slegs 7B parameters, maar sy wiskundige redenasievermoë is naby dié van GPT-4. Op die gesaghebbende MATH-maatstaflys oortref dit die skare en presteer dit beter as 'n aantal oopbronmodelle met parametergroottes tussen 30B en 70B. Die vrystelling van DeepSeekMath demonstreer volledig DeepSeek se tegniese sterkte en vooruitskouende uitleg in die navorsing en ontwikkeling van vertikale en sy vooruitskouende uitleg in modelnavorsing en -ontwikkeling.
Aan 28 Februarie 2024, om ontwikkelaars se kommer oor die gebruik van DeepSeek-oopbronmodelle verder te verlig, het DeepSeek 'n oopbronbeleid-Veelgestelde vrae vrygestel, wat gedetailleerde antwoorde verskaf op gereelde vrae soos model oopbron lisensiëring en kommersiële gebruik beperkings. DeepSeek omhels open source met 'n meer deursigtige en oop houding:
Aan 11 Maart 2024 het DeepSeek die multi-modale groot model DeepSeek-VL vrygestel. Dit is DeepSeek se aanvanklike poging tot multi-modale KI-tegnologie. Die model is 7B en 1.3B groot, en die model en tegniese vraestelle is gelyktydig oopbron.
Aan Op 20 Maart 2024 is Huanfang AI & DeepSeek weereens genooi om aan die NVIDIA GTC 2024-konferensie deel te neem, en stigter Liang Wenfeng het 'n tegniese toespraak gelewer getiteld "Harmony in Diversity: Aligning and Decoupling the Values of Large Language Models". Kwessies soos "die konflik tussen 'n enkelwaarde groot model en 'n pluralistiese samelewing en kultuur," "die ontkoppeling van groot model waarde belyning," en "die multidimensionele uitdagings van ontkoppelde waarde belyning" is bespreek. Dit het DeepSeek se humanistiese sorg en sosiale verantwoordelikheid vir KI-ontwikkeling gedemonstreer, benewens sy tegnologiese navorsing en ontwikkeling.
In Maart 2024, DeepSeek API het amptelik betaalde dienste bekendgestel, wat die voorspel tot die prysoorlog in die Chinese grootmodelmark heeltemal ontvlam het: 1 yuan per miljoen insettekens en 2 yuan per miljoen uitsettekens.
In 2024 het DeepSeek die rekord van groot modelle in China suksesvol geslaag, wat die beleidshindernisse vir die volle opening van sy API-dienste uit die weg geruim het.
In Mei 2024 is DeepSeek-V2, 'n oopbron algemene MoE groot model, vrygestel, en die prysoorlog het amptelik begin. DeepSeek-V2 gebruik MLA (multi-head latente aandag meganisme), wat die model se geheue voetspoor verminder tot 5%-13% van dié van tradisionele MHA. Terselfdertyd het dit ook onafhanklik die DeepSeek MoE Sparse yl struktuur ontwikkel, wat die model se berekeningskompleksiteit aansienlik verminder. Danksy dit handhaaf die model 'n API-prys van "1 yuan/miljoen insette en 2 yuan/miljoen uitsette".
DeepSeek het 'n groot impak gehad. In hierdie verband glo die hoofontleder by SemiAnalysis dat die DeepSeek V2-vraestel “moontlik een van die bestes vanjaar kan wees.” Net so, Andrew Carr, 'n voormalige OpenAI-werknemer, glo dat die koerant "vol wonderlike wysheid" is en het sy opleidingsinstellings op sy eie model toegepas.
Daar moet kennis geneem word dat dit 'n model is wat GPT-4-Turbo as maatstaf meet, en die API-prys is slegs 1/70 van laasgenoemde
Op Junie 17, 2024, DeepSeek het weereens 'n groot druk gemaak en die DeepSeek Coder V2-kodemodel vrygestel oopbron en beweer dat sy kodevermoëns GPT-4-Turbo, die mees gevorderde geslotebronmodel destyds, oortref het. DeepSeek Coder V2 gaan voort met DeepSeek se konsekwente oopbronstrategie, met alle modelle, kode en vraestelle oopbron, en twee weergawes, 236B en 16B, word verskaf. DeepSeek C oder V2 se API-dienste is ook aanlyn beskikbaar, en die prys bly op “1 yuan/miljoen insette en 2 yuan/miljoen uitsette”.
Aan 21 Junie 2024, DeepSeek-kodeerder ondersteun aanlyn-kode-uitvoering. Op dieselfde dag is Claude3.5 Sonnet vrygestel, met die nuwe Artifacts-funksie, wat outomaties kode genereer en dit direk in die blaaier laat loop. Op dieselfde dag het die kode-assistent op die DeepSeek-webwerf ook dieselfde funksie bekendgestel: genereer kode en hardloop dit met een klik.
Kom ons kyk na die belangrikste gebeure van hierdie tydperk:
Deurlopende deurbrake wat wêreldwye aandag trek
In Mei 2024 het DeepSeek oornag bekend geword deur DeepSeek V2 vry te stel, 'n oopbronmodel gebaseer op MoE. Dit het ooreenstem met die werkverrigting van GPT-4-Turbo, maar teen 'n prys van slegs 1 yuan/miljoen insette, wat 1/70 van GPT-4-Turbo was. Op daardie tydstip het DeepSeek 'n bekende "prysslagter" in die bedryf geword, en toe het hoofstroomspelers soos Zhicheng, ByteDance en Alibaba ... en ander groot rolspelers vinnig hul voorbeeld gevolg en hul pryse verlaag. Dit was ook rondom daardie tyd dat daar nog 'n ronde van GPT-verbod was, en 'n groot aantal KI-toepassings het vir die eerste keer huishoudelike modelle begin uitprobeer.
In Julie 2024 het DeepSeek-stigter Liang Wenfeng weer 'n onderhoud met Dark Surge aanvaar en direk op die prysoorlog gereageer: “Baie onverwags. Ek het nie verwag dat die prys almal so sensitief sou maak nie. Ons doen dinge net teen ons eie tempo en dan prys op grond van koste. Ons beginsel is om nie geld te verloor of buitensporige winste te maak nie. Hierdie prys is ook effens bo koste met 'n bietjie wins.”
Dit kan gesien word dat, anders as baie mededingers wat uit hul eie sakke betaal om te subsidieer, DeepSeek winsgewend teen hierdie prys is.
Sommige mense kan sê: prysverlagings is soos om gebruikers te beroof, en dit is gewoonlik die geval in prysoorloë in die internet-era
In reaksie hierop het Liang Wenfeng ook gereageer: “Om gebruikers te beroof is nie ons hoofdoel nie. Ons het die prys verlaag omdat, aan die een kant, die koste afgeneem het namate ons die struktuur van die volgende generasie model ondersoek, en aan die ander kant voel ons dat beide die API en AI bekostigbaar en toeganklik vir almal moet wees. ”
So gaan die storie voort met Liang Wenfeng se idealisme.
Op 4 Julie 2024 het die DeepSeek API aanlyn gegaan. Die prys vir 128K konteks het onveranderd gebly. Die afleidingskoste van 'n model is nou verwant aan die lengte van die konteks. Daarom het baie modelle streng beperkings op hierdie lengte: die aanvanklike weergawe van GPT-3.5 het slegs 4k konteks.
Op hierdie tydstip het DeepSeek die kontekslengte van die vorige 32k tot 128k verhoog, terwyl die prys onveranderd gehou is (1 yuan per miljoen insettekens en 2 yuan per miljoen uitsettekens).
Aan Op 10 Julie 2024 is die uitslae van die wêreld se eerste KI Olimpiade (AIMO) aangekondig, en die DeepSeekMath-model het die algemene keuse van die Topspanne geword. Die wen Top 4-spanne het almal DeepSeekMath-7B as basis vir hul inskrywingsmodelle gekies en het indrukwekkende resultate in die kompetisie behaal.
Aan 18 Julie 2024, DeepSeek-V2 was boaan die lys van oopbronmodelle op die Chatbot Arena, stermodelle soos Llama3-70B, Qwen2-72B, Nemotron-4-340B en Gemma2-27B oortref en 'n nuwe maatstaf vir groot oopbronmodelle geword.
In Julie 2024 het DeepSeek voortgegaan om talent te werf en toptalent van regoor die wêreld in verskeie velde gewerf, insluitend KI-algoritmes, AI Infra, AI Tutor en KI-produkte, om voor te berei vir toekomstige tegnologiese innovasie en produkontwikkeling.
Aan 26 Julie 2024, DeepSeek API het 'n belangrike opgradering ingelui, wat 'n reeks gevorderde kenmerke soos oorskryf, FIM (Vul-in-die-Middel) voltooiing, Funksie-oproepe en JSON-uitvoer ten volle ondersteun. Die FIM-funksie is baie interessant: die gebruiker gee die begin en einde, en die groot model vul in die middel, wat baie geskik is vir die programmeringsproses om die presiese funksiekode in te vul. Neem die skryf van die Fibonacci-reeks as 'n voorbeeld:
Aan Op 2 Augustus 2024 het DeepSeek innoverend hardeskyf-kastegnologie bekendgestel, wat API-pryse tot by die enkels verlaag het. Voorheen was API-pryse slegs ¥1 per miljoen tokens. Maar nou, sodra 'n kas-treffer gemaak is, daal die API-fooi direk na ¥0.1.
Hierdie kenmerk is baie prakties wanneer deurlopende gesprekke en bondelverwerkingstake betrokke is.
Aan Op 16 Augustus 2024 het DeepSeek sy wiskundige stelling vrygestel wat model DeepSeek-Prover-V1.5 bewys as oopbron, wat baie bekende oopbronmodelle in hoërskool- en kollege wiskundige stellingstoetse oortref het.
Aan Op 6 September 2024 het DeepSeek die DeepSeek-V2.5-fusiemodel vrygestel. Voorheen het DeepSeek hoofsaaklik twee modelle verskaf: die Chat-model het gefokus op algemene gespreksvaardighede, en die Kode-model het gefokus op kodeverwerkingsvaardighede. Hierdie keer is die twee modelle in een gekombineer, opgegradeer na DeepSeek-V2.5, wat beter ooreenstem met menslike voorkeure en ook aansienlike verbeterings in skryftake, opdragvolging en ander aspekte behaal het.
Aan Op 18 September 2024 was DeepSeek-V2.5 weer op die jongste LMSYS-lys, wat die plaaslike modelle voor was en die opstel van nuwe beste tellings vir huishoudelike modelle in verskeie individuele vermoëns.
Aan 20 November 2024, DeepSeek het DeepSeek-R1-Lite vrygestel op die amptelike webwerf. Dit is 'n afleidingsmodel wat vergelykbaar is met o1-voorskou, en verskaf ook 'n voldoende hoeveelheid sintetiese data vir die na-opleiding van V3.
Aan Op 10 Desember 2024 het die DeepSeek V2-reeks sy finale ingelui met die vrystelling van die finale fyngemaakte weergawe van DeepSeek-V2.5-1210. Hierdie weergawe verbeter omvattend veelvuldige vermoëns, insluitend wiskunde, kodering, skryf en rolspel deur na-opleiding.
Met die koms van hierdie weergawe het die DeepSeek-webtoepassing ook die netwerksoekfunksie oopgemaak.
Aan Op 13 Desember 2024 het DeepSeek nog 'n deurbraak op die gebied van multimodaliteit gemaak en die oopbron multimodale groot model DeepSeek-VL2 vrygestel. DeepSeek-VL2 neem die MoE-argitektuur aan, wat sy visuele vermoëns aansienlik verbeter. Dit is beskikbaar in drie groottes: 3B, 16B en 27B, en het 'n voordeel in alle maatstawwe.
Aan 26 Desember 2024, DeepSeek-V3 is vrygestel met oopbron: die beraamde opleidingskoste was slegs 5,5 miljoen Amerikaanse dollar. DeepSeek-V3 het die werkverrigting van toonaangewende geslotebronmodelle oorsee ten volle vergelyk en die opwekkingspoed aansienlik verbeter.
Die pryse van API-dienste is aangepas, maar terselfdertyd is 'n voorkeurproeftydperk van 45 dae vir die nuwe model gestel.
Op 15 Januarie 2025 is die amptelike DeepSeek-toepassing amptelik vrygestel en volledig op groot iOS/Android-toepassingsmarkte bekendgestel.
Op 20 Januarie 2025, naby die Chinese Nuwejaar, is die DeepSeek-R1-afleidingsmodel amptelik vrygestel en oopbron. DeepSeek-R1 het sy werkverrigting ten volle belyn met die amptelike OpenAI o1-vrystelling en het die gedagteketting-uitsetfunksie oopgemaak. Terselfdertyd het DeepSeek ook aangekondig dat die model oopbronlisensie verander sal word na die MIT-lisensie, en die gebruikersooreenkoms sal uitdruklik "modeldistillasie" toelaat, wat oopbron verder omhels en tegnologiedeling bevorder.
Later het hierdie model baie gewild geword en 'n nuwe era ingelui
As gevolg hiervan, vanaf 27 Januarie 2025, het die DeepSeek-toepassing ChatGPT suksesvol verbygesteek en boaan die gratis toepassing-aflaailys op die Amerikaanse iOS-toepassingswinkel, en 'n fenomenale KI-toepassing geword.
Op 27 Januarie 2025, om 01:00 op Oujaarsaand, is DeepSeek Janus-Pro as oopbron vrygestel. Dit is 'n multimodale model wat vernoem is na die tweegesig-god Janus in antieke Romeinse mitologie: dit kyk na beide die verlede en die toekoms. Dit verteenwoordig ook die model se twee vermoëns—visuele begrip en beeldgenerering—en sy oorheersing van veelvuldige rangordes.
DeepSeek se plofbare gewildheid het onmiddellik 'n wêreldwye tegnologie-skokgolf veroorsaak, wat selfs direk veroorsaak het dat NVIDIA se aandeelprys met 18% gedaal het, en die markwaarde van die globale tegnologie-aandelemark met ongeveer 1 triljoen Amerikaanse dollars verdamp het. Wall Street en tegnologiemedia het uitgeroep dat DeepSeek se opkoms die wêreldwye KI-industrielandskap ondermyn en 'n ongekende uitdaging aan Amerikaanse tegnologiereuse stel.
DeepSeek se sukses het ook hoë internasionale aandag en verhitte besprekings oor China se KI tegnologiese innovasievermoëns ontlok. Amerikaanse president Donald Trump het in 'n seldsame openbare kommentaar die styging van DeepSeek as "positief" geprys en gesê dit is 'n "wekroep" vir die Verenigde State. Satya Nadella, uitvoerende hoof van Microsoft, en Sam Altman, uitvoerende hoof van OpenAI, het ook DeepSeek geprys en sy tegnologie "baie indrukwekkend" genoem.
Natuurlik moet ons ook verstaan dat hul lof deels 'n erkenning van DeepSeek se krag is, en deels 'n weerspieëling van hul eie motiewe. Byvoorbeeld, terwyl Anthropic DeepSeek se prestasies erken, doen dit ook 'n beroep op die Amerikaanse regering om chipbeheer op China te versterk.
Antropiese uitvoerende hoof publiseer 'n artikel van 10 000 woorde: DeepSeek se styging beteken dat die Withuis beheermaatreëls moet opskerp
Opsomming en vooruitsigte
As ons terugkyk op DeepSeek se afgelope twee jaar, was dit werklik 'n "Chinese wonderwerk": van 'n onbekende begin tot die "geheimsinnige Oosterse mag" wat nou op die wêreldwye KI-verhoog skyn, het DeepSeek die een "onmoontlik" na die ander geskryf met sy krag en innovasie.
Die dieper betekenis van hierdie tegnologiese ekspedisie het lankal die omvang van kommersiële mededinging oorskry. DeepSeek het aangekondig met feite dat in die strategiese veld van kunsmatige intelligensie wat die toekoms betref, is Chinese maatskappye ten volle in staat om tot die hoogtes van kerntegnologie te klim.
Die “alarmklok” wat deur Trump uitbasuin en die verborge vrees vir Anthropic bevestig presies die belangrikheid van China se KI-vermoëns: dit kan nie net die golwe ry nie, maar dit hervorm ook die rigting van die gety
Deepseek produk vrylating mylpale
- 2 November 2023: DeepSeek-kodeerder groot model
- 29 November 2023: DeepSeek LLM 67B Universele Model
- 18 Desember 2023: DreamCraft3D 3D-model
- 11 Januarie 2024: DeepSeekMoE MoE groot model
- 5 Februarie 2024: DeepSeekMath Wiskundige redenasiemodel
- 11 Maart 2024: DeepSeek-VL Multimodale groot model
- Mei 2024: DeepSeek-V2 MoE algemene model
- 17 Junie 2024: DeepSeek Coder V2 kode model
- 6 September 2024: DeepSeek-V2.5 samesmelting van algemene en kode bevoegdheid modelle
- 13 Desember 2024: DeepSeek-VL2 multimodale MoE-model
- 26 Desember 2024: DeepSeek-V3 nuwe reeks algemene-doel groot modelle
- 20 Januarie 2025: DeepSeek-R1 afleidingsmodel
- 20 Januarie 2025: DeepSeek amptelike toepassing (iOS en Android)
- 27 Januarie 2025: DeepSeek Janus-Pro multimodale model