V budoucnu bude přibývat tvrdých inovací. Nyní to nemusí být snadné pochopit, protože celá sociální skupina musí být vzdělána na základě faktů. Až tato společnost umožní lidem, kteří tvrdě inovují, uspět, kolektivní myšlení se změní. Potřebujeme jen hromadu faktů a proces. - Liang Wenfeng, zakladatel společnosti DeepSeek
V posledních dnech se společnost DeepSeek rozletěla do celého světa, ale protože je tak nenápadná a neučinila žádná oznámení, veřejnost o této technologické společnosti s velkým potenciálem ví jen velmi málo - ať už jde o její zakladatelské zázemí, rozsah podnikání nebo rozložení produktů.
Poté, co jsem dokončil třídění všech materiálů, jsem napsal tento článek.
Jaké je pozadí současných hráčů AI, co dělají a koho rekrutují?
a pravděpodobně nejúplnější historický přehled DeepSeek.
Loni touto dobou za mnou přišel kamarád z Magic Cube Quant a zeptal se mě: "Chceš postavit velký model v Číně?" "Ano," odpověděl jsem. A já jsem jednoduše strávil odpoledne pitím kávy. Jak se dalo čekat, život stále závisí na volbách.
Na stránkách Magic Cube Quant zde zmíněný investornebo mateřská společnost DeepSeek.
Takzvaný "quant" je investiční instituce, která se nerozhoduje lidskou silou, ale pomocí algoritmů. Vznik Quant Fantasy není dlouhý, začíná v roce 2015. V roce 2021, kdy jí bylo šest let, přesáhl rozsah správy aktiv společnosti Quant Fantasy 100 miliard a byla označena za jednoho ze "čtyř velkých kvantových králů" Číny.
Zakladatel společnosti Fantasy Square Liang Wenfeng, který je zároveň zakladatelem společnosti DeepSeek, je "nemainstreamovým" finančním lídrem narozeným v 80. letech: nemá žádné zahraniční studijní zkušenosti, není olympijským vítězem a vystudoval katedru elektronického inženýrství na Zhejiang University, obor umělá inteligence. Je rodilým technologickým odborníkem, který se chová nenápadně, "denně čte dokumenty, píše kód a účastní se skupinových diskusí".
Liang Wenfeng nemá návyky tradičního podnikatele, ale je spíše čistokrevným "technologickým maniakem".. Mnoho lidí z oboru a výzkumných pracovníků DeepSeek Liang Wenfenga velmi chválilo: "někdo, kdo má jak silné schopnosti v oblasti infračerveného inženýrství, tak schopnosti v oblasti modelového výzkumu a dokáže také mobilizovat zdroje", "někdo, kdo dokáže vynášet přesné soudy z vysoké úrovně, ale také vyniká v detailech oproti výzkumníkům z první linie" a má také "děsivou schopnost učit se".
Již dlouho před založením společnosti DeepSeek začala společnost Huanfang uskutečňovat dlouhodobé plány v oblasti umělé inteligence.. V květnu 2023 se Liang Wenfeng v rozhovoru pro Darksurge zmínil: "Poté, co OpenAI v roce 2020 vydala GPT3, se směr vývoje AI stal velmi jasným a výpočetní výkon se stane klíčovým prvkem; ale ani v roce 2021, kdy jsme investovali do konstrukce Firefly 2, tomu většina lidí stále nemohla porozumět."
Na základě tohoto úsudku začala společnost Huanfang budovat vlastní výpočetní infrastrukturu. "Od nejstarší 1 karty, přes 100 karet v roce 2015, 1 000 karet v roce 2019 až po 10 000 karet, tento proces probíhal postupně. Před několika stovkami karet jsme byli hostováni v IDC. Když se rozsah zvětšil, hosting již nemohl vyhovět požadavkům, a tak jsme začali budovat vlastní počítačovou místnost."
Později Finance Eleven oznámily: "Není jich více než pět. tuzemských společností s více než 10 000 GPU a kromě několika velkých výrobců mezi ně patří také společnost s kvantitativním fondem Magic Cube.." Obecně se má za to, že 10 000 čipů Nvidia A100 představuje hranici výpočetního výkonu pro trénování velkých modelů.
V jednom z předchozích rozhovorů Liang Wenfeng také zmínil zajímavou věc: mnoho lidí by si myslelo, že za tím stojí neznámá obchodní logika, ale ve skutečnosti je to hlavně zvědavost.
DeepSeekprvní setkání
V rozhovoru pro Darksurge v květnu 2023 na otázku. "Není to tak dávno, co Huanfang oznámil své rozhodnutí vytvořit velké modely, proč by kvantitativní fond něco takového dělal?"
Liang Wenfengova odpověď zněla hlasitě: "Naše rozhodnutí vytvořit velký model nemá nic společného s kvantifikací nebo financemi. Za tímto účelem jsme založili novou společnost DeepSeek. Mnoho klíčových členů týmu Mianfang se zabývá umělou inteligencí. V té době jsme vyzkoušeli mnoho scénářů a nakonec jsme se rozhodli pro finance, které jsou dostatečně složité. Obecná umělá inteligence může být jednou z dalších nejsložitějších věcí, takže pro nás je otázkou, jak to udělat, ne proč.
Není veden komerčními zájmy nebo honbou za tržními trendy, ale jednoduše touhou zkoumat samotnou technologii AGI a vytrvalou snahou o "nejdůležitější a nejtěžší věc". název "DeepSeek" byl oficiálně potvrzen v květnu 2023.. Dne 17. července 2023 byla založena společnost "Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Co., Ltd.".
Na adrese 2. listopadu 2023 přišla první odpověď DeepSeek: DeepSeek Coder, velký model otevřeného zdrojového kódu.. Tento model zahrnuje více velikostí, například 1B, 7B a 33B. Obsah otevřeného zdroje zahrnuje model Base a model pro ladění příkazů.
V té době byl mezi open source modely etalonem CodeLlama společnosti Meta. Jakmile však byl vydán DeepSeek Coder, prokázal ve srovnání s CodeLlama mnohostranné vedoucí postavení: v generování kódu měl HumanEval náskok 9,3%, MBPP 10,8% a DS-1000 5,9%.
Mějte na paměti, že DeepSeek Coder je model 7B, zatímco CodeLlama je model 34B. Kromě toho model DeepSeek Coder po vyladění pomocí instrukcí komplexně překonal GPT3.5-Turbo.
Nejenže je generování kódu působivé, ale DeepSeek Coder také předvádí své matematické a logické schopnosti.
O tři dny později, 5. listopadu 2023, společnost DeepSeek zveřejnila prostřednictvím svého veřejného účtu WeChat velké množství náborového obsahu, včetně pozic, jako je stážista velkého modelu AGI, datový expert, talent pro datovou architekturu, senior inženýr pro sběr dat, inženýr pro výzkum a vývoj hlubokého učení atd., a začala aktivně rozšiřovat tým.
Jak řekl Liang Wenfeng, "Nezbytné požadavky" společnosti DeepSeek pro nábor talentů jsou "vášeň a solidní základní dovednosti".a zdůraznil, že "inovace vyžadují co nejméně zásahů a řízení, aby měl každý svobodu dělat chyby a zkoušet nové věci. Inovace často přicházejí zevnitř, nikoliv z úmyslných opatření, a rozhodně nepřicházejí z výuky."
Modely jsou často uvolňovány a open source je praktikován.
Poté, co se DeepSeek Coder prosadil, obrátila společnost DeepSeek svou pozornost na hlavní bojiště: obecné jazykové modely.
Na adrese 29. listopadu 2023 vydala společnost DeepSeek svůj první univerzální model velkého jazyka, DeepSeek LLM 67B. Tento model je srovnáván s modelem LLaMA2 70B společnosti Meta stejné úrovně a dosáhl lepších výsledků v téměř 20 veřejných hodnotících seznamech v čínštině a angličtině. Vynikající jsou zejména jeho schopnosti v oblasti uvažování, matematiky a programování (např. HumanEval, MATH, CEval a CMMLU).
DeepSeek LLM 67B se také rozhodl pro cestu otevřeného zdrojového kódu a podporuje komerční využití. Aby dále prokázala svou upřímnost a odhodlání k otevřenému zdrojovému kódu, společnost DeepSeek bezprecedentně otevřela zdrojový kód současně dvou modelů různých měřítek, 7B a 67B, a dokonce zveřejnila devět kontrolních bodů vytvořených během procesu trénování modelu, které si mohou výzkumní pracovníci stáhnout a používat. Taková operace, která se podobá "výuce všeho", je v celé open source komunitě nesmírně vzácná.
Aby bylo možné komplexněji a objektivněji zhodnotit skutečné schopnosti DeepSeek LLM 67B, výzkumný tým DeepSeek také pečlivě navrhl řadu "nových otázek" pro "zátěžové testování". Tyto otázky pokrývají testy vysoké úrovně a vysoké diskriminace, jako jsou například maturitní otázky z maďarské matematiky, sady pro hodnocení příkazů Google a otázky týdenní soutěže LeetCode. Výsledky testů byly povzbudivé. Model DeepSeek LLM 67B prokázal úžasný potenciál, pokud jde o jeho schopnost zobecnění mimo vzorek, a jeho celkový výkon se dokonce blížil výkonu tehdy nejpokročilejšího modelu GPT-4.
Na adrese 18. prosince 2023, DeepSeek otevřel zdrojový kód 3D modelu Vincent DreamCraft3D: dokáže generovat vysoce kvalitní 3D modely z věty, čímž dosáhne skoku z 2D rovin do 3D prostoru v AIGC. Pokud uživatel zadá např: DreamCraft3D dokáže vygenerovat vysoce kvalitní obsah: "Běžíme lesem, vtipný hybridní obrázek prasečí hlavy a těla opičího krále":
Model v zásadě nejprve doplňuje Vennův diagram a poté doplňuje celkovou geometrickou strukturu na základě 2D pojmové mapy:
V následném subjektivním hodnocení více než 90% uživatelů uvedlo, že DreamCraft3D má ve srovnání s předchozími metodami generování výhodu v kvalitě generování.
Dne 7. ledna 2024 vydala společnost DeepSeek technickou zprávu DeepSeek LLM 67B. Tato více než 40stránková zpráva obsahuje mnoho podrobností o DeepSeek LLM 67B, včetně vlastních zákonů škálování, kompletních praktických podrobností o zarovnání modelu a komplexního systému hodnocení schopností AGI.
Na adrese 11. ledna 2024 společnost DeepSeek otevřela první velký model MoE (mixed expert architecture) v Číně, DeepSeekMoE: zcela novou architekturu, která podporuje čínštinu a angličtinu a je zdarma pro komerční použití. Architektura MoE byla v té době obecně považována za klíč k výkonnostnímu průlomu OpenAI GPT-4. Architektura MoE vyvinutá vlastními silami DeepSeek je špičková v několika měřítkách, jako jsou 2B, 16B a 145B, a její výpočetní výkon je rovněž velmi chvályhodný.
Dne 25. ledna 2024 vydala společnost DeepSeek technickou zprávu DeepSeek Coder. Tato zpráva obsahuje komplexní technickou analýzu jeho tréninkových dat, tréninkových metod a výkonnosti modelu. V této zprávě můžeme vidět, že poprvé zkonstruovala data kódu na úrovni skladu a použila topologické třídění k analýze závislostí mezi soubory, čímž výrazně zvýšila schopnost porozumět vzájemným souborům na velké vzdálenosti. Z hlediska tréninkových metod byla přidána metoda Fill-In-Middle, která výrazně zlepšila schopnost doplňování kódu.
Dne 30. ledna 2024 byla oficiálně spuštěna otevřená platforma DeepSeek a bylo zahájeno testování služby DeepSeek Large Model API. Zaregistrujte se a získejte 10 milionů tokenů zdarma. Rozhraní je kompatibilní s rozhraním OpenAI API a k dispozici jsou oba duální modely Chat/Coder. V této době začala společnost DeepSeek kromě technologického výzkumu a vývoje zkoumat i cestu poskytovatele technologických služeb.
Na adrese 5. února 2024 vydala společnost DeepSeek další model vertikální domény, DeepSeekMath., matematický model uvažování. Tento model má pouze 7B parametrů, ale jeho schopnost matematického uvažování se blíží schopnosti modelu GPT-4. Na autoritativním seznamu srovnávacích testů MATH překonává dav a dosahuje lepších výsledků než řada otevřených modelů s velikostí parametrů mezi 30B a 70B. Vydání DeepSeekMath plně demonstruje technickou sílu a perspektivní uspořádání DeepSeek ve výzkumu a vývoji vertikály a jeho perspektivní uspořádání ve výzkumu a vývoji modelu.
Na adrese 28. února 2024 vydala společnost DeepSeek často kladené dotazy k politice open source, aby ještě více zmírnila obavy vývojářů z používání modelů DeepSeek s otevřeným zdrojovým kódem., která poskytuje podrobné odpovědi na často kladené otázky, jako jsou například modelové licence open source a omezení komerčního využití. Společnost DeepSeek přijímá open source s transparentnějším a otevřenějším přístupem:
Na adrese 11. března 2024 vydala společnost DeepSeek multimodální velký model DeepSeek-VL.. Jedná se o první pokus společnosti DeepSeek o multimodální technologii AI. Model má velikost 7B a 1,3B a model a technické dokumenty jsou současně otevřenými zdroji.
Na adrese 20. března 2024 byla společnost Huanfang AI & DeepSeek opět pozvána k účasti na konferenci NVIDIA GTC 2024 a její zakladatel Liang Wenfeng přednesl technickou přednášku. s názvem "Harmonie v rozmanitosti: "Sladění a rozdělení hodnot velkých jazykových modelů". Diskutovány byly otázky jako "konflikt mezi velkým modelem s jedinou hodnotou a pluralitní společností a kulturou", "oddělení sladění hodnot velkého modelu" a "vícerozměrné výzvy spojené s odděleným sladěním hodnot". To ukázalo, že společnost DeepSeek kromě technologického výzkumu a vývoje věnuje také humanistickou péči a společenskou odpovědnost za vývoj umělé inteligence.
V březnu 2024, DeepSeek API oficiálně spustil placené služby, což zcela zažehlo předehru k cenové válce na čínském trhu s velkými modely: To znamená, že se na trhu objevily nové modely, které se staly součástí velkého modelu.
V roce 2024 společnost DeepSeek úspěšně absolvovala rekordní počet velkých modelů v Číně, čímž odstranila politické překážky pro úplné otevření svých služeb API.
V květnu 2024 byl vydán DeepSeek-V2, open source obecný velký model MoE, a cenová válka oficiálně začala. DeepSeek-V2 využívá MLA (mechanismus latentní pozornosti s více hlavami), který snižuje paměťovou náročnost modelu na 5%-13% paměti tradičního MHA. Současně také nezávisle vyvinula řídkou strukturu DeepSeek MoE Sparse, která výrazně snižuje výpočetní složitost modelu. Díky tomu si model udržuje cenu API "1 juan/milion vstupů a 2 juany/milion výstupů".
DeepSeek má obrovský dopad. V tomto ohledu se vedoucí analytik společnosti SemiAnalysis domnívá, že dokument DeepSeek V2 "může být jedním z nejlepších v tomto roce". Podobně Andrew Carr, bývalý zaměstnanec společnosti OpenAI, se domnívá, že dokument je "plný úžasné moudrosti", a jeho tréninkové nastavení aplikoval na svůj vlastní model.
Je třeba poznamenat, že se jedná o model, který je srovnáván s GPT-4-Turbo, a cena API je pouze 1/70 ceny tohoto modelu.
V červnu 17. března 2024 se společnost DeepSeek opět výrazně prosadila a vydala kódový model DeepSeek Coder V2. open source a tvrdil, že jeho kódové možnosti překonávají GPT-4-Turbo, v té době nejpokročilejší model s uzavřeným zdrojovým kódem. DeepSeek Coder V2 pokračuje v důsledné strategii otevřeného zdrojového kódu společnosti DeepSeek - všechny modely, kód a dokumenty jsou otevřeny a jsou k dispozici dvě verze, 236B a 16B. Služby API DeepSeek C oder V2 jsou rovněž k dispozici online a cena zůstává na "1 juan/milion vstupů a 2 juany/milion výstupů".
Na adrese 21. června 2024, DeepSeek Kodér podporuje online spouštění kódu. Ve stejný den byl vydán Claude3.5 Sonnet s novou funkcí Artifacts, která automaticky generuje kód a spouští jej přímo v prohlížeči. Ve stejný den byla spuštěna stejná funkce i v kódovém asistentu na webu DeepSeek: generování kódu a jeho spuštění jedním kliknutím.
Zopakujme si hlavní události tohoto období:
Neustálé průlomy, které přitahují pozornost celého světa
V květnu 2024 se DeepSeek přes noc proslavil vydáním DeepSeek V2, open source modelu založeného na MoE. Výkonem se vyrovnal modelu GPT-4-Turbo, ale za cenu pouhého 1 jüanu za milion vstupů, což byla 1/70 ceny modelu GPT-4-Turbo. V té době se DeepSeek stal známým "cenovým řezníkem" v oboru a poté ho rychle následovali mainstreamoví hráči jako Zhicheng, ByteDance a Alibaba... a další významní hráči a snížili své ceny. V té době také došlo k dalšímu kolu zákazu GPT a velké množství aplikací AI začalo poprvé zkoušet domácí modely.
V červenci 2024 zakladatel společnosti DeepSeek Liang Wenfeng opět poskytl rozhovor časopisu Dark Surge a přímo reagoval na cenovou válku: "Velmi nečekané. Nečekal jsem, že na cenu budou všichni tak citliví. Prostě děláme věci svým tempem a pak cenu určujeme podle nákladů. Naší zásadou je neprodělávat ani nevytvářet přemrštěné zisky. I tato cena je mírně nad náklady s malým ziskem."
Je vidět, že na rozdíl od mnoha konkurentů, kteří platí dotace z vlastní kapsy, je DeepSeek při této ceně ziskový.
Někteří lidé mohou říci: snižování cen je jako okrádání uživatelů, a to je obvykle případ cenových válek v éře internetu.
Liang Wenfeng na to také reagoval: "Okrádání uživatelů není naším hlavním cílem. Cenu jsme snížili, protože na jedné straně náklady klesly, protože zkoumáme strukturu modelu nové generace, a na druhé straně máme pocit, že API i AI by měly být cenově dostupné a přístupné všem."
Tak pokračuje příběh o idealismu Liang Wenfenga.
4. července 2024 bylo API DeepSeek spuštěno online. Cena za kontext 128K zůstala nezměněna. Náklady na odvození modelu úzce souvisí s délkou kontextu. Proto je u mnoha modelů tato délka přísně omezena: původní verze GPT-3.5 má pouze 4k kontextů.
V této době společnost DeepSeek zvýšila délku kontextu z předchozích 32k na 128k, přičemž cena zůstala nezměněna (1 jüan za milion vstupních tokenů a 2 jüany za milion výstupních tokenů).
Na adrese 10. července 2024 byly vyhlášeny výsledky první světové olympiády umělé inteligence (AIMO) a model DeepSeekMath se stal společnou volbou nejlepších týmů.. Všechny čtyři vítězné týmy si jako základ pro své vstupní modely zvolily DeepSeekMath-7B a v soutěži dosáhly působivých výsledků.
Na adrese 18. července 2024 se DeepSeek-V2 dostal na první místo v seznamu modelů s otevřeným zdrojovým kódem na Chatbot Areně, překonává hvězdné modely jako Llama3-70B, Qwen2-72B, Nemotron-4-340B a Gemma2-27B a stává se novým měřítkem pro velké modely s otevřeným zdrojovým kódem.
Na adrese červenec 2024, DeepSeek pokračoval v náboru talentů a najala špičkové talenty z celého světa v různých oblastech, včetně algoritmů AI, AI Infra, AI Tutor a produktů AI, aby se připravila na budoucí technologické inovace a vývoj produktů.
Na adrese 26. července 2024 proběhla důležitá aktualizace rozhraní API DeepSeek, která plně podporuje řadu pokročilých funkcí, jako je přepisování, doplňování FIM (Fill-in-the-Middle), volání funkcí a výstup JSON. Funkce FIM je velmi zajímavá: uživatel zadá začátek a konec a velký model vyplní střed, což je velmi vhodné pro programovací proces k vyplnění přesného kódu funkce. Jako příklad si vezměme zápis Fibonacciho posloupnosti:
Na adrese 2. srpna 2024 společnost DeepSeek inovativně představila technologii ukládání do mezipaměti pevných disků, čímž snížila ceny API až ke kotníkům. Dříve byly ceny API pouze ¥1 za milion tokenů. Nyní však po dosažení shody s mezipamětí klesne poplatek za API přímo na ¥0,1.
Tato funkce je velmi praktická v případech, kdy se jedná o kontinuální konverzace a úlohy dávkového zpracování.
Na adrese 16. srpna 2024 vydala společnost DeepSeek svůj model pro dokazování matematických tvrzení DeepSeek-Prover-V1.5. jako open source, který v testech dokazování matematických tvrzení na středních a vysokých školách překonal mnoho známých open source modelů.
Na adrese 6. září 2024 vydala společnost DeepSeek fúzní model DeepSeek-V2.5. Dříve DeepSeek nabízel především dva modely: model Chat zaměřený na obecné konverzační dovednosti a model Code zaměřený na dovednosti zpracování kódu. Tentokrát byly oba modely spojeny do jednoho a aktualizovány na verzi DeepSeek-V2.5, která lépe odpovídá lidským preferencím a dosáhla také významného zlepšení v oblasti psaní úloh, následování příkazů a dalších aspektů.
Na adrese 18. září 2024 se DeepSeek-V2.5 opět dostal na nejnovější seznam LMSYS, který vede mezi domácími modely. a stanovení nových nejlepších výsledků pro domácí modely v několika individuálních schopnostech.
Na adrese 20. listopadu 2024, DeepSeek vydala DeepSeek-R1-Lite na oficiálních webových stránkách. Jedná se o inferenční model srovnatelný s modelem o1-preview, který navíc poskytuje dostatečné množství syntetických dat pro následné trénování modelu V3.
Na adrese 10. prosince 2024 vstoupila řada DeepSeek V2 do svého finále vydáním finální vyladěné verze DeepSeek-V2.5-1210. Tato verze komplexně zlepšuje více schopností včetně matematiky, kódování, psaní a hraní rolí prostřednictvím post-tréninku.
S příchodem této verze webová aplikace DeepSeek zpřístupnila také funkci vyhledávání v síti.
Na adrese 13. prosince 2024 společnost DeepSeek učinila další průlom v oblasti multimodality a vydala otevřený multimodální velký model DeepSeek-VL2. DeepSeek-VL2 využívá architekturu MoE, která výrazně zlepšuje jeho vizuální schopnosti. Je k dispozici ve třech velikostech: 3B, 16B a 27B a má výhodu ve všech ukazatelích.
Na adrese 26. prosince 2024 byl uvolněn DeepSeek-V3 s otevřeným zdrojovým kódem: odhadované náklady na výcvik byly pouze 5,5 milionu amerických dolarů. DeepSeek-V3 se plně vyrovnal výkonu předních zámořských modelů s uzavřeným zdrojovým kódem a výrazně zvýšil rychlost generování.
Byly upraveny ceny služeb API, ale zároveň byla pro nový model stanovena 45denní zvýhodněná zkušební doba.
15. ledna 2025 byla oficiální aplikace DeepSeek oficiálně vydána a plně spuštěna na hlavních trzích s aplikacemi pro iOS/Android.
Dne 20. ledna 2025, v době blízké čínskému Novému roku, byl oficiálně vydán a otevřen inferenční model DeepSeek-R1. DeepSeek-R1 plně sladil svůj výkon s oficiální verzí OpenAI o1 a otevřel funkci výstupu myšlenkového řetězce. Současně DeepSeek také oznámil, že licence otevřeného zdrojového kódu modelu bude změněna na licenci MIT a uživatelská smlouva výslovně umožní "destilaci modelu", čímž se ještě více přiblíží otevřenému zdrojovému kódu a podpoří sdílení technologií.
Později se tento model stal velmi populárním a zahájil novou éru.
Výsledkem je, že od 27. ledna 2025 aplikace DeepSeek úspěšně překonala ChatGPT a dostala se na první místo v seznamu bezplatně stahovaných aplikací v americkém obchodě iOS App Store, čímž se stala fenomenální aplikací s umělou inteligencí.
Dne 27. ledna 2025 v 1:00 na Silvestra byl DeepSeek Janus-Pro uvolněn jako open source. Jedná se o multimodální model pojmenovaný po bohu Janusovi se dvěma tvářemi ze starořímské mytologie: směřuje jak do minulosti, tak do budoucnosti. To také představuje dvě schopnosti modelu - vizuální porozumění a vytváření obrazů - a jeho dominanci v několika žebříčcích.
Výbušná popularita DeepSeek okamžitě vyvolala globální technologickou šokovou vlnu, která dokonce přímo způsobila propad ceny akcií společnosti NVIDIA 18% a vypaření tržní hodnoty globálního technologického akciového trhu o přibližně 1 bilion amerických dolarů. Wall Street a technologická média prohlásila, že vzestup společnosti DeepSeek rozvrací globální průmyslové prostředí umělé inteligence a představuje bezprecedentní výzvu pro americké technologické giganty.
Úspěch DeepSeek také vyvolal velkou mezinárodní pozornost a vášnivé diskuse o technologických inovačních schopnostech Číny v oblasti umělé inteligence. Americký prezident Donald Trump ve vzácném veřejném komentáři ocenil vzestup DeepSeek jako "pozitivní" a uvedl, že je to pro Spojené státy "výzva k probuzení". Generální ředitel společnosti Microsoft Satya Nadella a generální ředitel OpenAI Sam Altman rovněž pochválili DeepSeek a označili jeho technologii za "velmi působivou".
Samozřejmě musíme také pochopit, že jejich chvála je částečně uznáním síly DeepSeek a částečně odrazem jejich vlastních motivů. Například Anthropic sice uznává úspěchy DeepSeek, ale zároveň vyzývá vládu USA, aby posílila kontrolu čipů v Číně.
Anthropic CEO vydává článek o 10 000 slovech: Vzestup DeepSeek znamená, že Bílý dům by měl posílit kontroly
Shrnutí a výhled
Když se ohlédneme za uplynulými dvěma lety společnosti DeepSeek, zjistíme, že se skutečně jedná o "čínský zázrak": z neznámého startupu se stala "tajemná východní mocnost", která nyní září na světové scéně umělé inteligence.Společnost DeepSeek svou silou a inovacemi píše jedno "nemožné" za druhým.
Hlubší význam této technologické expedice již dávno přesáhl rámec obchodní soutěže. Společnost DeepSeek oznámila, že ve strategické oblasti umělé inteligence, která se týká budoucnosti, jsou čínské společnosti plně schopny vyšplhat se na vrchol klíčových technologií.
"Poplašná zpráva", kterou vytrubuje Trump, a skrytý strach z Antropa přesně potvrzují význam čínských schopností v oblasti umělé inteligence: nejenže dokáže plout na vlnách, ale také mění směr přílivu a odlivu
Deepseek produkt uvolnění milníky
- 2. listopadu 2023: DeepSeek Coder Large Model
- 29. listopadu 2023: DeepSeek LLM 67B Univerzální model
- 18. prosince 2023: 3D model DreamCraft3D
- 11. ledna 2024: DeepSeekMoE MoE velký model
- 5. února 2024: DeepSeekMath Matematický model uvažování
- 11. března 2024: DeepSeek-VL Multimodální velký model
- Květen 2024: DeepSeek-V2 MoE obecný model
- 17. června 2024: Kódový model DeepSeek Coder V2
- 6. září 2024: DeepSeek-V2.5 sloučení obecných a kódových kompetenčních modelů
- 13. prosince 2024: DeepSeek-VL2 multimodální model MoE
- 26. prosince 2024: DeepSeek-V3 nová řada velkých modelů pro všeobecné použití
- 20. ledna 2025: Inferenční model DeepSeek-R1
- 20. ledna 2025: Oficiální aplikace DeepSeek (iOS a Android)
- 27. ledna 2025: DeepSeek Multimodální model Janus-Pro