A jövőben egyre több és több hardcore innováció lesz. Lehet, hogy ezt most nem könnyű megérteni, mert az egész társadalmi csoportot tényekkel kell nevelni. Amikor ez a társadalom megengedi a hardcore innovációt folytató embereknek, hogy sikeresek legyenek, a kollektív gondolkodásmód meg fog változni. Csak egy csomó tényre és egy folyamatra van szükségünk. - Liang Wenfeng, az DeepSeek alapítója
Az elmúlt napokban az DeepSeek az egész világon felrobbant, de mivel a vállalat annyira visszafogott, és nem tett semmilyen bejelentést, a nyilvánosság nagyon keveset tud erről a nagy potenciállal rendelkező technológiai vállalatról - legyen szó akár az alapítói háttérről, az üzleti körről vagy a termékelrendezésről.
Miután befejeztem az összes anyag átvizsgálását, megírtam ezt a cikket.
Mi a jelenlegi mesterséges intelligencia játékosok háttere, mire készülnek, és kiket toboroznak?
és valószínűleg az DeepSeek legteljesebb történelmi áttekintése.
Tavaly ilyenkor jött hozzám egy barátom a Magic Cube Quant-tól, és megkérdezte: "Akarsz építeni egy nagy modellt Kínában?". Én pedig egyszerűen azzal töltöttem a délutánt, hogy kávét ittam. Ahogy az várható volt, az élet még mindig a döntéseken múlik.
A Magic Cube Quant itt említett befektetővagy anyavállalata, az DeepSeek.
Az úgynevezett "kvant" olyan befektetési intézmény, amely nem emberi erővel, hanem algoritmusok segítségével hoz döntéseket. A Quant Fantasy létrehozása nem hosszú, 2015-ben kezdődött. 2021-re, amikor hat éves volt, a Quant Fantasy vagyonkezelési nagyságrendje meghaladta a 100 milliárdot, és Kína "négy nagy kvantkirályának" egyikeként üdvözölték.
A Fantasy Square alapítója, Liang Wenfeng, aki egyben az DeepSeek alapítója is, az 1980-as években született "nem mainstream" pénzügyi vezető: nincs külföldi tanulmányi tapasztalata, nem nyert olimpiai versenyt, és a Zhejiang Egyetem elektronikai mérnöki tanszékén végzett mesterséges intelligencia szakon. Anyanyelvi technológiai szakértő, aki visszafogottan viselkedik, minden nap "papírokat olvas, kódot ír, és részt vesz a csoportos megbeszéléseken".
Liang Wenfeng nem rendelkezik a hagyományos üzletemberek szokásaival, hanem inkább egy tiszta "tech geek".. Sok iparági bennfentes és DeepSeek kutató rendkívül nagy dicséretet adott Liang Wenfengnek: "valaki, aki mind erős infra mérnöki képességekkel, mind modellkutatási képességekkel rendelkezik, és képes mozgósítani az erőforrásokat", "valaki, aki magas szintről pontos ítéleteket tud hozni, de a részletekben is kiemelkedik a frontvonalbeli kutatók felett", és "félelmetes tanulási képességgel" is rendelkezik.
A Huanfang már jóval az DeepSeek megalapítása előtt elkezdett hosszú távú terveket készíteni az AI-iparban. 2023 májusában Liang Wenfeng a Darksurge-nak adott interjújában megemlítette: "Miután az OpenAI 2020-ban kiadta a GPT3-at, az AI-fejlesztés iránya nagyon világossá vált, és a számítási teljesítmény kulcsfontosságú elemmé válik; de még 2021-ben is, amikor a Firefly 2 építésébe fektettünk, a legtöbb ember még mindig nem értette meg.".
Ennek alapján a Huanfang elkezdte kiépíteni saját számítástechnikai infrastruktúráját. "A legkorábbi 1 kártyától 2015-ben 100 kártyáig, 2019-ben 1000 kártyáig, majd 10 000 kártyáig ez a folyamat fokozatosan történt. Néhány száz kártya előtt egy IDC-ben voltunk elhelyezve. Amikor a lépték egyre nagyobb lett, a tárhely már nem tudott megfelelni a követelményeknek, ezért elkezdtünk saját számítógéptermet építeni."
Később a Pénzügyi Tizenegy jelentette: "Nincs több, mint öt 10.000-nél több GPU-val rendelkező hazai cégek, és néhány nagy gyártó mellett egy Magic Cube nevű mennyiségi alapokat gyártó cég is szerepel közöttük.." Általánosságban úgy vélik, hogy 10 000 Nvidia A100 chip jelenti a nagy modellek képzéséhez szükséges számítási teljesítmény küszöbét.
Egy korábbi interjúban Liang Wenfeng is említett egy érdekes pontot: sokan azt gondolnák, hogy valami ismeretlen üzleti logika áll mögötte, de valójában elsősorban a kíváncsiság vezérli.
DeepSeekelső találkozása
Egy 2023 májusában a Darksurge-nak adott interjúban, amikor megkérdezték. "Nemrég a Huanfang bejelentette, hogy nagy modelleket készít, miért tenne ilyet egy kvantitatív alap?"
Liang Wenfeng válasza harsogó volt: "A nagy modell megalkotására vonatkozó döntésünknek semmi köze a számszerűsítéshez vagy a pénzügyekhez. Ennek érdekében létrehoztunk egy új céget, az DeepSeek-t. A Mianfang csapatának számos kulcsembere foglalkozik mesterséges intelligenciával. Annak idején számos forgatókönyvet kipróbáltunk, és végül a pénzügyek mellett döntöttünk, ami elég összetett. Az általános mesterséges intelligencia talán az egyik következő legnehezebben megvalósítható dolog, így számunkra nem a miért, hanem a hogyan kérdés.
Nem kereskedelmi érdekek vagy a piaci trendek hajszolása vezérli, hanem egyszerűen az AGI technológia felfedezésének vágya és a "legfontosabb és legnehezebb dolog" kitartó keresése. az "DeepSeek" nevet hivatalosan 2023 májusában erősítették meg.. 2023. július 17-én bejegyezték a "Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Co., Ltd." nevű vállalatot.
A oldalon. 2023. november 2-án az DeepSeek leadta első válaszát: DeepSeek Coder, a nyílt forráskódú kód nagy modellje.. Ez a modell többféle méretet tartalmaz, például 1B, 7B és 33B. A nyílt forráskódú tartalom tartalmazza az alapmodellt és a parancshangoló modellt.
Abban az időben a nyílt forráskódú modellek közül a Meta CodeLlama volt az iparág mércéje. Az DeepSeek Coder megjelenése után azonban többszörös vezető pozíciót mutatott a CodeLlamához képest: a kódgenerálásban a HumanEval 9,3%, az MBPP 10,8%, a DS-1000 pedig 5,9% előnnyel vezetett.
Ne feledje, hogy az DeepSeek Coder egy 7B modell, míg a CodeLlama egy 34B modell. Ezenkívül az DeepSeek Coder modell az utasításokkal való hangolás után átfogóan felülmúlta a GPT3.5-Turbót.
Nemcsak a kódgenerálás lenyűgöző, de az DeepSeek Coder a matematika és a gondolkodás terén is megmutatja magát.
Három nappal később, 2023. november 5-én az DeepSeek nagy mennyiségű toborzási tartalmat adott ki a WeChat nyilvános fiókján keresztül, beleértve olyan pozíciókat, mint az AGI nagy modell gyakornok, adatszakértő, adatarchitektúra tehetség, vezető adatgyűjtő mérnök, mélytanulási kutatási és fejlesztési mérnök stb., és elkezdte aktívan bővíteni a csapatot.
Ahogy Liang Wenfeng mondta, Az DeepSeek "elengedhetetlen követelményei" a tehetségtoborzásban a "szenvedély és a szilárd alapkészségek"., és hangsúlyozta, hogy "az innovációhoz a lehető legkevesebb beavatkozásra és irányításra van szükség, hogy mindenki szabadon hibázhasson és új dolgokat próbálhasson ki. Az innováció gyakran belülről fakad, nem pedig szándékos elrendezésekből, és biztosan nem a tanításból".
A modelleket gyakran kiadják, és a nyílt forráskódot gyakorolják.
Miután az DeepSeek Coder nagy sikert aratott, az DeepSeek a fő harctér felé fordította figyelmét: az általános nyelvi modellek felé.
A oldalon. 2023. november 29-én az DeepSeek kiadta első általános célú nagy nyelvi modelljét, az DeepSeek LLM 67B-t. Ezt a modellt a Meta azonos szintű LLaMA2 70B modelljével hasonlították össze, és közel 20 nyilvános kínai és angol nyelvű értékelési listán jobban teljesített. Különösen érvelési, matematikai és programozási képességei (pl. HumanEval, MATH, CEval és CMMLU) kiemelkedőek.
Az DeepSeek LLM 67B szintén a nyílt forráskódú utat választotta, és támogatja a kereskedelmi felhasználást. A nyílt forráskód iránti őszinteségének és eltökéltségének további bizonyítására az DeepSeek példátlan módon egyszerre két különböző léptékű modellt, a 7B-t és a 67B-t is megnyitotta a forráskódot, sőt, a kutatók számára letölthetővé és felhasználhatóvá tette a modellképzési folyamat során létrehozott kilenc ellenőrző pontot. Ez a fajta művelet, amely a "mindent megtanítani" hasonlít, rendkívül ritka az egész nyílt forráskódú közösségben.
Az DeepSeek LLM 67B valódi képességeinek átfogóbb és objektívebb értékelése érdekében az DeepSeek kutatócsoport egy sor "új kérdést" is gondosan megtervezett a "stresszteszteléshez". Ezek a kérdések olyan magas szintű, nagy diszkriminációs képességű teszteket fednek le, mint például a magyar középiskolai matematika vizsgakérdések, a Google parancsot követő értékelő készletek és a LeetCode heti verseny kérdései. A teszteredmények biztatóak voltak. Az DeepSeek LLM 67B elképesztő potenciált mutatott a mintán túli általánosítás képességét illetően, és az általános teljesítménye még az akkor legfejlettebb GPT-4 modelléhez is közel állt.
A oldalon. 2023. december 18., DeepSeek megnyitotta a Vincent 3D modell DreamCraft3D forrását.: egy mondatból kiváló minőségű 3D modelleket tud generálni, így az AIGC-ben a 2D-s síkokból a 3D-s térbe való átmenetet valósítja meg. Például, ha a felhasználó beírja a következőket: "Az erdőben futva egy vicces hibrid kép egy disznófejből és a Majomkirály testéből", a DreamCraft3D képes kiváló minőségű tartalmat kiadni:
A modell elvileg először kiegészíti a Venn-diagramot, majd a 2D fogalmi térkép alapján kiegészíti az általános geometriai struktúrát:
Az ezt követő szubjektív értékelés során a felhasználók több mint 90%-je szerint a DreamCraft3D a korábbi generálási módszerekhez képest előnyben van a generálás minőségét illetően.
2024. január 7-én az DeepSeek kiadta az DeepSeek LLM 67B műszaki jelentést. Ez a több mint 40 oldalas jelentés számos részletet tartalmaz az DeepSeek LLM 67B-ről, beleértve a saját készítésű skálázási törvényeket, a modell összehangolásának teljes gyakorlati részleteit és egy átfogó AGI képességértékelő rendszert.
A oldalon. 2024. január 11-én az DeepSeek nyílt forráskódúvá tette az első MoE (vegyes szakértői architektúra) nagy modellt Kínában, az DeepSeekMoE-t: egy vadonatúj architektúrát, amely támogatja a kínai és az angol nyelvet, és szabadon használható kereskedelmi célokra. A MoE architektúrát akkoriban általánosságban az OpenAI GPT-4 teljesítménybeli áttörésének kulcsának tekintették. Az DeepSeek saját fejlesztésű MoE-architektúrája több skálán, például a 2B, 16B és 145B szinteken is vezető szerepet tölt be, és számítási teljesítménye is nagyon dicséretes.
2024. január 25-én az DeepSeek kiadta az DeepSeek Coder technikai jelentést. Ez a jelentés átfogó technikai elemzést nyújt a képzési adatokról, a képzési módszerekről és a modell teljesítményéről. Ebben a jelentésben láthatjuk, hogy első alkalommal épített raktárszintű kódadatokat, és topológiai rendezést használt a fájlok közötti függőségek elemzéséhez, jelentősen javítva a hosszú távú keresztfájlok megértésének képességét. A képzési módszerek tekintetében kiegészült a Fill-In-Middle módszerrel, amely jelentősen javította a kódkiegészítés képességét.
2024. január 30-án hivatalosan is elindult az DeepSeek nyílt platform, és megkezdődött az DeepSeek Large Model API szolgáltatás tesztelése. Regisztrálj, hogy 10 millió tokent kapj ingyen. A felület kompatibilis az OpenAI API-interfészével, és mindkét Chat/Coder kettős modell elérhető. Ebben az időben az DeepSeek a technológiai kutatás és fejlesztés mellett a technológiai szolgáltatói utat is elkezdte felfedezni.
A oldalon. 2024. február 5-én az DeepSeek kiadott egy másik vertikális tartományi modellt, az DeepSeekMath-ot., egy matematikai gondolkodási modell. Ez a modell csak 7B paraméterrel rendelkezik, de matematikai következtetési képessége közel áll a GPT-4-hez. A mérvadó MATH benchmark listán felülmúlja a tömeget, és több olyan nyílt forráskódú modellt is felülmúl, amelyek paramétereinek mérete 30B és 70B között van. Az DeepSeekMath kiadása teljes mértékben bizonyítja az DeepSeek technikai erejét és előremutató elrendezését a vertikális kutatás és fejlesztés, valamint előremutató elrendezését a modellkutatás és -fejlesztés terén.
A oldalon. 2024. február 28-án az DeepSeek nyílt forráskódú modelljeinek használatával kapcsolatos fejlesztői aggályok további enyhítése érdekében az DeepSeek kiadta a nyílt forráskódú irányelvek GYIK-jét., amely részletes válaszokat ad a gyakran feltett kérdésekre, például a nyílt forráskódú licencek modelljére és a kereskedelmi felhasználási korlátozásokra. Az DeepSeek átláthatóbb és nyitottabb hozzáállással karolja fel a nyílt forrást:
A oldalon. 2024. március 11-én az DeepSeek kiadta a multimodális nagyméretű DeepSeek-VL modellt.. Ez az DeepSeek első kísérlete a multimodális AI-technológiára. A modell 7B és 1,3B méretű, és a modell és a műszaki dokumentumok egyidejűleg nyílt forráskódúak.
A oldalon. 2024. március 20-án a Huanfang AI & DeepSeek ismét meghívást kapott az NVIDIA GTC 2024 konferencián való részvételre, és Liang Wenfeng alapító technikai előadást tartott. "Harmónia a sokféleségben: A nagy nyelvi modellek értékeinek összehangolása és szétválasztása". Olyan kérdések kerültek megvitatásra, mint "az egy értéket képviselő nagy modell és a pluralista társadalom és kultúra közötti konfliktus", "a nagy modellek értékegyeztetésének szétválasztása" és "a szétválasztott értékegyeztetés többdimenziós kihívásai". Ez a technológiai kutatás és fejlesztés mellett az DeepSeek humanista gondosságát és társadalmi felelősségvállalását is bizonyította a mesterséges intelligencia fejlesztéséért.
2024 márciusában, DeepSeek API hivatalosan elindította a fizetős szolgáltatásokat, ami teljesen meggyújtotta az árháború előjátékát a kínai nagyméretű modellek piacán: 1 jüan egymillió input tokenenként és 2 jüan egymillió output tokenenként.
2024-ben az DeepSeek sikeresen teljesítette a nagy modellek rekordját Kínában, elhárítva a politikai akadályokat az API-szolgáltatások teljes megnyitása elől.
2024 májusában megjelent az DeepSeek-V2, egy nyílt forráskódú általános MoE nagy modell, és az árháború hivatalosan is elkezdődött. Az DeepSeek-V2 MLA-t (többfejű látens figyelem mechanizmus) használ, amely a modell memóriaigényét a hagyományos MHA memóriaigényének 5%-13%-re csökkenti. Ugyanakkor önállóan fejlesztette ki az DeepSeek MoE Sparse ritkás struktúrát is, amely jelentősen csökkenti a modell számítási komplexitását. Ennek köszönhetően a modell fenntartja az "1 jüan/millió bemenet és 2 jüan/millió kimenet" API-árat.
Az DeepSeek óriási hatást gyakorolt. Ebben a tekintetben a SemiAnalysis vezető elemzője úgy véli, hogy az DeepSeek V2-es papír "az egyik legjobb lehet idén". Andrew Carr, az OpenAI korábbi alkalmazottja hasonlóképpen úgy véli, hogy a papír "tele van elképesztő bölcsességgel", és a benne szereplő képzési beállításokat alkalmazta saját modelljénél.
Meg kell jegyezni, hogy ez a modell a GPT-4-Turbo összehasonlító modellje, és az API ára csak 1/70-ét teszi ki az utóbbinak.
Júniusban 17, 2024, az DeepSeek ismét nagyot lépett előre, és kiadta az DeepSeek Coder V2 kódmodelljét. nyílt forráskódú, és azt állította, hogy kódjának képességei felülmúlták az akkori legfejlettebb zárt forráskódú GPT-4-Turbo modellt. Az DeepSeek Coder V2 folytatja az DeepSeek következetes nyílt forráskódú stratégiáját: minden modell, kód és dokumentum nyílt forráskódú, és két változatot, a 236B és a 16B változatot bocsátja rendelkezésre. Az DeepSeek C oder V2 API-szolgáltatásai is elérhetőek online, és az ár továbbra is "1 jüan/millió bemenet és 2 jüan/millió kimenet".
A oldalon. 2024. június 21., DeepSeek Coder támogatott online kódvégrehajtás. Ugyanezen a napon jelent meg a Claude3.5 Sonnet, az új Artifacts funkcióval, amely automatikusan kódot generál és közvetlenül a böngészőben futtatja. Ugyanezen a napon az DeepSeek weboldalon a kódasszisztens is elindította ugyanezt a funkciót: kódot generál és egyetlen kattintással futtat.
Tekintsük át ennek az időszaknak a főbb eseményeit:
Folyamatos áttörések, globális figyelemfelkeltés
2024 májusában az DeepSeek egyik napról a másikra híressé vált az DeepSeek V2, egy nyílt forráskódú, MoE alapú modell kiadásával. A GPT-4-Turbo teljesítményét elérte, de mindössze 1 jüan/millió input árán, ami a GPT-4-Turbo 1/70-ének felelt meg. Abban az időben az DeepSeek az iparág jól ismert "ármészárosa" lett, majd a mainstream szereplők, mint a Zhicheng, a ByteDance és az Alibaba... és más nagy szereplők gyorsan követték példáját, és csökkentették áraikat. Szintén ez idő tájt volt a GPT-tilalom újabb köre, és számos AI-alkalmazás kezdte először kipróbálni a hazai modelleket.
2024 júliusában az DeepSeek alapítója, Liang Wenfeng ismét elfogadott egy interjút a Dark Surge-nak, és közvetlenül reagált az árháborúra: "Nagyon váratlanul. Nem gondoltam volna, hogy az ár mindenkit ennyire érzékennyé tesz. Mi csak a saját tempónkban csináljuk a dolgokat, és aztán a költségek alapján árazunk. Az az elvünk, hogy ne veszítsünk pénzt, és ne termeljünk túlzott nyereséget. Ez az ár is valamivel az önköltség felett van, egy kis nyereséggel."
Látható, hogy sok versenytárssal ellentétben, akik saját zsebből fizetnek a támogatásért, az DeepSeek ilyen áron nyereséges.
Egyesek azt mondhatják: az árcsökkentés olyan, mintha kirabolnánk a felhasználókat, és ez általában így is van az internetes korszak árháborúiban.
Liang Wenfeng is válaszolt: "Nem a felhasználók kirablása a fő célunk. Azért csökkentettük az árat, mert egyrészt a költségek csökkentek, ahogy a következő generációs modell struktúráját vizsgáljuk, másrészt úgy érezzük, hogy mind az API-nak, mind az AI-nak megfizethetőnek és mindenki számára elérhetőnek kell lennie."
A történet tehát Liang Wenfeng idealizmusával folytatódik.
2024. július 4-én az DeepSeek API elindult. A 128K kontextus ára változatlan maradt. Egy modell következtetési költsége szorosan összefügg a kontextus hosszával. Ezért sok modellnek szigorú korlátozásai vannak erre a hosszra: a GPT-3.5 kezdeti verziója csak 4k kontextust tartalmaz.
Ekkor az DeepSeek a korábbi 32k helyett 128k-ra növelte a kontextus hosszát, miközben az ár változatlan maradt (1 jüan egymillió bemeneti tokenenként és 2 jüan egymillió kimeneti tokenenként).
A oldalon. 2024. július 10-én kihirdették a világ első AI Olimpiájának (AIMO) eredményeit, és az DeepSeekMath modell lett a legjobb csapatok közös választása.. A győztes Top 4 csapat mindegyike az DeepSeekMath-7B-t választotta nevezési modelljének alapjául, és lenyűgöző eredményeket ért el a versenyen.
A oldalon. 2024. július 18. Az DeepSeek-V2 vezette a Chatbot Arena nyílt forráskódú modelljeinek listáját, felülmúlva az olyan sztármodelleket, mint a Llama3-70B, a Qwen2-72B, a Nemotron-4-340B és a Gemma2-27B, és új mércévé válva a nyílt forráskódú nagy modellek számára.
A oldalon. 2024. július DeepSeek folytatta a tehetségek toborzását. és a világ minden tájáról toborozta a legjobb tehetségeket több területen, többek között az AI algoritmusok, az AI Infra, az AI Tutor és az AI termékek területén, hogy felkészüljön a jövőbeli technológiai innovációra és termékfejlesztésre.
A oldalon. 2024. július 26-án az DeepSeek API egy fontos frissítést vezetett be, amely teljes mértékben támogat egy sor fejlett funkciót, például a felülírást, a FIM (Fill-in-the-Middle) kiegészítést, a funkcióhívást és a JSON kimenetet. A FIM funkció nagyon érdekes: a felhasználó megadja az elejét és a végét, és a nagy modell kitölti a közepét, ami nagyon alkalmas a programozási folyamathoz a pontos funkciókód kitöltésére. Vegyük példaként a Fibonacci-sorozat írását:
A oldalon. 2024. augusztus 2-án az DeepSeek innovatív módon bevezette a merevlemezes gyorsítótárazási technológiát, bokáig csökkentve az API-árakat. Korábban az API-árak csak ¥1 millió tokenre vonatkoztak. Most azonban, amint a cache-találat megtörténik, az API-díj közvetlenül ¥0,1-re csökken.
Ez a funkció nagyon praktikus, ha folyamatos beszélgetésekről és kötegelt feldolgozási feladatokról van szó.
A oldalon. 2024. augusztus 16-án az DeepSeek kiadta az DeepSeek-Prover-V1.5 matematikai tételbizonyító modelljét. nyílt forráskódú, amely számos ismert nyílt forráskódú modellt felülmúlt a középiskolai és egyetemi matematikai tételbizonyítási teszteken.
A oldalon. 2024. szeptember 6-án az DeepSeek kiadta az DeepSeek-V2.5 fúziós modellt. Korábban az DeepSeek főként két modellt kínált: a Chat modell az általános társalgási készségekre, a Code modell pedig a kódfeldolgozási készségekre összpontosított. Ezúttal a két modellt egyesítették egybe, és frissítették az DeepSeek-V2.5-re, amely jobban igazodik az emberi preferenciákhoz, és jelentős javulást ért el az írási feladatok, a parancskövetés és egyéb szempontok terén is.
A oldalon. 2024. szeptember 18. Az DeepSeek-V2.5 ismét felkerült a legújabb LMSYS listára, a hazai modellek élére. és a hazai modellek új legjobb pontszámát állította fel több egyéni képességben.
A oldalon. 2024. november 20-án az DeepSeek kiadta az DeepSeek-R1-Lite-ot. a hivatalos honlapon. Ez az o1-preview-hoz hasonló következtetési modell, és elegendő mennyiségű szintetikus adatot biztosít a V3 utótanításához.
A oldalon. 2024. december 10-én az DeepSeek-V2.5-1210 végleges, finomhangolt változatának kiadásával az DeepSeek-V2.5-1210 sorozat fináléját nyitotta meg. Ez a változat átfogóan fejleszti több képességet, beleértve a matematikát, a kódolást, az írást és a szerepjátékot az utólagos tréningeken keresztül.
Ennek a verziónak az érkezésével az DeepSeek webes alkalmazás megnyitotta a hálózati keresési funkciót is.
A oldalon. 2024. december 13-án az DeepSeek újabb áttörést ért el a multimodalitás területén, és kiadta a nyílt forráskódú multimodális nagyméretű DeepSeek-VL2 modellt. Az DeepSeek-VL2 a MoE architektúrát alkalmazza, ami jelentősen javítja a vizuális képességeit. Három méretben kapható: 3B, 16B és 27B méretben, és minden mérőszámban előnyben van.
A oldalon. 2024. december 26-án az DeepSeek-V3 nyílt forráskóddal jelent meg: a becsült képzési költség mindössze 5,5 millió dollár volt. Az DeepSeek-V3 teljes mértékben összehasonlította a tengerentúli vezető zárt forráskódú modellek teljesítményét, és jelentősen javította a generálási sebességet.
Az API-szolgáltatások árazását kiigazították, ugyanakkor az új modellre 45 napos kedvezményes próbaidőszakot állapítottak meg.
2025. január 15-én hivatalosan is megjelent a hivatalos DeepSeek alkalmazás, és teljes mértékben elindult a főbb iOS/Android alkalmazáspiacokon.
2025. január 20-án, közel a kínai újévhez, az DeepSeek-R1 következtetési modell hivatalosan is megjelent és nyílt forráskódúvá vált. Az DeepSeek-R1 teljes mértékben összehangolta teljesítményét a hivatalos OpenAI o1 kiadással, és megnyitotta a gondolati lánc kimeneti funkcióját. Ezzel egyidejűleg az DeepSeek azt is bejelentette, hogy a modell nyílt forráskódú licencét MIT licencre változtatja, és a felhasználói megállapodás kifejezetten lehetővé teszi a "modell desztillációját", tovább támogatva a nyílt forráskódot és elősegítve a technológia megosztását.
Később ez a modell nagyon népszerűvé vált, és egy új korszakot nyitott meg.
Ennek eredményeképpen 2025. január 27-én az DeepSeek App sikeresen megelőzte a ChatGPT-t, és az amerikai iOS App Store ingyenes letöltési listájának élére került, és fenomenális AI alkalmazássá vált.
2025. január 27-én, szilveszter éjjel 1:00 órakor az DeepSeek Janus-Pro nyílt forráskódúvá vált. Ez egy multimodális modell, amely az ókori római mitológiában a kétarcú Janus istenről kapta a nevét: egyszerre néz a múltba és a jövőbe. Ez egyben a modell két képességét - a vizuális megértést és a képalkotást -, valamint a több rangsorban való uralmát is jelképezi.
DeepSeek robbanásszerű népszerűsége azonnal globális technológiai lökéshullámot váltott ki, sőt közvetlenül az NVIDIA részvényárfolyamának 18%-es zuhanását, és a globális technológiai részvénypiac piaci értékének mintegy 1 billió amerikai dollárral való elpárolgását okozta. A Wall Street és a technológiai média azt nyilatkozta, hogy az DeepSeek felemelkedése felforgatja a globális mesterséges intelligencia iparági környezetet, és példátlan kihívást jelent az amerikai technológiai óriások számára.
Az DeepSeek sikere nagy nemzetközi figyelmet és heves vitákat váltott ki Kína mesterséges intelligencia technológiai innovációs képességeiről. Donald Trump amerikai elnök egy ritka nyilvános nyilatkozatában "pozitívnak" nevezte az DeepSeek felemelkedését, és azt mondta, hogy ez "ébresztő hívás" az Egyesült Államok számára. Satya Nadella, a Microsoft vezérigazgatója és Sam Altman, az OpenAI vezérigazgatója szintén dicsérte az DeepSeek-t, és "nagyon lenyűgözőnek" nevezte a technológiáját.
Természetesen azt is meg kell értenünk, hogy dicséretük részben az DeepSeek erejének elismerése, részben pedig saját indítékaik tükrözése. Például, miközben az Anthropic elismeri az DeepSeek eredményeit, egyúttal felszólítja az amerikai kormányt, hogy erősítse meg a Kínával szembeni chipellenőrzést.
Az Anthropic CEO egy 10 000 szavas cikket tesz közzé: DeepSeek felemelkedése azt jelenti, hogy a Fehér Háznak fokoznia kell az ellenőrzést
Összefoglaló és kilátások
Visszatekintve az DeepSeek elmúlt két évére, valóban egy "kínai csoda" volt: egy ismeretlen startupból a "titokzatos keleti hatalom" lett, amely most a globális AI színpadon ragyog, az DeepSeek erejével és innovációjával egymás után írta a "lehetetlent".
Ennek a technológiai expedíciónak a mélyebb értelme már régen túlmutat a kereskedelmi versenyen. Az DeepSeek tényszerűen bejelentette, hogy a mesterséges intelligencia jövőre vonatkozó stratégiai területén a kínai vállalatok teljes mértékben képesek az alaptechnológia magaslataira emelkedni.
A Trump által meghirdetett "vészharang" és az Antropic rejtett félelme pontosan megerősíti Kína mesterséges intelligencia képességeinek fontosságát: nem csak meglovagolhatja a hullámokat, hanem át is alakítja az ár irányát.
Deepseek termék kiadja mérföldkövek
- 2023. november 2: DeepSeek kódoló nagy modell
- 2023. november 29: DeepSeek LLM 67B univerzális modell
- 2023. december 18: DreamCraft3D 3D modell
- 2024. január 11: DeepSeekMoE MoE nagy modell
- 2024. február 5: DeepSeekMath Matematikai gondolkodási modell
- 2024. március 11: DeepSeek-VL Multimodális nagy modell
- 2024. május: DeepSeek-V2 MoE általános modell
- 2024. június 17: DeepSeek Coder V2 kódmodell
- 2024. szeptember 6: DeepSeek-V2.5 Az általános és a kódkompetencia-modellek egyesítése
- 2024. december 13: DeepSeek-VL2 multimodális MoE modell
- 2024. december 26: DeepSeek-V3 új sorozat általános célú nagyméretű modellek
- 2025. január 20: DeepSeek-R1 következtetési modell
- 2025. január 20: DeepSeek hivatalos alkalmazás (iOS és Android)
- 2025. január 27: DeepSeek Janus-Pro multimodális modell