Tulevaisuudessa kovan luokan innovaatiot tulevat lisääntymään. Sitä ei ehkä ole helppo ymmärtää nyt, koska koko yhteiskuntaryhmää on koulutettava tosiasioilla. Kun tämä yhteiskunta antaa hardcore-innovaatioita tekevien ihmisten menestyä, kollektiivinen ajattelutapa muuttuu. Tarvitsemme vain joukon faktoja ja prosessin. - Liang Wenfeng, DeepSeek:n perustaja.

Viime päivinä DeepSeek on räjähtänyt käsiin kaikkialla maailmassa, mutta koska yritys on niin matalalla profiililla eikä ole tehnyt mitään ilmoituksia, suuri yleisö tietää hyvin vähän tästä teknologiayrityksestä, jolla on paljon potentiaalia - olipa kyse sen perustamistaustasta, liiketoiminnan laajuudesta tai tuotteen ulkoasusta.

Lajiteltuani kaiken materiaalin läpi kirjoitin tämän artikkelin...

Mikä on nykyisten tekoälypelaajien tausta, mitä he tekevät ja keitä he rekrytoivat?

ja luultavasti täydellisin historiallinen katsaus DeepSeek:hen.

Viime vuonna tähän aikaan ystäväni Magic Cube Quantista tuli luokseni ja kysyi: "Haluatko rakentaa ison mallin Kiinaan?". Ja minä vain vietin iltapäivän juoden kahvia. Kuten odotettua, elämä riippuu edelleen valinnoista.

The Magic Cube Quant mainittu tässä on sijoittajaeli DeepSeek:n emoyhtiö.

Niin sanottu "kvantti" on sijoituslaitos, joka ei tee päätöksiä ihmisvoimin vaan algoritmien avulla. Quant Fantasyn perustaminen ei ole pitkä aika, se alkoi vuonna 2015. Vuoteen 2021 mennessä, kun se oli kuusi vuotta vanha, Quant Fantasyn omaisuudenhoidon mittakaava oli ylittänyt 100 miljardia, ja sitä kehuttiin yhdeksi Kiinan "neljästä suuresta kvantti-kuninkaasta".

Fantasy Squaren perustaja Liang Wenfeng, joka on myös DeepSeek:n perustaja, on 1980-luvulla syntynyt talousjohtaja, joka ei kuulu valtavirtaan: hänellä ei ole kokemusta ulkomaisista opinnoista, hän ei ole olympiavoittaja, ja hän on valmistunut Zhejiangin yliopiston elektroniikkatekniikan laitokselta pääaineenaan tekoäly. Hän on syntyperäinen teknologia-asiantuntija, joka toimii hillitysti, "lukee papereita, kirjoittaa koodia ja osallistuu ryhmäkeskusteluihin" joka päivä.

Liang Wenfengillä ei ole perinteisen yrityksen omistajan tapoja, vaan hän on enemmänkin puhdas "teknologiafriikki".. Monet alan sisäpiiriläiset ja DeepSeek-tutkijat ovat antaneet Liang Wenfengille erittäin paljon kiitosta: "Joku, joka voi tehdä tarkkoja päätöksiä korkealta tasolta, mutta myös loistaa yksityiskohdissa etulinjan tutkijoiden yli", ja hänellä on myös "pelottava oppimiskyky".

Huanfang oli jo kauan ennen DeepSeek:n perustamista alkanut tehdä pitkän aikavälin suunnitelmia tekoälyalalla.. Toukokuussa 2023 Liang Wenfeng mainitsi Darksurgen haastattelussa: "Kun OpenAI julkaisi GPT3:n vuonna 2020, tekoälyn kehityksen suunta on tullut hyvin selväksi, ja laskentatehosta tulee keskeinen elementti; mutta jopa vuonna 2021, kun panostimme Firefly 2:n rakentamiseen, useimmat ihmiset eivät vieläkään ymmärtäneet sitä."

Tämän tuomion perusteella Huanfang alkoi rakentaa omaa tietotekniikkainfrastruktuuriaan. "Varhaisimmasta 1 kortista 100 korttiin vuonna 2015, 1 000 korttiin vuonna 2019 ja sitten 10 000 korttiin, tämä prosessi tapahtui vähitellen. Ennen muutamaa sataa korttia meitä isännöitiin IDC:ssä. Kun mittakaava kasvoi, hosting ei enää vastannut vaatimuksia, joten aloimme rakentaa omaa konesalia."

Myöhemmin Finance Eleven kertoi: "Ei ole kuin viisi... kotimaisia yrityksiä, joilla on yli 10 000 näytönohjainta, ja muutaman suuren valmistajan lisäksi niihin kuuluu myös kvantitatiivinen rahastoyhtiö nimeltä Magic Cube.." Yleisesti uskotaan, että 10 000 Nvidia A100 -sirua on kynnysarvo laskentateholle, jolla voidaan kouluttaa suuria malleja.

Aiemmassa haastattelussa Liang Wenfeng mainitsi myös mielenkiintoisen seikan: monet ihmiset luulevat, että sen taustalla on tuntematon liiketoimintalogiikka, mutta itse asiassa se johtuu pääasiassa uteliaisuudesta.

DeepSeekensimmäinen kohtaaminen

Darksurgen haastattelussa toukokuussa 2023, kun häneltä kysyttiin, - "Huanfang ilmoitti vähän aikaa sitten päätöksestään tehdä suuria malleja, miksi kvantitatiivinen rahasto tekisi tällaista?"

Liang Wenfengin vastaus oli kaikuvaltainen: "Päätöksellämme rakentaa laaja malli ei ole mitään tekemistä kvantifioinnin tai rahoituksen kanssa. Olemme perustaneet tätä varten uuden yrityksen nimeltä DeepSeek. Monet Mianfangin tiimin avainhenkilöistä ovat tekoälyn parissa. Kokeilimme tuolloin monia skenaarioita ja päädyimme lopulta rahoitukseen, joka on tarpeeksi monimutkainen. Yleinen tekoäly saattaa olla yksi seuraavaksi vaikeimmista asioista, joten meille kysymys on siitä, miten se tehdään, ei siitä, miksi.

Toiminta ei perustu kaupallisiin intresseihin tai markkinatrendeihin, vaan yksinkertaisesti haluun tutkia AGI-teknologiaa itsessään ja "tärkeimmän ja vaikeimman asian" jatkuvaan tavoitteluun." nimi "DeepSeek" vahvistettiin virallisesti toukokuussa 2023.. Heinäkuun 17. päivänä 2023 yhtiöitettiin Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Co., Ltd..

Osoitteessa Marraskuun 2. päivänä 2023 DeepSeek toimitti ensimmäisen vastauksensa: DeepSeek Coder, suuri malli avoimen lähdekoodin koodista.... Tässä mallissa on useita kokoja, kuten 1B, 7B ja 33B. Avoimen lähdekoodin sisältö sisältää Base-mallin ja komentojen viritysmallin.

Avoimen lähdekoodin malleista Metan CodeLlama oli tuolloin alan vertailukohde. Kun DeepSeek Coder julkaistiin, se kuitenkin osoitti monipuolista johtoasemaa CodeLlamaan verrattuna: koodin luomisessa HumanEval oli 9,3% edellä, MBPP oli 10,8% edellä ja DS-1000 oli 5,9% edellä.

Muista, että DeepSeek Coder on 7B-malli, kun taas CodeLlama on 34B-malli. Lisäksi DeepSeek Coder -malli on ohjeilla virittämisen jälkeen ylittänyt GPT3.5-Turbon kattavasti.

Koodin luomisen lisäksi DeepSeek Coder näyttää myös matematiikan ja päättelyn lihakset.

Kolme päivää myöhemmin, 5. marraskuuta 2023, DeepSeek julkaisi suuren määrän rekrytointisisältöä WeChat-julkaisutilinsä kautta, mukaan lukien AGI-suurmallin harjoittelijan, data-asiantuntijan, data-arkkitehtuurin lahjakkuuden, vanhemman tiedonkeruuinsinöörin, syväoppimisen tutkimus- ja kehitysinsinöörin jne., ja alkoi aktiivisesti laajentaa tiimiä.

Kuten Liang Wenfeng sanoi, DeepSeek:n "pakolliset vaatimukset" osaajien rekrytoinnissa ovat "intohimo ja vankat perustaidot".ja hän korosti, että "Innovaatio vaatii mahdollisimman vähän puuttumista ja johtamista, jotta kaikilla on vapaus tehdä virheitä ja kokeilla uusia asioita". Innovaatio syntyy usein sisältäpäin, ei tarkoituksellisista järjestelyistä, eikä se todellakaan synny opettamalla."

Malleja julkaistaan usein, ja avointa lähdekoodia harjoitetaan.

Kun DeepSeek Coder oli tehnyt suuren vaikutuksen, DeepSeek käänsi huomionsa tärkeimpään taistelukenttään: yleisiin kielimalleihin.

Osoitteessa 29. marraskuuta 2023 DeepSeek julkaisi ensimmäisen yleiskäyttöisen suurkielimallinsa, DeepSeek LLM 67B:n. Mallia on vertailtu Metan saman tason LLaMA2 70B -malliin, ja se on suoriutunut paremmin lähes 20 julkisessa kiinalaisessa ja englanninkielisessä arviointiluettelossa. Erityisesti sen päättely-, matematiikka- ja ohjelmointitaidot (esim. HumanEval, MATH, CEval ja CMMLU) ovat erinomaiset.

DeepSeek LLM 67B on myös valinnut avoimen lähdekoodin tien ja tukee kaupallista käyttöä. Osoittaakseen edelleen vilpittömyytensä ja päättäväisyytensä avoimen lähdekoodin suhteen DeepSeek on ennennäkemättömällä tavalla avannut samanaikaisesti lähdekoodin kahdelle eri mittakaavaiselle mallille, 7B:lle ja 67B:lle, ja se on jopa julkistanut yhdeksän mallin koulutusprosessin aikana tuotettua tarkistuspistettä tutkijoiden ladattavaksi ja käytettäväksi. Tällainen toiminta, joka muistuttaa "kaiken opettamista", on äärimmäisen harvinaista koko avoimen lähdekoodin yhteisössä.

Jotta DeepSeek LLM 67B:n todellisia kykyjä voitaisiin arvioida kattavammin ja objektiivisemmin, DeepSeek-tutkimusryhmä suunnitteli myös huolellisesti joukon "uusia kysymyksiä" "stressitestausta" varten. Nämä kysymykset kattavat korkeatasoisia, hyvin syrjiviä testejä, kuten unkarilaisen lukion matematiikan kokeen kysymykset, Googlen komentoja seuraavat arviointisarjat ja LeetCode-viikkokilpailun kysymykset. Testitulokset olivat rohkaisevia. DeepSeek LLM 67B osoitti hämmästyttävää potentiaalia kyvyssä yleistää näytteen ulkopuolelle, ja sen kokonaissuorituskyky oli jopa lähellä silloisen kehittyneimmän GPT-4-mallin suorituskykyä.

Osoitteessa 18. joulukuuta 2023, DeepSeek avasi lähdekoodin Vincent 3D-malli DreamCraft3D: se voi tuottaa lauseesta korkealaatuisia 3D-malleja, jolloin AIGC:ssä päästään 2D-tasoista 3D-avaruuteen. Jos käyttäjä esimerkiksi syöttää: "Juoksee metsän läpi, hauska hybridikuva sian päästä ja apinakuninkaan ruumiista", DreamCraft3D voi tuottaa korkealaatuista sisältöä:

Periaatteessa malli täydentää ensin Venn-diagrammia ja täydentää sitten 2D-käsitekarttaan perustuvaa geometrista kokonaisrakennetta:

Sitä seuranneessa subjektiivisessa arvioinnissa yli 90% käyttäjistä totesi, että DreamCraft3D:n sukupolven laatu oli parempi kuin aiempien sukupolven menetelmien.

Tammikuun 7. päivänä 2024 DeepSeek julkaisi DeepSeek LLM 67B:n teknisen raportin. Tämä yli 40-sivuinen raportti sisältää monia yksityiskohtia DeepSeek LLM 67B:stä, mukaan lukien itse luodut skaalauslait, täydelliset käytännön yksityiskohdat mallin kohdistamisesta ja kattava AGI-kyvyn arviointijärjestelmä.

Paperin osoite

Osoitteessa Tammikuun 11. päivänä 2024 DeepSeek avasi Kiinan ensimmäisen suuren MoE-mallin (sekoitettu asiantuntija-arkkitehtuuri), DeepSeekMoE: upouusi arkkitehtuuri, joka tukee kiinan- ja englanninkielistä arkkitehtuuria ja on vapaasti kaupalliseen käyttöön. MoE-arkkitehtuuria pidettiin tuolloin yleisesti avaimena OpenAI GPT-4:n suorituskyvyn läpimurtoon. DeepSeek:n itse kehittämä MoE-arkkitehtuuri on johtava useissa mittakaavoissa, kuten 2B:ssä, 16B:ssä ja 145B:ssä, ja myös sen laskennallinen taso on erittäin kiitettävä.

Tammikuun 25. päivänä 2024 DeepSeek julkaisi teknisen raportin DeepSeek Coder. Tässä raportissa esitetään kattava tekninen analyysi sen koulutusaineistosta, koulutusmenetelmistä ja mallin suorituskyvystä. Raportissa todetaan, että siinä on ensimmäistä kertaa rakennettu varastotason kooditiedot ja käytetty topologista lajittelua tiedostojen välisten riippuvuuksien analysointiin, mikä parantaa merkittävästi kykyä ymmärtää pitkien etäisyyksien ristikkäistiedostoja. Koulutusmenetelmistä lisättiin Fill-In-Middle-menetelmä, joka paransi huomattavasti koodin täydentämisen kykyä.

Paperin osoite

Tammikuun 30. päivänä 2024 DeepSeek:n avoin alusta käynnistettiin virallisesti, ja DeepSeek Large Model API -palvelun testaus alkoi. Rekisteröidy saadaksesi 10 miljoonaa polettia ilmaiseksi. Käyttöliittymä on yhteensopiva OpenAI:n API-rajapinnan kanssa, ja saatavilla on sekä Chat/Coder-kaksoismalleja. Tällä hetkellä DeepSeek alkoi tutkia teknologiatutkimuksen ja -kehityksen lisäksi teknologiapalveluntarjoajan polkua.

Osoitteessa 5. helmikuuta 2024 DeepSeek julkaisi toisen vertikaalisen toimialueen mallin, DeepSeekMath., matemaattinen päättelymalli. Tässä mallissa on vain 7B parametria, mutta sen matemaattinen päättelykyky on lähellä GPT-4:ää. Arvovaltaisessa MATH-vertailuluettelossa se ylittää joukon ja päihittää useita avoimen lähdekoodin malleja, joiden parametrien koko on 30B-70B. DeepSeekMathin julkaisu osoittaa täysin DeepSeek:n teknisen vahvuuden ja tulevaisuuteen suuntautuvan asettelun vertikaalisen tutkimuksen ja kehittämisen alalla sekä sen tulevaisuuteen suuntautuvan asettelun mallintutkimuksen ja -kehityksen alalla.

Osoitteessa 28. helmikuuta 2024 DeepSeek julkaisi avoimen lähdekoodin politiikkaa koskevan FAQ:n, jotta kehittäjien huolia DeepSeek:n avoimen lähdekoodin mallien käytöstä voitaisiin lievittää entisestään., jossa annetaan yksityiskohtaisia vastauksia usein kysyttyihin kysymyksiin, kuten avoimen lähdekoodin mallien lisensointiin ja kaupallisen käytön rajoituksiin. DeepSeek omaksuu avoimen lähdekoodin läpinäkyvämmällä ja avoimemmalla asenteella:

Osoitteessa 11. maaliskuuta 2024 DeepSeek julkaisi multimodaalisen suuren mallin DeepSeek-VL.. Tämä on DeepSeek:n ensimmäinen yritys multimodaalisen tekoälyteknologian alalla. Malli on kooltaan 7B ja 1,3B, ja malli ja tekniset paperit ovat samanaikaisesti avoimen lähdekoodin piirissä.

Osoitteessa 20. maaliskuuta 2024, Huanfang AI & DeepSeek kutsuttiin jälleen kerran osallistumaan NVIDIA GTC 2024 -konferenssiin, ja perustaja Liang Wenfeng piti teknisen pääpuheenvuoron. otsikolla "Harmony in Diversity: Aligning and Decoupling the Values of Large Language Models". Keskusteltiin muun muassa seuraavista aiheista: "ristiriita yhden arvomallin ja moniarvoisen yhteiskunnan ja kulttuurin välillä", "suurten mallien arvojen yhteensovittamisen irrottaminen" ja "irrotetun arvojen yhteensovittamisen moniulotteiset haasteet". Tämä osoitti DeepSeek:n humanistista huolenpitoa ja sosiaalista vastuuta tekoälyn kehittämisestä sen teknologisen tutkimuksen ja kehittämisen lisäksi.

Maaliskuussa 2024, DeepSeek API lanseerasi virallisesti maksulliset palvelut, mikä sytytti täysin hintasodan alkusysäyksen Kiinan suurten mallien markkinoilla: 1 juan miljoonaa syöttötavaramerkkiä kohti ja 2 juania miljoonaa lähtötavaramerkkiä kohti.

Vuonna 2024 DeepSeek läpäisi menestyksekkäästi suurten mallien ennätyksen Kiinassa ja poisti poliittiset esteet API-palvelujensa täydelliseksi avaamiseksi.

Toukokuussa 2024 julkaistiin DeepSeek-V2, avoimen lähdekoodin yleinen MoE-suurmalli, ja hintasota alkoi virallisesti. DeepSeek-V2 käyttää MLA-mekanismia (multi-head latent attention mechanism), joka vähentää mallin muistijalanjälkeä 5%-13% perinteisen MHA:n muistijalanjäljestä. Samalla se on myös itsenäisesti kehittänyt DeepSeek MoE Sparse -harvan rakenteen, joka vähentää huomattavasti mallin laskennallista monimutkaisuutta. Tämän ansiosta mallin API-hinta on edelleen "1 yuan/miljoona panosta ja 2 yuania/miljoona tulosta".

DeepSeek:llä on ollut valtava vaikutus. SemiAnalyysin johtava analyytikko uskoo, että DeepSeek V2 -paperi "saattaa olla yksi tämän vuoden parhaista". Samoin Andrew Carr, entinen OpenAI:n työntekijä, uskoo, että paperi on "täynnä hämmästyttävää viisautta", ja on soveltanut sen koulutusasetuksia omaan malliinsa.

On syytä huomata, että tämä on malli, joka vertailee GPT-4-Turboa, ja API-hinta on vain 1/70 jälkimmäisestä.

Kesäkuussa 17, 2024, DeepSeek teki jälleen kerran ison työn ja julkaisi DeepSeek Coder V2 -koodimallin. avoimen lähdekoodin ja väittäen, että sen koodin ominaisuudet ylittivät GPT-4-Turbon, joka oli tuolloin kehittynein suljetun lähdekoodin malli. DeepSeek Coder V2 jatkaa DeepSeek:n johdonmukaista avoimen lähdekoodin strategiaa: kaikki mallit, koodi ja asiakirjat ovat avoimen lähdekoodin tuotteita, ja niistä on kaksi versiota, 236B ja 16B. DeepSeek C oder V2:n API-palvelut ovat myös saatavilla verkossa, ja hinta on edelleen "1 yuan/miljoona syötettä ja 2 yuania/miljoona tulosta".

Osoitteessa 21. kesäkuuta 2024, DeepSeek Coder tuki koodin online-toteutusta. Samana päivänä julkaistiin Claude3.5 Sonnet, jossa on uusi Artifacts-toiminto, joka luo automaattisesti koodia ja suorittaa sen suoraan selaimessa. Samana päivänä myös DeepSeek-sivuston koodiavustaja otti käyttöön saman ominaisuuden: koodin luominen ja sen suorittaminen yhdellä napsautuksella.

Tarkastellaanpa tämän ajanjakson tärkeimpiä tapahtumia:

Jatkuvia läpimurtoja, jotka herättävät maailmanlaajuista huomiota.

Toukokuussa 2024 DeepSeek tuli tunnetuksi yhdessä yössä, kun se julkaisi DeepSeek V2:n, MoE:hen perustuvan avoimen lähdekoodin mallin. Se vastasi suorituskyvyltään GPT-4-Turboa, mutta sen hinta oli vain 1 yuan/miljoona panosta, mikä oli 1/70 GPT-4-Turbosta. Tuohon aikaan DeepSeek:stä tuli alalla tunnettu "hinnanmurskaaja", ja sitten valtavirran toimijat, kuten Zhicheng, ByteDance ja Alibaba... ja muut suuret toimijat seurasivat nopeasti esimerkkiä ja laskivat hintojaan. Samoihin aikoihin oli myös toinen GPT-kieltokierros, ja monet tekoälysovellukset alkoivat kokeilla kotimaisia malleja ensimmäistä kertaa.

Heinäkuussa 2024 DeepSeek:n perustaja Liang Wenfeng suostui jälleen kerran Dark Surgen haastatteluun ja vastasi suoraan hintasotaan: "Hyvin odottamatonta. En odottanut, että hinta saisi kaikki niin herkiksi. Me vain teemme asiat omaan tahtiimme ja hinnoittelemme ne sitten kustannusten perusteella. Periaatteemme on, ettemme menetä rahaa tai tee kohtuuttomia voittoja. Tämäkin hinta on hieman kustannusten yläpuolella pienellä voitolla."

Voidaan nähdä, että toisin kuin monet kilpailijat, jotka maksavat omasta taskustaan tukea, DeepSeek on kannattava tällä hinnalla.

Jotkut saattavat sanoa, että hinnanalennukset ovat kuin käyttäjien ryöstämistä, ja näin on yleensä Internetin aikakauden hintakilpailuissa.

Vastauksena Liang Wenfeng vastasi myös: "Käyttäjien ryöstäminen ei ole päätavoitteemme. Laskimme hintaa, koska toisaalta kustannukset ovat laskeneet, kun tutkimme seuraavan sukupolven mallin rakennetta, ja toisaalta meistä tuntuu, että sekä API:n että tekoälyn pitäisi olla kohtuuhintaisia ja kaikkien saatavilla."

Tarina jatkuu Liang Wenfengin idealismilla.

Heinäkuun 4. päivänä 2024 DeepSeek API otettiin käyttöön. 128K-kontekstin hinta pysyi ennallaan. Mallin päättelykustannukset liittyvät läheisesti kontekstin pituuteen. Siksi monissa malleissa on tiukkoja rajoituksia tämän pituudelle: GPT-3.5:n alkuperäisessä versiossa on vain 4k kontekstia.

Tuolloin DeepSeek lisäsi kontekstin pituutta aiemmasta 32k:sta 128k:een pitäen hinnan ennallaan (1 juan miljoonaa syöttötavaramerkkiä kohti ja 2 juania miljoonaa lähtötavaramerkkiä kohti).

Osoitteessa 10. heinäkuuta 2024, maailman ensimmäisten tekoälyolympialaisten (AIMO) tulokset julkistettiin, ja DeepSeekMath-mallista tuli huippujoukkueiden yhteinen valinta.. Voittajajoukkueet valitsivat kaikki DeepSeekMath-7B:n perustaksi osallistumismalleilleen ja saavuttivat kilpailussa vaikuttavia tuloksia.

Osoitteessa 18. heinäkuuta 2024, DeepSeek-V2 johti avoimen lähdekoodin mallien luetteloa Chatbot Arenalla, Se ohittaa Llama3-70B:n, Qwen2-72B:n, Nemotron-4-340B:n ja Gemma2-27B:n kaltaiset tähtimallit, ja siitä on tullut uusi vertailukohta avoimen lähdekoodin suurille malleille.

Osoitteessa Heinäkuussa 2024 DeepSeek jatkoi lahjakkuuksien rekrytointia. ja rekrytoi huippulahjakkuuksia eri puolilta maailmaa useilla eri aloilla, kuten tekoälyalgoritmeissa, tekoälyinfrastruktuurissa, tekoälytutorissa ja tekoälytuotteissa, valmistautuakseen tuleviin teknologisiin innovaatioihin ja tuotekehitykseen.

Osoitteessa 26. heinäkuuta 2024, DeepSeek API aloitti tärkeän päivityksen, joka tukee täysin useita kehittyneitä ominaisuuksia, kuten ylikirjoittamista, FIM (Fill-in-the-Middle) -täydennystä, toimintojen kutsumista ja JSON-tulostusta. FIM-toiminto on hyvin mielenkiintoinen: käyttäjä antaa alun ja lopun, ja iso malli täyttää keskellä olevan osan, mikä sopii hyvin ohjelmointiprosessiin tarkan toimintakoodin täyttämiseksi. Otetaan esimerkiksi Fibonaccin sarjan kirjoittaminen:

Osoitteessa Elokuun 2. päivänä 2024 DeepSeek otti innovatiivisesti käyttöön kiintolevyn välimuistitekniikan, joka pudotti API-hinnat nilkkoihin. Aiemmin API-hinnat olivat vain ¥1 miljoonaa tokenia kohti. Nyt kuitenkin, kun välimuistiin osuu, API-maksu laskee suoraan ¥0,1:een.

Tämä ominaisuus on erittäin käytännöllinen, kun on kyse jatkuvista keskusteluista ja eräkäsittelytehtävistä.

Osoitteessa 16. elokuuta 2024 DeepSeek julkaisi matemaattisen teoreemantarkistusmallinsa DeepSeek-Prover-V1.5. avoimena lähdekoodina, joka päihitti monet tunnetut avoimen lähdekoodin mallit lukiolaisten ja opiskelijoiden matemaattisten teoreemojen todistuskokeissa.

Osoitteessa 6. syyskuuta 2024 DeepSeek julkaisi DeepSeek-V2.5-fuusiomallin. Aiemmin DeepSeek tarjosi pääasiassa kaksi mallia: Chat-malli keskittyi yleisiin keskustelutaitoihin ja Code-malli koodin käsittelytaitoihin. Tällä kertaa nämä kaksi mallia on yhdistetty yhdeksi ja päivitetty DeepSeek-V2.5:ksi, joka vastaa paremmin ihmisten mieltymyksiä ja jossa on myös saavutettu merkittäviä parannuksia kirjoitustehtävissä, komentojen seuraamisessa ja muissa asioissa.

Osoitteessa 18. syyskuuta 2024, DeepSeek-V2.5 oli jälleen kerran viimeisimmässä LMSYS-luettelossa, joka johtaa kotimaisia malleja. ja asettamalla kotimaisille malleille uusia parhaita pistemääriä useissa yksittäisissä kyvyissä.

Osoitteessa 20. marraskuuta 2024, DeepSeek julkaisi DeepSeek-R1-Lite-version. virallisella verkkosivustolla. Tämä on o1-preview-malliin verrattavissa oleva päättelymalli, ja se tarjoaa myös riittävän määrän synteettistä dataa V3:n jälkiharjoittelua varten.

Osoitteessa Joulukuun 10. päivänä 2024 DeepSeek V2 -sarja päätti toimintansa julkaisemalla viimeisen hienosäädetyn version DeepSeek-V2.5-1210. Tämä versio parantaa kattavasti useita taitoja, kuten matematiikkaa, koodausta, kirjoittamista ja roolipelaamista, jälkiharjoittelun avulla.

Tämän version myötä DeepSeek-verkkosovellus avasi myös verkkohakutoiminnon.

Osoitteessa Joulukuun 13. päivänä 2024 DeepSeek teki uuden läpimurron multimodaalisuuden alalla ja julkaisi avoimen lähdekoodin multimodaalisen suuren mallin DeepSeek-VL2. DeepSeek-VL2 käyttää MoE-arkkitehtuuria, joka parantaa merkittävästi sen visuaalisia ominaisuuksia. Se on saatavana kolmessa koossa: 3B, 16B ja 27B, ja sillä on etulyöntiasema kaikissa mittareissa.

Osoitteessa 26. joulukuuta 2024 DeepSeek-V3 julkaistiin avoimella lähdekoodilla: arvioitu koulutuskustannus oli vain 5,5 miljoonaa Yhdysvaltain dollaria. DeepSeek-V3 vertaili täysin johtavien suljetun lähdekoodin mallien suorituskykyä ulkomailla ja paransi huomattavasti sukupolven nopeutta.

API-palvelujen hinnoittelua mukautettiin, mutta samalla asetettiin 45 päivän etuuskohteluun perustuva kokeiluaika uudelle mallille.

Tammikuun 15. päivänä 2025 virallinen DeepSeek-sovellus julkaistiin virallisesti ja se julkaistiin kokonaan tärkeimmillä iOS/Android-sovellusmarkkinoilla.

Tammikuun 20. päivänä 2025, lähellä kiinalaista uutta vuotta, DeepSeek-R1-verkkomalli julkaistiin virallisesti ja se julkaistiin avoimen lähdekoodin kautta. DeepSeek-R1 yhdenmukaisti suorituskykynsä täysin virallisen OpenAI o1 -julkaisun kanssa ja avasi ajatusketjun ulostulotoiminnon. Samalla DeepSeek ilmoitti myös, että avoimen lähdekoodin mallin lisenssi muutettaisiin MIT-lisenssiksi ja että käyttäjäsopimuksessa sallittaisiin nimenomaisesti "mallin tislaus", mikä edistäisi avoimen lähdekoodin käyttöä ja teknologian jakamista.

Myöhemmin tästä mallista tuli hyvin suosittu ja se aloitti uuden aikakauden.

Tämän seurauksena DeepSeek-sovellus ohitti 27. tammikuuta 2025 onnistuneesti ChatGPT:n ja nousi Yhdysvaltojen iOS App Storen ilmaissovellusten latauslistan kärkeen, ja siitä tuli ilmiömäinen tekoälysovellus.

Tammikuun 27. päivänä 2025, uudenvuodenaattona kello 1.00, DeepSeek Janus-Pro julkaistiin avoimena lähdekoodina. Kyseessä on multimodaalinen malli, joka on saanut nimensä antiikin roomalaisen mytologian kaksikasvoisen Janus-jumalan mukaan: se katsoo sekä menneisyyteen että tulevaisuuteen. Tämä edustaa myös mallin kahta kykyä - visuaalista ymmärrystä ja kuvien tuottamista - ja sen hallintaa useissa eri sijoituksissa.

DeepSeek:n räjähdysmäinen suosio laukaisi välittömästi maailmanlaajuisen teknologia-alan shokkiaallon, joka aiheutti jopa suoraan NVIDIAn osakekurssin 18%:n romahduksen ja maailmanlaajuisten teknologiaosakkeiden markkina-arvon noin 1 biljoonan Yhdysvaltain dollarin haihtumisen. Wall Street ja teknologiamedia julistivat, että DeepSeek:n nousu mullistaa globaalin tekoälyteollisuuden maiseman ja asettaa ennennäkemättömän haasteen amerikkalaisille teknologiajätille.

DeepSeek:n menestys on myös herättänyt suurta kansainvälistä huomiota ja kiivasta keskustelua Kiinan tekoälyn teknologisista innovaatiokyvyistä. Yhdysvaltain presidentti Donald Trump kehui harvinaisessa julkisessa kommentissaan DeepSeek:n nousua "myönteiseksi" ja sanoi sen olevan "herätyssoitto" Yhdysvalloille. Myös Microsoftin toimitusjohtaja Satya Nadella ja OpenAI:n toimitusjohtaja Sam Altman ylistivät DeepSeek:tä ja kutsuivat sen teknologiaa "erittäin vaikuttavaksi".

Meidän on tietenkin myös ymmärrettävä, että heidän ylistyksensä on osittain tunnustusta DeepSeek:n vahvuudelle ja osittain heijastaa heidän omia motiivejaan. Vaikka esimerkiksi Anthropic tunnustaa DeepSeek:n saavutukset, se kehottaa samalla Yhdysvaltain hallitusta tiukentamaan Kiinan sirujen valvontaa.

Anthropic CEO julkaisee 10 000 sanan artikkelin: DeepSeek:n nousu tarkoittaa, että Valkoisen talon pitäisi tehostaa valvontaa.

Yhteenveto ja näkymät

Kun tarkastellaan DeepSeek:n viimeistä kahta vuotta, se on todella ollut "kiinalainen ihme": tuntemattomasta startup-yrityksestä "salaperäiseksi itämaiseksi voimaksi", joka nyt loistaa maailmanlaajuisella tekoälyn näyttämöllä, DeepSeek on kirjoittanut voimallaan ja innovaatiollaan yhden "mahdottomuuden" toisensa jälkeen.

Tämän teknologisen tutkimusmatkan syvempi merkitys on jo kauan sitten ylittänyt kaupallisen kilpailun. DeepSeek on ilmoittanut, että Tulevaisuutta koskevalla strategisella tekoälyn alalla kiinalaiset yritykset pystyvät täysin nousemaan ydinteknologian huipulle.

Trumpin soittama "hälytyskello" ja Anthropicin piilevä pelko vahvistavat juuri Kiinan tekoälyvalmiuksien merkityksen: se ei ainoastaan pysty ratsastamaan aalloilla, vaan myös muokkaamaan vuoroveden suuntaa.

Deepseek tuote vapauta virstanpylväät

  • 2. marraskuuta 2023: DeepSeek kooderi suuri malli
  • 29. marraskuuta 2023: DeepSeek LLM 67B yleismalli
  • 18. joulukuuta 2023: DreamCraft3D 3D-malli
  • 11. tammikuuta 2024: DeepSeekMoE MoE suuri malli
  • 5. helmikuuta 2024: DeepSeekMath Matemaattinen päättelymalli
  • 11. maaliskuuta 2024: DeepSeek-VL Multimodaalinen suuri malli
  • Toukokuu 2024: DeepSeek-V2 MoE yleinen malli
  • 17. kesäkuuta 2024: DeepSeek Kooderi V2 koodimalli
  • 6. syyskuuta 2024: DeepSeek-V2.5 Yleisten ja koodien osaamismallien yhdistäminen.
  • 13. joulukuuta 2024: DeepSeek-VL2 multimodaalinen MoE-malli
  • 26. joulukuuta 2024: DeepSeek-V3 uusi yleiskäyttöisten suurten mallien sarja
  • 20. tammikuuta 2025: DeepSeek-R1 päättelymalli
  • 20. tammikuuta 2025: DeepSeek:n virallinen sovellus (iOS & Android)
  • 27. tammikuuta 2025: DeepSeek Janus-Pro multimodaalinen malli

Samankaltaisia viestejä

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *