DeepSeek on julkaissut lähdekoodinsa, yksityiskohtaisen selvityksen FlashMLA:sta

Viime viikolla DeepSeek ilmoitti avaavansa viisi projektia ensi viikolla:

Netizens sanoi: "Tällä kertaa OpenAI on todella täällä."

Juuri nyt tuli ensimmäinen avoimen lähdekoodin projekti, joka liittyy päättelykiihdytykseen, FlashMLA:

Avoimen lähdekoodin projektin osoite:

DeepSeek FlashMLA

Se on ollut avoimen lähdekoodin kaksi tuntia, ja Githubilla on jo yli 2,7 000 tähteä:

Projektin ydintoiminto on:

"FlashMLA on tehokas MLA-dekoodausydin Hopperin GPU:ille, joka on optimoitu vaihtuvan pituisten sekvenssien palvelemiseen."

Käännettynä se on:

"FlashMLA on tehokas MLA-dekoodausydin, joka on optimoitu NVIDIA Hopper -arkkitehtuurin GPU:ille, erityisesti optimoitu palveluskenaarioihin, jotka käsittelevät muuttuvan pituisia sekvenssejä."

Pähkinänkuoressa:

FlashMLA on tehokas dekoodausydin, jonka DeepInference on suunnitellut Hopper-arkkitehtuurin GPU:ille (kuten H800). Optimoimalla vaihtelevan pituisten sekvenssien monipään potentiaalisen huomion laskennan, se saavuttaa äärimmäisen suorituskyvyn 3000 Gt/s muistin kaistanleveydellä ja 580 TFLOPS:n laskentateholla dekoodausvaiheessa, mikä parantaa merkittävästi päättelyn tehokkuutta pitkillä yhteyksillä suurissa malleissa.

Jotkut nettimiehet sanoivat:

Jotkut ihmiset käyttävät sitä jo, ja he sanovat Pure engineering:

Tämä projekti kuuluu suunnittelun optimointiin ja puristaa laitteiston suorituskyvyn rajoittaa.

Projekti on heti käyttövalmis.

Ympäristövaatimukset:

Hopper GPU
CUDA 12.3 ja uudemmat
PyTorch 2.0 ja uudemmat

Projektin lopussa virkamies totesi myös, että se oli saanut inspiraationsa FlashAttention 2&3- ja NVIDIA CUTLASS -projekteista.

FlashAttention pystyy saavuttamaan nopean ja muistitehokkaan tarkan huomion, ja sitä käytetään valtavirran suurissa malleissa. Uusin kolmannen sukupolven versio voi nostaa H100:n käyttöastetta 75%:hen.

Harjoittelun nopeus kasvaa 1,5-2-kertaiseksi ja FP16:n laskennallinen suorituskyky on peräti 740 TFLOPs/s, saavuttaen 75% teoreettisesta maksimista ja hyödyntäen paremmin laskentaresursseja, mikä aiemmin oli vain 35%.

FlashMLA ei vain saavuta harppausta suorituskyvyssä laitteistotason optimoinnin avulla, vaan tarjoaa myös valmiin ratkaisun tekoälyn päättelyn suunnittelukäytäntöihin, ja siitä tulee keskeinen tekninen läpimurto suurten mallien päättelyn nopeuttamisessa.

Ensimmäisenä päivänä oli suuri paljastus.

Odotan innolla avoimen lähdekoodin juttuja seuraavan neljän päivän aikana!

Kuten nettimies sanoi:

Valas tekee aaltoja!

DeepSeek on mahtava!

Uncategorized

Googlen halpamalli, Gemini 2.0 -sarja, hyökkää: taistelu suurten mallien kustannustehokkuudesta kiihtyy.

Byzddeepseeker helmikuuta 8.2025helmikuuta 8.2025

Suurten tekoälymallien käytön korkeat kustannukset ovat suuri syy siihen, miksi monia tekoälysovelluksia ei ole vielä otettu käyttöön ja mainostettu. Äärimmäisen suorituskyvyn valitseminen merkitsee valtavia laskentatehokustannuksia, mikä johtaa korkeisiin käyttökustannuksiin, joita tavalliset käyttäjät eivät voi hyväksyä. Kilpailu suurista tekoälymalleista on kuin sotaa ilman savua. Jälkeen…

Uncategorized

Altman: Olimme väärässä avoimen lähdekoodin tekoälyn suhteen! DeepSeek on tehnyt OpenAI:sta vähemmän edullista, ja seuraava on GPT-5.

Byzddeepseeker helmikuu 1, 2025helmikuu 1, 2025

o3-mini saapui myöhään illalla, ja OpenAI paljasti viimein uusimman valttikorttinsa. Reddit AMA Q&A:n aikana Altman tunnusti syvästi, että hän oli seissyt avoimen lähdekoodin tekoälyn väärällä puolella. Hän sanoi, että avoimen lähdekoodin sisäistä strategiaa harkitaan, ja mallia kehitetään edelleen, mutta...

Uncategorized

a16z-vuoropuhelu 27-vuotiaan toimitusjohtajan kanssa: AI Agentilla on valtava vipuvaikutus, ja pitkän aikavälin hinnoittelu liitetään työvoimakustannuksiin

Byzddeepseeker helmikuuta 8.2025helmikuuta 8.2025

Kohokohdat AI Agent muokkaa asiakaskokemusta Jesse Zhang: Miten agentti oikeastaan rakennetaan? Näkemyksemme on, että ajan myötä siitä tulee yhä enemmän luonnollisen kielipohjaisen agentin kaltainen, koska näin suuria kielimalleja (LLM) koulutetaan. Pitkällä aikavälillä, jos sinulla on erittäin älykäs agentti, joka…

Uncategorized

Äärimmäisiä uutisia! DeepSeek-tutkija paljastaa verkossa: R1-koulutus kesti vain kahdesta kolmeen viikkoa, ja R1-nollan voimakas kehitys havaittiin kiinalaisen uudenvuoden loman aikana

Byzddeepseeker helmikuuta 4, 2025helmikuuta 4, 2025

Äärimmäisiä uutisia! DeepSeek-tutkija paljastaa verkossa: R1-koulutus kesti vain kahdesta kolmeen viikkoa, ja R1-nollan voimakas kehitys havaittiin kiinalaisen uudenvuoden loman aikana. Huomasimme juuri, että DeepSeek-tutkija Daya Guo vastasi nettilaisten kysymyksiin DeepSeek R1:stä ja yrityksen suunnitelmista. eteenpäin. Voimme vain sanoa…

Uncategorized

DeepSeek-R1-tekniikka paljastettiin: paperin perusperiaatteet murretaan ja avain läpimurtomallin suorituskykyyn paljastuu

Byzddeepseeker helmikuuta 9.2025helmikuuta 9.2025

Tänään jaamme DeepSeek R1:n, Otsikko: DeepSeek-R1: Päättelykyvyn kannustaminen LLM:issä vahvistusoppimisen avulla: LLM:n päättelykyvyn kannustaminen vahvistusoppimisen avulla. Tässä artikkelissa esitellään DeepSeek:n ensimmäisen sukupolven päättelymallit, DeepSeek-R1-Zero ja DeepSeek-R1. DeepSeek-R1-Zero-mallia koulutettiin laajamittaisella vahvistusoppimisella (RL) ilman valvottua hienosäätöä (SFT) alkuvaiheessa,…

Uncategorized

Cathie Wood: DeepSeek vain nopeuttaa kustannussäästöprosessia; suureen lamaan verrattava äärimmäisen keskittynyt markkinarakenne muuttuu

Byzddeepseeker helmikuuta 8.2025helmikuuta 8.2025

Kohokohdat Kilpailu DeepSeek:n kanssa on hyväksi yhdysvaltalaiselle Cathie Woodille: Mielestäni se osoittaa, että innovaatioiden kustannukset laskevat dramaattisesti ja että tämä suuntaus on jo alkanut. Esimerkiksi ennen DeepSeek:tä tekoälyn koulutuksen kustannukset laskivat 75% vuodessa, ja päättelykustannukset jopa 85%:llä…

Samankaltaisia viestejä

Vastaa Peruuta vastaus