Az DeepSeek kiadta forráskódját, a FlashMLA - Deepseek R1 részletes magyarázatát

A múlt héten az DeepSeek bejelentette, hogy a következő héten öt projektet nyit meg forráskóddal:

A netezők azt mondták: „Ezúttal valóban itt van az OpenAI.”

Most érkezett meg az első nyílt forráskódú projekt, ami a következtetések gyorsításával kapcsolatos, a FlashMLA:

A nyílt forráskódú projekt címe:

DeepSeek FlashMLA

Két órája nyílt forráskódú, és a Githubnak már több mint 2,7 ezer csillaga van:

A projekt fő funkciója:

"A FlashMLA egy hatékony MLA dekódoló kernel a Hopper GPU-khoz, változó hosszúságú sorozatok kiszolgálására optimalizálva."

Lefordítva, az:

"A FlashMLA egy hatékony MLA dekódoló kernel, amelyet NVIDIA Hopper architektúrájú GPU-khoz optimalizáltak, és kifejezetten a változó hosszúságú sorozatokat feldolgozó szolgáltatási forgatókönyvekhez optimalizálták."

Dióhéjban:

A FlashMLA egy hatékony dekódoló mag, amelyet a DeepInference fejlesztett ki Hopper architektúrájú GPU-khoz (például a H800-hoz). A változó hosszúságú sorozatok többfejes potenciális figyelem számításának optimalizálásával 3000 GB/s memória sávszélességet és 580TFLOPS számítási teljesítményt ér el a dekódolási szakaszban, jelentősen javítva a hosszú kontextusokkal való érvelés hatékonyságát nagy modellek esetén.

Néhány netező azt mondta:

Vannak, akik már használják, és azt mondják, Pure engineering:

Ez a projekt a mérnöki optimalizálás és szorítja a hardver teljesítményét a határ.

A projekt a dobozból kivéve használatra kész.

Környezeti követelmények:

Hopper GPU
CUDA 12.3 és újabb
PyTorch 2.0 és újabb

A projekt végén a tisztviselő azt is kijelentette, hogy a FlashAttention 2&3 és az NVIDIA CUTLASS projektek ihlették.

A FlashAttention gyors és memória-hatékony precíz figyelem elérésére képes, és a mainstream nagy modellekben használatos. A legújabb, harmadik generációs verzió 75%-re növelheti a H100 kihasználtságát.

A képzési sebesség 1,5-2-szeresére nő, az FP16 számítási teljesítménye pedig eléri a 740 TFLOP/s-ot, ami eléri az elméleti maximális átviteli sebesség 75%-ját, és teljesebben kihasználja a számítási erőforrásokat, ami korábban csak 35% volt.

FlashMLA A hardverszintű optimalizálással nemcsak teljesítményugrást ér el, hanem kész megoldást is kínál a mesterséges intelligencia-következtetés mérnöki gyakorlataihoz, és kulcsfontosságú technológiai áttörést jelent a nagy modellek következtetéseinek felgyorsításában.

Volt egy nagy leleplezés az első napon.

Várom a nyílt forráskódú cuccokat a következő négy napban!

Ahogy a netező mondta:

A bálna hullámokat ver!

Az DeepSeek fantasztikus!

Nem kategorizált

A Google egyszerre három új modellt adott ki: a Gemini-2.0-Pro ingyenes, kiemelkedő pontszámmal rendelkezik és első helyen áll, valamint alkalmas összetett promptok kódolására és feldolgozására!

A általzddeepseeker 2025. február 82025. február 8

A Gemini 2.0 története felgyorsul. A decemberi Flash Thinking Experimental verzió egy működő modellt hozott a fejlesztőknek alacsony késleltetéssel és nagy teljesítménnyel. Az év elején a 2.0 Flash Thinking Experimental frissítésre került a Google AI Stúdióban, hogy a Flash sebességét a továbbfejlesztett következtetési képességekkel kombinálva tovább javítsák a teljesítményt. A múlt héten,…

Nem kategorizált

Első indítás! A SiliconFlow X Huawei Cloud közösen indítja el az DeepSeek R1 & V3 következtetési szolgáltatásokat az Ascend Cloudon alapulva!

A általzddeepseeker február 1, 2025február 1, 2025

Az DeepSeek-R1 és az DeepSeek-V3 nyílt forráskódú megjelenésük óta világszerte nagy feltűnést keltett. Ezek az DeepSeek csapat ajándéka az egész emberiségnek, és mi őszintén örülünk a sikerüknek. A Silicon Mobility és a Huawei Cloud csapatainak napokig tartó kemény munkája után ma a kínai felhasználóknak is adunk egy kínai...

Nem kategorizált

Friss hírek! Az OpenAI ma 2 új következtetési modellt adott ki: o3-mini és o3-mini-high.

A általzddeepseeker február 1, 2025február 1, 2025

o3-mini és o3-mini (magas) ma jelenik meg. A normál felhasználók az o3-mini-t is megkapják, a plusz felhasználók pedig az o3-mini (high)-t. Az o3-mini (high) körülbelül 200 ponttal magasabb, mint az o1 a Codeforce-on, gyorsabb, mint az o1, és jobban teljesít kódolásban és matematikában, de az ára még mindig az o1-mini szintjén van.....

Nem kategorizált

Közel áll az DeepSeek-R1-32B-hez, és összetöri Fei-Fei Li s1-ét! UC Berkeley és más nyílt forráskódú új SOTA következtetési modellek

A általzddeepseeker 2025. február 142025. február 14

A 32B következtetési modell csak az adatok 1/8-át használja fel, és az azonos méretű DeepSeek-R1-hez kötődik! Az imént olyan intézmények, mint a Stanford, a UC Berkeley és a Washingtoni Egyetem közösen kiadtak egy SOTA-szintű következtetési modellt, az OpenThinker-32B-t, és nyílt forráskódú akár 114 000 képzési adatokat is. OpenThinker Project honlapja: OpenThinker Hugging Face:…

Nem kategorizált

Paper-DeepSeek-R1: Az érvelési képesség ösztönzése az LLM-ekben megerősítő tanulás segítségével

A általdeepseeker január 29, 2025január 29, 2025

Összefoglaló Ez a cikk bemutatja az DeepSeek első generációs érvelési modelljeit: DeepSeek-R1-Zero és DeepSeek-R1. Az DeepSeek-R1-Zero, amelyet nagyméretű megerősítő tanulással (RL), felügyelt finomhangolás (SFT) nélkül képeztek ki, figyelemre méltó következtetési képességeket mutat. Az RL révén természetesen erőteljes következtetési viselkedést fejleszt ki. Ugyanakkor olyan kihívásokkal kell szembenéznie, mint a gyenge olvashatóság és a nyelvi keveredés. Ezen problémák megoldására és a következtetési teljesítmény fokozására fejlesztették ki az DeepSeek-R1-et,...

Nem kategorizált

Mit érhet el a Deepseek? Még az OpenAI sem képes rá?

A általzddeepseeker 2025. február 102025. február 10

Az DeepSeek valódi értékét alábecsülik! Az DeepSeek-R1 kétségtelenül a lelkesedés új hullámát hozta a piacra. Nemcsak a releváns, úgynevezett kedvezményezettek száma emelkedik meredeken, de néhányan még az DeepSeek-vel kapcsolatos tanfolyamokat és szoftvereket is kifejlesztették, hogy ezzel pénzt keressenek. Úgy gondoljuk, hogy bár ezeknek a jelenségeknek van…

Az DeepSeek kiadta forráskódját, a FlashMLA részletes magyarázatát

A Google egyszerre három új modellt adott ki: a Gemini-2.0-Pro ingyenes, kiemelkedő pontszámmal rendelkezik és első helyen áll, valamint alkalmas összetett promptok kódolására és feldolgozására!

Első indítás! A SiliconFlow X Huawei Cloud közösen indítja el az DeepSeek R1 & V3 következtetési szolgáltatásokat az Ascend Cloudon alapulva!

Friss hírek! Az OpenAI ma 2 új következtetési modellt adott ki: o3-mini és o3-mini-high.

Közel áll az DeepSeek-R1-32B-hez, és összetöri Fei-Fei Li s1-ét! UC Berkeley és más nyílt forráskódú új SOTA következtetési modellek

Paper-DeepSeek-R1: Az érvelési képesség ösztönzése az LLM-ekben megerősítő tanulás segítségével

Mit érhet el a Deepseek? Még az OpenAI sem képes rá?

Vélemény, hozzászólás? Válasz megszakítása

Hasonló hozzászólások

Vélemény, hozzászólás? Válasz megszakítása