DeepSeek je izdal svojo izvorno kodo, podrobno razlago FlashMLA

Prejšnji teden je DeepSeek objavil, da bo naslednji teden odprl kodo pet projektov:

Uporabniki interneta so rekli: "Tokrat je OpenAI res tukaj."

Pravkar je prišel prvi odprtokodni projekt, povezan s pospeševanjem sklepanja, FlashMLA:

Naslov odprtokodnega projekta:

DeepSeek FlashMLA

Odprtokodni je že dve uri, Github pa ima že 2,7k+ zvezdic:

Glavna funkcija projekta je:

"FlashMLA je učinkovito jedro za dekodiranje MLA za grafične procesorje Hopper, optimizirano za serviranje zaporedij spremenljive dolžine."

Prevedeno, je:

"FlashMLA je učinkovito jedro za dekodiranje MLA, optimizirano za grafične procesorje arhitekture NVIDIA Hopper, posebej optimizirano za storitvene scenarije, ki obdelujejo zaporedja spremenljive dolžine."

Na kratko:

FlashMLA je učinkovito jedro za dekodiranje, ki ga je zasnoval DeepInference za grafične procesorje z arhitekturo Hopper (kot je H800). Z optimizacijo izračuna potencialne pozornosti z več glavami zaporedij spremenljive dolžine doseže končno zmogljivost 3000 GB/s pasovne širine pomnilnika in 580 TFLOPS računalniške moči v fazi dekodiranja, kar znatno izboljša učinkovitost razmišljanja z dolgimi konteksti za velike modele.

Nekateri uporabniki interneta so rekli:

Nekateri ljudje to že uporabljajo in pravijo Čisti inženiring:

Ta projekt spada v inženirsko optimizacijo in zmanjša zmogljivost strojne opreme na omejitev.

Projekt je takoj pripravljen za uporabo.

Okoljske zahteve:

GPU Hopper
CUDA 12.3 in novejši
PyTorch 2.0 in novejši

Ob koncu projekta je uradnik tudi izjavil, da so ga navdihnili projekti FlashAttention 2&3 in NVIDIA CUTLASS.

FlashAttention je sposoben doseči hitro in pomnilniško učinkovito natančno pozornost in se uporablja v običajnih velikih modelih. Najnovejša različica tretje generacije lahko poveča stopnjo izkoriščenosti H100 na 75%.

Hitrost usposabljanja se poveča za 1,5-2-krat, računalniška prepustnost pod FP16 pa znaša kar 740 TFLOPs/s, s čimer doseže 75% teoretične največje prepustnosti in boljšo uporabo računalniških virov, ki je prej znašala le 35%.

FlashMLA ne le doseže preskok v zmogljivosti z optimizacijo na ravni strojne opreme, ampak tudi nudi takojšnjo rešitev za inženirske prakse pri sklepanju z umetno inteligenco in tako postane ključni tehnološki preboj pri pospeševanju sklepanja velikih modelov.

Prvi dan je prišlo do tako velikega razkritja.

Veselim se odprtokodnih stvari v naslednjih štirih dneh!

Kot je dejal netizen:

Kit dela valove!

DeepSeek je super!

Nekategorizirano

Cathie Wood: DeepSeek samo pospešuje proces zmanjševanja stroškov; ekstremno koncentrirana tržna struktura, primerljiva z veliko depresijo, se bo spremenila

Avtor:zddeepseeker 8. februar 20258. februar 2025

Poudarki Konkurenca z DeepSeek je dobra za ZDA Cathie Wood: Mislim, da kaže, da stroški inovacij dramatično padajo in da se je ta trend že začel. Na primer, pred DeepSeek so stroški usposabljanja umetne inteligence padli za 75% na leto, stroški sklepanja pa celo za 85% na ...

Nekategorizirano

Google je izdal tri nove modele naenkrat: Gemini-2.0-Pro je brezplačen, ima izjemen rezultat in je na prvem mestu ter je primeren za kodiranje in obdelavo zapletenih pozivov!

Avtor:zddeepseeker 8. februar 20258. februar 2025

Zgodba o Gemini 2.0 se pospešuje. Različica Flash Thinking Experimental decembra je razvijalcem prinesla delujoč model z nizko zakasnitvijo in visoko zmogljivostjo. V začetku tega leta je bil 2.0 Flash Thinking Experimental posodobljen v Google AI Studio za nadaljnje izboljšanje zmogljivosti s kombinacijo hitrosti Flasha in izboljšanih zmožnosti sklepanja. Prejšnji teden,…

Nekategorizirano

V krogu umetne inteligence je DeepSeek R1 v fizičnih testih vztrajno prehitel o1 in Claude in vstopili smo v zlato dobo RL.

Avtor:zddeepseeker 1. februar 20251. februar 2025

Nihče od nas ni pričakoval, da se bo tako začelo leto 2025 na področju umetne inteligence. DeepSeek R1 je res neverjeten! Pred kratkim je "skrivnostna vzhodna sila" DeepSeek "trdo nadzorovala" Silicijevo dolino. Prosil sem R1, da podrobno razloži Pitagorov izrek. Vse to je umetna inteligenca naredila v manj kot 30 sekundah brez kakršnih koli...

Nekategorizirano

Razkrita tehnologija DeepSeek-R1: temeljna načela papirja so razčlenjena in razkrit je ključ do prebojne zmogljivosti modela

Avtor:zddeepseeker 9. februar 20259. februar 2025

Danes bomo delili DeepSeek R1, naslov: DeepSeek-R1: Spodbujanje zmožnosti sklepanja pri LLM s pomočjo učenja s krepitvijo: Spodbujanje zmožnosti sklepanja pri LLM s pomočjo učenja z okrepitvijo. Ta članek predstavlja prvo generacijo modelov razmišljanja DeepSeek, DeepSeek-R1-Zero in DeepSeek-R1. Model DeepSeek-R1-Zero je bil kot začetni korak usposobljen z obsežnim okrepitvenim učenjem (RL) brez nadzorovane natančne nastavitve (SFT), ...

Nekategorizirano

Je blizu DeepSeek-R1-32B in zdrobi s1 Fei-Fei Li! UC Berkeley in drugi odprtokodni novi modeli sklepanja SOTA

Avtor:zddeepseeker 14. februar 202514. februar 2025

Inferenčni model 32B uporablja le 1/8 podatkov in je povezan z DeepSeek-R1 enake velikosti! Pravkar so ustanove, kot so Stanford, UC Berkeley in Univerza v Washingtonu, skupaj izdale model sklepanja na ravni SOTA, OpenThinker-32B, in prav tako odprle do 114k podatkov o usposabljanju. Domača stran projekta OpenThinker: OpenThinker Hugging Face:…

Nekategorizirano

Glavni izdelki umetne inteligence na svetu se osredotočajo na analizo in celovite smernice za uporabniško izkušnjo (vključno z DeepSeek in GPT)

Avtor:zddeepseeker 10. februar 202510. februar 2025

Postavitev funkcij in analiza osnovnih prednosti ChatGPT (OpenAI) – globalno merilo uspešnosti za vsestranske ChatGPT Tehnični geni: generativni AI, ki temelji na seriji velikih modelov GPT, s splošnimi pogovornimi veščinami in logičnim sklepanjem kot glavnima prednostma. Večjezična obdelava: najbolje deluje v angleščini, z nenehnim izboljševanjem v kitajščini; vendar priporočamo uporabo angleščine za ...

Podobne objave

Dodaj odgovor Prekliči odgovor