La scorsa settimana, DeepSeek ha annunciato che la prossima settimana avrebbe reso pubblici cinque progetti:

Gli internauti hanno affermato: "Questa volta, OpenAI è davvero qui".
Proprio ora è arrivato il primo progetto open source, relativo all'accelerazione dell'inferenza, FlashMLA:

Indirizzo del progetto open source:
È open source da due ore e Github ha già più di 2.700 stelle:

La funzione principale del progetto è:
"FlashMLA è un kernel di decodifica MLA efficiente per GPU Hopper, ottimizzato per l'elaborazione di sequenze di lunghezza variabile."
Tradotto, è:
"FlashMLA è un kernel di decodifica MLA efficiente ottimizzato per le GPU con architettura NVIDIA Hopper, specificamente ottimizzato per scenari di servizio che elaborano sequenze di lunghezza variabile."
In poche parole:
FlashMLA è un core di decodifica efficiente progettato da DeepInference per GPU con architettura Hopper (come H800). Ottimizzando il calcolo dell'attenzione potenziale multi-head di sequenze di lunghezza variabile, raggiunge le massime prestazioni di 3000 GB/s di larghezza di banda di memoria e 580 TFLOPS di potenza di calcolo nella fase di decodifica, migliorando significativamente l'efficienza del ragionamento con contesti lunghi per modelli di grandi dimensioni.
Alcuni internauti hanno affermato:

Alcune persone lo stanno già utilizzando e dicono: Ingegneria pura:

Questo progetto appartiene all'ottimizzazione ingegneristica e riduce al minimo le prestazioni dell'hardware limite.
Il progetto è pronto all'uso appena estratto dalla scatola.

Requisiti ambientali:
- GPU della tramoggia
- CUDA 12.3 e versioni successive
- PyTorch 2.0 e versioni successive
Al termine del progetto, il funzionario ha anche dichiarato di essersi ispirato ai progetti FlashAttention 2&3 e NVIDIA CUTLASS.

FlashAttention è in grado di raggiungere un'attenzione precisa, veloce ed efficiente in termini di memoria, ed è utilizzato nei modelli di grandi dimensioni più diffusi. L'ultima versione di terza generazione può aumentare il tasso di utilizzo dell'H100 a 75%.
La velocità di formazione è aumentata di 1,5-2 volte e la capacità di elaborazione in FP16 è pari a 740 TFLOPs/s, raggiungendo 75% della capacità massima teorica e sfruttando al meglio le risorse di elaborazione, che in precedenza erano solo 35%.
FlashMLA non solo realizza un balzo in avanti nelle prestazioni attraverso l'ottimizzazione a livello hardware, ma fornisce anche una soluzione pronta all'uso per le pratiche ingegneristiche nell'inferenza dell'intelligenza artificiale, diventando un'importante innovazione tecnologica nell'accelerazione dell'inferenza di modelli di grandi dimensioni.
Il primo giorno c'è stata una grande rivelazione.
Non vedo l'ora di provare il materiale open source nei prossimi quattro giorni!
Come ha detto l'utente:

La balena sta creando onde!
DeepSeek è fantastico!