DeepSeek lançou seu código fonte, explicação detalhada do FlashMLA

Na semana passada, a DeepSeek anunciou que disponibilizaria cinco projetos de código aberto na próxima semana:

Os internautas disseram: “Desta vez, o OpenAI realmente chegou”.

Agora mesmo surgiu o primeiro projeto de código aberto relacionado à aceleração de inferência, o FlashMLA:

Endereço do projeto de código aberto:

DeepSeek FlashMLA

O código-fonte está aberto há duas horas e o Github já tem mais de 2,7 mil estrelas:

A função principal do projeto é:

“FlashMLA é um kernel de decodificação MLA eficiente para GPUs Hopper, otimizado para servir sequências de comprimento variável.”

Traduzido, é:

“FlashMLA é um kernel de decodificação MLA eficiente otimizado para GPUs de arquitetura NVIDIA Hopper, especificamente otimizado para cenários de serviço que processam sequências de comprimento variável.”

Em poucas palavras:

FlashMLA é um núcleo de decodificação eficiente projetado pela DeepInference para GPUs de arquitetura Hopper (como o H800). Ao otimizar o cálculo de atenção potencial multicabeça de sequências de comprimento variável, ele atinge o desempenho máximo de largura de banda de memória de 3000 GB/s e poder de computação de 580 TFLOPS no estágio de decodificação, melhorando significativamente a eficiência do raciocínio com contextos longos para modelos grandes.

Alguns internautas disseram:

Algumas pessoas já estão usando e dizem Engenharia pura:

Este projeto pertence à otimização de engenharia e reduz o desempenho do hardware para o limite.

O projeto está pronto para uso imediato.

Requisitos ambientais:

GPU Hopper
CUDA 12.3 e superior
PyTorch 2.0 e superior

Ao final do projeto, o responsável afirmou ainda que ele foi inspirado nos projetos FlashAttention 2&3 e NVIDIA CUTLASS.

O FlashAttention é capaz de atingir atenção precisa, rápida e com eficiência de memória, e é usado em modelos grandes convencionais. A versão mais recente de terceira geração pode aumentar a taxa de utilização do H100 para 75%.

A velocidade de treinamento é aumentada em 1,5-2 vezes, e o rendimento computacional sob FP16 é tão alto quanto 740 TFLOPs/s, atingindo 75% do rendimento máximo teórico e fazendo uso mais completo dos recursos de computação, que antes eram de apenas 35%.

FlashMLA não apenas alcança um salto no desempenho por meio da otimização em nível de hardware, mas também fornece uma solução pronta para uso para práticas de engenharia em inferência de IA, tornando-se um avanço tecnológico fundamental na aceleração da inferência de grandes modelos.

Houve uma grande revelação no primeiro dia.

Estou ansioso pelas novidades de código aberto nos próximos quatro dias!

Como disse o internauta:

A baleia está fazendo ondas!

DeepSeek é incrível!

Sem categoria

Altman: Estávamos errados sobre a IA de código aberto! O DeepSeek tornou o OpenAI menos vantajoso, e o próximo é o GPT-5

Porzddeepseeker fevereiro 1, 2025fevereiro 1, 2025

O o3-mini chegou tarde da noite, e a OpenAI finalmente revelou seu mais recente trunfo. Durante uma sessão de perguntas e respostas do Reddit AMA, Altman confessou profundamente que estava do lado errado da IA de código aberto. Ele disse que a estratégia interna de código aberto está sendo considerada, e o modelo continuará a ser desenvolvido, mas...

Sem categoria

a16z diálogo com CEO de 27 anos: AI Agent tem um enorme efeito de alavancagem e os preços de longo prazo estarão vinculados aos custos de mão de obra

Porzddeepseeker 8 de fevereiro de 20258 de fevereiro de 2025

Destaques O AI Agent remodela a experiência do cliente Jesse Zhang: Como um Agent é realmente construído? Nossa visão é que, com o tempo, ele se tornará cada vez mais como um Agent baseado em linguagem natural, porque é assim que os modelos de linguagem grande (LLMs) são treinados. A longo prazo, se você tiver um agente superinteligente que…

Sem categoria

O que é FlashMLA? Um guia abrangente sobre seu impacto em kernels de decodificação de IA

Pordeepseeker 24 de fevereiro de 202524 de fevereiro de 2025

O FlashMLA rapidamente ganhou atenção no mundo da inteligência artificial, particularmente no campo de modelos de linguagem grandes (LLMs). Esta ferramenta inovadora, desenvolvida pela DeepSeek, serve como um kernel de decodificação otimizado projetado para GPUs Hopper — chips de alto desempenho comumente usados em computações de IA. O FlashMLA foca no processamento eficiente de sequências de comprimento variável, tornando-o particularmente adequado…

Sem categoria

Uma comparação abrangente do recém-lançado o3-mini e do DeepSeek R1 da OpenAI

Porzddeepseeker fevereiro 1, 2025fevereiro 1, 2025

A OpenAI lançou seu mais recente modelo de inferência, o o3-mini, que é otimizado para áreas como ciências, matemática e programação, oferecendo resposta mais rápida, maior precisão e menor custo. Em comparação com seu antecessor o1-mini, o o3-mini melhorou significativamente seus recursos de inferência, especialmente na solução de problemas complexos. Os testadores preferem as respostas do o3-mini por 56%, e a taxa de erro foi...

Sem categoria

Como o DeepSeek foi criado? Uma análise do histórico de crescimento do DeepSeek

Porzddeepseeker fevereiro 3, 2025fevereiro 3, 2025

No futuro, haverá cada vez mais inovações radicais. Pode não ser fácil de entender agora, porque todo o grupo social precisa ser educado por fatos. Quando essa sociedade permitir que as pessoas que inovam de forma radical tenham sucesso, a mentalidade coletiva mudará. Só precisamos de um monte de fatos e um processo....

Sem categoria

Paper-DeepSeek-R1: Incentivando a capacidade de raciocínio em LLMs por meio do aprendizado por reforço

Pordeepseeker 29 de janeiro de 202529 de janeiro de 2025

Resumo Este documento apresenta os modelos de raciocínio de primeira geração do DeepSeek: DeepSeek-R1-Zero e DeepSeek-R1. O DeepSeek-R1-Zero, treinado por meio de aprendizagem por reforço (RL) em larga escala sem ajuste fino supervisionado (SFT), demonstra recursos de raciocínio notáveis. Por meio da RL, ele desenvolve naturalmente comportamentos de raciocínio poderosos. No entanto, ele enfrenta desafios como baixa legibilidade e mistura de idiomas. Para resolver esses problemas e melhorar o desempenho do raciocínio, foi desenvolvido o DeepSeek-R1,...

Publicações semelhantes

Deixe um comentário Cancelar resposta