DeepSeek ha publicado su código fuente y una explicación detallada de FlashMLA

La semana pasada, DeepSeek anunció que la próxima semana abrirá el código fuente de cinco proyectos:

Los internautas dijeron: “Esta vez, OpenAI realmente está aquí”.

Hace poco apareció el primer proyecto de código abierto relacionado con la aceleración de inferencias, FlashMLA:

Dirección del proyecto de código abierto:

DeepSeek FlashMLA

Ha sido de código abierto durante dos horas y Github ya tiene más de 2.700 estrellas:

La función principal del proyecto es:

“FlashMLA es un núcleo de decodificación MLA eficiente para GPU Hopper, optimizado para el servicio de secuencias de longitud variable”.

Traducido, es:

“FlashMLA es un núcleo de decodificación MLA eficiente optimizado para las GPU de arquitectura NVIDIA Hopper, específicamente optimizado para escenarios de servicio que procesan secuencias de longitud variable”.

En una palabra:

FlashMLA es un núcleo de decodificación eficiente diseñado por DeepInference para GPU con arquitectura Hopper (como la H800). Al optimizar el cálculo de la atención potencial de múltiples cabezales de secuencias de longitud variable, logra el máximo rendimiento de ancho de banda de memoria de 3000 GB/s y potencia de procesamiento de 580 TFLOPS en la etapa de decodificación, lo que mejora significativamente la eficiencia del razonamiento con contextos largos para modelos grandes.

Algunos internautas dijeron:

Algunas personas ya lo están usando y dicen Pura ingeniería:

Este proyecto pertenece a la ingeniería de optimización y exprime el rendimiento del hardware al máximo límite.

El proyecto está listo para usarse nada más sacarlo de la caja.

Requisitos ambientales:

GPU de tolva
CUDA 12.3 y superior
PyTorch 2.0 y superior

Al finalizar el proyecto, el funcionario también afirmó que estaba inspirado en los proyectos FlashAttention 2&3 y NVIDIA CUTLASS.

FlashAttention es capaz de lograr una atención rápida y precisa con un uso eficiente de la memoria, y se utiliza en modelos de gran tamaño convencionales. La última versión de tercera generación puede aumentar la tasa de utilización del H100 a 75%.

La velocidad de entrenamiento aumenta entre 1,5 y 2 veces y el rendimiento computacional bajo FP16 es tan alto como 740 TFLOPs/s, alcanzando 75% del rendimiento máximo teórico y haciendo un uso más completo de los recursos computacionales, que anteriormente eran solo 35%.

FlashMLA no solo logra un salto en el rendimiento a través de la optimización a nivel de hardware, sino que también proporciona una solución lista para usar para las prácticas de ingeniería en inferencia de IA, convirtiéndose en un avance tecnológico clave para acelerar la inferencia de modelos grandes.

Hubo una gran revelación el primer día.

¡Estoy esperando con ansias el material de código abierto en los próximos cuatro días!

Como dijo el internauta:

¡La ballena está haciendo olas!

¡DeepSeek es increíble!

Sin categoría

¿Cómo se creó DeepSeek? Un análisis de la historia del crecimiento de DeepSeek

Porzddeepseeker 3 de febrero de 20253 de febrero de 2025

En el futuro, la innovación será cada vez más dura. Puede que ahora no sea fácil de entender, porque todo el grupo social necesita educarse con hechos. Cuando esta sociedad permita triunfar a las personas que innovan a fondo, la mentalidad colectiva cambiará. Sólo necesitamos un puñado de hechos y un proceso....

Sin categoría

¡Primer lanzamiento! ¡SiliconFlow X Huawei Cloud lanzan conjuntamente servicios de inferencia DeepSeek R1 & V3 basados en Ascend Cloud!

Porzddeepseeker 1 de febrero de 20251 de febrero de 2025

DeepSeek-R1 y DeepSeek-V3 han causado sensación en todo el mundo desde su lanzamiento en código abierto. Son un regalo del equipo DeepSeek a toda la humanidad, y nos alegramos sinceramente de su éxito. Tras días de duro trabajo por parte de los equipos de Silicon Mobility y Huawei Cloud, hoy también ofrecemos a los usuarios chinos...

Sin categoría

Los principales productos de inteligencia artificial del mundo se centran en el análisis y en pautas integrales de experiencia del usuario (incluidos DeepSeek y GPT)

Porzddeepseeker 10 de febrero de 202510 de febrero de 2025

Posicionamiento de funciones y análisis de ventajas centrales ChatGPT (OpenAI): el punto de referencia mundial para los todoterrenos Genes técnicos de ChatGPT: IA generativa basada en la serie GPT de modelos grandes, con habilidades de conversación generales y razonamiento lógico como sus principales ventajas. Procesamiento multilingüe: funciona mejor en inglés, con una mejora continua en chino; pero recomendamos usar el inglés para…

Sin categoría

¡Está cerca de DeepSeek-R1-32B y supera el s1 de Fei-Fei Li! UC Berkeley y otros nuevos modelos de inferencia SOTA de código abierto

Porzddeepseeker 14 de febrero de 202514 de febrero de 2025

El modelo de inferencia 32B utiliza solo 1/8 de los datos y está empatado con DeepSeek-R1 del mismo tamaño. Justo ahora, instituciones como Stanford, UC Berkeley y la Universidad de Washington han publicado conjuntamente un modelo de inferencia de nivel SOTA, OpenThinker-32B, y también han puesto en código abierto hasta 114 000 datos de entrenamiento. Página de inicio del proyecto OpenThinker: OpenThinker Hugging Face:…

Sin categoría

Qwen2.5-max vs DeepSeek R1: Una comparación profunda de modelos: un análisis completo de escenarios de aplicación

Porzddeepseeker 14 de febrero de 202514 de febrero de 2025

Introducción Hoy en día, los modelos de lenguaje grandes (LLM) desempeñan un papel crucial. A principios de 2025, a medida que se intensificaba la competencia por la IA, Alibaba lanzó el nuevo modelo de IA Qwen2.5-max, y DeepSeek, una empresa de Hangzhou, China, lanzó el modelo R1, que representa la cúspide de la tecnología LLM. Deepseek R1 es un modelo de IA de código abierto que ha atraído…

Sin categoría

OpenAI o3-mini vs. DeepSeek-R1: ¿Quién es el rey de la nueva generación de modelos de IA?

Porzddeepseeker 1 de febrero de 20251 de febrero de 2025

o3-mini está aquí, con el ímpetu de un aspirante El 31 de enero, OpenAI lanzó el nuevo modelo grande o3-mini y proporcionó algunas de sus funciones de forma gratuita a todos los usuarios de ChatGPT. Aunque hay un límite en el número de consultas, permite a los usuarios experimentar el último modelo comercial de OpenAI lo antes posible.....

Entradas Similares

Deja una respuesta Cancelar la respuesta