La semana pasada, DeepSeek anunció que abriría el código fuente de cinco proyectos la próxima semana: Los internautas dijeron: "Esta vez, OpenAI realmente está aquí". Justo ahora, llegó el primer proyecto de código abierto, relacionado con la aceleración de inferencia, FlashMLA: Dirección del proyecto de código abierto: DeepSeek FlashMLA Ha sido de código abierto durante dos horas y Github ya tiene más de 2.7k estrellas: El…
FlashMLA ha ganado rápidamente atención en el mundo de la inteligencia artificial, particularmente en el campo de los modelos de lenguaje grandes (LLM). Esta innovadora herramienta, desarrollada por DeepSeek, sirve como un núcleo de decodificación optimizado diseñado para GPU Hopper, chips de alto rendimiento que se usan comúnmente en cálculos de IA. FlashMLA se centra en el procesamiento eficiente de secuencias de longitud variable, lo que lo hace particularmente adecuado…
Introducción Hoy en día, los modelos de lenguaje grandes (LLM) desempeñan un papel crucial. A principios de 2025, a medida que se intensificaba la competencia por la IA, Alibaba lanzó el nuevo modelo de IA Qwen2.5-max, y DeepSeek, una empresa de Hangzhou, China, lanzó el modelo R1, que representa la cúspide de la tecnología LLM. Deepseek R1 es un modelo de IA de código abierto que ha atraído…
El modelo de inferencia 32B utiliza solo 1/8 de los datos y está empatado con DeepSeek-R1 del mismo tamaño. Justo ahora, instituciones como Stanford, UC Berkeley y la Universidad de Washington han publicado conjuntamente un modelo de inferencia de nivel SOTA, OpenThinker-32B, y también han puesto en código abierto hasta 114 000 datos de entrenamiento. Página de inicio del proyecto OpenThinker: OpenThinker Hugging Face:…