Uncategorized - Deepseek R1

¡El duelo de los cuatro mejores modelos! Un análisis demuestra la potencia del Deepseek R1.

Porzddeepseeker 1 de junio de 20251 de junio de 2025

En los últimos días, Deepseek-R1 0528 se ha publicado oficialmente en código abierto. En LiveCodeBench, su rendimiento es casi comparable al o3 (alto) de OpenAI; en la prueba de referencia multilingüe de Aider, se mantiene a la par con Claude Opus. Cuando se lanzó en el sitio web oficial, probamos rápidamente sus capacidades de frontend y las descubrimos excepcionalmente...

Sin categoría

Actualización DeepSeek-R1-0528: Pensamiento más profundo, razonamiento más sólido

Porzddeepseeker 29 de mayo de 202529 de mayo de 2025

El modelo DeepSeek R1 ha sido sometido a una pequeña actualización de versión, y la versión actual es la DeepSeek-R1-0528. Al acceder a la página web o la aplicación de DeepSeek, active la función "Pensamiento profundo" en la interfaz de diálogo para experimentar la última versión. Los pesos del modelo DeepSeek-R1-0528 se han subido a HuggingFace. Durante los últimos cuatro meses, el DeepSeek-R1 ha sido sometido a…

Sin categoría

DeepSeek ha publicado su código fuente y una explicación detallada de FlashMLA

Porzddeepseeker 24 de febrero de 202524 de febrero de 2025

La semana pasada, DeepSeek anunció que abriría el código fuente de cinco proyectos la próxima semana: Los internautas dijeron: "Esta vez, OpenAI realmente está aquí". Justo ahora, llegó el primer proyecto de código abierto, relacionado con la aceleración de inferencia, FlashMLA: Dirección del proyecto de código abierto: DeepSeek FlashMLA Ha sido de código abierto durante dos horas y Github ya tiene más de 2.7k estrellas: El…

Sin categoría

¿Qué es FlashMLA? Una guía completa sobre su impacto en los núcleos de decodificación de IA

Pordeepseeker 24 de febrero de 202524 de febrero de 2025

FlashMLA ha ganado rápidamente atención en el mundo de la inteligencia artificial, particularmente en el campo de los modelos de lenguaje grandes (LLM). Esta innovadora herramienta, desarrollada por DeepSeek, sirve como un núcleo de decodificación optimizado diseñado para GPU Hopper, chips de alto rendimiento que se usan comúnmente en cálculos de IA. FlashMLA se centra en el procesamiento eficiente de secuencias de longitud variable, lo que lo hace particularmente adecuado…

Sin categoría

Qwen2.5-max vs DeepSeek R1: Una comparación profunda de modelos: un análisis completo de escenarios de aplicación

Porzddeepseeker 14 de febrero de 202514 de febrero de 2025

Introducción Hoy en día, los modelos de lenguaje grandes (LLM) desempeñan un papel crucial. A principios de 2025, a medida que se intensificaba la competencia por la IA, Alibaba lanzó el nuevo modelo de IA Qwen2.5-max, y DeepSeek, una empresa de Hangzhou, China, lanzó el modelo R1, que representa la cúspide de la tecnología LLM. Deepseek R1 es un modelo de IA de código abierto que ha atraído…

Sin categoría

¡Está cerca de DeepSeek-R1-32B y supera el s1 de Fei-Fei Li! UC Berkeley y otros nuevos modelos de inferencia SOTA de código abierto

Porzddeepseeker 14 de febrero de 202514 de febrero de 2025

El modelo de inferencia 32B utiliza solo 1/8 de los datos y está empatado con DeepSeek-R1 del mismo tamaño. Justo ahora, instituciones como Stanford, UC Berkeley y la Universidad de Washington han publicado conjuntamente un modelo de inferencia de nivel SOTA, OpenThinker-32B, y también han puesto en código abierto hasta 114 000 datos de entrenamiento. Página de inicio del proyecto OpenThinker: OpenThinker Hugging Face:…

Sin categoría

Artefactos de gestión de modelos de lenguaje de gran tamaño como DeepSeek: Cherry Studio, Chatbox, AnythingLLM, ¿quién es su acelerador de eficiencia?

Porzddeepseeker 11 de febrero de 202511 de febrero de 2025

Muchas personas ya han comenzado a implementar y usar modelos de lenguaje grandes de Deepseek localmente, usando Chatbox como herramienta de visualización. Este artículo continuará presentando otros dos artefactos de gestión y visualización de modelos de lenguaje grandes de IA, y comparará los tres en detalle para ayudarlo a usar modelos de lenguaje grandes de IA de manera más eficiente. En 2025,…

Sin categoría

Le Chat encabeza la lista, con una inversión de cien mil millones de dólares. ¿Es la tercera potencia en inteligencia artificial después de Estados Unidos y China?

Porzddeepseeker 11 de febrero de 202511 de febrero de 2025

El 9 de febrero, el presidente francés, Emmanuel Macron, anunció que Francia invertirá 109.000 millones de euros (113.000 millones de dólares) en el campo de la IA en los próximos años. Esta inversión se utilizará para construir un parque de IA en Francia, mejorar la infraestructura e invertir en empresas emergentes locales de IA. Mientras tanto, Mistral, una startup francesa,…

Sin categoría

¿Qué puede lograr Deepseek? Ni siquiera OpenAI puede lograrlo

Porzddeepseeker 10 de febrero de 202510 de febrero de 2025

¡El valor real de DeepSeek está subestimado! DeepSeek-R1 ha traído sin duda una nueva ola de entusiasmo al mercado. No solo los llamados objetivos de beneficiarios relevantes están aumentando drásticamente, sino que algunas personas incluso han desarrollado cursos y software relacionados con DeepSeek en un intento de ganar dinero con ello. Creemos que, aunque estos fenómenos tienen un impacto…

Sin categoría

Los principales productos de inteligencia artificial del mundo se centran en el análisis y en pautas integrales de experiencia del usuario (incluidos DeepSeek y GPT)

Porzddeepseeker 10 de febrero de 202510 de febrero de 2025

Posicionamiento de funciones y análisis de ventajas centrales ChatGPT (OpenAI): el punto de referencia mundial para los todoterrenos Genes técnicos de ChatGPT: IA generativa basada en la serie GPT de modelos grandes, con habilidades de conversación generales y razonamiento lógico como sus principales ventajas. Procesamiento multilingüe: funciona mejor en inglés, con una mejora continua en chino; pero recomendamos usar el inglés para…