En el futuro, la innovación será cada vez más dura. Puede que ahora no sea fácil de entender, porque todo el grupo social necesita educarse con hechos. Cuando esta sociedad permita triunfar a las personas que innovan de forma hardcore, la mentalidad colectiva cambiará. Sólo necesitamos un puñado de hechos y un proceso. - Liang Wenfeng, fundador de DeepSeek

En los últimos días, DeepSeek ha irrumpido con fuerza en todo el mundo, pero como la empresa es tan discreta y no ha hecho ningún anuncio, el público sabe muy poco sobre esta empresa tecnológica con gran potencial, ya se trate de sus antecedentes fundacionales, su ámbito de negocio o la disposición de sus productos.

Tras terminar de clasificar todos los materiales, escribí este artículo

¿Cuáles son los antecedentes de los actuales jugadores de la IA, qué se traen entre manos y a quién están reclutando?

y probablemente la visión histórica más completa de DeepSeek.

El año pasado por estas fechas, un amigo de Magic Cube Quant se me acercó y me preguntó: "¿Quieres construir una gran maqueta en China?". Y yo simplemente me pasé la tarde tomando café. Como era de esperar, la vida sigue dependiendo de las decisiones.

En Magic Cube Quant mencionado aquí es el inversoro empresa matriz, de DeepSeek.

El llamado "quant" es una institución de inversión que toma decisiones no por el poder humano, sino por algoritmos. El establecimiento de Quant Fantasy no es largo, ya que comenzó en 2015. En 2021, cuando tenía seis años, la escala de gestión de activos de Quant Fantasy había superado los 100.000 millones, y fue aclamada como uno de los "cuatro grandes reyes quant" de China.

El fundador de Fantasy Square, Liang Wenfeng, que también es fundador de DeepSeek, es un líder financiero "no convencional" nacido en los años 80: no tiene experiencia de estudios en el extranjero, no es ganador de una competición olímpica y se licenció en el Departamento de Ingeniería Electrónica de la Universidad de Zhejiang, especializándose en inteligencia artificial. Es un experto nativo en tecnología que actúa de forma discreta, "leyendo artículos, escribiendo código y participando en discusiones de grupo" todos los días.

Liang Wenfeng no tiene los hábitos de un empresario tradicional, sino que es más bien un puro "friki tecnológico". Muchos conocedores del sector e investigadores de DeepSeek han elogiado enormemente a Liang Wenfeng: "alguien que tiene tanto grandes capacidades de infraingeniería como de investigación de modelos, y también puede movilizar recursos", "alguien que puede hacer juicios precisos desde un alto nivel, pero también sobresalir en los detalles por encima de los investigadores de primera línea", y también tiene "una capacidad de aprendizaje aterradora".

Mucho antes de que se fundara DeepSeek, Huanfang ya había empezado a hacer planes a largo plazo en la industria de la IA.. En mayo de 2023, Liang Wenfeng mencionó en una entrevista con Darksurge: "Después de que OpenAI lanzara GPT3 en 2020, la dirección del desarrollo de la IA se ha vuelto muy clara, y la potencia de cálculo se convertirá en un elemento clave; pero incluso en 2021, cuando invertimos en la construcción de Firefly 2, la mayoría de la gente todavía no podía entenderlo."

Basándose en este juicio, Huanfang empezó a construir su propia infraestructura informática. "Desde las primeras 1 tarjeta, a 100 tarjetas en 2015, 1.000 tarjetas en 2019 y luego 10.000 tarjetas, este proceso se produjo gradualmente. Antes de unos cientos de tarjetas, estábamos alojados en un IDC. Cuando la escala aumentó, el alojamiento ya no podía satisfacer las necesidades, así que empezamos a construir nuestra propia sala de ordenadores."

Más tarde, Finanzas Once informó: "No hay más de cinco empresas nacionales con más de 10.000 GPU y, además de algunos fabricantes importantes, también incluyen una empresa de fondos cuantitativos llamada Magic Cube." En general, se cree que 10.000 chips Nvidia A100 es el umbral de potencia informática para entrenar grandes modelos.

En una entrevista anterior, Liang Wenfeng también mencionó un punto interesante: mucha gente pensaría que hay una lógica empresarial desconocida detrás, pero en realidad, está impulsada principalmente por la curiosidad.

DeepSeekprimer encuentro

En una entrevista con Darksurge en mayo de 2023, cuando se le preguntó "No hace mucho, Huanfang anunció su decisión de hacer grandes modelos, ¿por qué un fondo cuantitativo haría algo así?".

La respuesta de Liang Wenfeng fue rotunda: "Nuestra decisión de construir un gran modelo no tiene nada que ver con la cuantificación o las finanzas. Para ello hemos creado una nueva empresa llamada DeepSeek. Muchos de los miembros clave del equipo de Mianfang se dedican a la inteligencia artificial. En su momento, probamos muchos escenarios y finalmente nos decantamos por las finanzas, que ya es bastante complejo. La inteligencia artificial general puede ser una de las cosas más difíciles de conseguir, así que para nosotros es una cuestión de cómo hacerlo, no de por qué.

No movidos por intereses comerciales ni persiguiendo las tendencias del mercado, sino simplemente impulsados por el deseo de explorar la propia tecnología AGI y una búsqueda persistente de "lo más importante y difícil". el nombre "DeepSeek" se confirmó oficialmente en mayo de 2023. El 17 de julio de 2023 se constituyó "Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Co., Ltd.".

En El 2 de noviembre de 2023, DeepSeek entregó su primera respuesta: DeepSeek Coder, un gran modelo de código abierto. Este modelo incluye varios tamaños, como 1B, 7B y 33B. El contenido de código abierto incluye el modelo Base y el modelo de ajuste de comandos.

En aquel momento, entre los modelos de código abierto, CodeLlama de Meta era la referencia del sector. Sin embargo, una vez lanzado DeepSeek Coder, demostró una posición de liderazgo multifacética en comparación con CodeLlama: en generación de código, HumanEval aventajaba en 9,3%, MBPP en 10,8% y DS-1000 en 5,9%.

Tenga en cuenta que DeepSeek Coder es un modelo 7B, mientras que CodeLlama es un modelo 34B. Además, el modelo DeepSeek Coder, tras ser afinado con instrucciones, ha superado ampliamente a GPT3.5-Turbo.

No sólo es impresionante la generación de código, sino que DeepSeek Coder también muestra sus músculos en matemáticas y razonamiento.

Tres días después, el 5 de noviembre de 2023, DeepSeek publicó una gran cantidad de contenido de reclutamiento a través de su cuenta pública de WeChat, incluidos puestos como pasante de modelo grande AGI, experto en datos, talento de arquitectura de datos, ingeniero senior de recopilación de datos, ingeniero de investigación y desarrollo de aprendizaje profundo, etc., y comenzó a expandir activamente el equipo.

Como dijo Liang Wenfeng, Los "requisitos imprescindibles" de DeepSeek para la captación de talento son "pasión y sólidas competencias básicas"y subrayó que "la innovación requiere la menor intervención y gestión posibles, de modo que todos tengan libertad para cometer errores y probar cosas nuevas. La innovación suele venir de dentro, no de disposiciones deliberadas, y desde luego no viene de la enseñanza."

Los modelos se publican con frecuencia y se practica el código abierto

Después de que DeepSeek Coder causara sensación, DeepSeek centró su atención en el principal campo de batalla: los modelos de lenguaje general.

En El 29 de noviembre de 2023, DeepSeek lanzó su primer modelo de gran lenguaje de propósito general, DeepSeek LLM 67B. Este modelo se compara con el modelo LLaMA2 70B de Meta del mismo nivel y ha obtenido mejores resultados en casi 20 listas públicas de evaluación en chino e inglés. En concreto, destacan sus capacidades de razonamiento, matemáticas y programación (por ejemplo, HumanEval, MATH, CEval y CMMLU).

DeepSeek LLM 67B también ha optado por la vía del código abierto y apoya el uso comercial. Para demostrar aún más su sinceridad y determinación con el código abierto, DeepSeek, sin precedentes, ha abierto simultáneamente en código abierto dos modelos de escalas diferentes, el 7B y el 67B, e incluso ha hecho públicos los nueve puntos de control generados durante el proceso de formación del modelo para que los investigadores puedan descargarlos y utilizarlos. Este tipo de operación, que se asemeja a "enseñarlo todo", es extremadamente rara en toda la comunidad del código abierto.

Con el fin de evaluar de forma más exhaustiva y objetiva las verdaderas capacidades de DeepSeek LLM 67B, el equipo de investigación de DeepSeek también diseñó cuidadosamente una serie de "nuevas preguntas" para "pruebas de estrés". Estas preguntas abarcan pruebas de alto nivel y alta discriminación, como preguntas de exámenes de matemáticas de institutos húngaros, conjuntos de evaluación de seguimiento de comandos de Google y preguntas de concursos semanales de LeetCode. Los resultados de las pruebas fueron alentadores. DeepSeek LLM 67B mostró un potencial asombroso en cuanto a su capacidad para generalizar más allá de la muestra, y su rendimiento global se acercó incluso al del modelo GPT-4, el más avanzado por aquel entonces.

En 18 de diciembre de 2023, DeepSeek abrió el código fuente del modelo 3D DreamCraft3D de Vincentpuede generar modelos 3D de alta calidad a partir de una frase, logrando el salto de los planos 2D al espacio 3D en AIGC. Por ejemplo, si el usuario introduce: "Corriendo por el bosque, una divertida imagen híbrida de la cabeza de un cerdo y el cuerpo del Rey Mono", DreamCraft3D puede generar contenidos de alta calidad:

En principio, el modelo completa primero el diagrama de Venn y luego completa la estructura geométrica global basada en el mapa conceptual 2D:

En la evaluación subjetiva que siguió, más de 90% de los usuarios dijeron que DreamCraft3D tenía una ventaja en la calidad de generación en comparación con los métodos de generación anteriores.

El 7 de enero de 2024, DeepSeek publicó el informe técnico DeepSeek LLM 67B. Este informe de más de 40 páginas contiene muchos detalles del DeepSeek LLM 67B, incluidas leyes de escalado de elaboración propia, detalles prácticos completos de la alineación de modelos y un completo sistema de evaluación de la capacidad AGI.

Dirección

En El 11 de enero de 2024, DeepSeek puso en código abierto el primer modelo MoE (mixed expert architecture) de gran tamaño en China, DeepSeekMoE: una arquitectura totalmente nueva que admite chino e inglés y es de uso comercial gratuito. La arquitectura MoE se consideró en su momento la clave del gran avance en rendimiento de OpenAI GPT-4. La arquitectura MoE de desarrollo propio de DeepSeek es líder en múltiples escalas, como 2B, 16B y 145B, y su computación también es muy encomiable.

El 25 de enero de 2024, DeepSeek publicó el informe técnico DeepSeek Coder. Este informe ofrece un análisis técnico exhaustivo de sus datos de entrenamiento, métodos de entrenamiento y rendimiento del modelo. En este informe, podemos ver que, por primera vez, se han construido datos de código a nivel de almacén y se ha utilizado la clasificación topológica para analizar las dependencias entre archivos, lo que ha mejorado significativamente la capacidad de comprender los archivos cruzados de larga distancia. En cuanto a los métodos de formación, se ha añadido el método Fill-In-Middle, que ha mejorado notablemente la capacidad de completado de código.

Dirección

El 30 de enero de 2024 se lanzó oficialmente la plataforma abierta DeepSeek, y el servicio DeepSeek Large Model API comenzó a probarse. Regístrate para conseguir 10 millones de tokens gratis. La interfaz es compatible con la interfaz API OpenAI, y ambos modelos duales Chat/Coder están disponibles. En este momento, DeepSeek comenzó a explorar el camino de un proveedor de servicios de tecnología, además de la investigación y el desarrollo de tecnología.

En 5 de febrero de 2024, DeepSeek lanzó otro modelo de dominio vertical, DeepSeekMathun modelo de razonamiento matemático. Este modelo sólo tiene 7B parámetros, pero su capacidad de razonamiento matemático se acerca a la de GPT-4. En la prestigiosa lista de referencia MATH, supera a la multitud y a varios modelos de código abierto con parámetros de entre 30B y 70B. El lanzamiento de DeepSeekMath demuestra plenamente la solidez técnica y la proyección de futuro de DeepSeek en la investigación y el desarrollo de verticales y su proyección de futuro en la investigación y el desarrollo de modelos.

En El 28 de febrero de 2024, con el fin de aliviar aún más las preocupaciones de los desarrolladores sobre el uso de modelos de código abierto DeepSeek, DeepSeek publicó una política de código abierto FAQque ofrece respuestas detalladas a las preguntas más frecuentes, como el modelo de licencia de código abierto y las restricciones de uso comercial. DeepSeek adopta el código abierto con una actitud más transparente y abierta:

En El 11 de marzo de 2024, DeepSeek lanzó el modelo grande multimodal DeepSeek-VL. Se trata del primer intento de DeepSeek con la tecnología de IA multimodal. El modelo tiene un tamaño de 7B y 1,3B, y el modelo y los documentos técnicos son de código abierto simultáneamente.

En El 20 de marzo de 2024, Huanfang AI & DeepSeek fue invitada de nuevo a participar en la conferencia NVIDIA GTC 2024, y su fundador Liang Wenfeng pronunció un discurso técnico de apertura. titulado "Armonía en la diversidad: Alineación y disociación de los valores de los grandes modelos lingüísticos". Se debatieron temas como "el conflicto entre un gran modelo de valor único y una sociedad y cultura pluralistas", "la disociación de la alineación de valores de grandes modelos" y "los retos multidimensionales de la alineación de valores disociados". Esto demostró la atención humanística y la responsabilidad social de DeepSeek en el desarrollo de la IA, además de su investigación y desarrollo tecnológicos.

En marzo de 2024, API DeepSeek lanzó oficialmente servicios de pago, lo que encendió por completo el preludio de la guerra de precios en el mercado chino de grandes modelos: 1 yuan por millón de fichas de entrada y 2 yuanes por millón de fichas de salida.

En 2024, DeepSeek superó con éxito el récord de grandes modelos en China, despejando los obstáculos políticos para la plena apertura de sus servicios API.

En mayo de 2024, se lanzó DeepSeek-V2, un modelo grande de MoE general de código abierto, y comenzó oficialmente la guerra de precios. DeepSeek-V2 utiliza MLA (mecanismo de atención latente multicabezal), que reduce la huella de memoria del modelo a 5%-13% de la de MHA tradicional. Al mismo tiempo, también ha desarrollado de forma independiente la estructura dispersa DeepSeek MoE Sparse, que reduce en gran medida la complejidad computacional del modelo. Gracias a ello, el modelo mantiene un precio API de "1 yuan/millón de entradas y 2 yuanes/millón de salidas".

DeepSeek ha tenido una enorme repercusión. En este sentido, el analista principal de SemiAnalysis cree que el paper DeepSeek V2 "puede ser uno de los mejores de este año". Del mismo modo, Andrew Carr, antiguo empleado de OpenAI, cree que el documento está "lleno de una sabiduría asombrosa" y ha aplicado su configuración de entrenamiento a su propio modelo.

Cabe señalar que se trata de un modelo de referencia GPT-4-Turbo, y el precio API es sólo 1/70 de este último

En junio 17 de 2024, DeepSeek volvió a dar un gran impulso, lanzando el modelo de código DeepSeek Coder V2 de código abierto y afirmando que las capacidades de su código superaban a las del GPT-4-Turbo, el modelo de código cerrado más avanzado del momento. DeepSeek Coder V2 continúa la estrategia de código abierto de DeepSeek, con todos los modelos, código y documentos de código abierto, y se ofrecen dos versiones, 236B y 16B. Los servicios API de DeepSeek C oder V2 también están disponibles en línea, y el precio se mantiene en "1 yuan/millón de entradas y 2 yuanes/millón de salidas".

En 21 de junio de 2024, DeepSeek Coder soportó la ejecución de código en línea. El mismo día se lanzó Sonnet Claude3.5, con la nueva función Artifacts, que genera código automáticamente y lo ejecuta directamente en el navegador. El mismo día, el asistente de código del sitio web de DeepSeek también lanzó la misma función: generar código y ejecutarlo con un solo clic.

Repasemos los principales acontecimientos de este periodo:

Avances continuos que atraen la atención mundial

En mayo de 2024, DeepSeek se hizo famoso de la noche a la mañana al lanzar DeepSeek V2, un modelo de código abierto basado en MoE. Igualaba el rendimiento del GPT-4-Turbo, pero a un precio de solo 1 yuan/millón de insumos, que era 1/70 del GPT-4-Turbo. En ese momento, DeepSeek se convirtió en un conocido "carnicero de precios" en la industria, y luego los principales actores como Zhicheng, ByteDance, y Alibaba ... y otros jugadores importantes rápidamente siguieron su ejemplo y bajaron sus precios. También fue en esa época cuando se produjo otra ronda de prohibición de GPT, y un gran número de aplicaciones de IA empezaron a probar modelos nacionales por primera vez.

En julio de 2024, el fundador de DeepSeek, Liang Wenfeng, volvió a aceptar una entrevista con Dark Surge y respondió directamente a la guerra de precios: "Muy inesperado. No esperaba que el precio sensibilizara tanto a todo el mundo. Hacemos las cosas a nuestro ritmo y luego fijamos el precio en función del coste. Nuestro principio es no perder dinero ni obtener beneficios desorbitados. Este precio también está ligeramente por encima del coste con un pequeño beneficio".

Se ve que, a diferencia de muchos competidores que pagan de su bolsillo para subvencionar, DeepSeek es rentable a este precio.

Algunos dirán: bajar los precios es como robar a los usuarios, y así suele ocurrir en las guerras de precios en la era de Internet.

En respuesta, Liang Wenfeng también respondió: "Robar a los usuarios no es nuestro principal objetivo. Bajamos el precio porque, por un lado, el coste ha bajado a medida que exploramos la estructura del modelo de próxima generación y, por otro, creemos que tanto la API como la IA deben ser asequibles y accesibles para todos."

La historia continúa con el idealismo de Liang Wenfeng.

El 4 de julio de 2024, la API DeepSeek entró en funcionamiento. El precio para el contexto 128K se mantuvo sin cambios. El coste de inferencia de un modelo está estrechamente relacionado con la longitud del contexto. Por ello, muchos modelos tienen restricciones estrictas sobre esta longitud: la versión inicial de GPT-3.5 sólo tiene 4k de contexto.

En ese momento, DeepSeek aumentó la longitud del contexto de los 32k anteriores a 128k, manteniendo el precio sin cambios (1 yuan por millón de tokens de entrada y 2 yuanes por millón de tokens de salida).

En El 10 de julio de 2024, se anunciaron los resultados de la primera Olimpiada de Inteligencia Artificial (AIMO) del mundo, y el modelo DeepSeekMath se convirtió en la elección común de los mejores equipos.. Todos los equipos ganadores del Top 4 eligieron DeepSeekMath-7B como base para sus modelos de entrada y obtuvieron unos resultados impresionantes en la competición.

En El 18 de julio de 2024, DeepSeek-V2 encabezó la lista de modelos de código abierto en Chatbot Arena, superando a modelos estelares como Llama3-70B, Qwen2-72B, Nemotron-4-340B y Gemma2-27B, y convirtiéndose en una nueva referencia para los grandes modelos de código abierto.

En Julio de 2024, DeepSeek continuó reclutando talentos y contrató a los mejores talentos de todo el mundo en múltiples campos, incluidos algoritmos de IA, AI Infra, AI Tutor y productos de IA, para prepararse para la futura innovación tecnológica y el desarrollo de productos.

En El 26 de julio de 2024, la API DeepSeek introdujo una importante actualización, soportando completamente una serie de funciones avanzadas como la sobreescritura, la finalización FIM (Fill-in-the-Middle), la llamada a funciones y la salida JSON. La función FIM es muy interesante: el usuario da el principio y el final, y el gran modelo rellena el medio, lo que resulta muy adecuado para que el proceso de programación rellene el código exacto de la función. Tomemos como ejemplo la escritura de la secuencia de Fibonacci:

En El 2 de agosto de 2024, DeepSeek introdujo de forma innovadora la tecnología de caché de disco duro, reduciendo los precios de las API hasta los tobillos. Antes, los precios de la API eran de solo ¥1 por millón de tokens. Ahora, sin embargo, una vez que se obtiene una coincidencia de caché, la tarifa de la API baja directamente a ¥0,1.

Esta función es muy práctica cuando se trata de conversaciones continuas y tareas de procesamiento por lotes.

En 16 de agosto de 2024, DeepSeek lanzó su modelo de demostración de teoremas matemáticos DeepSeek-Prover-V1.5 como código abierto, que superó a muchos modelos de código abierto conocidos en pruebas de demostración de teoremas matemáticos de instituto y universidad.

En El 6 de septiembre de 2024, DeepSeek lanzó el modelo de fusión DeepSeek-V2.5. Anteriormente, DeepSeek ofrecía principalmente dos modelos: el modelo Chat, centrado en las habilidades generales de conversación, y el modelo Code, centrado en las habilidades de procesamiento de código. Esta vez, los dos modelos se han combinado en uno solo, actualizado a DeepSeek-V2.5, que se ajusta mejor a las preferencias humanas y también ha logrado mejoras significativas en las tareas de escritura, seguimiento de comandos y otros aspectos.

En El 18 de septiembre de 2024, el DeepSeek-V2.5 volvió a figurar en la última lista de LMSYS, liderando los modelos nacionales y estableciendo nuevas mejores puntuaciones para los modelos nacionales en múltiples capacidades individuales.

En 20 de noviembre de 2024, DeepSeek lanzó DeepSeek-R1-Lite en el sitio web oficial. Se trata de un modelo de inferencia comparable a o1-preview, y también proporciona una cantidad suficiente de datos sintéticos para el postentrenamiento de V3.

En El 10 de diciembre de 2024, la serie DeepSeek V2 llegó a su fin con el lanzamiento de la versión final perfeccionada de DeepSeek-V2.5-1210. Esta versión mejora de forma exhaustiva múltiples habilidades, como las matemáticas, la codificación, la escritura y los juegos de rol a través del postentrenamiento.

Con la llegada de esta versión, la aplicación web DeepSeek también abrió la función de búsqueda en la red.

En El 13 de diciembre de 2024, DeepSeek hizo otro gran avance en el campo de la multimodalidad y lanzó el gran modelo multimodal de código abierto DeepSeek-VL2. DeepSeek-VL2 adopta la arquitectura MoE, que mejora significativamente sus capacidades visuales. Está disponible en tres tamaños: 3B, 16B y 27B, y tiene ventaja en todas las métricas.

En El 26 de diciembre de 2024, DeepSeek-V3 salió a la venta con código abierto: el coste estimado de formación fue de sólo 5,5 millones de dólares estadounidenses. DeepSeek-V3 comparó plenamente el rendimiento de los principales modelos de código cerrado en el extranjero y mejoró considerablemente la velocidad de generación.

Se ajustaron los precios de los servicios API, pero al mismo tiempo se estableció un periodo de prueba preferente de 45 días para el nuevo modelo.

El 15 de enero de 2025, la aplicación oficial DeepSeek fue lanzada oficialmente en los principales mercados de aplicaciones iOS/Android.

El 20 de enero de 2025, cerca del Año Nuevo Chino, el modelo de inferencia DeepSeek-R1 se publicó oficialmente y con código abierto. DeepSeek-R1 alineó completamente su rendimiento con la versión oficial de OpenAI o1 y abrió la función de salida de la cadena de pensamiento. Al mismo tiempo, DeepSeek también anunció que la licencia de código abierto del modelo se cambiaría por la licencia MIT, y el acuerdo de usuario permitiría explícitamente la "destilación del modelo", abrazando aún más el código abierto y promoviendo el intercambio de tecnología.

Más tarde, este modelo se hizo muy popular e inauguró una nueva era.

Como resultado, a partir del 27 de enero de 2025, la aplicación DeepSeek superó con éxito a ChatGPT y encabezó la lista de descargas de aplicaciones gratuitas en la iOS App Store de EE. UU., convirtiéndose en una aplicación de IA fenomenal.

El 27 de enero de 2025, a la 1:00 de la madrugada de Nochevieja, se publicó DeepSeek Janus-Pro como código abierto. Se trata de un modelo multimodal que toma su nombre del dios Jano, de dos caras, de la antigua mitología romana: mira tanto al pasado como al futuro. Esto también representa las dos habilidades del modelo -comprensión visual y generación de imágenes- y su dominio de múltiples clasificaciones.

La explosiva popularidad de DeepSeek desencadenó de inmediato una onda expansiva tecnológica mundial, que incluso provocó directamente el desplome del precio de las acciones de NVIDIA 18%, y la evaporación del valor de mercado de la bolsa tecnológica mundial en cerca de 1 billón de dólares estadounidenses. Wall Street y los medios tecnológicos exclamaron que el ascenso de DeepSeek está subvirtiendo el panorama mundial de la industria de la IA y planteando un desafío sin precedentes a los gigantes tecnológicos estadounidenses.

El éxito de DeepSeek también ha suscitado una gran atención internacional y acalorados debates sobre la capacidad de innovación tecnológica de China en materia de IA. El presidente estadounidense, Donald Trump, en un comentario público poco habitual, elogió el ascenso de DeepSeek como "positivo" y dijo que era una "llamada de atención" para Estados Unidos. El CEO de Microsoft, Satya Nadella, y el CEO de OpenAI, Sam Altman, también elogiaron a DeepSeek, calificando su tecnología de "muy impresionante."

Por supuesto, también debemos entender que sus elogios son en parte un reconocimiento de la fuerza de DeepSeek, y en parte un reflejo de sus propios motivos. Por ejemplo, aunque Anthropic reconoce los logros de DeepSeek, también pide al gobierno estadounidense que refuerce los controles de chips en China.

Anthropic CEO publica un artículo de 10.000 palabras: El auge del DeepSeek obliga a la Casa Blanca a intensificar los controles

Resumen y perspectivas

Echando la vista atrás, los dos últimos años de DeepSeek han sido realmente un "milagro chino": de una startup desconocida a la "misteriosa potencia oriental" que ahora brilla en el escenario mundial de la IA, DeepSeek ha escrito un "imposible" tras otro con su fuerza e innovación.

El significado profundo de esta expedición tecnológica hace tiempo que trascendió el ámbito de la competencia comercial. DeepSeek ha anunciado con hechos que En el campo estratégico de la inteligencia artificial que concierne al futuro, las empresas chinas son plenamente capaces de escalar a las cumbres de la tecnología punta.

La "señal de alarma" anunciada por Trump y el temor oculto de Antrópica confirman precisamente la importancia de las capacidades de IA de China: no sólo puede cabalgar las olas, sino que también está remodelando la dirección de la marea

Búsqueda profunda producto liberar hitos

  • 2 de noviembre de 2023: Codificador DeepSeek Modelo grande
  • 29 de noviembre de 2023: DeepSeek LLM 67B Modelo universal
  • 18 de diciembre de 2023: DreamCraft3D Modelo 3D
  • 11 de enero de 2024: DeepSeekMoE MoE modelo grande
  • 5 de febrero de 2024: DeepSeekMath Modelo de razonamiento matemático
  • 11 de marzo de 2024: DeepSeek-VL Modelo multimodal grande
  • Mayo de 2024: DeepSeek-V2 MoE modelo general
  • 17 de junio de 2024: DeepSeek Codificador V2 modelo de código
  • 6 de septiembre de 2024: DeepSeek-V2.5 fusión de los modelos de competencia general y de código
  • 13 de diciembre de 2024: Modelo de ME multimodal DeepSeek-VL2
  • 26 de diciembre de 2024: DeepSeek-V3 nueva serie de modelos grandes de uso general
  • 20 de enero de 2025: Modelo de inferencia DeepSeek-R1
  • 20 de enero de 2025: Aplicación oficial DeepSeek (iOS y Android)
  • 27 de enero de 2025: DeepSeek Modelo multimodal Janus-Pro

Entradas Similares

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *