À l'avenir, il y aura de plus en plus d'innovations radicales. Ce n'est peut-être pas facile à comprendre aujourd'hui, parce que l'ensemble du groupe social a besoin d'être éduqué par des faits. Lorsque cette société permettra aux personnes qui innovent de façon radicale de réussir, l'état d'esprit collectif changera. Nous avons juste besoin d'un ensemble de faits et d'un processus. - Liang Wenfeng, fondateur de DeepSeek
Ces derniers jours, le DeepSeek a explosé dans le monde entier, mais comme l'entreprise est très discrète et n'a fait aucune annonce, le public sait très peu de choses sur cette entreprise technologique à fort potentiel, qu'il s'agisse de son origine, de son champ d'activité ou de la présentation de ses produits.
Après avoir fini de trier tout le matériel, j'ai écrit cet article.
Quels sont les antécédents des acteurs actuels de l'IA, que font-ils et qui recrutent-ils ?
et probablement l'aperçu historique le plus complet du DeepSeek.
L'année dernière, à la même époque, un ami de Magic Cube Quant est venu me voir et m'a demandé : "Voulez-vous construire un grand modèle en Chine ?" Et j'ai simplement passé l'après-midi à boire du café. Comme on peut s'y attendre, la vie dépend toujours de choix.
Les Magic Cube Quant mentionné ici est l'investisseurou société mère, de DeepSeek.
Le soi-disant "quant" est une institution d'investissement qui prend des décisions non pas par la force humaine mais par des algorithmes. La création de Quant Fantasy n'est pas très ancienne, puisqu'elle a débuté en 2015. En 2021, à l'âge de six ans, l'échelle de gestion des actifs de Quant Fantasy avait dépassé les 100 milliards, et l'entreprise a été saluée comme l'un des "quatre grands rois quantiques" de Chine.
Le fondateur de Fantasy Square, Liang Wenfeng, qui est également le fondateur de DeepSeek, est un dirigeant financier "atypique" né dans les années 1980 : il n'a pas fait d'études à l'étranger, n'est pas lauréat d'une compétition olympique et est diplômé du département d'ingénierie électronique de l'université de Zhejiang, avec une spécialisation en intelligence artificielle. C'est un expert technologique natif qui agit de manière discrète, "lisant des articles, écrivant du code et participant à des discussions de groupe" tous les jours.
Liang Wenfeng n'a pas les habitudes d'un chef d'entreprise traditionnel, il est plutôt un pur "geek de la technologie". De nombreux initiés de l'industrie et chercheurs de DeepSeek ont fait l'éloge de Liang Wenfeng : Liang Weneng est "quelqu'un qui possède à la fois de solides capacités en matière d'ingénierie des infrastructures et de recherche sur les modèles, et qui peut également mobiliser des ressources", "quelqu'un qui peut porter des jugements précis à un niveau élevé, mais qui excelle également dans les détails par rapport aux chercheurs de première ligne", et qui possède également "une capacité d'apprentissage terrifiante".
Bien avant la création de DeepSeek, Huanfang avait déjà commencé à élaborer des plans à long terme dans le secteur de l'IA. En mai 2023, Liang Wenfeng a mentionné dans une interview avec Darksurge : "Après la publication de GPT3 par OpenAI en 2020, l'orientation du développement de l'IA est devenue très claire, et la puissance de calcul deviendra un élément clé ; mais même en 2021, lorsque nous avons investi dans la construction de Firefly 2, la plupart des gens ne pouvaient toujours pas la comprendre."
Sur la base de ce jugement, Huanfang a commencé à construire sa propre infrastructure informatique. "Ce processus s'est déroulé progressivement, passant d'une carte à 100 cartes en 2015, à 1 000 cartes en 2019, puis à 10 000 cartes. Avant quelques centaines de cartes, nous étions hébergés dans un IDC. Lorsque l'échelle est devenue plus importante, l'hébergement ne pouvait plus répondre aux besoins, nous avons donc commencé à construire notre propre salle informatique."
Plus tard, Finance Eleven a déclaré : "Il n'y a pas plus de cinq des entreprises nationales possédant plus de 10 000 GPU et, outre quelques grands fabricants, une société de fonds quantitatifs appelée Magic Cube." On estime généralement que 10 000 puces Nvidia A100 constituent le seuil de puissance de calcul nécessaire à l'apprentissage de modèles de grande taille.
Dans une interview précédente, Liang Wenfeng a également mentionné un point intéressant : Beaucoup de gens penseraient qu'il y a une logique commerciale inconnue derrière cela, mais en fait, c'est principalement motivé par la curiosité.
DeepSeekLa première rencontre de l'homme d'affaires
Lors d'un entretien avec Darksurge en mai 2023, la question suivante lui a été posée "Il n'y a pas longtemps, Huanfang a annoncé sa décision de faire de grands modèles. Pourquoi un fonds quantitatif ferait-il une telle chose ?
La réponse de Liang Wenfeng fut retentissante : "Notre décision de construire un grand modèle n'a rien à voir avec la quantification ou la finance. Pour ce faire, nous avons créé une nouvelle société appelée DeepSeek. De nombreux membres clés de l'équipe de Mianfang travaillent dans le domaine de l'intelligence artificielle. À l'époque, nous avons essayé de nombreux scénarios et nous avons finalement opté pour la finance, qui est déjà assez complexe. L'intelligence artificielle générale est peut-être l'une des choses les plus difficiles à réaliser. Pour nous, il s'agit donc de savoir comment le faire, et non pourquoi.
Elle n'est pas motivée par des intérêts commerciaux ou par la poursuite des tendances du marché, mais simplement par le désir d'explorer la technologie de l'AGI elle-même et par la recherche constante de "la chose la plus importante et la plus difficile", c'est-à-dire de "la chose la plus importante et la plus difficile qui soit". le nom "DeepSeek" a été officiellement confirmé en mai 2023. Le 17 juillet 2023, la société "Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Co., Ltd. a été constituée.
Sur Le 2 novembre 2023, DeepSeek a livré sa première réponse : DeepSeek Coder, un grand modèle de code open source. Ce modèle comprend plusieurs tailles telles que 1B, 7B et 33B. Le contenu de la source ouverte comprend le modèle de base et le modèle de réglage des commandes.
À l'époque, parmi les modèles open source, CodeLlama de Meta était la référence du secteur. Cependant, une fois que DeepSeek Coder a été publié, il a démontré une position de leader à multiples facettes par rapport à CodeLlama : dans la génération de code, HumanEval avait 9,3% d'avance, MBPP avait 10,8% d'avance, et DS-1000 avait 5,9% d'avance.
N'oubliez pas que DeepSeek Coder est un modèle 7B, tandis que CodeLlama est un modèle 34B. En outre, le modèle DeepSeek Coder, après avoir été réglé avec des instructions, a largement dépassé GPT3.5-Turbo.
Non seulement la génération de code est impressionnante, mais DeepSeek Coder montre également ses muscles en matière de mathématiques et de raisonnement.
Trois jours plus tard, le 5 novembre 2023, DeepSeek a publié un grand nombre de contenus de recrutement sur son compte public WeChat, y compris des postes tels que stagiaire en grand modèle AGI, expert en données, talent en architecture de données, ingénieur principal en collecte de données, ingénieur en recherche et développement en apprentissage profond, etc. et a commencé à agrandir activement l'équipe.
Comme l'a dit Liang Wenfeng, Pour DeepSeek, les "exigences incontournables" en matière de recrutement de talents sont "la passion et de solides compétences de base"Il a souligné que "L'innovation nécessite le moins d'intervention et de gestion possible, afin que chacun ait la liberté de faire des erreurs et d'essayer de nouvelles choses. L'innovation vient souvent de l'intérieur, pas d'arrangements délibérés, et elle ne vient certainement pas de l'enseignement".
Les modèles sont fréquemment publiés et l'open source est pratiqué.
Après que DeepSeek Coder a fait parler de lui, DeepSeek s'est tourné vers le champ de bataille principal : les modèles de langage généraux.
Sur Le 29 novembre 2023, DeepSeek a publié son premier grand modèle de langage à usage général, DeepSeek LLM 67B. Ce modèle est comparé au modèle LLaMA2 70B de Meta de même niveau et a obtenu de meilleurs résultats dans près de 20 listes d'évaluation publiques en chinois et en anglais. En particulier, ses capacités de raisonnement, de mathématiques et de programmation (par exemple, HumanEval, MATH, CEval et CMMLU) sont exceptionnelles.
DeepSeek LLM 67B a également choisi la voie de l'open source et soutient l'utilisation commerciale. Pour mieux démontrer sa sincérité et sa détermination à l'égard de l'open source, DeepSeek a, fait sans précédent, ouvert simultanément deux modèles d'échelles différentes, 7B et 67B, et a même rendu publics les neuf points de contrôle générés au cours du processus d'apprentissage du modèle pour que les chercheurs puissent les télécharger et les utiliser. Ce type d'opération, qui s'apparente à "tout enseigner", est extrêmement rare dans l'ensemble de la communauté open source.
Afin d'évaluer de manière plus complète et objective les capacités réelles de DeepSeek LLM 67B, l'équipe de recherche de DeepSeek a également conçu avec soin une série de "nouvelles questions" pour des "tests de résistance". Ces questions couvrent des tests de haut niveau et à forte discrimination, tels que des questions d'examen de mathématiques de l'école secondaire hongroise, des ensembles d'évaluation des commandes Google et des questions du concours hebdomadaire LeetCode. Les résultats des tests sont encourageants. DeepSeek LLM 67B a montré un potentiel étonnant en termes de capacité à généraliser au-delà de l'échantillon, et sa performance globale était même proche de celle du modèle GPT-4 le plus avancé à l'époque.
Sur Le 18 décembre 2023, DeepSeek a ouvert en source le modèle 3D de Vincent DreamCraft3DIl peut générer des modèles 3D de haute qualité à partir d'une phrase, ce qui permet de passer des plans 2D à l'espace 3D dans l'AIGC. Par exemple, si l'utilisateur saisit "Courant dans les bois, une image hybride amusante d'une tête de cochon et du corps du roi des singes", DreamCraft3D peut produire un contenu de haute qualité :
En principe, le modèle complète d'abord le diagramme de Venn, puis la structure géométrique globale sur la base de la carte conceptuelle en 2D :
Dans l'évaluation subjective qui a suivi, plus de 90% des utilisateurs ont déclaré que DreamCraft3D avait un avantage en termes de qualité de génération par rapport aux méthodes de génération précédentes.
Le 7 janvier 2024, DeepSeek a publié le rapport technique DeepSeek LLM 67B. Ce rapport de plus de 40 pages contient de nombreux détails sur DeepSeek LLM 67B, y compris des lois d'échelle auto-construites, des détails pratiques complets sur l'alignement des modèles et un système complet d'évaluation des capacités de l'AGI.
Sur Le 11 janvier 2024, DeepSeek a ouvert le premier grand modèle MoE (mixed expert architecture) en Chine, DeepSeekMoE : une toute nouvelle architecture qui prend en charge le chinois et l'anglais et dont l'utilisation commerciale est gratuite. L'architecture MoE était généralement considérée à l'époque comme la clé de la percée des performances de l'OpenAI GPT-4. L'architecture MoE auto-développée de DeepSeek est en tête dans plusieurs échelles telles que 2B, 16B et 145B, et son calcul est également très louable.
Le 25 janvier 2024, DeepSeek a publié le rapport technique du codeur DeepSeek. Ce rapport fournit une analyse technique complète des données de formation, des méthodes de formation et des performances du modèle. Dans ce rapport, nous pouvons voir que pour la première fois, il a construit des données de code au niveau de l'entrepôt et utilisé le tri topologique pour analyser les dépendances entre les fichiers, améliorant de manière significative la capacité à comprendre les fichiers croisés sur de longues distances. En ce qui concerne les méthodes de formation, la méthode Fill-In-Middle a été ajoutée, ce qui a considérablement amélioré la capacité de complétion du code.
Le 30 janvier 2024, la plateforme ouverte DeepSeek a été officiellement lancée et le service API DeepSeek Large Model a commencé à être testé. Inscrivez-vous pour obtenir gratuitement 10 millions de jetons. L'interface est compatible avec l'interface API OpenAI, et les deux modèles doubles Chat/Coder sont disponibles. À cette époque, DeepSeek a commencé à explorer la voie d'un fournisseur de services technologiques en plus de la recherche et du développement technologique.
Sur Le 5 février 2024, DeepSeek a publié un autre modèle de domaine vertical, DeepSeekMath.un modèle de raisonnement mathématique. Ce modèle n'a que 7B paramètres, mais sa capacité de raisonnement mathématique est proche de celle de GPT-4. Sur la liste de référence MATH, qui fait autorité, il surpasse les autres modèles et surpasse un certain nombre de modèles open source dont la taille des paramètres est comprise entre 30B et 70B. La sortie de DeepSeekMath démontre pleinement la force technique de DeepSeek et son approche prospective de la recherche et du développement vertical, ainsi que son approche prospective de la recherche et du développement de modèles.
Sur Le 28 février 2024, afin d'apaiser les inquiétudes des développeurs concernant l'utilisation des modèles open source de DeepSeek, DeepSeek a publié une FAQ sur la politique en matière d'open source.qui fournit des réponses détaillées aux questions fréquemment posées, telles que le modèle de licence open source et les restrictions d'utilisation commerciale. DeepSeek adopte une attitude plus transparente et plus ouverte vis-à-vis de l'open source :
Sur Le 11 mars 2024, DeepSeek a lancé le grand modèle multimodal DeepSeek-VL. Il s'agit de la première tentative de DeepSeek en matière de technologie d'IA multimodale. Le modèle a une taille de 7B et de 1,3B, et le modèle et les documents techniques sont ouverts simultanément.
Sur Le 20 mars 2024, Huanfang AI & DeepSeek a de nouveau été invité à participer à la conférence NVIDIA GTC 2024, et son fondateur Liang Wenfeng a prononcé un discours technique. intitulé "L'harmonie dans la diversité : Alignement et découplage des valeurs des grands modèles linguistiques". Des questions telles que "le conflit entre un grand modèle à valeur unique et une société et une culture pluralistes", "le découplage de l'alignement des valeurs des grands modèles" et "les défis multidimensionnels de l'alignement des valeurs découplées" ont été discutées. Cela a démontré l'attention humaniste et la responsabilité sociale de DeepSeek pour le développement de l'IA, en plus de sa recherche et de son développement technologiques.
En mars 2024, DeepSeek API a officiellement lancé des services payants, ce qui a complètement déclenché le prélude à la guerre des prix sur le marché chinois des grands modèles : 1 yuan par million de jetons d'entrée et 2 yuans par million de jetons de sortie.
En 2024, DeepSeek a passé avec succès le record des grands modèles en Chine, levant les obstacles politiques à l'ouverture totale de ses services API.
En mai 2024, DeepSeek-V2, un grand modèle général MoE open source, a été publié et la guerre des prix a officiellement commencé. DeepSeek-V2 utilise le MLA (mécanisme d'attention latente à têtes multiples), qui réduit l'empreinte mémoire du modèle à 5%-13% de celle du MHA traditionnel. Dans le même temps, il a également développé de manière indépendante la structure éparse DeepSeek MoE Sparse, qui réduit considérablement la complexité informatique du modèle. Grâce à cela, le modèle conserve un prix API de "1 yuan/million d'entrées et 2 yuans/million de sorties".
Le DeepSeek a eu un impact considérable. À cet égard, l'analyste principal de SemiAnalysis estime que le document DeepSeek V2 "est peut-être l'un des meilleurs de l'année". De même, Andrew Carr, un ancien employé d'OpenAI, estime que le document est "plein d'une sagesse étonnante" et a appliqué ses paramètres d'entraînement à son propre modèle.
Il convient de noter qu'il s'agit d'un modèle qui sert de référence au GPT-4-Turbo, et que le prix de l'API ne représente que 1/70 de ce dernier.
Le mois de juin Le 17 décembre 2024, DeepSeek a de nouveau fait un grand pas en avant en publiant le modèle de code DeepSeek Coder V2. La version 2 de DeepSeek Coder est une version à code source ouvert et affirme que les capacités de son code surpassent celles du GPT-4-Turbo, le modèle à code source fermé le plus avancé à l'époque. DeepSeek Coder V2 poursuit la stratégie cohérente de DeepSeek en matière d'open source, avec tous les modèles, le code et les documents en open source, et deux versions, 236B et 16B, sont fournies. Les services API de DeepSeek Coder V2 sont également disponibles en ligne et le prix reste de "1 yuan/million d'entrées et 2 yuans/million de sorties".
Sur Le 21 juin 2024, le codeur DeepSeek a pris en charge l'exécution du code en ligne. Le même jour, Claude3.5 Sonnet a été publié, avec la nouvelle fonctionnalité Artifacts, qui génère automatiquement du code et l'exécute directement dans le navigateur. Le même jour, l'assistant de code du site web DeepSeek a également lancé la même fonctionnalité : générer du code et l'exécuter en un seul clic.
Passons en revue les principaux événements de cette période :
Des avancées constantes qui attirent l'attention du monde entier
En mai 2024, DeepSeek est devenu célèbre du jour au lendemain en lançant DeepSeek V2, un modèle open source basé sur MoE. Il a égalé les performances du GPT-4-Turbo, mais à un prix de seulement 1 yuan/million d'entrée, soit 1/70 du GPT-4-Turbo. À cette époque, le DeepSeek est devenu un "boucher des prix" bien connu dans l'industrie, et les acteurs principaux tels que Zhicheng, ByteDance, Alibaba... et d'autres acteurs majeurs ont rapidement suivi le mouvement et baissé leurs prix. C'est également à cette époque qu'il y a eu une autre série d'interdictions de GPT et qu'un grand nombre d'applications d'IA ont commencé à essayer des modèles nationaux pour la première fois.
En juillet 2024, le fondateur de DeepSeek, Liang Wenfeng, a de nouveau accepté une interview avec Dark Surge et a répondu directement à la guerre des prix : "Très inattendu. Je ne m'attendais pas à ce que le prix rende tout le monde si sensible. Nous faisons les choses à notre rythme et nous fixons nos prix en fonction des coûts. Notre principe est de ne pas perdre d'argent ni de faire des bénéfices exorbitants. Ce prix est également légèrement supérieur au coût avec un petit bénéfice."
On constate que, contrairement à de nombreux concurrents qui paient de leur poche pour subventionner, DeepSeek est rentable à ce prix.
Certains diront que les réductions de prix reviennent à voler les utilisateurs, ce qui est généralement le cas dans les guerres de prix à l'ère de l'Internet
Liang Wenfeng a également répondu : "Voler les utilisateurs n'est pas notre objectif principal. Nous avons baissé le prix parce que, d'une part, le coût a diminué au fur et à mesure que nous explorions la structure du modèle de prochaine génération et, d'autre part, nous estimons que l'API et l'IA devraient être abordables et accessibles à tous."
L'histoire se poursuit donc avec l'idéalisme de Liang Wenfeng.
Le 4 juillet 2024, l'API DeepSeek a été mise en ligne. Le prix du contexte 128K est resté inchangé. Le coût d'inférence d'un modèle est étroitement lié à la longueur du contexte. C'est pourquoi de nombreux modèles ont des restrictions strictes sur cette longueur : la version initiale de GPT-3.5 n'a que 4k contextes.
À cette époque, DeepSeek a augmenté la longueur du contexte de 32k à 128k tout en maintenant le prix inchangé (1 yuan par million de jetons d'entrée et 2 yuans par million de jetons de sortie).
Sur Le 10 juillet 2024, les résultats des premières Olympiades mondiales de l'IA (AIMO) ont été annoncés, et le modèle DeepSeekMath est devenu le choix commun des meilleures équipes.. Les équipes gagnantes du Top 4 ont toutes choisi DeepSeekMath-7B comme base de leurs modèles d'entrée et ont obtenu des résultats impressionnants dans la compétition.
Sur 18 juillet 2024, DeepSeek-V2 est en tête de liste des modèles open source sur la Chatbot Arena, surpassant des modèles stellaires tels que Llama3-70B, Qwen2-72B, Nemotron-4-340B et Gemma2-27B, et devenant une nouvelle référence pour les grands modèles open source.
En Juillet 2024, DeepSeek a continué à recruter des talents et a recruté les meilleurs talents du monde entier dans de nombreux domaines, notamment les algorithmes d'IA, l'infrastructure d'IA, le tuteur d'IA et les produits d'IA, afin de se préparer à l'innovation technologique et au développement de produits futurs.
Sur Le 26 juillet 2024, l'API DeepSeek a fait l'objet d'une importante mise à jour, prenant pleinement en charge une série de fonctionnalités avancées telles que l'écrasement, la complétion FIM (Fill-in-the-Middle), l'appel de fonction et la sortie JSON. La fonction FIM est très intéressante : l'utilisateur donne le début et la fin, et le grand modèle remplit le milieu, ce qui convient parfaitement au processus de programmation pour remplir le code exact de la fonction. Prenons l'exemple de l'écriture de la séquence de Fibonacci :
Sur Le 2 août 2024, DeepSeek a introduit de manière innovante la technologie de mise en cache des disques durs, réduisant ainsi les prix de l'API jusqu'à la cheville. Auparavant, les prix de l'API n'étaient que de 1 ¥1 par million de jetons. Désormais, dès qu'un cache est trouvé, les frais d'API tombent directement à 0,1 ¥.
Cette fonction est très pratique lorsqu'il s'agit de conversations continues et de tâches de traitement par lots.
Sur Le 16 août 2024, DeepSeek a publié son modèle de preuve de théorème mathématique DeepSeek-Prover-V1.5. en tant que logiciel libre, qui a surpassé de nombreux modèles libres bien connus dans les tests de démonstration de théorèmes mathématiques au lycée et à l'université.
Sur Le 6 septembre 2024, DeepSeek a publié le modèle de fusion DeepSeek-V2.5. Auparavant, DeepSeek proposait principalement deux modèles : le modèle Chat, axé sur les compétences générales en matière de conversation, et le modèle Code, axé sur les compétences en matière de traitement du code. Cette fois, les deux modèles ont été combinés en un seul, mis à jour en DeepSeek-V2.5, qui s'aligne mieux sur les préférences humaines et a également apporté des améliorations significatives dans les tâches d'écriture, le suivi des commandes et d'autres aspects.
Sur Le 18 septembre 2024, DeepSeek-V2.5 figure à nouveau sur la dernière liste LMSYS, en tête des modèles nationaux. et en établissant de nouveaux records pour les modèles nationaux dans de multiples capacités individuelles.
Sur Le 20 novembre 2024, DeepSeek a lancé DeepSeek-R1-Lite sur le site officiel. Il s'agit d'un modèle d'inférence comparable à o1-preview, qui fournit également une quantité suffisante de données synthétiques pour le post-entraînement de V3.
Sur Le 10 décembre 2024, la série DeepSeek V2 s'est achevée avec la publication de la version finale de DeepSeek-V2.5-1210. Cette version améliore de manière exhaustive de multiples capacités, notamment les mathématiques, le codage, l'écriture et les jeux de rôle, grâce à la post-formation.
Avec l'arrivée de cette version, l'application web DeepSeek a également ouvert la fonction de recherche de réseau.
Sur Le 13 décembre 2024, DeepSeek a fait une nouvelle percée dans le domaine de la multimodalité et a lancé le grand modèle multimodal open source DeepSeek-VL2. DeepSeek-VL2 adopte l'architecture MoE, ce qui améliore considérablement ses capacités visuelles. Il est disponible en trois tailles : 3B, 16B et 27B, et présente un avantage dans toutes les mesures.
Sur Le 26 décembre 2024, le DeepSeek-V3 est publié en open source : le coût de la formation est estimé à seulement 5,5 millions de dollars US. DeepSeek-V3 a entièrement comparé les performances des principaux modèles de sources fermées à l'étranger et a considérablement amélioré la vitesse de génération.
La tarification des services API a été ajustée, mais en même temps, une période d'essai préférentielle de 45 jours a été fixée pour le nouveau modèle.
Le 15 janvier 2025, l'application officielle DeepSeek a été officiellement lancée sur les principaux marchés d'applications iOS/Android.
Le 20 janvier 2025, à l'approche du Nouvel An chinois, le modèle d'inférence DeepSeek-R1 a été officiellement publié et mis en libre accès. DeepSeek-R1 a entièrement aligné ses performances sur la version officielle OpenAI o1 et a ouvert la fonction de sortie de la chaîne de pensée. Dans le même temps, DeepSeek a également annoncé que la licence open source du modèle serait remplacée par la licence MIT et que l'accord d'utilisation autoriserait explicitement la "distillation du modèle", ce qui renforcerait l'adoption de l'open source et la promotion du partage des technologies.
Plus tard, ce modèle est devenu très populaire et a inauguré une nouvelle ère
En conséquence, le 27 janvier 2025, l'application DeepSeek a réussi à dépasser ChatGPT et à se placer en tête de la liste des téléchargements d'applications gratuites sur l'App Store iOS des États-Unis, devenant ainsi une application d'IA phénoménale.
Le 27 janvier 2025, à 1 heure du matin, la veille du Nouvel An, DeepSeek Janus-Pro a été publié en tant que source ouverte. Il s'agit d'un modèle multimodal nommé d'après le dieu Janus à deux visages de la mythologie romaine antique : il fait face à la fois au passé et à l'avenir. Cela représente également les deux capacités du modèle, à savoir la compréhension visuelle et la génération d'images, ainsi que sa domination sur plusieurs classements.
La popularité explosive de DeepSeek a immédiatement déclenché une onde de choc technologique mondiale, provoquant même directement la chute du cours de l'action de NVIDIA de 18%, et l'évaporation de la valeur du marché mondial des valeurs technologiques d'environ 1 000 milliards de dollars américains. Wall Street et les médias technologiques se sont exclamés que la montée en puissance de DeepSeek bouleversait le paysage mondial de l'industrie de l'IA et posait un défi sans précédent aux géants américains de la technologie.
Le succès de DeepSeek a également suscité une grande attention internationale et des discussions animées sur les capacités d'innovation technologique de la Chine en matière d'IA. Le président américain Donald Trump, dans un rare commentaire public, a salué la montée en puissance de DeepSeek en la qualifiant de "positive" et a déclaré qu'il s'agissait d'un "signal d'alarme" pour les États-Unis. Le PDG de Microsoft, Satya Nadella, et le PDG d'OpenAI, Sam Altman, ont également fait l'éloge de DeepSeek, qualifiant sa technologie de "très impressionnante".
Bien entendu, nous devons également comprendre que leurs louanges sont en partie une reconnaissance de la force de DeepSeek, et en partie un reflet de leurs propres motivations. Par exemple, tout en reconnaissant les réalisations de DeepSeek, Anthropic demande au gouvernement américain de renforcer le contrôle des puces en Chine.
Anthropic CEO publie un article de 10 000 mots : L'essor de DeepSeek signifie que la Maison Blanche devrait renforcer les contrôles
Résumé et perspectives
Si l'on considère les deux dernières années de DeepSeek, il s'agit véritablement d'un "miracle chinois" : d'une startup inconnue à la "mystérieuse puissance orientale" qui brille aujourd'hui sur la scène mondiale de l'IA, DeepSeek a écrit un "impossible" après l'autre grâce à sa force et à son sens de l'innovation.
Le sens profond de cette expédition technologique a depuis longtemps dépassé le cadre de la compétition commerciale. DeepSeek a annoncé avec des faits que dans le domaine stratégique de l'intelligence artificielle qui concerne l'avenir, les entreprises chinoises sont tout à fait capables de se hisser au sommet de la technologie de base.
La "sonnette d'alarme" tirée par Trump et la crainte cachée de l'Anthropic confirment précisément l'importance des capacités de la Chine en matière d'IA : non seulement elle peut surfer sur les vagues, mais elle est également en train de redessiner le sens de la marée
Deepseek produit libération étapes importantes
- Le 2 novembre 2023 : Codeur DeepSeek Grand modèle
- Le 29 novembre 2023 : DeepSeek LLM 67B Modèle universel
- Le 18 décembre 2023 : Modèle 3D DreamCraft3D
- Le 11 janvier 2024 : DeepSeekMoE MoE grand modèle
- Le 5 février 2024 : DeepSeekMath Modèle de raisonnement mathématique
- Le 11 mars 2024 : DeepSeek-VL Grand modèle multimodal
- mai 2024 : DeepSeek-V2 Modèle général MoE
- Le 17 juin 2024 : DeepSeek Coder V2 modèle de code
- Le 6 septembre 2024 : DeepSeek-V2.5 fusion des modèles de compétences générales et de codes
- Le 13 décembre 2024 : DeepSeek-VL2 modèle multimodal MoE
- Le 26 décembre 2024 : DeepSeek-V3 nouvelle série de grands modèles à usage général
- Le 20 janvier 2025 : Modèle d'inférence DeepSeek-R1
- Le 20 janvier 2025 : Application officielle DeepSeek (iOS & Android)
- 27 janvier 2025 : DeepSeek Modèle multimodal Janus-Pro