In Zukunft wird es mehr und mehr Hardcore-Innovationen geben. Das mag jetzt noch nicht leicht zu verstehen sein, weil die gesamte gesellschaftliche Gruppe erst durch Fakten aufgeklärt werden muss. Wenn diese Gesellschaft es zulässt, dass Menschen, die wirklich innovativ sind, Erfolg haben, wird sich die kollektive Denkweise ändern. Wir brauchen nur eine Reihe von Fakten und einen Prozess. - Liang Wenfeng, Gründer von DeepSeek

In den letzten Tagen ist DeepSeek in der ganzen Welt bekannt geworden, aber weil das Unternehmen so zurückhaltend ist und keine Ankündigungen gemacht hat, weiß die Öffentlichkeit nur sehr wenig über dieses Technologieunternehmen mit großem Potenzial - sei es der Gründungshintergrund, der Geschäftsumfang oder die Produktgestaltung.

Nachdem ich das gesamte Material durchgesehen hatte, schrieb ich diesen Artikel

Welchen Hintergrund haben die derzeitigen KI-Akteure, was haben sie vor und wen rekrutieren sie?

und den wahrscheinlich vollständigsten historischen Überblick über DeepSeek.

Letztes Jahr um diese Zeit kam ein Freund von Magic Cube Quant zu mir und fragte: "Willst du ein großes Modell in China bauen?" Und ich verbrachte den Nachmittag einfach mit Kaffeetrinken. Wie erwartet, hängt das Leben immer noch von Entscheidungen ab.

Die Der hier erwähnte Magic Cube Quant ist der Investoroder die Muttergesellschaft von DeepSeek.

Der sogenannte "Quant" ist eine Anlageinstitution, die Entscheidungen nicht durch menschliche Kraft, sondern durch Algorithmen trifft. Die Gründung von Quant Fantasy ist nicht lang, sie begann 2015. Im Jahr 2021, als sie sechs Jahre alt war, hatte die Vermögensverwaltung von Quant Fantasy 100 Milliarden überschritten, und sie wurde als einer der "vier großen Quant-Könige" Chinas gefeiert.

Der Gründer von Fantasy Square, Liang Wenfeng, der auch der Gründer von DeepSeek ist, ist ein in den 1980er Jahren geborener "Nicht-Mainstream"-Finanzleiter: Er hat keine Studienerfahrung im Ausland, ist kein Olympiasieger und hat sein Studium an der Fakultät für Elektrotechnik der Zhejiang-Universität mit dem Schwerpunkt künstliche Intelligenz abgeschlossen. Er ist ein einheimischer Technologieexperte, der sich zurückhaltend verhält und jeden Tag "Papiere liest, Code schreibt und an Gruppendiskussionen teilnimmt".

Liang Wenfeng hat nicht die Gewohnheiten eines traditionellen Geschäftsinhabers, sondern ist eher ein reiner "Technikfreak".. Viele Brancheninsider und DeepSeek-Forscher haben Liang Wenfeng in den höchsten Tönen gelobt: "Jemand, der sowohl über starke infrastrukturelle Fähigkeiten als auch über Modellforschungsfähigkeiten verfügt und auch Ressourcen mobilisieren kann", "jemand, der von einer hohen Ebene aus genaue Urteile fällen kann, sich aber auch bei den Details gegenüber den Forschern an vorderster Front hervortut" und außerdem "eine erschreckende Lernfähigkeit" besitzt.

Lange vor der Gründung von DeepSeek hatte Huanfang bereits damit begonnen, langfristige Pläne in der KI-Branche zu schmieden. Im Mai 2023 sagte Liang Wenfeng in einem Interview mit Darksurge: "Nachdem OpenAI GPT3 im Jahr 2020 veröffentlicht hat, ist die Richtung der KI-Entwicklung sehr klar geworden, und die Rechenleistung wird zu einem Schlüsselelement; aber selbst im Jahr 2021, als wir in den Bau von Firefly 2 investiert haben, konnten die meisten Leute es immer noch nicht verstehen."

Auf der Grundlage dieses Urteils begann Huanfang mit dem Aufbau einer eigenen Datenverarbeitungsinfrastruktur. "Von der ersten Karte über 100 Karten im Jahr 2015 und 1.000 Karten im Jahr 2019 bis hin zu 10.000 Karten ist dieser Prozess schrittweise verlaufen. Vor ein paar hundert Karten wurden wir in einem IDC gehostet. Als der Umfang größer wurde, konnte das Hosting die Anforderungen nicht mehr erfüllen, so dass wir begannen, einen eigenen Computerraum zu bauen."

Später berichtete Finance Eleven: "Es gibt nicht mehr als fünf inländische Unternehmen mit mehr als 10.000 Grafikprozessoren, zu denen neben einigen großen Herstellern auch ein quantitatives Fondsunternehmen namens Magic Cube gehört." Es wird allgemein angenommen, dass 10.000 Nvidia A100-Chips die Schwelle für die Rechenleistung zum Trainieren großer Modelle darstellen.

In einem früheren Interview erwähnte Liang Wenfeng ebenfalls einen interessanten Punkt: Viele Menschen denken, dass dahinter eine unbekannte Geschäftslogik steckt, aber in Wirklichkeit ist es vor allem Neugierde.

DeepSeekdie erste Begegnung

In einem Interview mit Darksurge im Mai 2023 sagte er auf die Frage "Es ist noch nicht lange her, dass Huanfang seine Entscheidung bekannt gab, große Modelle zu erstellen, warum sollte ein quantitativer Fonds so etwas tun?

Die Antwort von Liang Wenfeng war durchschlagend: "Unsere Entscheidung, ein großes Modell zu bauen, hat nichts mit Quantifizierung oder Finanzen zu tun. Zu diesem Zweck haben wir ein neues Unternehmen namens DeepSeek gegründet. Viele der wichtigsten Mitglieder des Teams von Mianfang sind im Bereich der künstlichen Intelligenz tätig. Damals haben wir viele Szenarien ausprobiert und uns schließlich für das Finanzwesen entschieden, das komplex genug ist. Allgemeine künstliche Intelligenz ist vielleicht eines der nächst schwierigeren Dinge, also ist es für uns eine Frage des Wie, nicht des Warum.

Nicht von kommerziellen Interessen oder der Verfolgung von Markttrends getrieben, sondern einfach von dem Wunsch, die AGI-Technologie selbst zu erforschen, und dem beharrlichen Streben nach "dem Wichtigsten und Schwierigsten". der Name "DeepSeek" wurde im Mai 2023 offiziell bestätigt. Am 17. Juli 2023 wurde die "Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Co. gegründet.

Auf Am 2. November 2023 lieferte DeepSeek seine erste Antwort: DeepSeek Coder, ein großes Modell von Open Source Code. Dieses Modell umfasst mehrere Größen wie 1B, 7B und 33B. Der Open-Source-Inhalt umfasst das Basismodell und das Befehlsabstimmungsmodell.

Zu dieser Zeit war Meta's CodeLlama unter den Open-Source-Modellen die Benchmark der Branche. Nach der Veröffentlichung von DeepSeek Coder zeigte sich jedoch, dass es im Vergleich zu CodeLlama in vielerlei Hinsicht führend war: Bei der Codegenerierung lag HumanEval um 9,3% vorn, MBPP um 10,8% und DS-1000 um 5,9%.

Beachten Sie, dass DeepSeek Coder ein 7B-Modell ist, während CodeLlama ein 34B-Modell ist. Darüber hinaus hat das Modell DeepSeek Coder, nachdem es mit Anweisungen abgestimmt wurde, den GPT3.5-Turbo umfassend übertroffen.

Nicht nur die Codegenerierung ist beeindruckend, sondern DeepSeek Coder lässt auch seine Muskeln in Mathematik und logischem Denken spielen.

Drei Tage später, am 5. November 2023, veröffentlichte DeepSeek über sein öffentliches WeChat-Konto eine große Anzahl von Stellenangeboten, darunter Positionen wie AGI Large Model Intern, Data Expert, Data Architecture Talent, Senior Data Collection Engineer, Deep Learning Research and Development Engineer usw., und begann, das Team aktiv zu erweitern.

Wie Liang Wenfeng sagte, DeepSeeks "Must-have-Anforderungen" für die Talentrekrutierung sind "Leidenschaft und solide Grundkenntnisse".und er betonte, dass "Innovation erfordert so wenig Intervention und Management wie möglich, damit jeder die Freiheit hat, Fehler zu machen und neue Dinge auszuprobieren. Innovation entsteht oft von innen heraus, nicht durch absichtliche Vorkehrungen, und schon gar nicht durch Unterricht".

Modelle werden häufig veröffentlicht, und Open Source wird praktiziert

Nachdem DeepSeek Coder für Furore gesorgt hatte, richtete DeepSeek seine Aufmerksamkeit auf das Hauptschlachtfeld: allgemeine Sprachmodelle.

Auf Am 29. November 2023 veröffentlichte DeepSeek sein erstes universelles Großsprachenmodell, DeepSeek LLM 67B. Dieses Modell wird mit dem LLaMA2 70B-Modell von Meta auf demselben Niveau verglichen und hat in fast 20 öffentlichen Bewertungslisten in Chinesisch und Englisch besser abgeschnitten. Insbesondere seine Fähigkeiten in den Bereichen Argumentation, Mathematik und Programmierung (z. B. HumanEval, MATH, CEval und CMMLU) sind hervorragend.

Das DeepSeek LLM 67B hat ebenfalls den Weg der offenen Quellen gewählt und unterstützt die kommerzielle Nutzung. Um seine Aufrichtigkeit und Entschlossenheit zu Open Source weiter zu demonstrieren, hat DeepSeek beispiellos zwei Modelle unterschiedlichen Maßstabs, 7B und 67B, gleichzeitig als Open Source zur Verfügung gestellt und sogar die neun Kontrollpunkte, die während des Modelltrainings generiert wurden, für Forscher zum Download und zur Nutzung veröffentlicht. Ein derartiges Vorgehen, das dem "Lehren von allem" gleichkommt, ist in der gesamten Open-Source-Gemeinschaft äußerst selten.

Um die tatsächlichen Fähigkeiten des DeepSeek LLM 67B umfassender und objektiver bewerten zu können, hat das DeepSeek-Forschungsteam auch eine Reihe von "neuen Fragen" für "Stresstests" entwickelt. Diese Fragen umfassen anspruchsvolle Tests mit hohem Diskriminierungsgrad, wie z. B. ungarische Mathe-Prüfungsfragen für Gymnasien, Google-Befehlsfolgen-Bewertungssätze und wöchentliche LeetCode-Wettbewerbsfragen. Die Testergebnisse waren ermutigend. DeepSeek LLM 67B zeigte ein erstaunliches Potenzial in Bezug auf seine Fähigkeit, über die Stichprobe hinaus zu verallgemeinern, und seine Gesamtleistung lag sogar nahe an der des damals am weitesten entwickelten GPT-4-Modells.

Auf 18. Dezember 2023, DeepSeek öffnete den Quellcode des Vincent 3D-Modells DreamCraft3D: Es kann hochwertige 3D-Modelle aus einem Satz generieren und schafft damit den Sprung von der 2D-Ebene in den 3D-Raum in AIGC. Zum Beispiel, wenn der Benutzer eingibt: "Ich renne durch den Wald, ein lustiges Hybridbild aus einem Schweinekopf und dem Körper des Affenkönigs", kann DreamCraft3D hochwertige Inhalte ausgeben:

Im Prinzip vervollständigt das Modell zunächst das Venn-Diagramm und ergänzt dann die geometrische Gesamtstruktur auf der Grundlage der 2D-Konzeptkarte:

In der anschließenden subjektiven Bewertung gaben mehr als 90% der Nutzer an, dass DreamCraft3D im Vergleich zu früheren Generierungsmethoden einen Qualitätsvorsprung hat.

Am 7. Januar 2024 veröffentlichte DeepSeek den technischen Bericht DeepSeek LLM 67B. Dieser mehr als 40-seitige Bericht enthält viele Details zu DeepSeek LLM 67B, darunter selbst erstellte Skalierungsgesetze, vollständige praktische Details zur Modellausrichtung und ein umfassendes System zur Bewertung der AGI-Fähigkeiten.

Adresse auf dem Papier

Auf Am 11. Januar 2024 stellte DeepSeek das erste große MoE-Modell (Mixed Expert Architecture) in China, DeepSeekMoE, zur Verfügung: eine brandneue Architektur, die Chinesisch und Englisch unterstützt und frei für die kommerzielle Nutzung ist. Die MoE-Architektur wurde damals allgemein als der Schlüssel zum Leistungsdurchbruch von OpenAI GPT-4 angesehen. Die von DeepSeek selbst entwickelte MoE-Architektur ist in mehreren Maßstäben wie 2B, 16B und 145B führend, und auch ihre Rechenleistung ist sehr lobenswert.

Am 25. Januar 2024 veröffentlichte DeepSeek den technischen Bericht DeepSeek Coder. Dieser Bericht enthält eine umfassende technische Analyse der Trainingsdaten, der Trainingsmethoden und der Modellleistung. In diesem Bericht können wir sehen, dass zum ersten Mal Code-Daten auf Lagerebene konstruiert wurden und topologische Sortierung verwendet wurde, um die Abhängigkeiten zwischen Dateien zu analysieren, was die Fähigkeit zum Verstehen von Cross-Files über große Entfernungen erheblich verbessert hat. Bei den Trainingsmethoden wurde die Fill-In-Middle-Methode hinzugefügt, die die Fähigkeit der Code-Vervollständigung erheblich verbessert hat.

Adresse auf dem Papier

Am 30. Januar 2024 wurde die offene Plattform DeepSeek offiziell ins Leben gerufen, und der API-Dienst DeepSeek Large Model begann mit Tests. Registrieren Sie sich, um 10 Millionen Token kostenlos zu erhalten. Die Schnittstelle ist mit der OpenAI-API-Schnittstelle kompatibel, und beide Chat/Coder-Dualmodelle sind verfügbar. Zu diesem Zeitpunkt begann DeepSeek, neben der Technologieforschung und -entwicklung auch den Weg eines Technologiedienstleisters einzuschlagen.

Auf Am 5. Februar 2024 veröffentlichte DeepSeek ein weiteres vertikales Domänenmodell, DeepSeekMathein Modell des mathematischen Denkens. Dieses Modell hat nur 7B Parameter, aber seine Fähigkeit zum mathematischen Schlussfolgern ist der von GPT-4 sehr ähnlich. In der maßgeblichen MATH-Benchmark-Liste übertrifft es die Masse und übertrifft eine Reihe von Open-Source-Modellen mit Parametergrößen zwischen 30B und 70B. Die Veröffentlichung von DeepSeekMath demonstriert die technische Stärke und die zukunftsweisende Auslegung von DeepSeek in der Forschung und Entwicklung von Vertikalen und seine zukunftsweisende Auslegung in der Modellforschung und -entwicklung.

Auf Am 28. Februar 2024 veröffentlichte DeepSeek eine Open-Source-Policy-FAQ, um die Bedenken von Entwicklern hinsichtlich der Verwendung von DeepSeek-Open-Source-Modellen weiter zu zerstreuen.die ausführliche Antworten auf häufig gestellte Fragen gibt, z. B. zum Modell der Open-Source-Lizenzierung und zu den Einschränkungen der kommerziellen Nutzung. DeepSeek setzt auf Open Source mit einer transparenteren und offeneren Haltung:

Auf Am 11. März 2024 veröffentlichte DeepSeek das multimodale Großmodell DeepSeek-VL. Dies ist der erste Versuch von DeepSeek mit multimodaler KI-Technologie. Das Modell hat einen Umfang von 7B und 1,3B, und das Modell und die technischen Unterlagen sind gleichzeitig als Open Source verfügbar.

Auf Am 20. März 2024 wurde Huanfang AI & DeepSeek erneut eingeladen, an der NVIDIA GTC 2024 Konferenz teilzunehmen, und Gründer Liang Wenfeng hielt eine technische Grundsatzrede mit dem Titel "Harmonie in der Vielfalt: Angleichung und Entkopplung der Werte großer Sprachmodelle". Diskutiert wurden Themen wie "der Konflikt zwischen einem einwertigen großen Modell und einer pluralistischen Gesellschaft und Kultur", "die Entkopplung der Werteausrichtung großer Modelle" und "die multidimensionalen Herausforderungen der entkoppelten Werteausrichtung". Dies zeigte, dass DeepSeek neben seiner technologischen Forschung und Entwicklung auch humanistische Fürsorge und soziale Verantwortung für die KI-Entwicklung übernimmt.

Im März 2024, DeepSeek API hat offiziell kostenpflichtige Dienste eingeführt, die den Auftakt zum Preiskrieg auf dem chinesischen Markt für große Modelle bildeten: 1 Yuan pro Million Input-Token und 2 Yuan pro Million Output-Token.

Im Jahr 2024 hat DeepSeek erfolgreich den Rekord für große Modelle in China aufgestellt und damit die politischen Hindernisse für die vollständige Öffnung seiner API-Dienste beseitigt.

Im Mai 2024 wurde DeepSeek-V2, ein quelloffenes allgemeines MoE-Großmodell, veröffentlicht, und der Preiskampf begann offiziell. DeepSeek-V2 verwendet MLA (Multi-Head Latent Attention Mechanism), wodurch der Speicherbedarf des Modells auf 5%-13% der traditionellen MHA reduziert wird. Gleichzeitig wurde unabhängig davon die DeepSeek MoE Sparse Sparse-Struktur entwickelt, die die Berechnungskomplexität des Modells erheblich reduziert. Dank dieser Tatsache kann das Modell einen API-Preis von 1 Yuan/Million Eingaben und 2 Yuan/Million Ausgaben beibehalten.

DeepSeek hat einen großen Einfluss gehabt. So ist der leitende Analyst von SemiAnalysis der Meinung, dass das DeepSeek-V2-Papier "vielleicht eines der besten in diesem Jahr ist". Auch Andrew Carr, ein ehemaliger Mitarbeiter von OpenAI, ist der Meinung, dass das Papier "voller erstaunlicher Weisheit" ist und hat die Trainingseinstellungen auf sein eigenes Modell angewendet.

Es sei darauf hingewiesen, dass es sich um ein Modell handelt, das den GPT-4-Turbo vergleicht, und der API-Preis nur 1/70 des letzteren beträgt.

Im Juni 17, 2024, hat DeepSeek noch einmal einen großen Schritt gemacht und das DeepSeek Coder V2 Code-Modell veröffentlicht Open Source und behauptete, dass seine Code-Fähigkeiten GPT-4-Turbo, das fortschrittlichste Closed-Source-Modell zu der Zeit, übertrafen. DeepSeek Coder V2 setzt die konsequente Open-Source-Strategie von DeepSeek fort. Alle Modelle, der Code und die Unterlagen sind als Open Source verfügbar, und es werden zwei Versionen, 236B und 16B, angeboten. Die API-Dienste von DeepSeek C oder V2 sind ebenfalls online verfügbar, und der Preis bleibt bei "1 Yuan/Million Inputs und 2 Yuan/Million Outputs".

Auf 21. Juni 2024, DeepSeek Coder unterstützt die Online-Codeausführung. Am selben Tag wurde Claude3.5 Sonnet mit der neuen Funktion Artifacts veröffentlicht, die automatisch Code generiert und ihn direkt im Browser ausführt. Am selben Tag hat auch der Code-Assistent auf der DeepSeek-Website die gleiche Funktion eingeführt: Code generieren und mit einem Klick ausführen.

Lassen Sie uns die wichtigsten Ereignisse dieser Zeit Revue passieren:

Kontinuierliche Durchbrüche, die weltweit Aufmerksamkeit erregen

Im Mai 2024 wurde DeepSeek über Nacht berühmt, als es DeepSeek V2, ein Open-Source-Modell auf der Grundlage von MoE, herausbrachte. Es entsprach der Leistung des GPT-4-Turbo, allerdings zu einem Preis von nur 1 Yuan/Million Input, was 1/70 des GPT-4-Turbo entsprach. Zu dieser Zeit wurde DeepSeek zu einem bekannten "Preisbrecher" in der Branche, und dann folgten Mainstream-Anbieter wie Zhicheng, ByteDance und Alibaba... und andere große Anbieter schnell und senkten ihre Preise. Zu dieser Zeit gab es auch eine weitere Runde des GPT-Verbots, und eine große Zahl von KI-Anwendungen begann, zum ersten Mal einheimische Modelle auszuprobieren.

Im Juli 2024 nahm DeepSeek-Gründer Liang Wenfeng erneut ein Interview mit Dark Surge an und ging direkt auf den Preiskampf ein: "Sehr unerwartet. Ich hätte nicht erwartet, dass der Preis alle so sensibel macht. Wir machen die Dinge einfach in unserem eigenen Tempo und berechnen den Preis dann nach den Kosten. Unser Prinzip ist es, weder Geld zu verlieren noch exorbitante Gewinne zu machen. Auch dieser Preis liegt leicht über den Kosten mit einem kleinen Gewinn."

Es zeigt sich, dass DeepSeek im Gegensatz zu vielen Wettbewerbern, die die Subventionierung aus eigener Tasche bezahlen, zu diesem Preis rentabel ist.

Manch einer mag sagen: Preissenkungen sind wie ein Raubzug an den Nutzern, und das ist bei Preiskämpfen im Internet-Zeitalter in der Regel der Fall.

Daraufhin antwortete auch Liang Wenfeng: "Es ist nicht unser Hauptziel, die Nutzer auszurauben. Wir haben den Preis gesenkt, weil einerseits die Kosten gesunken sind, während wir die Struktur des Modells der nächsten Generation erforschen, und weil wir andererseits der Meinung sind, dass sowohl die API als auch die KI erschwinglich und für jeden zugänglich sein sollten."

So geht die Geschichte mit dem Idealismus von Liang Wenfeng weiter.

Am 4. Juli 2024 ging die DeepSeek-API online. Der Preis für den 128K-Kontext blieb unverändert. Die Inferenzkosten eines Modells hängen eng mit der Länge des Kontexts zusammen. Daher haben viele Modelle strenge Beschränkungen für diese Länge: die erste Version von GPT-3.5 hat nur 4k Kontext.

Zu diesem Zeitpunkt erhöhte DeepSeek die Kontextlänge von zuvor 32k auf 128k, während der Preis unverändert blieb (1 Yuan pro Million Input-Token und 2 Yuan pro Million Output-Token).

Auf Am 10. Juli 2024 wurden die Ergebnisse der weltweit ersten KI-Olympiade (AIMO) bekannt gegeben, und das Modell DeepSeekMath wurde zur gemeinsamen Wahl der besten Teams. Die siegreichen Top-4-Teams wählten alle DeepSeekMath-7B als Grundlage für ihre Einstiegsmodelle und erzielten beeindruckende Ergebnisse im Wettbewerb.

Auf 18. Juli 2024, DeepSeek-V2 führt die Liste der Open-Source-Modelle in der Chatbot-Arena an, und übertrifft damit Sternmodelle wie Llama3-70B, Qwen2-72B, Nemotron-4-340B und Gemma2-27B und wird zum neuen Maßstab für Open-Source-Großmodelle.

Unter Juli 2024, DeepSeek rekrutiert weiterhin Talente und rekrutierte Spitzentalente aus der ganzen Welt in verschiedenen Bereichen, darunter KI-Algorithmen, KI-Infra, KI-Tutor und KI-Produkte, um sich auf künftige technologische Innovationen und Produktentwicklungen vorzubereiten.

Auf Am 26. Juli 2024 führte DeepSeek API ein wichtiges Upgrade ein, das eine Reihe von fortschrittlichen Funktionen wie Überschreiben, FIM (Fill-in-the-Middle)-Vervollständigung, Funktionsaufrufe und JSON-Ausgabe vollständig unterstützt. Die FIM-Funktion ist sehr interessant: Der Benutzer gibt den Anfang und das Ende vor, und das große Modell füllt die Mitte aus, was für den Programmierprozess sehr geeignet ist, um den genauen Funktionscode auszufüllen. Nehmen wir die Fibonacci-Folge als Beispiel:

Auf Am 2. August 2024 führte DeepSeek innovativ die Festplatten-Caching-Technologie ein und senkte die API-Preise bis auf die Knöchel. Zuvor betrugen die API-Preise nur ¥1 pro Million Token. Sobald jedoch ein Cache-Treffer erzielt wird, fällt die API-Gebühr direkt auf ¥0,1.

Diese Funktion ist sehr praktisch, wenn es um kontinuierliche Gespräche und Stapelverarbeitungsaufgaben geht.

Auf 16. August 2024, DeepSeek veröffentlicht sein mathematisches Theorembeweisungsmodell DeepSeek-Prover-V1.5 als Open Source, das viele bekannte Open-Source-Modelle in mathematischen Theorem-Beweis-Tests an Schulen und Universitäten übertraf.

Auf Am 6. September 2024 veröffentlichte DeepSeek das Fusionsmodell DeepSeek-V2.5. Zuvor bot DeepSeek hauptsächlich zwei Modelle an: das Chat-Modell, das sich auf allgemeine Konversationsfähigkeiten konzentrierte, und das Code-Modell, das sich auf Codeverarbeitungsfähigkeiten konzentrierte. Dieses Mal wurden die beiden Modelle zu einem zusammengefasst und zu DeepSeek-V2.5 aktualisiert, das sich besser an die menschlichen Präferenzen anpasst und außerdem erhebliche Verbesserungen bei Schreibaufgaben, der Befolgung von Befehlen und anderen Aspekten erzielt hat.

Auf 18. September 2024, DeepSeek-V2.5 war wieder einmal auf der neuesten LMSYS-Liste und führte die inländischen Modelle und stellen neue Bestwerte für einheimische Modelle in mehreren individuellen Fähigkeiten auf.

Auf 20. November 2024, DeepSeek veröffentlicht DeepSeek-R1-Lite auf der offiziellen Website. Dies ist ein Inferenzmodell, das mit o1-preview vergleichbar ist und auch eine ausreichende Menge an synthetischen Daten für das Post-Training von V3 liefert.

Auf Am 10. Dezember 2024 wurde die DeepSeek-V2-Serie mit der Veröffentlichung der letzten, fein abgestimmten Version DeepSeek-V2.5-1210 abgeschlossen. Diese Version verbessert umfassend mehrere Fähigkeiten, einschließlich Mathematik, Codierung, Schreiben und Rollenspiele durch Nachschulung.

Mit dem Erscheinen dieser Version öffnete die DeepSeek-Web-App auch die Funktion der Netzwerksuche.

Auf Am 13. Dezember 2024 schaffte DeepSeek einen weiteren Durchbruch im Bereich der Multimodalität und veröffentlichte das quelloffene multimodale Großmodell DeepSeek-VL2. Der DeepSeek-VL2 verwendet die MoE-Architektur, die seine visuellen Fähigkeiten erheblich verbessert. Er ist in drei Größen erhältlich: 3B, 16B und 27B, und hat einen Vorteil in allen Metriken.

Auf Am 26. Dezember 2024 wurde DeepSeek-V3 mit offenem Quellcode veröffentlicht: Die geschätzten Ausbildungskosten betrugen nur 5,5 Millionen US-Dollar. DeepSeek-V3 hat die Leistung der führenden Closed-Source-Modelle in Übersee in vollem Umfang übertroffen und die Generierungsgeschwindigkeit erheblich verbessert.

Die Preise für API-Dienste wurden angepasst, aber gleichzeitig wurde für das neue Modell eine 45-tägige Probezeit festgelegt.

Am 15. Januar 2025 wurde die offizielle DeepSeek-App offiziell veröffentlicht und auf den wichtigsten iOS/Android-App-Märkten eingeführt.

Am 20. Januar 2025, kurz vor dem chinesischen Neujahrsfest, wurde das DeepSeek-R1-Inferenzmodell offiziell veröffentlicht und als Open Source zur Verfügung gestellt. DeepSeek-R1 glich seine Leistung vollständig an die offizielle OpenAI o1-Version an und öffnete die Funktion zur Ausgabe von Denkketten. Gleichzeitig kündigte DeepSeek an, dass die Open-Source-Lizenz des Modells in die MIT-Lizenz umgewandelt wird und die Nutzungsvereinbarung ausdrücklich die "Modell-Destillation" zulässt, um Open Source weiter zu unterstützen und die gemeinsame Nutzung von Technologien zu fördern.

Später wurde dieses Modell sehr populär und leitete eine neue Ära ein

Infolgedessen übertraf die DeepSeek-App am 27. Januar 2025 erfolgreich ChatGPT und führte die Liste der kostenlosen App-Downloads im US-amerikanischen iOS App Store an und wurde zu einer phänomenalen KI-App.

Am 27. Januar 2025, um 1:00 Uhr in der Silvesternacht, wurde DeepSeek Janus-Pro als Open Source veröffentlicht. Es handelt sich um ein multimodales Modell, das nach dem zweigesichtigen Gott Janus aus der römischen Mythologie benannt ist: Es blickt sowohl in die Vergangenheit als auch in die Zukunft. Dies steht auch für die beiden Fähigkeiten des Modells - visuelles Verstehen und Bilderzeugung - und für seine Vorherrschaft in mehreren Rankings.

Die explosive Popularität von DeepSeek löste sofort eine weltweite technologische Schockwelle aus, die sogar den Aktienkurs von NVIDIA um 18% einbrechen ließ und den Marktwert des weltweiten Technologieaktienmarktes um etwa 1 Billion US-Dollar schwinden ließ. Die Wall Street und die Technologiemedien verkündeten, dass der Aufstieg von DeepSeek die globale KI-Branchenlandschaft umkrempelt und eine noch nie dagewesene Herausforderung für die amerikanischen Technologiegiganten darstellt.

Der Erfolg von DeepSeek hat auch international große Aufmerksamkeit und hitzige Diskussionen über Chinas technologische Innovationsfähigkeit ausgelöst. US-Präsident Donald Trump lobte in einer seltenen öffentlichen Stellungnahme den Aufstieg von DeepSeek als "positiv" und bezeichnete ihn als "Weckruf" für die Vereinigten Staaten. Auch der CEO von Microsoft, Satya Nadella, und der CEO von OpenAI, Sam Altman, lobten DeepSeek und bezeichneten dessen Technologie als "sehr beeindruckend".

Natürlich müssen wir auch verstehen, dass ihr Lob zum Teil eine Anerkennung der Stärke von DeepSeek ist, zum Teil aber auch ihre eigenen Motive widerspiegelt. So erkennt Anthropic zwar die Leistungen von DeepSeek an, fordert aber gleichzeitig die US-Regierung auf, die Chip-Kontrollen gegenüber China zu verstärken.

Anthropic CEO veröffentlicht einen Artikel mit 10.000 Wörtern: Der Aufstieg von DeepSeek bedeutet, dass das Weiße Haus die Kontrollen verstärken sollte

Zusammenfassung und Ausblick

Rückblickend auf die vergangenen zwei Jahre war DeepSeek wahrlich ein "chinesisches Wunder": Vom unbekannten Startup zur "geheimnisvollen östlichen Macht", die jetzt auf der globalen KI-Bühne glänzt, hat DeepSeek mit seiner Stärke und Innovation ein "Unmögliches" nach dem anderen geschrieben.

Der tiefere Sinn dieser technologischen Entdeckungsreise hat den Rahmen des kommerziellen Wettbewerbs längst gesprengt. DeepSeek hat mit Fakten angekündigt, dass In dem strategischen Zukunftsfeld der künstlichen Intelligenz sind chinesische Unternehmen durchaus in der Lage, die Spitze der Kerntechnologie zu erklimmen.

Die "Alarmglocke" von Trump und die verborgene Angst vor Anthropic bestätigen die Bedeutung von Chinas KI-Fähigkeiten: China kann nicht nur auf den Wellen reiten, sondern auch die Richtung der Gezeiten neu bestimmen

Deepseek Produkt freigeben Meilensteine

  • 2. November 2023: DeepSeek Codierer Großes Modell
  • 29. November 2023: DeepSeek LLM 67B Universal-Modell
  • 18. Dezember 2023: DreamCraft3D 3D-Modell
  • 11. Januar 2024: DeepSeekMoE MoE großes Modell
  • 5. Februar 2024: DeepSeekMath Modell des mathematischen Denkens
  • 11. März 2024: DeepSeek-VL Multimodales großes Modell
  • Mai 2024: DeepSeek-V2 MoE allgemeines Modell
  • 17. Juni 2024: DeepSeek Coder V2 Code-Modell
  • 6. September 2024: DeepSeek-V2.5 Verschmelzung von allgemeinen und Code-Kompetenzmodellen
  • 13. Dezember 2024: DeepSeek-VL2 multimodales MoE-Modell
  • 26. Dezember 2024: DeepSeek-V3 neue Serie von großen Allzweckmodellen
  • 20. Januar 2025: DeepSeek-R1-Inferenzmodell
  • 20. Januar 2025: DeepSeek offizielle App (iOS & Android)
  • 27. Januar 2025: DeepSeek Janus-Pro multimodales Modell

Ähnliche Beiträge

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert