Aktuelle Neuigkeiten! DeepSeek-Forscher enthüllt online: Das R1-Training dauerte nur zwei bis drei Wochen, und während der chinesischen Neujahrsfeiertage konnte eine starke Entwicklung von R1 Null beobachtet werden
Gerade jetzt haben wir bemerkt, dass DeepSeek Forscher Daniela beantwortete Fragen von Internetnutzern zu DeepSeek R1 und den Plänen des Unternehmens für die Zukunft. Wir können nur sagen, dass DeepSeek R1 erst der Anfang ist und die interne Forschung immer noch schnell voranschreitet. Die Forscher von DeepSeek haben während der chinesischen Neujahrsfeiertage nicht einmal eine Pause eingelegt und unermüdlich daran gearbeitet, die Forschung voranzutreiben. Bei DeepSeek stehen einige große Schritte bevor.
Und so ist es: Am 1. Februar veröffentlichte Daya Guo einen Tweet, in dem er verriet, was ihn während des chinesischen Neujahrsfestes am meisten begeisterte: die „kontinuierliches Wachstum“ der Leistungskurve des R1-Null Modellund das Gefühl der mächtige Kraft von bestärkendes Lernen (RL)!
Deepseek-KI-Forscherin Daya Guo spricht mit Internetnutzern
Ich werde Ihnen jetzt helfen, Daya Guos Gespräch mit Internetnutzern wiederzugeben:
Netzbürger A @PseudoProphet: „Großer Junge, ich möchte fragen, wie lange diese kontinuierliche Leistungsverbesserung anhalten wird. Befindet sich das noch in einem frühen Stadium? Fühlt es sich an, als würde das RL-Modell von DeepSeek gerade erst anfangen, wie GPT-2 bei Sprachmodellen? Oder hat es ein ausgereifteres Stadium wie GPT-3.5 erreicht und steht kurz vor einem Engpass?“
Dies ist eine sehr scharfsinnige Frage, die sich direkt auf das Potenzial der RL-Technologie von DeepSeek bezieht! Daya Guos Antwort ist ebenfalls sehr ehrlich:
Daya Guo: „Ich denke, wir befinden uns noch in einem sehr frühen Stadium und es ist noch ein langer Weg im Bereich RL. Aber ich glaube, wir werden dieses Jahr deutliche Fortschritte sehen.“
Heben Sie das Wesentliche hervor! „Sehr früh“, „ein langer Weg zum Erkunden“, „erhebliche Fortschritte in diesem Jahr“! Diese Schlüsselwörter sind voller Informationen. Dies bedeutet, dass DeepSeek glaubt, dass im Bereich RL noch viel Raum für Verbesserungen besteht und die aktuellen Ergebnisse von R1 möglicherweise nur die Spitze des Eisbergs sind. Die Zukunft ist also vielversprechend!
Unmittelbar danach stellte ein anderer Internetnutzer, @kaush_trip (Cheeku Tripathi), eine professionellere Frage, die direkt zum Kern der Modellfähigkeiten vordringt:
Benutzer B @kaush_trip: „Wie beurteilen Sie anhand der Leistung von R1-Zero, ob das Modell wirklich Generalisierungsfähigkeitoder ob es nur merkt sich Zustandsübergänge und Belohnungen?”
Diese Frage ist sehr treffend! Schließlich scheinen viele Modelle sehr leistungsfähig zu sein, aber in Wirklichkeit sind sie nur „Auswendiglernen“ aus den Trainingsdaten und würden in einer anderen Umgebung versagen. Ist DeepSeek R1 wirklich auf der Höhe der Zeit?
Daya Guo: „Wir verwenden einen Benchmark für Domänen, die nicht von RL Prompt abgedeckt werden, um die Generalisierungsfähigkeit zu bewerten. Derzeit scheint es eine Generalisierungsfähigkeit zu geben.“
Der Satz „Bereiche, die nicht durch RL-Prompt abgedeckt sind“ ist der Schlüssel! Dies bedeutet, dass DeepSeek die Auswertung nicht mit Trainingsdaten „schummelt“, sondern mit neuen Szenarien getestet wird, die das Modell hat noch nie gesehen vorher, was den Generalisierungslevel des Modells wirklich widerspiegeln kann. Daya Guos Verwendung der strengen Formulierung „scheint zu haben“ macht es auch realistischer und glaubwürdiger
Als nächstes begann ein Netizen mit der ID @teortaxesTex, ein großer Fan von DeepSeek (sein Kommentar enthielt sogar die Worte „DeepSeek Whale Cheerleading Team“), mit dem technischen Bericht zu DeepSeek V3 und stellte eine Frage zu Modell-Trainingszeit:
Benutzer C @teortaxesTex: „Wenn es kein Geheimnis ist: Wie lange hat das RL-Training dieses Mal gedauert? Es fühlt sich an, als hätten Sie bereits am 10. Dezember R1 oder zumindest R1-Zero gehabt, da im technischen Bericht von V3 erwähnt wird, dass das V2.5-Modell die R1-Wissensdestillation verwendet hat und die Punktzahl von V2.5-1210 mit der des aktuellen Modells identisch ist. Ist dies eine Fortsetzung dieses Trainings?“
Dieser Internetnutzer hat eine erstaunliche Beobachtungsgabe! Er konnte so viele Details aus dem technischen Bericht herauslesen. Daya Guo erklärte auch geduldig den iterativen Prozess des Modells:
Daya Guo: „Die R1-Zero- und R1-Parameter von 660B wurden erst nach der Veröffentlichung von V3 ausgeführt, und das Training dauerte etwa 2-3 Wochen. Das zuvor erwähnte R1-Modell (wie im technischen Bericht von V3) ist eigentlich R1-Lite oder R1-Lite-Zero.“
Das war's also! Die R1-Zero und R1, die wir jetzt sehen, sind „neue und verbesserte Versionen“, und die vorherige R1-Lite-Serie sind kleinere Versionen. Es scheint, dass DeepSeek hinter den Kulissen viele Versionen still und leise iteriert und aktualisiert hat
In Bezug auf die Trainingsgeschwindigkeit haben die Internetnutzer @jiayi_pirate (Jiayi Pan) und der Internetnutzer B @kaush_trip eine „Seelenbefragung“ übermittelt:
Benutzer D @jiayi_pirate: „10.000 RL-Schritte in 3 Wochen, jeder Gradientenausbreitungsschritt (grpo) dauert ~3 Minuten 🤔“
Benutzer B @kaush_trip: „Wenn jeder Schritt der Gradientenausbreitung (grpo) etwa 3 Minuten dauert, sind das etwa 5 Schritte pro Stunde, 120 Schritte pro Tag, was in der Tat sehr langsam ist.“
Das ist eine wirklich sorgfältige Berechnung! Nach der Berechnung des Internetnutzers ist die Trainingsgeschwindigkeit von DeepSeek R1 tatsächlich nicht schnell. Dies zeigt auch, dass die Trainingskosten und der Zeitaufwand für ein so leistungsstarkes RL-Modell enorm sind. „Langsame Arbeit erzeugt gute Arbeit“ scheint eine ziemlich treffende Beschreibung für das Training eines KI-Modells zu sein
Zum Schluss stellte ein Internetnutzer namens @davikrehalt (Andy Jiang) eine Frage aus einer aktuelleren Anwendungsperspektive:
Benutzer E @davikrehalt: „Haben Sie versucht, mit RL zu tun formeller Nachweis der Umwelt, anstatt nur Fragen zu beantworten? Es wäre großartig, wenn ein Open-Source-Modell dieses Jahr bei der IMO (International Mathematical Olympiad) eine Goldmedaille gewinnen könnte! (Und weitere Hoffnungen!)“
Formaler Beweis! IMO-Goldmedaille! Dieser Netizen ist ziemlich ehrgeizig! Die Anwendung von KI auf den Hardcore-Bereich des mathematischen Beweises ist jedoch tatsächlich der zukünftige Trend. Daya Guos Antwort ist erneut überraschend:
Daya Guo: „Wir versuchen auch, R1 auf formale Beweisumgebungen wie Lean anzuwenden. Wir hoffen, der Community bald bessere Modelle zur Verfügung stellen zu können.“
Daya Guos Worten zufolge scheinen sie auf diesem Gebiet bereits Fortschritte gemacht zu haben und in Zukunft könnten noch beeindruckendere Modelle auf den Markt kommen!
Abschließend
Aus Daya Guos Reaktion lassen sich drei wichtige Signale herausfiltern:
Technische Positionierung: RL befindet sich noch in der Anfangsphase und die Leistungsverbesserungen haben ihre Grenzen noch lange nicht erreicht.
Verifizierungslogik: Generalisierungsfähigkeit für domänenübergreifendes Testen, Ablehnung von „Speicherspekulationen“
Anwendungsgrenzen: Von Sprachmodellen bis hin zu mathematischen Beweisen bewegt sich RL in Richtung High-Order-Argumentation