Laatste nieuws! DeepSeek-onderzoeker onthult online: De R1-training duurde slechts twee tot drie weken en er werd een krachtige evolutie van R1 nul waargenomen tijdens de Chinese Nieuwjaarsvakantie

Zojuist hebben we opgemerkt dat DeepSeek-onderzoeker Dag Guo reageerde op vragen van netizens over DeepSeek R1 en de plannen van het bedrijf voor de toekomst. We kunnen alleen maar zeggen dat DeepSeek R1 nog maar het begin is en dat intern onderzoek nog steeds snel vordert. DeepSeek-onderzoekers hebben niet eens pauze genomen tijdens de Chinese Nieuwjaarsvakantie en ze hebben onvermoeibaar gewerkt om het onderzoek vooruit te helpen. DeepSeek heeft een aantal grote stappen op stapel staan

Het zit zo: op 1 februari plaatste Daya Guo een tweet waarin hij onthulde wat hem het meest opwond tijdens de Chinese Nieuwjaarsvakantie: getuige zijn van de “voortdurende groei” van de prestatiecurve van de R1-Nul modelen het voelen van de krachtige kracht van versterkingsleren (RL)!

Deepseek AI-onderzoeker Daya Guo spreekt met internetgebruikers

Ik zal u nu helpen het gesprek van Daya Guo met internetgebruikers te reproduceren:

Netizen A @PseudoProphet: “Big shot, ik wil vragen hoe lang deze continue verbetering in prestaties zal aanhouden. Is dit nog in de beginfase? Voelt het alsof het RL-model van DeepSeek nog maar net is begonnen, zoals GPT-2 in taalmodellen? Of heeft het een volwassener stadium bereikt zoals GPT-3.5, en staat het op het punt om een knelpunt te bereiken?”

Dit is een zeer scherpe vraag, die direct verband houdt met het potentieel van de RL-technologie van DeepSeek! Daya Guo's antwoord is ook zeer eerlijk:

Daya Guo: “Ik denk dat we nog in een heel vroeg stadium zitten en dat er nog een lange weg te gaan is op het gebied van RL. Maar ik geloof dat we dit jaar aanzienlijke vooruitgang zullen zien.”

Markeer de belangrijkste punten! “Heel vroeg”, “een lange weg om te verkennen”, “significante vooruitgang dit jaar”! Deze trefwoorden zitten vol met informatie. Dit betekent dat DeepSeek gelooft dat ze nog veel ruimte hebben voor verbetering op het gebied van RL, en de huidige resultaten van R1 zijn misschien nog maar het topje van de ijsberg, dus de toekomst is veelbelovend!

Meteen daarna stelde een andere internetgebruiker @kaush_trip (Cheeku Tripathi) een meer professionele vraag die rechtstreeks tot de kern van de mogelijkheden van het model raakt:

Gebruiker B @kaush_trip: “Hoe beoordeelt u op basis van de prestaties van R1-Zero of het model werkelijk generalisatievermogen, of het nu gewoon onthoudt toestandsovergangen en beloningen?”

Deze vraag is heel to the point! Veel modellen lijken immers heel krachtig, maar in werkelijkheid zijn het gewoon 'routine learnings' van de trainingsdata, en zullen ze in een andere omgeving falen. Is DeepSeek R1 echt goed genoeg?

Daya Guo: "We gebruiken een benchmark voor domeinen die niet worden gedekt door RL-prompt om de generalisatiecapaciteit te evalueren. Op dit moment lijkt het generalisatiecapaciteit te hebben."

De zin "gebieden die niet worden gedekt door RL-prompt" is de sleutel! Dit betekent dat DeepSeek de evaluatie niet "vals speelt" met trainingsgegevens, maar wordt getest met nieuwe scenario's die het model heeft nog nooit gezien eerder, wat echt het generalisatieniveau van het model kan weerspiegelen. Daya Guo's gebruik van de rigoureuze bewoording "lijkt te hebben" maakt het ook realistischer en geloofwaardiger

Vervolgens begon een internetgebruiker met de ID @teortaxesTex, een groot fan van DeepSeek (zijn commentaar bevatte zelfs de woorden "DeepSeek whale cheerleading team"), met het technische rapport van DeepSeek V3 en stelde een vraag over modeltrainingstijd:

Gebruiker C @teortaxesTex: "Als het geen geheim is: hoe lang duurde de RL-training deze keer? Het voelt alsof je al R1 of in ieder geval R1-Zero had op 10 december, omdat het V3-technische rapport vermeldt dat het V2.5-model R1-kennisdistillatie gebruikte, en de score van V2.5-1210 is hetzelfde als het huidige model. Is dit een voortzetting van die training?"

Deze netizen heeft een verbazingwekkend observatievermogen! Hij kon zoveel details uit het technische rapport halen. Daya Guo legde ook geduldig het iteratieve proces van het model uit:

Daya Guo: "De R1-Zero en R1 parameters van 660B begonnen pas te draaien na de release van V3, en de training duurde ongeveer 2-3 weken. Het R1 model dat we eerder noemden (zoals in het V3 technisch rapport) is eigenlijk R1-Lite of R1-Lite-Zero."

Dat is het dus! De R1-Zero en R1 die we nu zien zijn "nieuwe en verbeterde versies", en de vorige R1-Lite-serie zijn kleine versies. Het lijkt erop dat DeepSeek stilletjes veel versies achter de schermen heeft geïtereerd en geüpgraded

Wat betreft de trainingssnelheid hebben netizens @jiayi_pirate (Jiayi Pan) en netizen B @kaush_trip een “zielenverhoor” gemeld:

Gebruiker D @jiayi_pirate: ”10.000 RL-stappen in 3 weken, elke gradiëntvoortplantingsstap (grpo) duurt ongeveer 3 minuten 🤔”

Gebruiker B @kaush_trip: "Als elke stap in de gradiëntvoortplanting (grpo) ongeveer 3 minuten duurt, zijn dat ongeveer 5 stappen per uur, 120 stappen per dag, wat inderdaad erg langzaam is."

Dit is een heel nauwkeurige berekening! Volgens de berekening van de netizen is de trainingssnelheid van DeepSeek R1 inderdaad niet snel. Dit laat ook zien dat de trainingskosten en tijdsinvestering van zo'n high-performance RL-model enorm zijn. "Langzaam werk levert goed werk op" lijkt een vrij toepasselijke manier om AI-modeltraining te beschrijven

Tot slot stelde een internetgebruiker genaamd @davikrehalt (Andy Jiang) een vraag vanuit een meer geavanceerd applicatieperspectief:

Gebruiker E @davikrehalt: "Heb je geprobeerd om RL te gebruiken om formeel bewijs van de omgeving, in plaats van alleen maar vragen te beantwoorden? Het zou geweldig zijn als een open-source model dit jaar een gouden medaille zou kunnen winnen bij de IMO (International Mathematical Olympiad)! (En meer hoop!)”

Formeel bewijs! Naar mijn mening een gouden medaille! Deze netizen is behoorlijk ambitieus! Echter, het toepassen van AI op het hardcore gebied van wiskundig bewijs is inderdaad de trend van de toekomst. Daya Guo's antwoord is wederom verrassend:

Daya Guo: “We proberen R1 ook toe te passen op formele proof-omgevingen zoals Lean. We hopen binnenkort betere modellen aan de community te kunnen uitbrengen.”

Volgens Daya Guo lijkt het erop dat ze op dit gebied al vooruitgang hebben geboekt en dat er in de toekomst wellicht nog indrukwekkendere modellen uitkomen!

Ter afsluiting

Uit de reactie van Daya Guo kunnen drie belangrijke signalen worden afgeleid:

Technische positionering: RL bevindt zich nog in een vroeg stadium en de prestatieverbeteringen bereiken nog lang niet hun grenzen;

Verificatielogica: generalisatievermogen voor cross-domein testen, waarbij 'geheugenspeculatie' wordt afgewezen

Toepassingsgrenzen: van taalmodellen tot wiskundige bewijzen, RL beweegt richting redeneren van hogere orde

Vergelijkbare berichten

Geef een reactie

Uw e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *