Breaking news! DeepSeek-forskare avslöjar på nätet: R1-träning tog bara två till tre veckor, och en kraftfull utveckling av R1 noll observerades under den kinesiska nyårshelgen

Just nu märkte vi den där DeepSeek-forskaren Daya Guo svarade på nätanvändares frågor om DeepSeek R1 och företagets planer framöver. Vi kan bara säga att DeepSeek R1 bara är början, och intern forskning går fortfarande snabbt framåt. DeepSeek-forskare tog inte ens en paus under den kinesiska nyårshelgen, och de har arbetat outtröttligt för att främja forskningen. DeepSeek har några stora drag på gång

Här är grejen: Den 1 februari postade Daya Guo en tweet som avslöjade det som gjorde honom mest upphetsad under den kinesiska nyårshelgen: att bevittna "kontinuerlig tillväxt" av prestandakurvan för R1-Noll modell, och känna kraftfull kraft förstärkningsinlärning (RL)!

Deepseek AI-forskaren Daya Guo pratar med nätanvändare

Jag ska nu hjälpa dig att reproducera Daya Guos konversation med nätanvändare:

Netizen A @PseudoProphet: "Bra skott, jag vill fråga hur länge denna kontinuerliga förbättring av prestanda kommer att pågå. Är detta fortfarande i ett tidigt skede? Känns det som att DeepSeek:s RL-modell precis har börjat, som GPT-2 i språkmodeller? Eller har den nått ett mer moget stadium som GPT-3.5 och är på väg att träffa en flaskhals?”

Detta är en mycket skarp fråga, som direkt relaterar till potentialen hos DeepSeek:s RL-teknik! Daya Guos svar är också väldigt ärligt:

Daya Guo: "Jag tror att vi fortfarande är i ett väldigt tidigt stadium, och det är fortfarande en lång väg kvar att gå inom RL. Men jag tror att vi kommer att se betydande framsteg i år."

Markera nyckelpunkterna! “Mycket tidigt”, “en lång väg att utforska”, "betydande framsteg i år"! Dessa nyckelord är fulla av information. Detta betyder att DeepSeek tror att de fortfarande har mycket utrymme för förbättringar inom RL-området, och de nuvarande resultaten av R1 kan bara vara toppen av isberget, så framtiden är lovande!

Omedelbart efteråt ställde en annan nätanvändare @kaush_trip (Cheeku Tripathi) en mer professionell fråga som går direkt till hjärtat av modellkapacitet:

Användare B @kaush_trip: "Baserat på prestandan hos R1-Zero, hur bedömer du om modellen verkligen har generaliseringsförmåga, eller om det bara är memorerar tillståndsövergångar och belöningar?”

Den här frågan är väldigt relevant! Trots allt verkar många modeller väldigt kraftfulla, men i verkligheten är de bara "rote learning" från träningsdata, och de kommer att misslyckas i en annan miljö. Är DeepSeek R1 verkligen upp till noll?

Daya Guo: "Vi använder ett riktmärke för domäner som inte omfattas av RL-prompten för att utvärdera generaliseringsförmåga. För närvarande verkar det ha generaliseringsförmåga.”

Frasen "områden som inte omfattas av RL-uppmaningen" är nyckeln! Det betyder att DeepSeek inte "fuskar" utvärderingen med träningsdata, utan testas med nya scenarier som modellen har aldrig sett innan, vilket verkligen kan återspegla modellens generaliseringsnivå. Daya Guos användning av den rigorösa formuleringen "verkar ha" gör den också mer realistisk och trovärdig

Därefter började en nätanvändare med ID:t @teortaxesTex, ett stort fan av DeepSeek (hans kommentar innehöll till och med orden "DeepSeek whale cheerleading team") med den tekniska rapporten DeepSeek V3 och ställde en fråga om modell träningstid:

Användare C @teortaxesTex: ”Om det inte är en hemlighet: hur lång tid tog RL-utbildningen den här gången? Det känns som att du redan hade R1 eller åtminstone R1-Zero redan den 10 december, eftersom V3:s tekniska rapport nämner att V2.5-modellen använde R1 kunskapsdestillation, och poängen för V2.5-1210 är densamma som nuvarande modell. Är det här en fortsättning på den utbildningen?”

Denna nätanvändare har fantastiska observationsförmåga! Han kunde extrahera så många detaljer från den tekniska rapporten. Daya Guo förklarade också tålmodigt den iterativa processen för modellen:

Daya Guo: "R1-Zero- och R1-parametrarna för 660B började köras först efter lanseringen av V3, och träningen tog cirka 2-3 veckor. R1-modellen vi nämnde tidigare (som i V3 tekniska rapporten) är faktiskt R1-Lite eller R1-Lite-Zero."

Så det är det! R1-Zero och R1 vi ser nu är "nya och uppgraderade versioner", och den tidigare R1-Lite-serien är mindre versioner. Det verkar som att DeepSeek tyst har upprepat och uppgraderat många versioner bakom kulisserna

När det gäller träningshastigheten har nätanvändare @jiayi_pirate (Jiayi Pan) och nätanvändare B @kaush_trip vidarebefordrat en "själsförhör":

Användare D @jiayi_pirate: "10 000 RL-steg på 3 veckor, varje gradientförökningssteg (grpo) tar ~3 minuter 🤔"

Användare B @kaush_trip: "Om varje steg för gradientutbredning (grpo) tar ~3 minuter, är det cirka 5 steg per timme, 120 steg per dag, vilket verkligen är väldigt långsamt."

Detta är en riktigt noggrann beräkning! Enligt nätanvändarens beräkning är träningshastigheten för DeepSeek R1 verkligen inte hög. Detta visar också att utbildningskostnaden och tidsinvesteringen för en så högpresterande RL-modell är enorm. "Långsamt arbete ger bra arbete" verkar vara ett ganska lämpligt sätt att beskriva AI-modellträning

Slutligen ställde en nätanvändare vid namn @davikrehalt (Andy Jiang) en fråga ur ett mer banbrytande applikationsperspektiv:

Användare E @davikrehalt: "Har du testat att använda RL för att göra formella bevis på miljön, istället för att bara svara på frågor? Det skulle vara fantastiskt om en modell med öppen källkod kunde vinna en guldmedalj på IMO (International Mathematical Olympiad) i år! (Och fler förhoppningar!)”

Formella bevis! IMO guldmedalj! Denna nätanvändare är ganska ambitiös! Men att tillämpa AI på det hårda området matematiskt bevis är verkligen den framtida trenden. Daya Guos svar är återigen överraskande:

Daya Guo: “Vi försöker också tillämpa R1 på formella provmiljöer som Lean. Vi hoppas kunna släppa bättre modeller till samhället snart."

Av Daya Guos ord verkar det som att de redan har gjort framsteg på detta område, och det kan komma att släppas ännu fler imponerande modeller i framtiden!

Avslutningsvis

Tre nyckelsignaler kan destilleras från Daya Guos svar:

Teknisk positionering: RL är fortfarande i ett tidigt skede och prestandaförbättringar är långt ifrån att nå sina gränser;

Verifieringslogik: generaliseringsförmåga för testning över flera domäner, avvisande av "minnesspekulation

Tillämpningsgränser: från språkmodeller till matematiska bevis, RL går mot resonemang av hög ordning

Liknande inlägg

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *