Breaking news! DeepSeek-forsker afslører online: R1-træning tog kun to til tre uger, og en kraftig udvikling på R1 nul blev observeret under den kinesiske nytårsferie
Lige nu har vi bemærket den DeepSeek-forsker Daya Guo svarede på netbrugeres spørgsmål om DeepSeek R1 og virksomhedens planer fremadrettet. Vi kan kun sige, at DeepSeek R1 kun er begyndelsen, og intern forskning går stadig hurtigt frem. DeepSeek-forskere holdt ikke engang en pause under den kinesiske nytårsferie, og de har arbejdet utrætteligt på at fremme forskningen. DeepSeek har nogle store træk på vej
Her er sagen: Den 1. februar postede Daya Guo et tweet, der afslørede det, der gjorde ham mest begejstret under den kinesiske nytårsferie: at være vidne til "kontinuerlig vækst" af præstationskurven for R1-Null model, og føle kraftig kraft af forstærkende læring (RL)!
Deepseek AI-forsker Daya Guo taler med netbrugere
Jeg vil nu hjælpe dig med at gengive Daya Guos samtale med netbrugere:
Netizen A @PseudoProphet: "Big shot, jeg vil gerne spørge, hvor længe denne kontinuerlige forbedring af ydeevnen vil vare. Er dette stadig i de tidlige stadier? Føles det som om, at DeepSeeks RL-model lige er begyndt, ligesom GPT-2 i sprogmodeller? Eller har den nået et mere modent stadium som GPT-3.5 og er ved at ramme en flaskehals?”
Dette er et meget skarpt spørgsmål, som direkte relaterer til potentialet i DeepSeeks RL-teknologi! Daya Guos svar er også meget ærligt:
Daya Guo: “Jeg tror, vi stadig er i et meget tidligt stadie, og der er stadig lang vej igen inden for RL. Men jeg tror på, at vi vil se betydelige fremskridt i år."
Fremhæv nøglepunkterne! “Meget tidligt”, “lang vej at udforske”, "betydelige fremskridt i år"! Disse nøgleord er fulde af information. Det betyder, at DeepSeek mener, at de stadig har meget plads til forbedringer inden for RL, og de nuværende resultater af R1 er måske bare toppen af isbjerget, så fremtiden er lovende!
Umiddelbart efter stillede en anden netbruger @kaush_trip (Cheeku Tripathi) et mere professionelt spørgsmål, der går direkte til hjertet af modelkapaciteter:
Bruger B @kaush_trip: ”Ud fra R1-Zero's ydeevne, hvordan vurderer man, om modellen virkelig har generaliseringsevne, eller om det bare husker tilstandsovergange og belønninger?”
Dette spørgsmål er meget relevant! Mange modeller virker trods alt meget kraftfulde, men i virkeligheden er de bare 'rote learning' fra træningsdataene, og de vil fejle i et andet miljø. Er DeepSeek R1 virkelig op til bunden?
Daya Guo: "Vi bruger et benchmark for domæner, der ikke er dækket af RL-prompt, til at evaluere generaliseringsevnen. På nuværende tidspunkt ser den ud til at have generaliseringsevne."
Udtrykket "områder, der ikke er omfattet af RL-prompt" er nøglen! Det betyder, at DeepSeek ikke "snyder" evalueringen med træningsdata, men testes med nye scenarier, som modellen aldrig har set før, hvilket virkelig kan afspejle modellens generaliseringsniveau. Daya Guos brug af den strenge formulering "synes at have" gør den også mere realistisk og troværdig
Dernæst startede en netbruger med ID'et @teortaxesTex, en stor fan af DeepSeek (hans kommentar inkluderede endda ordene "DeepSeek whale cheerleading team") med den tekniske rapport DeepSeek V3 og stillede et spørgsmål om model træningstid:
Bruger C @teortaxesTex: “Hvis det ikke er en hemmelighed: hvor lang tid tog RL-uddannelsen denne gang? Det føles som om, du allerede havde R1 eller i det mindste R1-Zero allerede den 10. december, fordi V3-rapporten nævner, at V2.5-modellen brugte R1 vidensdestillation, og scoren for V2.5-1210 er den samme som nuværende model. Er denne en fortsættelse af den træning?”
Denne netbruger har fantastiske observationsevner! Han var i stand til at udtrække så mange detaljer fra den tekniske rapport. Daya Guo forklarede også tålmodigt modellens iterative proces:
Daya Guo: “R1-Zero og R1 parametrene i 660B begyndte først at køre efter udgivelsen af V3, og træningen tog omkring 2-3 uger. R1-modellen, vi nævnte før (såsom i den tekniske V3-rapport) er faktisk R1-Lite eller R1-Lite-Zero."
Så det var det! De R1-Zero og R1, vi ser nu, er "nye og opgraderede versioner", og den tidligere R1-Lite-serie er mindre versioner. Det ser ud til, at DeepSeek stille og roligt har gentaget og opgraderet mange versioner bag kulisserne
Med hensyn til træningshastigheden har netizens @jiayi_pirate (Jiayi Pan) og netizen B @kaush_trip videregivet en "sjælsforhør":
Bruger D @jiayi_pirate: "10.000 RL-trin på 3 uger, hvert gradientudbredelse (grpo)-trin tager ~3 minutter 🤔"
Bruger B @kaush_trip: "Hvis hvert gradientudbredelse (grpo)-trin tager ~3 minutter, er det omkring 5 trin i timen, 120 trin om dagen, hvilket faktisk er meget langsomt."
Dette er en virkelig omhyggelig beregning! Ifølge netizens beregning er træningshastigheden på DeepSeek R1 faktisk ikke hurtig. Dette viser også, at uddannelsesomkostningerne og tidsinvesteringen ved en sådan højtydende RL-model er enorme. "Langsomt arbejde giver fint arbejde" synes at være en ret passende måde at beskrive AI-modeltræning på
Endelig stillede en netbruger ved navn @davikrehalt (Andy Jiang) et spørgsmål fra et mere banebrydende applikationsperspektiv:
Bruger E @davikrehalt: "Har du prøvet at bruge RL til at gøre formelt bevis for miljøet, i stedet for blot at svare på spørgsmål? Det ville være fantastisk, hvis en open source-model kunne vinde en guldmedalje ved IMO (International Mathematical Olympiad) i år! (Og flere håb!)”
Formelt bevis! IMO guldmedalje! Denne netbruger er ret ambitiøs! Imidlertid er anvendelsen af AI til det hardcore-felt af matematisk bevis faktisk den fremtidige tendens. Daya Guos svar er endnu en gang overraskende:
Daya Guo: "Vi forsøger også at anvende R1 til formelle bevismiljøer såsom Lean. Vi håber snart at frigive bedre modeller til samfundet."
Ud fra Daya Guos ord ser det ud til, at de allerede har gjort fremskridt på dette område, og der kan blive udgivet endnu flere imponerende modeller i fremtiden!
Afslutningsvis
Tre nøglesignaler kan destilleres fra Daya Guos svar:
Teknisk positionering: RL er stadig i sine tidlige stadier, og præstationsforbedringer er langt fra at nå deres grænser;
Verifikationslogik: generaliseringsevne til test på tværs af domæner, afvisning af "hukommelsesspekulation
Anvendelsesgrænser: fra sprogmodeller til matematiske beviser bevæger RL sig mod højordens ræsonnement