Udarne novice! Raziskovalec DeepSeek razkriva na spletu: Usposabljanje R1 je trajalo le dva do tri tedne, med kitajskimi novoletnimi prazniki pa je bil opažen močan razvoj R1 zero.
Pravkar smo opazili tistega raziskovalca DeepSeek Daya Guo je odgovoril na vprašanja uporabnikov interneta o DeepSeek R1 in načrtih podjetja za naprej. Lahko rečemo le, da je DeepSeek R1 šele začetek, notranje raziskave pa še vedno hitro napredujejo. Raziskovalci DeepSeek si med kitajskimi novoletnimi prazniki niso vzeli niti odmora in so neumorno delali na pospeševanju raziskav. DeepSeek čaka nekaj velikih potez
Takole: 1. februarja je Daya Guo objavil tvit, v katerem je razkril, kaj ga je med kitajskimi novoletnimi prazniki najbolj navdušilo: priča "stalna rast" krivulje zmogljivosti R1-nič model, in občutek močna sila učenje s krepitvijo (RL)!
Raziskovalec AI Deepseek Daya Guo se pogovarja z uporabniki interneta
Zdaj vam bom pomagal reproducirati pogovor Daya Guo z uporabniki interneta:
Netizen A @PseudoProphet: »Veliki, rad bi vprašal, kako dolgo bo trajalo to nenehno izboljševanje zmogljivosti. Je to še v zgodnji fazi? Se zdi, da se model RL DeepSeek šele začenja, kot je GPT-2 v jezikovnih modelih? Ali pa je dosegel bolj zrelo stopnjo, kot je GPT-3.5, in bo kmalu naletel na ozko grlo?«
To je zelo ostro vprašanje, ki je neposredno povezano s potencialom tehnologije RL DeepSeek! Tudi odgovor Daya Guo je zelo iskren:
Daya Guo: »Mislim, da smo še vedno v zelo zgodnji fazi in da je na področju RL še dolga pot. Verjamem pa, da bomo letos opazili pomemben napredek.”
Označite ključne točke! “zelo zgodaj”, “dolga pot za raziskovanje”, “Letos pomemben napredek”! Te ključne besede so polne informacij. To pomeni, da DeepSeek verjame, da imajo na področju RL še veliko prostora za napredek, trenutni rezultati R1 pa so lahko le vrh ledene gore, tako da je prihodnost obetavna!
Takoj zatem je še en netizen @kaush_trip (Cheeku Tripathi) postavil bolj strokovno vprašanje, ki sega naravnost v srce zmogljivosti modela:
Uporabnik B @kaush_trip: »Kako na podlagi zmogljivosti R1-Zero ocenjujete, ali model res ima sposobnost posploševanja, ali samo zapomni si prehode stanj in nagrade?"
To vprašanje je zelo bistveno! Konec koncev se mnogi modeli zdijo zelo zmogljivi, v resnici pa se samo "učijo na pamet" iz podatkov o usposabljanju in bodo odpovedali v drugačnem okolju. Je DeepSeek R1 res primeren?
Daya Guo: »Uporabljamo merilo uspešnosti za domene, ki niso zajete v pozivu RL, da ocenimo sposobnost posploševanja. Trenutno se zdi, da ima sposobnost posploševanja."
Besedna zveza "območja, ki jih poziv RL ne pokriva" je ključna! To pomeni, da DeepSeek ne "goljufa" ocene s podatki o usposabljanju, ampak se testira z novimi scenariji, ki jih model še nikoli ni videl prej, kar lahko resnično odraža raven posploševanja modela. Zaradi uporabe strogega izraza »zdi se, da ima« Daya Guo je tudi bolj realističen in verodostojen
Nato je netizen z ID-jem @teortaxesTex, velik oboževalec DeepSeek (njegov komentar je vključeval celo besede »DeepSeek whale cheerleading team«), začel s tehničnim poročilom DeepSeek V3 in postavil vprašanje o čas usposabljanja modela:
Uporabnik C @teortaxesTex: »Če ni skrivnost: koliko časa je tokrat trajalo usposabljanje RL? Zdi se, kot da ste že imeli R1 ali vsaj R1-Zero že 10. decembra, ker tehnično poročilo V3 omenja, da je model V2.5 uporabljal destilacijo znanja R1, ocena V2.5-1210 pa je enaka trenutni model. Je tole nadaljevanje tega usposabljanja?«
Ta netizen ima neverjetno moč opazovanja! Iz tehničnega poročila je lahko izluščil toliko podrobnosti. Daya Guo je tudi potrpežljivo razložil iterativni proces modela:
Daya Guo: »Parametra R1-Zero in R1 za 660B sta se začela izvajati šele po izdaji V3 in usposabljanje je trajalo približno 2-3 tedne. Model R1, ki smo ga omenili prej (na primer v tehničnem poročilu V3), je pravzaprav R1-Lite ali R1-Lite-Zero.”
Torej to je to! R1-Zero in R1, ki ju vidimo zdaj, sta »novi in nadgrajeni različici«, prejšnja serija R1-Lite pa sta manjši različici. Zdi se, da je DeepSeek tiho ponovil in nadgradil številne različice v zakulisju
Kar zadeva hitrost treninga, sta uporabnika omrežja @jiayi_pirate (Jiayi Pan) in uporabnika omrežja B @kaush_trip posredovala »izpraševanje duše«:
Uporabnik D @jiayi_pirate: ”10.000 korakov RL v 3 tednih, vsak korak širjenja gradienta (grpo) traja ~3 minute 🤔”
Uporabnik B @kaush_trip: ”Če vsak korak širjenja gradienta (grpo) traja približno 3 minute, je to približno 5 korakov na uro, 120 korakov na dan, kar je res zelo počasno.”
To je res natančen izračun! Po izračunu uporabnika interneta hitrost vadbe DeepSeek R1 res ni visoka. To tudi kaže, da so stroški usposabljanja in časovna naložba za tako visoko zmogljiv model RL ogromni. Zdi se, da je "počasno delo dobro delo" precej primeren način za opis usposabljanja modela AI
Končno je netizen z imenom @davikrehalt (Andy Jiang) postavil vprašanje z vidika najsodobnejše aplikacije:
Uporabnik E @davikrehalt: »Ali ste poskusili uporabiti RL za formalno dokazilo o okolju, namesto da samo odgovarjate na vprašanja? Bilo bi super, če bi odprtokodni model letos osvojil zlato medaljo na IMO (Mednarodna matematična olimpijada)! (In več upov!)”
Formalni dokaz! IMO zlata medalja! Ta netizen je zelo ambiciozen! Vendar pa je uporaba umetne inteligence na zahtevnem področju matematičnih dokazov res prihodnji trend. Odgovor Daya Guo je ponovno presenetljiv:
Daya Guo: »R1 poskušamo uporabiti tudi v formalnih dokaznih okoljih, kot je Lean. Upamo, da bomo skupnosti kmalu izdali boljše modele.«
Po besedah Daya Guoa se zdi, da so na tem področju že napredovali in morda bodo v prihodnosti izdani še bolj impresivni modeli!
V zaključku
Iz odgovora Daya Guo je mogoče razbrati tri ključne signale:
Tehnično pozicioniranje: RL je še vedno v zgodnjih fazah in izboljšave zmogljivosti še zdaleč niso dosegle svojih meja;
Logika preverjanja: zmožnost posploševanja za testiranje med domenami, zavračanje »špekulacij o spominu
Meje uporabe: od jezikovnih modelov do matematičnih dokazov se RL pomika k sklepanju visokega reda