Udarne vijesti! Istraživač DeepSeek otkriva na internetu: R1 obuka trajala je samo dva do tri tjedna, a snažna evolucija R1 zero primijećena je tijekom kineskih novogodišnjih praznika

Upravo smo primijetili tog DeepSeek istraživača Daya Guo odgovorio je na pitanja korisnika interneta o DeepSeek R1 i planovima tvrtke za budućnost. Možemo samo reći da je DeepSeek R1 tek početak, a interna istraživanja još uvijek brzo napreduju. Istraživači DeepSeek nisu ni uzeli pauzu tijekom praznika kineske Nove godine i neumorno su radili na unapređenju istraživanja. DeepSeek ima neke velike poteze koji dolaze

Evo o čemu se radi: Daya Guo je 1. veljače objavio tweet otkrivajući što ga je najviše uzbudilo tijekom kineskih novogodišnjih praznika: svjedočiti “kontinuirani rast” krivulje performansi R1-nula model, i osjećaj snažna sila učenje s potkrepljenjem (RL)!

Deepseek AI istraživač Daya Guo razgovara s netizenima

Sada ću vam pomoći da reproducirate razgovor Daya Guoa s netizenima:

Netizen A @PseudoProphet: “Velika faca, želim pitati koliko će dugo trajati ovo neprekidno poboljšanje performansi. Je li ovo još u ranoj fazi? Čini li se da DeepSeek-ov RL model tek počinje, poput GPT-2 u jezičnim modelima? Ili je dosegao zreliju fazu poput GPT-3.5 i uskoro će doći do uskog grla?”

Ovo je vrlo oštro pitanje, koje se izravno odnosi na potencijal RL tehnologije DeepSeek! Odgovor Daya Guo je također vrlo iskren:

Daya Guo: “Mislim da smo još uvijek u vrlo ranoj fazi i još je dug put pred nama na polju RL-a. Ali vjerujem da ćemo ove godine vidjeti značajan napredak.”

Istaknite ključne točke! “Vrlo rano”, “dug put za istraživanje”, “značajan napredak ove godine”! Ove su ključne riječi pune informacija. To znači da DeepSeek vjeruje da ima još puno prostora za napredak na polju RL, a trenutni rezultati R1 mogu biti samo vrh ledenog brijega, tako da je budućnost obećavajuća!

Odmah nakon toga, drugi netizen @kaush_trip (Cheeku Tripathi) postavio je profesionalnije pitanje koje ide ravno u srž mogućnosti modela:

Korisnik B @kaush_trip: “Na temelju performansi R1-Zero, kako procjenjujete ima li model doista sposobnost generalizacije, ili samo to pamti prijelaze stanja i nagrade?"

Ovo pitanje je vrlo bitno! Uostalom, mnogi se modeli čine vrlo moćnima, ali u stvarnosti oni samo 'uče napamet' iz podataka o obuci i neće uspjeti u drugom okruženju. Je li DeepSeek R1 doista spreman?

Daya Guo: "Koristimo referentnu vrijednost za domene koje nisu obuhvaćene upitom RL za procjenu sposobnosti generalizacije. Trenutno se čini da ima sposobnost generalizacije.”

Izraz "područja koja nisu pokrivena upitom RL" je ključ! To znači da DeepSeek ne "vara" procjenu s podacima o obuci, već se testira s novim scenarijima koje model nikad nije vidio prije, što može uistinu odražavati razinu generalizacije modela. Daya Guoova upotreba rigorozne formulacije "čini se da ima" također ga čini realnijim i vjerodostojnijim

Zatim, netizen s ID-om @teortaxesTex, veliki obožavatelj DeepSeek (njegov komentar čak je uključivao riječi "DeepSeek whale cheerleading team"), započeo je s tehničkim izvješćem DeepSeek V3 i postavio pitanje o vrijeme obuke modela:

Korisnik C @teortaxesTex: “Ako nije tajna: koliko je ovaj put trajao RL trening? Čini se kao da ste već imali R1 ili barem R1-Zero već 10. prosinca, jer tehničko izvješće V3 spominje da je model V2.5 koristio R1 destilaciju znanja, a rezultat V2.5-1210 isti je kao i trenutni model. Je li ovo nastavak te obuke?”

Ovaj netizen ima nevjerojatnu moć zapažanja! Uspio je izvući toliko pojedinosti iz tehničkog izvješća. Daya Guo također je strpljivo objasnio iterativni proces modela:

Daya Guo: “Parametri R1-Zero i R1 660B počeli su raditi tek nakon izdavanja V3, a obuka je trajala oko 2-3 tjedna. Model R1 koji smo spomenuli prije (kao u V3 tehničkom izvješću) zapravo je R1-Lite ili R1-Lite-Zero.”

Dakle to je to! R1-Zero i R1 koje sada vidimo su "nove i nadograđene verzije", a prethodna serija R1-Lite su manje verzije. Čini se da je DeepSeek tiho ponovio i nadogradio mnoge verzije iza scene

Što se tiče brzine treninga, netizen @jiayi_pirate (Jiayi Pan) i netizen B @kaush_trip prenijeli su "ispitivanje duše":

Korisnik D @jiayi_pirate: ”10 000 RL koraka u 3 tjedna, svaki korak propagacije gradijenta (grpo) traje ~3 minute 🤔”

Korisnik B @kaush_trip: ”Ako svaki korak propagacije gradijenta (grpo) traje ~3 minute, to je oko 5 koraka na sat, 120 koraka dnevno, što je doista vrlo sporo.”

Ovo je stvarno pedantan izračun! Prema izračunu internet korisnika, brzina treninga DeepSeek R1 doista nije velika. Ovo također pokazuje da su troškovi obuke i uloženo vrijeme u takav RL model visokih performansi ogromni. Čini se da je "spor rad proizvodi dobar posao" prilično prikladan način za opisivanje obuke modela umjetne inteligencije

Konačno, netizen po imenu @davikrehalt (Andy Jiang) postavio je pitanje iz perspektive naprednije aplikacije:

Korisnik E @davikrehalt: “Jeste li pokušali upotrijebiti RL za učiniti formalni dokaz okoline, umjesto samo odgovaranja na pitanja? Bilo bi sjajno kada bi model otvorenog koda mogao osvojiti zlatnu medalju na IMO-u (Međunarodna matematička olimpijada) ove godine! (I više nade!)”

Formalni dokaz! IMO zlatna medalja! Ovaj netizen je prilično ambiciozan! Međutim, primjena umjetne inteligencije na tvrdokorno polje matematičkog dokazivanja doista je budući trend. Odgovor Daya Guoa ponovno je iznenađujući:

Daya Guo: “Također pokušavamo primijeniti R1 na formalna dokazna okruženja kao što je Lean. Nadamo se da ćemo uskoro objaviti bolje modele zajednici.”

Prema riječima Daya Guoa, čini se da su već napredovali na tom području, au budućnosti bi moglo biti još impresivnijih modela!

Za kraj

Iz odgovora Daya Guoa mogu se izdvojiti tri ključna signala:

Tehničko pozicioniranje: RL je još uvijek u ranoj fazi, a poboljšanja performansi su daleko od dosega svojih granica;

Logika provjere: sposobnost generalizacije za testiranje među domenama, odbacivanje „nagađanja o memoriji

Granice primjene: od jezičnih modela do matematičkih dokaza, RL se kreće prema zaključivanju visokog reda

Slični postovi

Odgovori

Vaša adresa e-pošte neće biti objavljena. Obavezna polja su označena sa * (obavezno)