Udarne novice! Raziskovalec DeepSeek razkriva na spletu: Usposabljanje R1 je trajalo le dva do tri tedne, med kitajskimi novoletnimi prazniki pa so opazili močan razvoj R1 zero

Udarne novice! Raziskovalec DeepSeek razkriva na spletu: Usposabljanje R1 je trajalo le dva do tri tedne, med kitajskimi novoletnimi prazniki pa je bil opažen močan razvoj R1 zero.

Pravkar smo opazili tistega raziskovalca DeepSeek Daya Guo je odgovoril na vprašanja uporabnikov interneta o DeepSeek R1 in načrtih podjetja za naprej. Lahko rečemo le, da je DeepSeek R1 šele začetek, notranje raziskave pa še vedno hitro napredujejo. Raziskovalci DeepSeek si med kitajskimi novoletnimi prazniki niso vzeli niti odmora in so neumorno delali na pospeševanju raziskav. DeepSeek čaka nekaj velikih potez

Takole: 1. februarja je Daya Guo objavil tvit, v katerem je razkril, kaj ga je med kitajskimi novoletnimi prazniki najbolj navdušilo: priča "stalna rast" krivulje zmogljivosti R1-nič model, in občutek močna sila učenje s krepitvijo (RL)!

Kazalo

Raziskovalec AI Deepseek Daya Guo se pogovarja z uporabniki interneta

Zdaj vam bom pomagal reproducirati pogovor Daya Guo z uporabniki interneta:

Netizen A @PseudoProphet: »Veliki, rad bi vprašal, kako dolgo bo trajalo to nenehno izboljševanje zmogljivosti. Je to še v zgodnji fazi? Se zdi, da se model RL DeepSeek šele začenja, kot je GPT-2 v jezikovnih modelih? Ali pa je dosegel bolj zrelo stopnjo, kot je GPT-3.5, in bo kmalu naletel na ozko grlo?«

To je zelo ostro vprašanje, ki je neposredno povezano s potencialom tehnologije RL DeepSeek! Tudi odgovor Daya Guo je zelo iskren:

Daya Guo: »Mislim, da smo še vedno v zelo zgodnji fazi in da je na področju RL še dolga pot. Verjamem pa, da bomo letos opazili pomemben napredek.”

Označite ključne točke! “zelo zgodaj”, “dolga pot za raziskovanje”, “Letos pomemben napredek”! Te ključne besede so polne informacij. To pomeni, da DeepSeek verjame, da imajo na področju RL še veliko prostora za napredek, trenutni rezultati R1 pa so lahko le vrh ledene gore, tako da je prihodnost obetavna!

Takoj zatem je še en netizen @kaush_trip (Cheeku Tripathi) postavil bolj strokovno vprašanje, ki sega naravnost v srce zmogljivosti modela:

Uporabnik B @kaush_trip: »Kako na podlagi zmogljivosti R1-Zero ocenjujete, ali model res ima sposobnost posploševanja, ali samo zapomni si prehode stanj in nagrade?"

To vprašanje je zelo bistveno! Konec koncev se mnogi modeli zdijo zelo zmogljivi, v resnici pa se samo "učijo na pamet" iz podatkov o usposabljanju in bodo odpovedali v drugačnem okolju. Je DeepSeek R1 res primeren?

Daya Guo: »Uporabljamo merilo uspešnosti za domene, ki niso zajete v pozivu RL, da ocenimo sposobnost posploševanja. Trenutno se zdi, da ima sposobnost posploševanja."

Besedna zveza "območja, ki jih poziv RL ne pokriva" je ključna! To pomeni, da DeepSeek ne "goljufa" ocene s podatki o usposabljanju, ampak se testira z novimi scenariji, ki jih model še nikoli ni videl prej, kar lahko resnično odraža raven posploševanja modela. Zaradi uporabe strogega izraza »zdi se, da ima« Daya Guo je tudi bolj realističen in verodostojen

Nato je netizen z ID-jem @teortaxesTex, velik oboževalec DeepSeek (njegov komentar je vključeval celo besede »DeepSeek whale cheerleading team«), začel s tehničnim poročilom DeepSeek V3 in postavil vprašanje o čas usposabljanja modela:

Uporabnik C @teortaxesTex: »Če ni skrivnost: koliko časa je tokrat trajalo usposabljanje RL? Zdi se, kot da ste že imeli R1 ali vsaj R1-Zero že 10. decembra, ker tehnično poročilo V3 omenja, da je model V2.5 uporabljal destilacijo znanja R1, ocena V2.5-1210 pa je enaka trenutni model. Je tole nadaljevanje tega usposabljanja?«

Ta netizen ima neverjetno moč opazovanja! Iz tehničnega poročila je lahko izluščil toliko podrobnosti. Daya Guo je tudi potrpežljivo razložil iterativni proces modela:

Daya Guo: »Parametra R1-Zero in R1 za 660B sta se začela izvajati šele po izdaji V3 in usposabljanje je trajalo približno 2-3 tedne. Model R1, ki smo ga omenili prej (na primer v tehničnem poročilu V3), je pravzaprav R1-Lite ali R1-Lite-Zero.”

Torej to je to! R1-Zero in R1, ki ju vidimo zdaj, sta »novi in nadgrajeni različici«, prejšnja serija R1-Lite pa sta manjši različici. Zdi se, da je DeepSeek tiho ponovil in nadgradil številne različice v zakulisju

Kar zadeva hitrost treninga, sta uporabnika omrežja @jiayi_pirate (Jiayi Pan) in uporabnika omrežja B @kaush_trip posredovala »izpraševanje duše«:

Uporabnik D @jiayi_pirate: ”10.000 korakov RL v 3 tednih, vsak korak širjenja gradienta (grpo) traja ~3 minute 🤔”

Uporabnik B @kaush_trip: ”Če vsak korak širjenja gradienta (grpo) traja približno 3 minute, je to približno 5 korakov na uro, 120 korakov na dan, kar je res zelo počasno.”

To je res natančen izračun! Po izračunu uporabnika interneta hitrost vadbe DeepSeek R1 res ni visoka. To tudi kaže, da so stroški usposabljanja in časovna naložba za tako visoko zmogljiv model RL ogromni. Zdi se, da je "počasno delo dobro delo" precej primeren način za opis usposabljanja modela AI

Končno je netizen z imenom @davikrehalt (Andy Jiang) postavil vprašanje z vidika najsodobnejše aplikacije:

Uporabnik E @davikrehalt: »Ali ste poskusili uporabiti RL za formalno dokazilo o okolju, namesto da samo odgovarjate na vprašanja? Bilo bi super, če bi odprtokodni model letos osvojil zlato medaljo na IMO (Mednarodna matematična olimpijada)! (In več upov!)”

Formalni dokaz! IMO zlata medalja! Ta netizen je zelo ambiciozen! Vendar pa je uporaba umetne inteligence na zahtevnem področju matematičnih dokazov res prihodnji trend. Odgovor Daya Guo je ponovno presenetljiv:

Daya Guo: »R1 poskušamo uporabiti tudi v formalnih dokaznih okoljih, kot je Lean. Upamo, da bomo skupnosti kmalu izdali boljše modele.«

Po besedah Daya Guoa se zdi, da so na tem področju že napredovali in morda bodo v prihodnosti izdani še bolj impresivni modeli!

V zaključku

Iz odgovora Daya Guo je mogoče razbrati tri ključne signale:

Tehnično pozicioniranje: RL je še vedno v zgodnjih fazah in izboljšave zmogljivosti še zdaleč niso dosegle svojih meja;

Logika preverjanja: zmožnost posploševanja za testiranje med domenami, zavračanje »špekulacij o spominu

Meje uporabe: od jezikovnih modelov do matematičnih dokazov se RL pomika k sklepanju visokega reda

Udarne novice! Raziskovalec DeepSeek na spletu razkriva: Usposabljanje R1 je trajalo le dva do tri tedne, med kitajskimi novoletnimi prazniki pa so opazili močan razvoj R1 zero.

Raziskovalec AI Deepseek Daya Guo se pogovarja z uporabniki interneta

V zaključku

DeepSeek R1 je bil prvi na testu kreativnega pisanja, o3 mini pa je bil še slabši od o1 mini!

Primerjava štirih najboljših modelov! Pregled prikazuje, kako zmogljiv je Deepseek R1

a16z dialog s 27-letnim izvršnim direktorjem: AI Agent ima ogromen učinek finančnega vzvoda, dolgoročne cene pa bodo povezane s stroški dela

Razkrita tehnologija DeepSeek-R1: temeljna načela papirja so razčlenjena in razkrit je ključ do prebojne zmogljivosti modela

Je blizu DeepSeek-R1-32B in zdrobi s1 Fei-Fei Li! UC Berkeley in drugi odprtokodni novi modeli sklepanja SOTA

Ali Qwen2.5-Max prehitel DeepSeek-V3! Netizen: Kitajska umetna inteligenca hitro zmanjšuje vrzel

Dodaj odgovor Prekliči odgovor

Raziskovalec AI Deepseek Daya Guo se pogovarja z uporabniki interneta

V zaključku

Podobne objave

Dodaj odgovor Prekliči odgovor