Ägedad uudised! DeepSeek uurija paljastab veebis: R1 koolitus kestis vaid kaks kuni kolm nädalat ja Hiina uusaasta pühade ajal täheldati R1 nulli võimsat arengut
Just nüüd märkasime seda DeepSeek teadlast Daya Guo vastas netimeeste küsimustele DeepSeek R1 ja ettevõtte edasiste plaanide kohta. Võime vaid öelda, et DeepSeek R1 on alles algus ja siseuuringud edenevad endiselt kiiresti. DeepSeek teadlased ei teinud isegi Hiina uusaasta pühade ajal pausi ja on väsimatult tööd teinud, et teadustööd edendada. DeepSeek-l on tulemas mõned suured käigud
Asi on järgmine: 1. veebruaril postitas Daya Guo säutsu, mis paljastas asja, mis teda Hiina uusaasta pühade ajal kõige rohkem elevust tekitas: oli tunnistajaks "pidev kasv" tulemuslikkuse kõverast R1-Null mudel, ja tundes võimas jõud tugevdusõpe (RL)!
Deepseeki tehisintellekti uurija Daya Guo vestleb netimeestega
Nüüd aitan teil reprodutseerida Daya Guo vestlust netimeestega:
Netizen A @PseudoProphet: "Suur amps, ma tahan küsida, kui kaua see pidev jõudluse paranemine kestab. Kas see on veel algusjärgus? Kas tundub, et DeepSeek RL-mudel on alles alustamas, nagu keelemudelites GPT-2? Või on see jõudnud küpsemasse etappi, nagu GPT-3.5, ja hakkab tabama kitsaskohta?
See on väga terav küsimus, mis on otseselt seotud DeepSeek RL-tehnoloogia potentsiaaliga! Daya Guo vastus on samuti väga aus:
Daya Guo: "Ma arvan, et oleme veel väga varajases staadiumis ja RL-i valdkonnas on veel pikk tee minna. Kuid ma usun, et sel aastal näeme märkimisväärset edu."
Tõstke esile peamised punktid! “Väga vara”, “Pikk tee uurimiseks”, “Selle aasta märkimisväärne edasiminek”! Need märksõnad on täis teavet. See tähendab, et DeepSeek usub, et neil on RL-i vallas veel arenguruumi ning R1 praegused tulemused võivad olla vaid jäämäe tipp, seega tulevik on paljulubav!
Vahetult pärast seda esitas teine netimees @kaush_trip (Cheeku Tripathi) professionaalsema küsimuse, mis läheb otse mudelivõimaluste südamesse:
Kasutaja B @kaush_trip: “Kuidas hindate R1-Zero jõudluse põhjal, kas mudelil seda tõesti on üldistusvõimet, või kas see lihtsalt jätab meelde oleku üleminekud ja preemiad?”
See küsimus on väga asjakohane! Paljud mudelid tunduvad ju väga võimsad, kuid tegelikkuses õpivad need lihtsalt treeningandmetest "peapeale" ja lähevad teises keskkonnas läbi. Kas DeepSeek R1 on tõesti nullist väljas?
Daya Guo: „Kasutame üldistusvõime hindamiseks RL-i viipaga hõlmamata domeenide jaoks võrdlusalust. Praegu tundub, et sellel on üldistusvõime.
Fraas "RL-i viipaga hõlmamata alad" on võti! See tähendab, et DeepSeek ei "peta" hindamist koolitusandmetega, vaid seda testitakse uute stsenaariumitega, mida mudel pole kunagi näinud enne, mis võib tõeliselt kajastada mudeli üldistustaset. Daya Guo range sõnastuse "paistab olevat" kasutamine muudab selle ka realistlikumaks ja usaldusväärsemaks
Järgmiseks alustas DeepSeek suur fänn ID-ga @teortaxesTex (tema kommentaar sisaldas isegi sõnu “DeepSeek vaalade cheerleading team”) DeepSeek V3 tehnilise aruandega ja esitas küsimuse mudeltreeningu aeg:
Kasutaja C @teortaxesTex: “Kui saladus pole: kaua RL-i treening seekord aega võttis? Tundub, et teil oli R1 või vähemalt R1-Zero juba 10. detsembril, sest V3 tehnilises aruandes mainitakse, et V2.5 mudelis kasutati R1 teadmiste destilleerimist ja V2.5-1210 skoor on sama, mis praegune mudel. Kas see on selle koolituse jätk?
Sellel netisaatoril on hämmastavad vaatlusvõimed! Ta suutis tehnilisest aruandest välja võtta nii palju üksikasju. Daya Guo selgitas kannatlikult ka mudeli iteratiivset protsessi:
Daya Guo: "660B R1-Zero ja R1 parameetrid hakkasid tööle alles pärast V3 väljaandmist ja koolitus kestis umbes 2-3 nädalat. R1 mudel, mida me varem mainisime (näiteks V3 tehnilises aruandes), on tegelikult R1-Lite või R1-Lite-Zero.
Nii et see on kõik! R1-Zero ja R1, mida praegu näeme, on "uued ja täiendatud versioonid" ning eelmised R1-Lite'i seeriad on väikesed versioonid. Tundub, et DeepSeek on kulisside taga vaikselt itereerinud ja uuendanud paljusid versioone
Treeningu kiiruse osas on netikaaslased @jiayi_pirate (Jiayi Pan) ja netizen B @kaush_trip edastanud "hingeküsitluse":
Kasutaja D @jiayi_pirate: "10 000 RL sammu 3 nädala jooksul, iga gradiendi levitamise (grpo) samm võtab ~3 minutit 🤔"
Kasutaja B @kaush_trip: "Kui iga gradiendi levitamise (grpo) samm võtab aega ~3 minutit, on see umbes 5 sammu tunnis, 120 sammu päevas, mis on tõepoolest väga aeglane."
See on tõesti hoolikas arvutus! DeepSeek R1 treeningkiirus ei ole netimehe arvutuse järgi tõepoolest kiire. See näitab ka, et sellise suure jõudlusega RL-mudeli koolituskulu ja ajainvesteering on tohutu. „Aeglane töö teeb head tööd” näib olevat üsna sobiv viis tehisintellekti mudeli koolituse kirjeldamiseks
Lõpuks esitas netizen nimega @davikrehalt (Andy Jiang) küsimuse tipptasemel rakenduste vaatenurgast:
Kasutaja E @davikrehalt: "Kas olete proovinud kasutada RL-i formaalne tõend keskkonna kohta, selle asemel, et lihtsalt küsimustele vastata? Oleks tore, kui avatud lähtekoodiga mudel võidaks sel aastal IMO-l (rahvusvahelisel matemaatikaolümpiaadil) kuldmedali! (Ja rohkem lootusi!)”
Ametlik tõestus! IMO kuldmedal! See netizen on üsna ambitsioonikas! Tehisintellekti rakendamine matemaatilise tõestuse raskes valdkonnas on aga tõepoolest tulevikutrend. Daya Guo vastus on taas üllatav:
Daya Guo: "Püüame rakendada R1 ka ametlikes tõestuskeskkondades, nagu Lean. Loodame peagi paremaid mudeleid kogukonnale avaldada.
Daya Guo sõnade järgi tundub, et nad on selles vallas juba edusamme teinud ning tulevikus võib tulla veelgi muljetavaldavamaid mudeleid!
Lõpetuseks
Daya Guo vastusest saab destilleerida kolm peamist signaali:
Tehniline positsioneerimine: RL on alles algusjärgus ja jõudluse täiustused ei ole kaugeltki oma piire saavutanud;
Kontrolliloogika: üldistusvõime domeenidevaheliseks testimiseks, "mälu spekulatsioonide" tagasilükkamine
Rakenduse piirid: keelemudelitest matemaatiliste tõestusteni on RL liikumas kõrgetasemelise arutluskäigu poole