Karščiausios naujienos! DeepSeek tyrėjas atskleidžia internete: R1 treniruotės truko tik dvi ar tris savaites, o per kinų Naujųjų metų šventę buvo pastebėta galinga R1 nulio raida
Tik dabar pastebėjome tą DeepSeek tyrėją Daya Guo atsakė į internautų klausimus apie DeepSeek R1 ir tolimesnius įmonės planus. Galime tik pasakyti, kad DeepSeek R1 yra tik pradžia, o vidiniai tyrimai vis dar sparčiai tobulėja. DeepSeek mokslininkai net nepadarė pertraukos per kinų Naujųjų metų šventę ir nenuilstamai dirbo siekdami pažangos. DeepSeek laukia keletas didelių žingsnių
Štai toks dalykas: vasario 1 d. Daya Guo paskelbė tviterį, atskleidžiantį dalyką, kuris jį labiausiai sujaudino per kinų Naujųjų metų šventę: „Nuolatinis augimas“ našumo kreivės R1-nula modelis, ir jausdamas galinga jėga pastiprinimo mokymasis (RL)!
Deepseek AI tyrinėtoja Daya Guo kalbasi su internautais
Dabar padėsiu jums atkurti Daya Guo pokalbį su internautais:
Internautas A @PseudoProphet: „Didelis šūvis, noriu paklausti, kiek ilgai tęsis šis nuolatinis veiklos tobulinimas. Ar tai dar tik pradiniame etape? Ar atrodo, kad DeepSeek RL modelis tik pradeda veikti, kaip GPT-2 kalbų modeliuose? Arba jis pasiekė brandesnį etapą, pvz., GPT-3.5, ir netrukus atsidurs kliūtis?
Tai labai aštrus klausimas, tiesiogiai susijęs su DeepSeek RL technologijos potencialu! Daya Guo atsakymas taip pat labai nuoširdus:
Daya Guo: „Manau, kad mes vis dar esame labai ankstyvoje stadijoje, o RL srityje dar laukia ilgas kelias. Tačiau tikiu, kad šiais metais pamatysime didelę pažangą.
Pabrėžkite pagrindinius dalykus! „Labai anksti“, „Ilgas kelias tyrinėti“, „didelė pažanga šiais metais“! Šiuose raktiniuose žodžiuose gausu informacijos. Tai reiškia, kad DeepSeek tiki, kad RL srityje jie dar turi daug kur tobulėti, o dabartiniai R1 rezultatai gali būti tik ledkalnio viršūnė, tad ateitis yra daug žadanti!
Iškart po to kitas internautas @kaush_trip (Cheeku Tripathi) uždavė profesionalesnį klausimą, kuris eina tiesiai į modelio galimybių esmę:
Vartotojas B @kaush_trip: „Kaip vertinate, ar modelis tikrai turi, pagal R1-Zero našumą apibendrinimo gebėjimas, ar tai tik įsimena būsenų perėjimus ir apdovanojimus?”
Šis klausimas labai aktualus! Galų gale, daugelis modelių atrodo labai galingi, tačiau iš tikrųjų jie tiesiog „mokosi“ iš treniruočių duomenų ir suges kitoje aplinkoje. Ar DeepSeek R1 tikrai gali nutrūkti?
Daya Guo: „Mes naudojame etaloną domenams, kuriems netaikomas RL raginimas, kad įvertintume apibendrinimo galimybes. Šiuo metu atrodo, kad jis turi apibendrinimo gebėjimą.
Frazė „sritys, kurių neapima RL raginimas“ yra raktas! Tai reiškia, kad DeepSeek neapgaudinėja įvertinimo naudodamas treniruočių duomenis, bet yra išbandytas su naujais scenarijais, kuriuos modelis niekada nematė anksčiau, o tai tikrai gali atspindėti modelio apibendrinimo lygį. Daya Guo vartoja griežtą formuluotę „atrodo, kad turi“ taip pat daro ją realistiškesnę ir patikimesnę
Tada internautas, turintis ID @teortaxesTex, didelis DeepSeek gerbėjas (jo komentare netgi buvo žodžiai „DeepSeek banginių linksmybių komanda“), pradėjo nuo DeepSeek V3 techninės ataskaitos ir uždavė klausimą apie modelio mokymo laikas:
Vartotojas C @teortaxesTex: „Jei ne paslaptis: kiek šį kartą užtruko RL treniruotės? Atrodo, kad jau gruodžio 10 d. turėjote R1 arba bent jau R1-Zero, nes V3 techninėje ataskaitoje minima, kad V2.5 modelyje buvo naudojamas R1 žinių distiliavimas, o V2.5-1210 rezultatas yra toks pat kaip ir dabartinis modelis. Ar tai yra tų mokymų tęsinys?
Šis internautas turi nuostabių stebėjimo galių! Jis sugebėjo išgauti tiek daug detalių iš techninės ataskaitos. Daya Guo taip pat kantriai paaiškino kartotinį modelio procesą:
Daya Guo: „660B R1-Zero ir R1 parametrai pradėjo veikti tik išleidus V3, o mokymai truko apie 2–3 savaites. R1 modelis, kurį minėjome anksčiau (pvz., V3 techninėje ataskaitoje), iš tikrųjų yra R1-Lite arba R1-Lite-Zero.
Taigi viskas! R1-Zero ir R1, kuriuos matome dabar, yra „naujos ir atnaujintos versijos“, o ankstesnė R1-Lite serija yra nedidelės versijos. Atrodo, kad DeepSeek tyliai kartojo ir atnaujino daugybę versijų užkulisiuose
Kalbant apie treniruočių greitį, internautai @jiayi_pirate (Jiayi Pan) ir internautai B @kaush_trip perdavė „sielos tardymą“:
Vartotojas D @jiayi_pirate: "10 000 RL žingsnių per 3 savaites, kiekvienas gradiento sklidimo (grpo) žingsnis trunka ~3 minutes 🤔"
Vartotojas B @kaush_trip: „Jei kiekvienas gradiento sklidimo (grpo) žingsnis trunka ~3 minutes, tai yra maždaug 5 žingsniai per valandą, 120 žingsnių per dieną, o tai iš tiesų yra labai lėta.
Tai tikrai kruopštus skaičiavimas! Internauto skaičiavimu, DeepSeek R1 treniruočių greitis tikrai nėra greitas. Tai taip pat rodo, kad tokio didelio našumo RL modelio mokymo išlaidos ir laiko investicijos yra didžiulės. Atrodo, kad „lėtas darbas sukuria puikų darbą“ yra gana tinkamas būdas apibūdinti AI modelio mokymą
Galiausiai internautas, vardu @davikrehalt (Andy Jiang), uždavė klausimą iš pažangesnės programos perspektyvos:
Vartotojas E @davikrehalt: „Ar bandėte naudoti RL formalus aplinkos įrodymas, užuot tiesiog atsakę į klausimus? Būtų puiku, jei šiais metais atvirojo kodo modelis galėtų laimėti aukso medalį Tarptautinėje matematikos olimpiadoje! (Ir daugiau vilčių!)
Oficialus įrodymas! TJO aukso medalis! Šis internautas yra gana ambicingas! Tačiau dirbtinio intelekto taikymas sudėtingoje matematinio įrodymo srityje iš tiesų yra ateities tendencija. Daya Guo atsakymas dar kartą stebina:
Daya Guo: „Mes taip pat stengiamės pritaikyti R1 formalioms įrodymo aplinkoms, tokioms kaip Lean. Tikimės, kad netrukus bendruomenei pristatysime geresnius modelius.
Iš Daya Guo žodžių atrodo, kad šioje srityje jie jau padarė pažangą, o ateityje gali atsirasti dar įspūdingesnių modelių!
Pabaigai
Iš Daya Guo atsakymo galima išskirti tris pagrindinius signalus:
Techninis padėties nustatymas: RL vis dar yra ankstyvoje stadijoje, o našumo patobulinimai toli gražu nepasiekia savo ribų;
Tikrinimo logika: apibendrinimo galimybė atliekant kryžminį domenų testavimą, atmetant „atminties spekuliacijas
Taikymo ribos: nuo kalbos modelių iki matematinių įrodymų, RL juda prie aukšto lygio samprotavimo