Friss hírek! Az DeepSeek kutatója online fedi fel: Az R1 edzés csak két-három hétig tartott, és az R1 nulla erőteljes fejlődését figyelték meg a kínai újév ünnepe alatt

Most vettük észre azt az DeepSeek kutatót Daya Guo válaszolt a netezők kérdéseire az DeepSeek R1-vel és a cég további terveivel kapcsolatban. Csak azt mondhatjuk, hogy az DeepSeek R1 még csak a kezdet, és a belső kutatások még mindig rohamosan haladnak. Az DeepSeek kutatói a kínai újév ünnepe alatt sem tartottak szünetet, és fáradhatatlanul dolgoznak a kutatás előmozdításán. Az DeepSeek néhány nagy lépés előtt áll

Íme a dolog: Február 1-jén Daya Guo közzétett egy tweetet, amelyben felfedte azt, ami a kínai újév ünnepe alatt a legjobban izgatta: tanúja volt a „folyamatos növekedés” teljesítménygörbéjének a R1-Nulla modell, és érezni a hatalmas ereje megerősítő tanulás (RL)!

A Deepseek AI-kutatója, Daya Guo netezőkkel beszélget

Most segítek visszaadni Daya Guo netezőkkel folytatott beszélgetését:

Netizen A @PseudoProphet: „Nagy lövés, azt szeretném megkérdezni, hogy meddig fog tartani a teljesítmény folyamatos javulása. Ez még a kezdeti szakaszban van? Úgy érzi, hogy az DeepSeek RL modellje csak most kezdődik, mint a GPT-2 a nyelvi modellekben? Vagy elért egy érettebb stádiumot, mint a GPT-3.5, és hamarosan szűk keresztmetszetet ér?

Ez egy nagyon éles kérdés, amely közvetlenül kapcsolódik az DeepSeek RL technológiájában rejlő lehetőségekhez! Daya Guo válasza is nagyon őszinte:

Daya Guo: „Úgy gondolom, hogy még nagyon korai szakaszban vagyunk, és még hosszú út áll előttünk az RL mezőnyében. De úgy gondolom, hogy ebben az évben jelentős előrelépést fogunk látni.”

Emelje ki a legfontosabb pontokat! “Nagyon korán”, “hosszú út a felfedezéshez”, „jelentős előrelépés az idén”! Ezek a kulcsszavak tele vannak információval. Ez azt jelenti, hogy az DeepSeek úgy gondolja, hogy még bőven van hova fejlődniük az RL terén, és az R1 jelenlegi eredményei csak a jéghegy csúcsa lehet, szóval a jövő biztató!

Közvetlenül ezután egy másik netező, @kaush_trip (Cheeku Tripathi) feltett egy szakmaibb kérdést, amely egyenesen a modell képességeinek lényegéhez tartozik:

B felhasználó @kaush_trip: „Az R1-Zero teljesítménye alapján hogyan értékeli, hogy a modell valóban rendelkezik-e általánosító képesség, vagy csak megjegyzi az állapotváltásokat és a jutalmakat?”

Ez a kérdés nagyon lényegre törő! Végtére is, sok modell nagyon erősnek tűnik, de valójában csak „gyakorlatilag tanulnak” a képzési adatokból, és más környezetben megbuknak. Az DeepSeek R1 valóban készen áll?

Daya Guo: „Az RL prompt által nem lefedett tartományokhoz referenciaértéket használunk az általánosítási képesség értékelésére. Jelenleg úgy tűnik, hogy van általánosító képessége.”

Az „RL prompt által nem lefedett területek” kifejezés a kulcs! Ez azt jelenti, hogy az DeepSeek nem „csalja” a kiértékelést a képzési adatokkal, hanem olyan új forgatókönyvekkel tesztelik, amelyeket a modell soha nem látott előtt, ami valóban tükrözheti a modell általánosítási szintjét. Daya Guo szigorú „úgy tűnik, hogy van” szóhasználata valósághűbbé és hitelesebbé teszi

Ezután egy @teortaxesTex azonosítójú netező, az DeepSeek nagy rajongója (a megjegyzésében még az „DeepSeek bálna pompomcsapat” szó is szerepelt) elkezdte az DeepSeek V3 technikai jelentését, és kérdést tett fel modell edzési idő:

C felhasználó @teortaxesTex: „Ha nem titok: mennyi ideig tartott ezúttal az RL edzés? Úgy tűnik, hogy már december 10-én megvolt az R1 vagy legalább az R1-Zero, mert a V3-as műszaki jelentés megemlíti, hogy a V2.5-ös modell R1-es tudáslepárlást használt, és a V2.5-1210 pontszáma megegyezik a V3-as műszaki jelentéssel. jelenlegi modell. Ez ennek a képzésnek a folytatása?

Ennek a netezőnek csodálatos megfigyelőképessége van! A műszaki jelentésből annyi részletet tudott kivonni. Daya Guo türelmesen elmagyarázta a modell iteratív folyamatát is:

Daya Guo: „A 660B R1-Zero és R1 paraméterei csak a V3 megjelenése után indultak el, és a képzés körülbelül 2-3 hétig tartott. A korábban említett R1 modell (például a V3 műszaki jelentésében) valójában R1-Lite vagy R1-Lite-Zero.

Szóval ennyi! A most látható R1-Zero és R1 „új és továbbfejlesztett változatok”, a korábbi R1-Lite sorozat pedig kisebb verziók. Úgy tűnik, hogy az DeepSeek a színfalak mögött csendesen iterált és frissített számos verziót

Az edzési sebességgel kapcsolatban @jiayi_pirate (Jiayi Pan) és B @kaush_trip netezők „lélekkihallgatást” közvetítettek:

D felhasználó @jiayi_pirate: "10 000 RL lépés 3 hét alatt, minden gradiens terjedési (grpo) lépés ~3 percig tart 🤔"

B felhasználó @kaush_trip: "Ha minden gradiens terjedési (grpo) lépés körülbelül 3 percet vesz igénybe, ez körülbelül 5 lépést jelent óránként, 120 lépést naponta, ami valóban nagyon lassú."

Ez egy igazán aprólékos számítás! A netező számítása szerint az DeepSeek R1 edzéssebessége valóban nem gyors. Ez is azt mutatja, hogy egy ilyen nagy teljesítményű RL modell képzési költsége és időbefektetése óriási. A „lassú munka finom munkát eredményez” úgy tűnik, ez egy nagyon megfelelő módja az AI-modell képzésének leírására

Végül egy @davikrehalt nevű netező (Andy Jiang) feltett egy kérdést a legmodernebb alkalmazások szempontjából:

E felhasználó @davikrehalt: „Próbáltad már az RL-t használni? formális bizonyítéka a környezetnek, ahelyett, hogy csak kérdésekre válaszolna? Jó lenne, ha egy nyílt forráskódú modell idén aranyérmet nyerne az IMO-n (Nemzetközi Matematikai Olimpián). (És további remények!)”

Formális bizonyíték! IMO aranyérem! Ez a netező elég ambiciózus! Azonban a mesterséges intelligencia alkalmazása a matematikai bizonyítás kemény területére valóban a jövő trendje. Daya Guo válasza ismét meglepő:

Daya Guo: „Megpróbáljuk az R1-et olyan formális proof környezetekre is alkalmazni, mint például a Lean. Reméljük, hogy hamarosan jobb modelleket adunk ki a közösségnek.”

Daya Guo szavaiból úgy tűnik, hogy ezen a téren már előreléptek, és a jövőben még lenyűgözőbb modellek jelenhetnek meg!

Zárásként

Daya Guo válaszából három kulcsfontosságú jel derül ki:

Technikai pozicionálás: Az RL még korai szakaszában jár, és a teljesítményjavulás még messze nem éri el a határait;

Ellenőrzési logika: általánosítási képesség a tartományok közötti teszteléshez, a „memóriaspekuláció” elutasítása

Alkalmazási határok: a nyelvi modellektől a matematikai bizonyításokig az RL a magasrendű érvelés felé halad

Hasonló hozzászólások

Vélemény, hozzászólás?

Az e-mail címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük