știri de ultimă oră! Cercetătorul DeepSeek dezvăluie online: Antrenamentul R1 a durat doar două până la trei săptămâni, iar o evoluție puternică a R1 zero a fost observată în timpul vacanței de Anul Nou Chinezesc

Chiar acum, am observat acel cercetător DeepSeek Daya Guo a răspuns la întrebările internauților despre DeepSeek R1 și planurile companiei de viitor. Putem spune doar că DeepSeek R1 este doar începutul, iar cercetarea internă continuă să avanseze rapid. Cercetătorii DeepSeek nici măcar nu și-au luat o pauză în timpul vacanței de Anul Nou Chinezesc și au lucrat neobosit pentru a avansa cercetarea. DeepSeek urmează câteva mișcări mari

Iată treaba: pe 1 februarie, Daya Guo a postat un tweet care dezvăluie lucrul care l-a încântat cel mai mult în timpul sărbătorii de Anul Nou Chinezesc: a asistat la „creștere continuă” a curbei de performanță a R1-zero model, și simțind forta puternica a învățare prin întărire (RL)!

Cercetătorul Deepseek AI Daya Guo vorbește cu internauții

Vă voi ajuta acum să reproduceți conversația lui Daya Guo cu internauții:

Netizen A @PseudoProfet: „Vreau să întreb cât de mult va dura această îmbunătățire continuă a performanței. Este încă în stadii incipiente? Se pare că modelul RL al lui DeepSeek abia începe, precum GPT-2 în modelele lingvistice? Sau a atins un stadiu mai matur precum GPT-3.5 și este pe cale să se lovească de un blocaj?”

Aceasta este o întrebare foarte clară, care se referă direct la potențialul tehnologiei RL a DeepSeek! Răspunsul lui Daya Guo este, de asemenea, foarte sincer:

Daya Guo: „Cred că suntem încă într-un stadiu foarte incipient și mai este un drum lung de parcurs în domeniul RL. Dar cred că vom vedea progrese semnificative în acest an.”

Evidențiați punctele cheie! „Foarte devreme”, „un drum lung de explorat”, „progres semnificativ anul acesta”! Aceste cuvinte cheie sunt pline de informații. Aceasta înseamnă că DeepSeek consideră că au încă mult loc de îmbunătățire în domeniul RL, iar rezultatele actuale ale R1 ar putea fi doar vârful aisbergului, așa că viitorul este promițător!

Imediat după aceea, un alt netizen @kaush_trip (Cheeku Tripathi) a pus o întrebare mai profesionistă, care merge direct în inima capabilităților modelului:

Utilizatorul B @kaush_trip: „Pe baza performanței lui R1-Zero, cum evaluezi dacă modelul are într-adevăr capacitatea de generalizare, sau dacă este doar memorează tranzițiile de stare și recompensele?”

Această întrebare este foarte la obiect! La urma urmei, multe modele par foarte puternice, dar în realitate sunt doar „învățare din memorie” din datele de antrenament și vor eșua într-un mediu diferit. Este DeepSeek R1 cu adevărat la îndemână?

Daya Guo: „Folosim un benchmark pentru domeniile care nu sunt acoperite de promptul RL pentru a evalua capacitatea de generalizare. În prezent, pare să aibă capacitatea de generalizare.”

Expresia „zone care nu sunt acoperite de promptul RL” este cheia! Aceasta înseamnă că DeepSeek nu „trișează” evaluarea cu date de antrenament, ci este testat cu noi scenarii pe care modelul nu a văzut niciodată înainte, ceea ce poate reflecta cu adevărat nivelul de generalizare al modelului. Folosirea de către Daya Guo a formulării riguroase „pare să aibă” o face, de asemenea, mai realistă și mai credibilă.

În continuare, un internaut cu ID @teortaxesTex, un mare fan al DeepSeek (comentarul său includea chiar și cuvintele „DeepSeek whale cheerleading team”), a început cu raportul tehnic DeepSeek V3 și a pus o întrebare despre timp de antrenament model:

Utilizatorul C @teortaxesTex: „Dacă nu este un secret: cât a durat antrenamentul RL de această dată? Se pare că ai avut deja R1 sau cel puțin R1-Zero încă din 10 decembrie, deoarece raportul tehnic V3 menționează că modelul V2.5 a folosit distilare de cunoștințe R1, iar scorul de V2.5-1210 este același cu cel modelul actual. Este acesta o continuare a acelui antrenament?”

Acest netizen are puteri uimitoare de observație! A putut extrage atât de multe detalii din raportul tehnic. Daya Guo a explicat, de asemenea, cu răbdare procesul iterativ al modelului:

Daya Guo: „Parametrii R1-Zero și R1 ai lui 660B au început să ruleze abia după lansarea lui V3, iar antrenamentul a durat aproximativ 2-3 săptămâni. Modelul R1 pe care l-am menționat anterior (cum ar fi în raportul tehnic V3) este de fapt R1-Lite sau R1-Lite-Zero.”

Deci asta e! R1-Zero și R1 pe care le vedem acum sunt „versiuni noi și îmbunătățite”, iar seria anterioară R1-Lite sunt versiuni minore. Se pare că DeepSeek a repetat și a actualizat în liniște multe versiuni în culise

În ceea ce privește viteza de antrenament, internauții @jiayi_pirate (Jiayi Pan) și internauții B @kaush_trip au transmis un „interogatoriu sufletesc”:

Utilizatorul D @jiayi_pirate: „10.000 de pași RL în 3 săptămâni, fiecare pas de propagare a gradientului (grpo) durează ~3 minute 🤔”

Utilizatorul B @kaush_trip: „Dacă fiecare pas de propagare a gradientului (grpo) durează aproximativ 3 minute, înseamnă aproximativ 5 pași pe oră, 120 de pași pe zi, ceea ce este într-adevăr foarte lent.”

Acesta este un calcul cu adevărat meticulos! Conform calculelor internautului, viteza de antrenament a DeepSeek R1 nu este într-adevăr rapidă. Acest lucru arată, de asemenea, că costul de instruire și investiția de timp pentru un astfel de model RL de înaltă performanță sunt uriașe. „Munca lentă produce o muncă bună” pare a fi o modalitate destul de potrivită de a descrie antrenamentul modelului AI

În cele din urmă, un internaut pe nume @davikrehalt (Andy Jiang) a pus o întrebare dintr-o perspectivă de aplicație mai de ultimă oră:

Utilizatorul E @davikrehalt: „Ai încercat să folosești RL pentru a face dovada formală a mediului, în loc să răspunzi doar la întrebări? Ar fi grozav dacă un model open-source ar putea câștiga o medalie de aur la IMO (International Mathematical Olympiad) anul acesta! (Și mai multe speranțe!)”

Dovada formala! medalie de aur IMO! Acest netizen este destul de ambițios! Cu toate acestea, aplicarea AI în domeniul hardcore al demonstrației matematice este într-adevăr tendința viitoare. Răspunsul Dayei Guo este din nou surprinzător:

Daya Guo: „Încercăm, de asemenea, să aplicăm R1 în medii de dovezi formale, cum ar fi Lean. Sperăm să lansăm în curând modele mai bune comunității.”

Din spusele lui Daya Guo, se pare că au făcut deja progrese în acest domeniu, iar în viitor s-ar putea să apară modele și mai impresionante!

În încheiere

Trei semnale cheie pot fi distilate din răspunsul lui Daya Guo:

Poziționare tehnică: RL este încă în faze incipiente, iar îmbunătățirile de performanță sunt departe de a-și atinge limitele;

Logica de verificare: capacitatea de generalizare pentru testarea încrucișată, respingerea „speculațiilor despre memorie

Limitele aplicației: de la modele de limbaj la dovezi matematice, RL se îndreaptă către raționament de ordin înalt

Posturi similare

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *