Brekende nuus! DeepSeek-navorser onthul aanlyn: R1 opleiding het slegs twee tot drie weke geneem, en 'n kragtige evolusie van R1 nul is tydens die Chinese Nuwejaarsvakansie waargeneem

Netnou het ons daardie DeepSeek-navorser opgemerk Daya Guo het gereageer op netgebruikers se vrae oor DeepSeek R1 en die maatskappy se planne vorentoe. Ons kan net sê dat DeepSeek R1 net die begin is, en interne navorsing vorder steeds vinnig. DeepSeek-navorsers het nie eens 'n blaaskans geneem tydens die Chinese Nuwejaarsvakansie nie, en hulle het onvermoeid gewerk om navorsing te bevorder. DeepSeek het 'n paar groot skuiwe wat voorlê

Hier is die ding: Op 1 Februarie het Daya Guo 'n twiet geplaas wat die ding onthul het wat hom die meeste opgewonde gemaak het tydens die Chinese Nuwejaarsvakansie: om die "voortdurende groei" van die prestasiekurwe van die R1-nul model, en voel die kragtige krag van versterkingsleer (RL)!

Deepseek KI-navorser Daya Guo praat met netizens

Ek sal jou nou help om Daya Guo se gesprek met netizens weer te gee:

Netizen A @PseudoProphet: “Groot, ek wil vra hoe lank hierdie voortdurende verbetering in prestasie sal duur. Is dit nog in die vroeë stadiums? Voel dit asof DeepSeek se RL-model net begin het, soos GPT-2 in taalmodelle? Of het dit 'n meer volwasse stadium soos GPT-3.5 bereik, en is dit op die punt om 'n bottelnek te tref?”

Dit is 'n baie skerp vraag, wat direk verband hou met die potensiaal van DeepSeek se RL-tegnologie! Daya Guo se reaksie is ook baie eerlik:

Daya Guo: “Ek dink ons is nog in 'n baie vroeë stadium, en daar is nog 'n lang pad om te stap in die veld van RL. Maar ek glo ons sal vanjaar aansienlike vordering sien.”

Lig die sleutelpunte uit! “Baie vroeg”, "'n lang pad om te verken", “Beduidende vordering vanjaar”! Hierdie sleutelwoorde is vol inligting. Dit beteken dat DeepSeek glo dat hulle nog baie ruimte het vir verbetering op die gebied van RL, en die huidige resultate van R1 is dalk net die punt van die ysberg, so die toekoms is belowend!

Onmiddellik daarna het 'n ander netizen @kaush_trip (Cheeku Tripathi) 'n meer professionele vraag gevra wat reguit na die hart van modelvermoëns gaan:

Gebruiker B @kaush_trip: “Gegrond op die prestasie van R1-Zero, hoe beoordeel jy of die model werklik het veralgemeningsvermoë, of dit nou net memoriseer staatsoorgange en belonings?”

Hierdie vraag is baie tot die punt! Baie modelle lyk immers baie kragtig, maar in werklikheid is hulle net 'rote learning' uit die opleidingsdata, en hulle sal in 'n ander omgewing misluk. Is DeepSeek R1 regtig op datum?

Daya Guo: “Ons gebruik 'n maatstaf vir domeine wat nie deur RL-aanvraag gedek word nie om veralgemeningsvermoë te evalueer. Tans lyk dit of dit veralgemeningsvermoë het.”

Die frase "gebiede wat nie deur RL-opdrag gedek word nie" is die sleutel! Dit beteken dat DeepSeek nie die evaluering met opleidingsdata "verneuk" nie, maar getoets word met nuwe scenario's wat die model nog nooit gesien nie voor, wat werklik die veralgemeningsvlak van die model kan weerspieël. Daya Guo se gebruik van die streng bewoording "lyk om te hê" maak dit ook meer realisties en geloofwaardig

Vervolgens het 'n netizen met die ID @teortaxesTex, 'n groot aanhanger van DeepSeek (sy kommentaar het selfs die woorde "DeepSeek walvischeerleading span" ingesluit), begin met die DeepSeek V3 tegniese verslag en 'n vraag gevra oor model opleiding tyd:

Gebruiker C @teortaxesTex: “As dit nie 'n geheim is nie: hoe lank het die RL-opleiding hierdie keer geneem? Dit voel of jy reeds R1 of ten minste R1-Zero so vroeg as 10 Desember gehad het, want die V3 tegniese verslag noem dat die V2.5-model R1 kennisdistillasie gebruik het, en die telling van V2.5-1210 is dieselfde as die huidige model. Is hierdie een 'n voortsetting van daardie opleiding?”

Hierdie netizen het ongelooflike waarnemingsvermoëns! Hy kon soveel besonderhede uit die tegniese verslag haal. Daya Guo het ook geduldig die iteratiewe proses van die model verduidelik:

Daya Guo: “Die R1-Zero- en R1-parameters van 660B het eers na die vrystelling van V3 begin loop, en die opleiding het ongeveer 2-3 weke geneem. Die R1-model wat ons voorheen genoem het (soos in die V3 tegniese verslag) is eintlik R1-Lite of R1-Lite-Zero.”

So dit is dit! Die R1-Zero en R1 wat ons nou sien, is "nuwe en opgegradeerde weergawes", en die vorige R1-Lite-reeks is minderjarige weergawes. Dit blyk dat DeepSeek baie weergawes agter die skerms stilweg herhaal en opgegradeer het

Wat die opleidingspoed betref, het netizens @jiayi_pirate (Jiayi Pan) en netizen B @kaush_trip 'n "sielondervraging" oorgedra:

Gebruiker D @jiayi_pirate: "10 000 RL stappe in 3 weke, elke gradiënt voortplanting (grpo) stap neem ~3 minute 🤔"

Gebruiker B @kaush_trip: “As elke stap vir gradiëntvoortplanting (grpo) ~3 minute neem, is dit ongeveer 5 treë per uur, 120 treë per dag, wat inderdaad baie stadig is.”

Dit is 'n baie noukeurige berekening! Volgens die netizen se berekening is die opleidingspoed van DeepSeek R1 inderdaad nie vinnig nie. Dit wys ook dat die opleidingskoste en tydbelegging van so 'n hoëprestasie RL-model groot is. "Stadig werk lewer goeie werk op" blyk 'n redelik gepaste manier te wees om KI-modelopleiding te beskryf

Ten slotte, 'n netizen genaamd @davikrehalt (Andy Jiang) het 'n vraag gevra vanuit 'n meer nuutste toepassingsperspektief:

Gebruiker E @davikrehalt: "Het jy probeer om RL te gebruik om te doen formele bewys van die omgewing, in plaas daarvan om net vrae te beantwoord? Dit sal wonderlik wees as 'n oopbronmodel vanjaar 'n goue medalje by IMO (International Mathematical Olympiad) kan wen! (En meer hoop!)”

Formele bewys! IMO goue medalje! Hierdie netizen is nogal ambisieus! Die toepassing van KI op die harde kern van wiskundige bewyse is egter inderdaad die toekomstige neiging. Daya Guo se antwoord is weer eens verbasend:

Daya Guo: “Ons probeer ook R1 toepas op formele bewysomgewings soos Lean. Ons hoop om binnekort beter modelle aan die gemeenskap vry te stel.”

Uit Daya Guo se woorde blyk dit dat hulle reeds vordering gemaak het op hierdie gebied, en daar kan selfs meer indrukwekkende modelle in die toekoms vrygestel word!

Ter afsluiting

Drie sleutelseine kan uit Daya Guo se reaksie gedistilleer word:

Tegniese posisionering: RL is nog in sy vroeë stadiums, en prestasieverbeterings bereik nog lank nie hul perke nie;

Verifikasielogika: veralgemeningsvermoë vir kruisdomeintoetsing, verwerping van "geheue-spekulasie

Toepassingsgrense: van taalmodelle tot wiskundige bewyse, RL beweeg na hoë-orde redenering

Soortgelyke plasings

Maak 'n opvolg-bydrae

Jou e-posadres sal nie gepubliseer word nie. Verpligte velde word met * aangedui