Äärimmäisiä uutisia! DeepSeek-tutkija paljastaa verkossa: R1-harjoittelu kesti vain kahdesta kolmeen viikkoa, ja R1-nollan voimakas kehitys havaittiin kiinalaisen uudenvuoden loman aikana

Juuri nyt huomasimme sen DeepSeek-tutkijan Daya Guo vastasi nettilaisten kysymyksiin DeepSeek R1:stä ja yhtiön tulevaisuudensuunnitelmista. Voimme vain sanoa, että DeepSeek R1 on vasta alkua, ja sisäinen tutkimus etenee edelleen nopeasti. DeepSeek:n tutkijat eivät pitäneet edes taukoa kiinalaisen uudenvuoden loman aikana, ja he ovat työskennelleet väsymättä tutkimuksen edistämiseksi. DeepSeek:llä on suuria liikkeitä tulossa

Tässä asia: 1. helmikuuta Daya Guo julkaisi twiitin, joka paljasti asian, joka sai hänet eniten innostumaan kiinalaisen uudenvuoden loman aikana: todistamaan "Jatkuva kasvu" suorituskykykäyrästä R1-Nolla malli, ja tunne voimakas voima vahvistusoppiminen (RL)!

Deepseekin tekoälytutkija Daya Guo keskustelee nettilaisten kanssa

Autan sinua nyt toistamaan Daya Guon keskustelun nettilaisten kanssa:

Netizen A @PseudoProphet: ”Haluan kysyä, kuinka kauan tämä jatkuva suorituskyvyn parantaminen kestää. Onko tämä vielä alkuvaiheessa? Tuntuuko siltä, että DeepSeek:n RL-malli on vasta alkamassa, kuten GPT-2 kielimalleissa? Vai onko se saavuttanut kypsemmän vaiheen, kuten GPT-3.5, ja kohtaamassa pullonkaulan?"

Tämä on erittäin terävä kysymys, joka liittyy suoraan DeepSeek:n RL-teknologian mahdollisuuksiin! Daya Guon vastaus on myös erittäin rehellinen:

Daya Guo: ”Luulen, että olemme vielä hyvin alkuvaiheessa, ja RL:n alalla on vielä pitkä matka kuljettavana. Mutta uskon, että näemme merkittävää edistystä tänä vuonna.

Korosta tärkeimmät kohdat! “Hyvin aikaisin”, “pitkä matka tutkimiseen”, ”Tänä vuonna merkittävä edistysaskel”! Nämä avainsanat ovat täynnä tietoa. Tämä tarkoittaa, että DeepSeek uskoo, että heillä on vielä paljon parantamisen varaa RL:n alalla, ja R1:n nykyiset tulokset voivat olla vain jäävuoren huippu, joten tulevaisuus on lupaava!

Välittömästi tämän jälkeen toinen nettimies @kaush_trip (Cheeku Tripathi) esitti ammattimaisemman kysymyksen, joka menee suoraan mallin ominaisuuksien ytimeen:

Käyttäjä B @kaush_trip: ”Kuinka R1-Zeron suorituskyvyn perusteella arvioit, onko mallissa todella? yleistyskyky, vai onko se vain muistaa tilasiirtymät ja palkinnot?”

Tämä kysymys on hyvin asiallinen! Loppujen lopuksi monet mallit näyttävät erittäin tehokkailta, mutta todellisuudessa ne ovat vain "harjoitustiedoista oppimista", ja ne epäonnistuvat toisessa ympäristössä. Onko DeepSeek R1 todella naarmuuntunut?

Daya Guo: "Käytämme vertailuarvoa verkkotunnuksille, joita RL-kehote ei kata, arvioidaksemme yleistyskykyä. Tällä hetkellä sillä näyttää olevan yleistyskyky."

Ilmaus "alueet, joita RL-kehote ei kata" on avain! Tämä tarkoittaa, että DeepSeek ei "huijaa" arviointia harjoitustiedoilla, vaan sitä testataan uusilla skenaarioilla, joita malli ei ole koskaan nähnyt ennen, mikä voi todella kuvastaa mallin yleistystasoa. Daya Guon tiukka sanamuodon "näyttää olevan" käyttö tekee siitä myös realistisemman ja uskottavamman

Seuraavaksi verkkokäyttäjä, jonka tunnus on @teortaxesTex, suuri DeepSeek-fani (hänen kommentissaan oli jopa sanat "DeepSeek whale cheerleading team"), aloitti DeepSeek V3:n teknisellä raportilla ja kysyi malliharjoitteluaika:

Käyttäjä C @teortaxesTex: ”Jos se ei ole salaisuus: kuinka kauan RL-harjoittelu kesti tällä kertaa? Tuntuu siltä, että sinulla oli R1 tai ainakin R1-Zero jo joulukuun 10. päivänä, koska V3:n teknisessä raportissa mainitaan, että V2.5-mallissa käytettiin R1-tietotislausta ja V2.5-1210:n pistemäärä on sama kuin nykyinen malli. Onko tämä jatkoa tälle koulutukselle?"

Tällä nettimiehellä on uskomattomia havainnointikykyjä! Hän pystyi poimimaan niin monia yksityiskohtia teknisestä raportista. Daya Guo selitti myös kärsivällisesti mallin iteratiivisen prosessin:

Daya Guo: "660B:n R1-Zero- ja R1-parametrit alkoivat toimia vasta V3:n julkaisun jälkeen, ja koulutus kesti noin 2-3 viikkoa. Aiemmin mainitsemamme R1-malli (kuten V3:n teknisessä raportissa) on itse asiassa R1-Lite tai R1-Lite-Zero.

Joten siinä se! Nyt näkemämme R1-Zero ja R1 ovat "uusia ja päivitettyjä versioita", ja edellinen R1-Lite-sarja on pienempiä versioita. Näyttää siltä, että DeepSeek on hiljaa iteroinut ja päivittänyt monia versioita kulissien takana

Harjoittelunopeuteen liittyen netizens @jiayi_pirate (Jiayi Pan) ja netizen B @kaush_trip ovat välittäneet "sielukuulustelun":

Käyttäjä D @jiayi_pirate: ”10 000 RL-askelta 3 viikossa, jokainen gradientin etenemisvaihe (grpo) kestää ~3 minuuttia 🤔”

Käyttäjä B @kaush_trip: "Jos jokainen gradientin etenemisvaihe (grpo) kestää ~3 minuuttia, se on noin 5 askelta tunnissa, 120 askelta päivässä, mikä on todella hidasta."

Tämä on todella huolellinen laskelma! Nettilaisen laskelman mukaan DeepSeek R1:n harjoitusnopeus ei todellakaan ole nopea. Tämä osoittaa myös, että tällaisen korkean suorituskyvyn RL-mallin koulutuskustannukset ja aikainvestointi ovat valtavat. "Hidas työ tuottaa hienoa työtä" näyttää olevan varsin sopiva tapa kuvata tekoälymallin harjoittelua

Lopuksi nettimies nimeltä @davikrehalt (Andy Jiang) esitti kysymyksen huippuluokan sovellusten näkökulmasta:

Käyttäjä E @davikrehalt: "Oletko kokeillut käyttää RL:ää muodollinen todiste ympäristöstä, sen sijaan, että vastaisit vain kysymyksiin? Olisi hienoa, jos avoimen lähdekoodin malli voisi voittaa kultamitalin IMO:ssa (International Mathematical Olympiad) tänä vuonna! (Ja lisää toiveita!)”

Muodollinen todiste! IMO kultamitali! Tämä netizen on melko kunnianhimoinen! Tekoälyn soveltaminen matemaattisten todisteiden vakavimpaan kenttään on kuitenkin todellakin tulevaisuuden trendi. Daya Guon vastaus on jälleen kerran yllättävä:

Daya Guo: "Yritämme soveltaa R1:tä myös muodollisiin todisteympäristöihin, kuten Lean. Toivomme julkaisevamme parempia malleja yhteisölle pian."

Daya Guon sanojen perusteella näyttää siltä, että he ovat jo edistyneet tällä alueella, ja tulevaisuudessa saattaa tulla vielä vaikuttavampia malleja!

Lopuksi

Daya Guon vastauksesta voidaan erottaa kolme keskeistä signaalia:

Tekninen paikannus: RL on vielä alkuvaiheessa, ja suorituskyvyn parannukset ovat kaukana rajoistaan;

Varmistuslogiikka: yleistyskyky verkkotunnusten väliseen testaukseen, "muistispekulaatioiden" hylkääminen

Sovellusrajat: kielimalleista matemaattisiin todisteisiin, RL on siirtymässä kohti korkealuokkaista päättelyä

Samankaltaisia viestejä

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *