Habari zinazochipuka! Mtafiti wa DeepSeek anafichua mtandaoni: Mafunzo ya R1 yalichukua wiki mbili hadi tatu pekee, na mageuzi yenye nguvu ya sifuri ya R1 yalionekana wakati wa likizo ya Mwaka Mpya wa Kichina.

Hivi sasa, tumegundua mtafiti huyo wa DeepSeek Daya Guo ilijibu maswali ya wanamtandao kuhusu DeepSeek R1 na mipango ya kampuni kwenda mbele. Tunaweza tu kusema kwamba DeepSeek R1 ni mwanzo tu, na utafiti wa ndani bado unaendelea kwa kasi. Watafiti wa DeepSeek hata hawakuchukua mapumziko wakati wa likizo ya Mwaka Mpya wa Uchina, na wamekuwa wakifanya kazi bila kuchoka ili kuendeleza utafiti. DeepSeek ina hatua kubwa zinazokuja

Hili ndilo jambo: Mnamo Februari 1, Daya Guo alichapisha tweet akifichua jambo ambalo lilimfurahisha zaidi wakati wa likizo ya Mwaka Mpya wa Kichina: kushuhudia "ukuaji unaoendelea" ya curve ya utendaji wa R1-Sifuri mfano, na kuhisi nguvu yenye nguvu ya ujifunzaji wa kuimarisha (RL)!

Mtafiti wa AI wa Deepseek Daya Guo anazungumza na watumiaji wa mtandao

Sasa nitakusaidia kuzaliana mazungumzo ya Daya Guo na watumiaji wa mtandao:

Mwanamtandao A @PseudoProphet: "Picha kubwa, nataka kuuliza uboreshaji huu unaoendelea wa utendakazi utaendelea kwa muda gani. Je, hii bado katika hatua za mwanzo? Je, inahisi kama mtindo wa RL wa DeepSeek ndio unaanza, kama GPT-2 katika miundo ya lugha? Au imefikia hatua ya kukomaa zaidi kama GPT-3.5, na inakaribia kukwama?"

Hili ni swali kali sana, ambalo linahusiana moja kwa moja na uwezo wa teknolojia ya RL ya DeepSeek! Jibu la Daya Guo pia ni mwaminifu sana:

Daya Guo: "Nadhani bado tuko katika hatua ya mapema sana, na bado kuna safari ndefu katika uwanja wa RL. Lakini naamini tutaona maendeleo makubwa mwaka huu.”

Angazia mambo muhimu! “Mapema sana”, "njia ndefu ya kuchunguza", "maendeleo makubwa mwaka huu"! Maneno haya muhimu yamejaa habari. Hii ina maana kwamba DeepSeek inaamini kwamba bado wana nafasi kubwa ya uboreshaji katika uwanja wa RL, na matokeo ya sasa ya R1 inaweza tu kuwa ncha ya barafu, hivyo siku zijazo zinaahidi!

Mara tu baadaye, mwanamtandao mwingine @kaush_trip (Cheeku Tripathi) aliuliza swali la kitaalamu zaidi ambalo linaenda moja kwa moja kwenye kiini cha uwezo wa mwanamitindo:

Mtumiaji B @kaush_trip: "Kulingana na utendakazi wa R1-Zero, unatathminije ikiwa mfano unayo uwezo wa jumla, au iwe tu hukariri mabadiliko ya serikali na zawadi?”

Swali hili ni muhimu sana! Baada ya yote, mifano nyingi zinaonekana kuwa na nguvu sana, lakini kwa kweli ni 'kujifunza tu' kutoka kwa data ya mafunzo, na watashindwa katika mazingira tofauti. Je, DeepSeek R1 kweli iko tayari kuanza?

Daya Guo: “Tunatumia kielelezo kwa vikoa ambavyo havijashughulikiwa na haraka ya RL ili kutathmini uwezo wa jumla. Kwa sasa, inaonekana kuwa na uwezo wa jumla.

Maneno "maeneo ambayo hayajashughulikiwa na haraka ya RL" ndio ufunguo! Hii ina maana kwamba DeepSeek "si "kudanganya" tathmini na data ya mafunzo, lakini inajaribiwa na matukio mapya ambayo mtindo hajawahi kuona hapo awali, ambayo inaweza kuonyesha kiwango cha jumla cha mfano. Matumizi ya Daya Guo ya maneno makali "inaonekana kuwa nayo" pia yanaifanya kuwa ya kweli na ya kuaminika zaidi.

Kisha, mwanamtandao aliye na kitambulisho @teortaxesTex, shabiki mkubwa wa DeepSeek (maoni yake hata yalijumuisha maneno “DeepSeek timu ya kushangilia nyangumi”), alianza na ripoti ya kiufundi ya DeepSeek V3 na kuuliza swali kuhusu muda wa mafunzo ya mfano:

Mtumiaji C @teortaxesTex: "Kama sio siri: mafunzo ya RL yalichukua muda gani wakati huu? Inahisi kama tayari ulikuwa na R1 au angalau R1-Zero mapema Desemba 10, kwa sababu ripoti ya kiufundi ya V3 inataja kwamba modeli ya V2.5 ilitumia ucheshi wa maarifa wa R1, na alama ya V2.5-1210 ni sawa na mfano wa sasa. Je, huu ni mwendelezo wa mafunzo hayo?"

Mwanamtandao huyu ana uwezo wa ajabu wa kutazama! Aliweza kutoa maelezo mengi kutoka kwa ripoti ya kiufundi. Daya Guo pia alielezea kwa uvumilivu mchakato wa kurudia wa mfano:

Daya Guo: "Vigezo vya R1-Zero na R1 vya 660B vilianza tu kukimbia baada ya kutolewa kwa V3, na mafunzo yalichukua kama wiki 2-3. Mfano wa R1 tuliotaja hapo awali (kama vile ripoti ya kiufundi ya V3) kwa kweli ni R1-Lite au R1-Lite-Zero."

Hivyo ndivyo! R1-Zero na R1 tunayoona sasa ni "matoleo mapya na yaliyoboreshwa", na mfululizo wa awali wa R1-Lite ni matoleo madogo. Inaonekana DeepSeek imerudia na kusasisha matoleo mengi nyuma ya pazia kimya kimya

Kuhusu kasi ya mazoezi, watumiaji wa mtandao @jiayi_pirate (Jiayi Pan) na mwanamtandao B @kaush_trip wametuma "mahojiano ya nafsi":

Mtumiaji D @jiayi_pirate: "10,000 RL hatua katika wiki 3, kila hatua ya uenezi wa gradient (grpo) inachukua ~ dakika 3 🤔"

Mtumiaji B @kaush_trip: "Iwapo kila hatua ya uenezi wa gradient (grpo) inachukua ~ dakika 3, hiyo ni takriban hatua 5 kwa saa, hatua 120 kwa siku, ambayo kwa kweli ni polepole sana."

Hii ni hesabu ya kina sana! Kulingana na hesabu ya mtumiaji wa mtandao, kasi ya mafunzo ya DeepSeek R1 hakika si ya haraka. Hii pia inaonyesha kuwa gharama ya mafunzo na uwekezaji wa wakati wa modeli ya utendaji wa juu wa RL ni kubwa. "Kazi ya polepole hutoa kazi nzuri" inaonekana kuwa njia sahihi ya kuelezea mafunzo ya mfano wa AI

Hatimaye, mwanamtandao anayeitwa @davikrehalt (Andy Jiang) aliuliza swali kutoka kwa mtazamo wa kisasa zaidi wa maombi:

Mtumiaji E @davikrehalt: "Umejaribu kutumia RL kufanya uthibitisho rasmi wa mazingira, badala ya kujibu maswali tu? Itakuwa vyema ikiwa mwanamitindo wa chanzo huria angeweza kushinda medali ya dhahabu katika IMO (International Mathematical Olympiad) mwaka huu! (Na matumaini zaidi!)”

Ushahidi rasmi! medali ya dhahabu ya IMO! Huyu mwana mtandao anatamani sana! Walakini, kutumia AI kwenye uwanja mgumu wa uthibitisho wa hesabu kwa kweli ni mwelekeo wa siku zijazo. Jibu la Daya Guo kwa mara nyingine tena linashangaza:

Daya Guo: "Pia tunajaribu kutumia R1 kwa mazingira rasmi ya uthibitisho kama vile Lean. Tunatumai kutoa mifano bora kwa jamii hivi karibuni.

Kutoka kwa maneno ya Daya Guo, inaonekana kwamba tayari wamefanya maendeleo katika eneo hili, na kunaweza kuwa na mifano ya kuvutia zaidi iliyotolewa katika siku zijazo!

Katika kufunga

Ishara tatu muhimu zinaweza kutolewa kutoka kwa majibu ya Daya Guo:

Nafasi ya kiufundi: RL bado iko katika hatua zake za awali, na uboreshaji wa utendakazi uko mbali na kufikia kikomo chake;

Mantiki ya uthibitishaji: uwezo wa jumla wa majaribio ya kikoa tofauti, kukataa "uvumi wa kumbukumbu

Mipaka ya matumizi: kutoka kwa miundo ya lugha hadi uthibitisho wa hisabati, RL inaelekea kwenye hoja za mpangilio wa juu

Machapisho Yanayofanana

Toa Jibu

Barua-pepe haitachapishwa. Fildi za lazima zimetiwa alama ya *