Ufafanuzi wa karatasi wa DeepSeek R1 & vidokezo muhimu vya kiufundi

1 Usuli

Wakati wa tamasha la Spring, DeepSeek R1 kwa mara nyingine tena ilivutia watu wengi, na hata makala ya tafsiri ya DeepSeek V3 tuliyoandika hapo awali pia ilipitishwa tena na kujadiliwa sana.

Ingawa kumekuwa na uchanganuzi na matoleo mengi ya DeepSeek R1, hapa tumeamua kukusanya vidokezo vinavyolingana vya kusoma.

Tutatumia michoro tatu za msingi za michoro ili kuonyesha muundo wa kielelezo na pointi muhimu za kiufundi, tukipunguza kiini cha mfululizo wa DeepSeek-R1 ili kutoa ufahamu angavu zaidi wa mawazo yake ya muundo.

Karatasi inayolingana ni [2501.12948] DeepSeek-R1: Kuhamasisha Uwezo wa Kutoa Sababu katika LLMs kupitia Mafunzo ya Kuimarisha

na modeli inayolingana ya chanzo wazi ni DeepSeek-R1

2 Utangulizi

2.1 Kanuni za kawaida za Kutoa Sababu

Kama inavyoonyeshwa kwenye Mchoro 2 hapa chini, mwandishi anaelezea kanuni nne za kawaida za hoja. Ingawa zinatofautiana katika maelezo maalum, zote zinajumuisha shughuli mbili za msingi:

Upanuzi: toa ishara ili kupanua njia ya suluhisho.
Kujumlisha: unganisha matokeo ya kila njia ili kupata jibu la mwisho. Kuongeza rasilimali za kukokotoa katika awamu ya upanuzi kwa kawaida kunaweza kuboresha ubora wa jibu katika awamu ya kujumlisha.

Kujitegemea (SC). Kama inavyoonyeshwa kwenye Mchoro 2a, wazo kuu la SC ni kutoa matokeo mbalimbali (ambayo yanaweza kupatikana kwa kubadilisha vigezo vya sampuli, n.k.), na kisha kuyapigia kura majibu yote ili kuchagua jibu lenye kiwango cha juu zaidi cha ushindi. Kigezo muhimu ni idadi ya majibu ya mtahiniwa n.

Algorithm ya kuweka upya: Kama inavyoonyeshwa kwenye Mchoro 2b hapa chini, Rebase pia hutoa matokeo mengi, lakini hutolewa kwa hatua nyingi. Kila hatua hupigwa kwa kutumia muundo wa Zawadi, na matokeo yenye alama za juu zaidi hutumiwa kuendelea kuzalisha. Hatimaye, mti wa hoja na matawi mengi hutolewa. Jibu lenye alama za juu zaidi (Bora-ya-N) limechaguliwa katika hatua ya kujumlisha.

Utafutaji wa Miti wa Monte Carlo (MCTS): Kama inavyoonyeshwa kwenye Mchoro 2c hapa chini, MCTS ni kanuni yenye nguvu ya Kutoa Sababu inayopanua nodi kwa kuchukua sampuli polepole na kuunda mti wa myeyusho hadi kufikia kifundo cha majani kilicho na suluhu la mgombea. Kila suluhu hupata alama kupitia kielelezo cha Zawadi au uigaji, na alama huenezwa hadi kwenye nodi za awali ili kusasisha thamani zao za zawadi, hivyo kukamilisha marudio. Kigezo muhimu pia ni n, na kuongeza n inaruhusu uchunguzi wa kina na mpana wa suluhisho zinazowezekana.

Mlolongo wa utambuzi wa ndani (ICoT). Kama inavyoonyeshwa kwenye Kielelezo 2d hapa chini, LLM za hivi punde zaidi, kama vile OpenAI o1 na Qwen-QWQ, zinaweza kuweka tabia ya kufikirika ndani wakati wa mafunzo bila hitaji la kanuni ya hoja iliyo wazi. Wazo la msingi ni kutoa mlolongo wa CoT, kutenganisha matatizo changamano katika matatizo madogo madogo, na kisha kuboresha majibu haya mara kwa mara kwa kutafakari matokeo ya awali ili hatimaye kufikia suluhu.

2.2 Mbinu za upatanishi wa hoja

2.2.1 Muhtasari wa mbinu bora zaidi ya N

Kwa kifupi, Best-of-N ni mbinu ya upatanishi inayotumika sana katika makisio ya LLM, ambayo inalenga kuhakikisha ubora wa juu wa matokeo yanayotolewa kwa kutoa majibu mengi ya watahiniwa na kuchagua moja bora zaidi. Inajumuisha michakato mitatu kuu:

Mchakato wa uundaji: Kwa dodoso fulani la X, mbinu Bora ya-N hutoa majibu ya N IID (Y₁, Y₂, ..., Yₙ), ambapo N mara nyingi hujulikana kama "ukubwa wa kundi".
Utaratibu wa kufunga: Kila jibu linalotolewa huwekwa alama kwa muundo wa zawadi ili kupata alama zinazolingana {s(Y₁), s(Y₂), ..., s(Yₙ)}.
Kuchagua jibu bora zaidi: Hatimaye, jibu lililo na alama za juu zaidi kati ya majibu yote yanayotolewa huchaguliwa kama matokeo, yaani, Y_Best-of-N = argmax {s(Y₁), s(Y₂), …, s(Yₙ)}.

Faida za njia hii ni:

Inaweza kuzuia hatua changamano za kupanga vizuri, na kuifanya iwe rahisi kupeleka miundo ya lugha ambayo imefunzwa awali au iliyosawazishwa vyema kwa maelekezo.
Ni rahisi kutekeleza, rahisi kuelewa, na kimsingi haina hyperparamita: hyperparameta kuu ni N, ambayo inaweza kurekebishwa kwa nguvu wakati wa uelekezaji.
Ina ushindani mkubwa katika suala la ubora wa kizazi na inaweza hata kushindana na baadhi ya mbinu changamano za baada ya mafunzo kama vile RLHF au DPO. Utafiti unaonyesha kuwa mbinu ya Best-of-N hufanya vyema kwenye mkondo wa biashara kati ya zawadi na tofauti ya KL, hata kupita mikakati mingine changamano ya upatanishi.

Hasara za njia hii ni

makisio hayo yanahitaji kuzalisha mfuatano wa N, ambao unaweza kusababisha uendeshaji wa hesabu muhimu. Kiutendaji, thamani ya kuridhisha ya N ni kati ya 4 hadi 128, lakini ili kushindana na mbinu za juu zaidi za baada ya mafunzo, viwango vya juu vya N vinaweza kuhitajika, kama vile 1000 hadi 60000, ambayo inaweza kusababisha uendeshaji wa hesabu usiokubalika.

Mbinu bora zaidi ya N mara nyingi hutumika kutengeneza hifadhidata za ubora wa juu kwa urekebishaji mzuri unaosimamiwa na kuchukua jukumu muhimu katika mchakato wa upatanishi wa LLaMA-2 na LLaMA-3.

2.2.2 Mbinu ya OpenAI bora zaidi ya N

OpenAI kwanza ilipendekeza sampuli bora zaidi ya N katika [2009.01325] Kujifunza kufupisha kutokana na maoni ya binadamu . Hasa, hutumiwa kutathmini na kuboresha utendakazi wa muundo wa muhtasari kwa kuchagua muhtasari bora zaidi unaotolewa kutoka kwa miundo mingi. Mbinu hii huwasaidia watafiti kuelewa vyema uhusiano kati ya vipimo tofauti vya tathmini na mapendeleo ya wakadiriaji wa binadamu, na hutumika kuongoza mafunzo ya kielelezo na uboreshaji.

OpenAI pia hutumia sampuli bora za N (sampuli za kukataliwa) katika ufuatiliaji [2112.09332] WebGPT: Majibu ya maswali yanayosaidiwa na kivinjari na maoni ya kibinadamu. Hasa, idadi isiyobadilika ya majibu (4, 16 au 64) huchukuliwa kutoka kwa modeli ya BC au modeli ya RL, na ile iliyo na alama ya juu zaidi ya mfano wa zawadi huchaguliwa kama mbinu ya uboreshaji ya muundo wa zawadi ya adversarial. Njia hii haihitaji mafunzo ya ziada, lakini huongeza utata wa computational wa hatua ya inference kufikia.

2.2.3 Mbinu ya Google BOND

Katika [2407.14622] BOND: Kulinganisha LLM na Unekeshaji Bora wa-N, waandishi kutoka Google wanapendekeza Unekeshaji Bora wa-N-N (BOND), algoriti mpya ya RLHF iliyoundwa kuiga mkakati wa sampuli Bora kati ya N kupitia algoriti ya Ulinganishaji wa Usambazaji bila kuongeza kwa kiasi kikubwa ukokotoaji wakati wa Makisio.

Hasa, mwandishi kwanza hupata usambazaji kamili wa uchanganuzi wa sampuli Bora-ya-N na anatoa uwezekano wa kukokotoa wa sampuli Bora-za-N:

Pili, waandishi wanaelezea tatizo kama tatizo la kulinganisha usambazaji;

baadaye, waandishi wanapendekeza kutumia tofauti ya Jeffreys kama lengo la kulinganisha la usambazaji:

Hatimaye, ili kutatua tatizo la kuchagua N, waandishi wanapendekeza mbinu ya kujirudia ya BOND, ambayo huboresha utendakazi wa mkakati huo kwa kusambaza tena usambazaji Bora wa-N. Hatua maalum ni pamoja na:

Anzisha mkakati wa Anchor msaidizi π(nanga).

Tekeleza BOND mara kwa mara ili kutengeza π(nanga) Bora zaidi ya N na usasishe π(nanga) baada ya kila hatua.

2.3 Usimamizi wa mchakato na usimamizi wa matokeo

Matokeo na Mchakato hurejelea vipengele viwili vya tathmini ya muundo wa Zawadi:

Mfano wa Zawadi ya Matokeo: Tathmini ikiwa matokeo ya mwisho ya matokeo ya mfano ni sahihi au kama inavyotarajiwa.
Muundo wa Zawadi wa Mchakato: Hutathmini kama hoja za kielelezo na hatua za kufanya maamuzi katika mchakato wa kutoa matokeo ni za kuridhisha na zinazofaa.

Kwa mfano, OpenAI ya Hebu Tuhakikishe Hatua kwa Hatua | OpenAI pia inataja:

Usimamizi wa mchakato (Unasimamiwa na matokeo): unahusisha kutoa maoni kwa kila hatua ya mchakato wa Kutoa Sababu wa modeli. Miundo ya Zawadi inayosimamiwa na Mchakato (PRM) imefunzwa kutabiri usahihi wa kila hatua ya suluhisho.
Kusimamiwa na matokeo: Kusimamiwa kwa matokeo hutoa maoni kulingana na matokeo ya mwisho ya hoja ya modeli. Miundo ya zawadi inayosimamiwa na matokeo (ORM) hufunzwa kwa kutumia jibu la mwisho la suluhu, na usahihi hubainishwa kwa kukagua kiotomatiki.

2.4 Udukuzi wa Tuzo

Katika RL, udukuzi wa zawadi unarejelea hali ambapo wakala hutumia dosari katika muundo wa chaguo la kukokotoa zawadi ili kuzidisha jumla ya zawadi kwa njia ambayo haikidhi nia ya awali ya mbunifu. Ingawa tabia hii kitaalam inakidhi lengo la uboreshaji la utendakazi wa zawadi, athari halisi hutoka kwenye lengo la kazi inayotarajiwa na inaweza hata kusababisha matokeo mabaya.

Uchambuzi wa mambo muhimu:

Ufafanuzi na udhihirisho:
1. Wakala hupata dosari katika utendakazi wa zawadi na hupata zawadi ya juu kwa kuchukua "njia za mkato" badala ya kutatua tatizo.
2. Kwa mfano, roboti ya kusafisha huzima taa ili kufanya chumba "kionekane" safi, badala ya kukisafisha; wakala wa mchezo anarudia kurudia pointi bila kukamilisha lengo la kiwango; kuchagua kutopunguza kasi ili kupunguza idadi ya nyakati za kuvunja, ambayo inaleta hatari ya usalama; kuzalisha maudhui yasiyo na maana yanayolingana na maneno muhimu ili kuhadaa alama za juu.
Sababu za mizizi:
1. Muundo usio kamili wa utendakazi wa zawadi: kurahisisha kupita kiasi au kushindwa kushughulikia kesi za makali.
2. Ulinganishaji usiofaa kati ya malengo na zawadi: kipengele cha zawadi kinashindwa kuonyesha kikamilifu lengo halisi, na kusababisha wakala kuboresha lengo "mbaya".
Ufumbuzi:
1. Boresha muundo wa zawadi: anzisha zawadi za pande nyingi (km usalama, ufanisi, n.k.) au urekebishe kwa utendakazi utendaji wa zawadi.
2. Uthibitishaji wa Adui: tambua kama wakala "anadanganya" kupitia mbinu za ziada.
3. Uingiliaji kati na vikwazo: weka mipaka ya kitabia (km safu ya usalama) au maoni ya mwongozo (km RLHF).
4. Kujifunza kwa uimarishaji kinyume (IRL): jifunze utendakazi wa uhalisia zaidi wa zawadi kutoka kwa maonyesho ya kitaalamu.
5. Kujifunza kwa uimarishaji wa daraja: tenga kazi katika malengo madogo ili kupunguza hatari ya uboreshaji wa ndani.
Uhusiano na overfitting:
1. Zote mbili zinaonyesha muunganisho kati ya vipimo vya mafunzo na utendakazi wa ulimwengu halisi, lakini Udukuzi wa Tuzo huweka mkazo zaidi kwenye dosari za muundo wa utendaji wa zawadi kuliko uwezo wa jumla wa muundo.
Muhtasari:
1. Udukuzi wa Reward unaonyesha changamoto ya kupanga malengo katika RL. Kutatua tatizo hili kunahitaji mseto wa kubuni mbinu thabiti zaidi za zawadi, kuanzisha vikwazo vya nje, na kujumuisha maarifa ya awali ya binadamu ili kuhakikisha kuwa tabia ya wakala ni bora na inalingana na dhamira ya muundo.

3 DeepSeek-R1-Zero & DeepSeek-R1

3.1 Muhtasari

Utafiti uliopita kwa kiasi kikubwa ulitegemea kiasi kikubwa cha data inayosimamiwa ili kuboresha utendakazi wa kielelezo. Utafiti huu unaonyesha kuwa hata bila SFT kama mwanzo baridi, RL ya kiwango kikubwa inaweza kuongeza kwa kiasi kikubwa uwezo wa kufikiri wa mfano. Kwa kuongeza, kuanzishwa kwa kiasi kidogo cha data ya kuanza baridi kunaweza kuboresha zaidi utendaji. Ifuatayo ni mifano inayohusiana na DeepSeek-R1:

DeepSeek-R1-Zero: Muundo huu unatumika RL moja kwa moja kwa muundo wa Msingi bila data yoyote ya SFT.
DeepSeek-R1: Muundo huu unatumika RL kuanzia kituo cha ukaguzi ambacho kimesasishwa kwa maelfu ya sampuli ndefu za CoT.
DeepSeek-R1-Distill-xx: Inaondoa uwezo wa Kutoa Sababu wa DeepSeek-R1 kuwa muundo mdogo Mnene.

3.2 DeepSeek-R1-Zero

Takwimu ifuatayo inaonyesha vidokezo muhimu katika mafunzo ya mfano wa DeepSeek-R1-Zero:

PS: Ikumbukwe kwamba karatasi haitoi habari nyingi juu ya data iliyotumiwa katika mchakato wa RL wa DeepSeek-R1-Zero. Hata hivyo, kuna baadhi ya maelezo ya mchakato wa kuzalisha data na wingi katika mafunzo yaliyofuata ya R1, ingawa si mahususi hasa.

3.2.1 RL algorithm

Ili kupunguza gharama ya mafunzo ya RL, waandishi hutumia mbinu ya GRPO (Group Relative Policy Optimization) ya DeepSeek, [2402.03300] DeepSeekMath: Kusukuma Mipaka ya Kutoa Sababu za Hisabati katika Miundo ya Lugha Huria. Mbinu hii huacha muundo wa Uhakiki, ambao kwa kawaida hulinganishwa kwa ukubwa na muundo wa Sera, na badala yake hukadiria msingi kwa kutumia alama za kikundi. Maelezo yanayolingana yanaonyeshwa kwenye takwimu hapa chini (picha kutoka Twitter):

3.2.2 Muundo wa tuzo

Zawadi ni chanzo cha ishara za mafunzo na kuamua mwelekeo wa uboreshaji wa RL. Ili kutoa mafunzo kwa DeepSeek-R1-Zero, waandishi walitumia mfumo wa malipo unaozingatia sheria, ambao unajumuisha aina mbili za zawadi:

Zawadi ya usahihi: Tathmini ikiwa jibu ni sahihi. Kwa mfano:
- Katika matatizo ya hisabati yenye matokeo ya kubainisha, kielelezo kinahitaji kutoa jibu la mwisho katika umbizo maalum (kama vile ndani ya kisanduku) ili usahihi wake uweze kuthibitishwa kwa uhakika na sheria.
- Vile vile, kwa matatizo ya LeetCode, maoni yanaweza kutolewa kwa kutumia kikusanyaji kulingana na kesi za majaribio zilizobainishwa awali.
Zawadi ya umbizo: Zawadi ya umbizo pia hutumika kulazimisha kielelezo kuweka mchakato wake wa mawazo kati ya “ ” na “ ” vitambulisho.

Wakati wa uundaji wa DeepSeek-R1-Zero, mwandishi hakutumia Mfano wa Tuzo ya Neural ya Outcome au Modeli ya Tuzo ya Neural kwa sababu mwandishi aligundua kuwa Muundo wa Tuzo la Neural unaweza kukutana na upotoshaji wa malipo (Udukuzi wa Tuzo) katika michakato mikubwa ya RL; kwa kuongeza, kufundisha tena Mfano wa Tuzo haihitaji tu rasilimali za ziada za mafunzo, lakini pia huchanganya mchakato mzima wa mafunzo.

3.2.3 Kiolezo cha Mafunzo

Ili kutoa mafunzo kwa DeepSeek-R1-Zero, waandishi walitengeneza kwanza Kiolezo rahisi ili kuongoza muundo wa Msingi kufuata maagizo yaliyowekwa. Kama inavyoonyeshwa katika Jedwali la 1 hapa chini, Kiolezo kinahitaji DeepSeek-R1-Zero kutoa mchakato wa uelekezaji na kisha kutoa jibu la mwisho.

Mwandishi aliweka vikwazo kwa makusudi kwa mfumo huu wa muundo ili kuepuka kuanzisha upendeleo wowote wa maudhui - kwa mfano, kulazimisha hoja tafakari au kukuza mikakati mahususi ya utatuzi wa matatizo - ili kuhakikisha kwamba mageuzi ya asili ya muundo yanaweza kuzingatiwa kwa usahihi wakati wa mchakato wa RL.

3.2.4 Hitimisho

Uwezo thabiti wa kufikiri bila data ya SFT: Kwa kuanzisha RL moja kwa moja kutoka kwa muundo wa Msingi, mwelekeo wa mageuzi wa muundo unaweza kufuatiliwa kwa karibu bila kuingiliwa na SFT. Kama Kielelezo 3 hapa chini kinavyoonyesha, muda wa kufikiri wa DeepSeek-R1-Zero uliendelea kuboreka (urefu wa ukuaji polepole ukawa mrefu) katika mchakato mzima wa mafunzo. Uboreshaji huu haukuja kutokana na marekebisho ya nje, lakini ilikuwa matokeo ya asili ya maendeleo ya ndani ya mfano. DeepSeek-R1-Zero kwa kawaida ilipata uwezo wa kutatua kazi zinazozidi kuwa ngumu za uelekezaji, kama vile uwezo wa kutafakari, kwa kutumia mahesabu ya muda wa jaribio uliopanuliwa.

DeepSeek-R1-Zero ilipitia "wakati wa aha" wakati wa mafunzo. Kama inavyoonyeshwa katika Jedwali la 3 hapa chini, wakati huu ulifanyika wakati wa hatua ya toleo la kati la modeli. Katika hatua hii, DeepSeek-R1-Zero ilijifunza kutenga muda zaidi wa kufikiri kwa matatizo kwa kutathmini upya mbinu yake ya awali.

Wapiga kura wengi: Utendaji wa DeepSeek-R1-Zero unaweza kuboreshwa zaidi kwa kutumia kura nyingi. Kwa mfano, kama inavyoonyeshwa katika Jedwali 2 hapa chini, baada ya upigaji kura wengi kutumika katika kipimo cha alama cha AIME, utendaji wake unaruka kutoka 71.0% hadi 86.7%, na kupita OpenAI-o1-0912.

Udhaifu: Ingawa DeepSeek-R1-Zero inaonyesha uwezo dhabiti wa Kutoa Sababu na hukuza kwa uhuru tabia zisizotarajiwa na zenye nguvu za Kutoa Sababu, bado inakabiliwa na changamoto kama vile kutoweza kusoma vizuri na kuchanganya lugha.

3.3 DeepSeek-R1

Ili kufanya mchakato wa Kutoa Sababu usomeke zaidi na kuishiriki na jumuiya iliyo wazi, waandishi huchunguza zaidi mbinu ya DeepSeek-R1, ambayo hutumia data ya kuanza-baridi ya kibinadamu ya RL. Imehamasishwa na DeepSeek-R1-Zero, maswali mawili ya asili yanafuata:

Je, utendakazi wa Kutoa Sababu unaweza kuboreshwa zaidi au mchakato wa muunganisho uharakishwe kwa kutambulisha kiasi kidogo cha data ya ubora wa juu kama mwanzo mzuri?
Je, tunawezaje kutoa mafunzo kwa kielelezo kinachofaa mtumiaji ambacho sio tu kinazalisha CoTs wazi na thabiti, lakini pia kuonyesha uwezo dhabiti wa ujanibishaji?

Kwa kujibu maswali haya, tulitengeneza mchakato wa mafunzo kwa DeepSeek-R1. Mchakato huo una hatua nyingi, kama ilivyoelezwa hapa chini:

Hatua ya 1, kama inavyoonyeshwa kwenye takwimu hapa chini, inafunza hali ya kati ya DeepSeek-R1 kupitia SFT + RL:

Kielelezo kifuatacho kinaonyesha Hatua-2, 3, na 4:

Hatua ya 2: juu kushoto, tengeneza data ya 200K isiyo ya Kutoa Sababu na data ya 600K ya Kutoa Sababu.
Hatua ya 3: juu kulia, SFT + RL treni DeepSeek-R1.
Hatua ya 4: kielelezo cha chini, Distill DeepSeek-R1-Distill-xx.

3.3.1 Mwanzo Baridi (Hatua-1)

Tofauti na DeepSeek-R1-Zero, ili kuzuia awamu ya Kuanza Baridi isiyo imara ya modeli ya Msingi mwanzoni mwa mafunzo ya RL, waandishi walijenga na kukusanya kiasi kidogo cha data ya Long CoT kwa DeepSeek-R1 ili kurekebisha muundo kama Muigizaji wa awali wa RL. Ili kukusanya data hii, waandishi waligundua mbinu mbalimbali:

Kwa kutumia vidokezo vichache na mifano ya Long CoT
Kuhimiza mtindo moja kwa moja kutoa majibu ya kina kwa kutafakari na uthibitishaji
Inakusanya pato la DeepSeek-R1-Zero katika umbizo linaloweza kusomeka na binadamu
Kuboresha matokeo kupitia kuchakata baada ya kuchakata kwa kuweka lebo kwa mikono

Waandishi walikusanya jumla ya maelfu ya data ya Cold Start, ambayo ilitumika kusawazisha DeepSeek-V3-Base kama mahali pa kuanzia kwa RL. Ikilinganishwa na DeepSeek-R1-Zero, faida za data ya Cold Start ni pamoja na

Uwezo wa kusomeka: Majibu ya DeepSeek-R1-Sifuri yanaweza kuchanganywa katika lugha nyingi au kukosa umbizo la Markdown linalotumika kuangazia majibu ya mtumiaji. Kinyume chake, wakati wa kuunda data ya Cold Start ya DeepSeek-R1, mwandishi alitengeneza umbizo linalosomeka ambalo linajumuisha muhtasari mwishoni mwa kila Majibu na kuchuja Majibu yasiyoweza kusomeka. Hapa, umbizo la towe linafafanuliwa kama |special_token| |ishara_maalum|
, ambapo reasoning_process ni fikra iliyofungwa ya Hoja na muhtasari hutumika kufupisha matokeo ya hoja.
Uwezekano: Kwa kubuni kwa makini mchanganyiko wa mifumo ya data ya Anza Baridi ya kibinadamu, waandishi waliona kuwa utendakazi wake ni bora kuliko DeepSeek-R1-Zero.

3.3.2 RL inayoendeshwa na Hoja (Hatua-1)

Baada ya kurekebisha vizuri DeepSeek-V3-Base kwenye data ya Anza Baridi, mchakato wa mafunzo ya RL wa kiwango kikubwa sawa na DeepSeek-R1-Zero hutumiwa. Hatua hii inalenga kuboresha uwezo wa modeli katika kazi zinazohitaji sana Kutoa Sababu, hasa kwenye upangaji programu, hisabati, sayansi na matatizo ya kufikiri kimantiki yenye masuluhisho yaliyo wazi.

Wakati wa mafunzo, waandishi waliona kuwa CoT mara nyingi ilikumbwa na uchanganyaji wa lugha, haswa wakati kidokezo cha RL kilihusisha lugha nyingi. Ili kupunguza tatizo la kuchanganya lugha, waandishi walianzisha malipo ya uwiano wa lugha katika mafunzo ya RL, ambayo hukokotolewa kulingana na uwiano wa maneno katika lugha lengwa katika CoT. Ingawa majaribio ya uondoaji yanaonyesha kuwa mbinu hii ya upatanishi husababisha kupungua kidogo kwa utendakazi wa kielelezo, utaratibu huu wa malipo unalingana na mapendeleo ya binadamu na huongeza usomaji. Hatimaye, waandishi huongeza moja kwa moja usahihi wa kazi ya Kutoa Sababu kwenye zawadi ya uthabiti wa lugha ili kuunda thawabu ya mwisho, na kutekeleza mafunzo ya RL juu ya muundo uliosanifiwa vyema hadi itakapoungana kwenye kazi ya Kutoa Sababu.

3.3.3 Ujenzi wa data 800,000 zilizochaguliwa (Hatua-2)

Wakati RL ya Kutoa Sababu inapokutana, data ya SFT inakusanywa kwa kutumia sehemu ya ukaguzi inayopatikana kwa awamu inayofuata ya mafunzo. Tofauti na data ya awali ya Anza Baridi, ambayo inalenga zaidi Kutoa Sababu, hatua hii hujumuisha data kutoka kwa vikoa vingine ili kuimarisha uwezo wa modeli katika uandishi, uigizaji dhima na kazi zingine za madhumuni ya jumla. Hasa, data inatolewa na modeli imesasishwa kama ifuatavyo:

Data ya Kutoa Sababu: Vidokezo vya Kutoa Sababu huchaguliwa na Njia za Kutoa Sababu hutolewa kwa kutekeleza sampuli za kukataliwa kutoka kwa Kituo cha Ukaguzi kilichopewa mafunzo cha RL (DeepSeek-R1 Hatua ya 1). Katika hatua ya awali, ni data tu ambayo inaweza kutathminiwa kwa kutumia zawadi kulingana na sheria ilijumuishwa. Hata hivyo, katika hatua hii, mkusanyiko wa data ulipanuliwa kwa kujumuisha data zaidi, ambayo baadhi ilitolewa kwa kutumia mfano wa zawadi, na majibu halisi yalihukumiwa kwa kulisha utabiri wa kielelezo kuwa DeepSeek-V3 (DeepSeek V3 kama Jaji). Kwa kuongeza, kwa sababu pato la mfano wakati mwingine linachanganya na ni vigumu kusoma, minyororo ya mawazo ya lugha mchanganyiko, aya ndefu, na vizuizi vya msimbo vilichujwa. Kwa kila kidokezo, majibu mengi yalitolewa sampuli na yale sahihi pekee (Best-of-N) ndiyo yalibaki. Kwa jumla, takriban sampuli 600,000 za mafunzo zinazohusiana na hoja zilikusanywa.
Data Isiyo ya Kutoa Sababu: kama vile kuandika, maswali ya ukweli, kujitambua, na tafsiri, ilitumia mchakato wa DeepSeek-V3 na ikatumia tena baadhi ya seti za data za DeepSeek-V3 za SFT. Kwa baadhi ya kazi zisizo za Kutoa Sababu, DeepSeek-V3 inaitwa kuzalisha CoTs zinazowezekana kabla ya kujibu swali. Hata hivyo, kwa maswali rahisi kama vile "Hujambo", hakuna msururu wa mawazo unaotolewa katika Majibu. Mwishoni, jumla ya sampuli 200,000 za mafunzo zisizo za Kutoa Sababu zilikusanywa.

3.3.4 SFT & RL kwa matukio yote (Hatua-3)

Raundi mbili za urekebishaji mzuri jumla ya sampuli 800,000 zilizochaguliwa zilifanywa kwenye DeepSeek-V3-Base kwa kutumia seti mbili za data zilizotajwa hapo juu (Kutoa Sababu na Kutotoa Sababu).

Ili kuoanisha zaidi modeli na matakwa ya binadamu, waandishi walitekeleza awamu ya pili ya RL, ambayo inalenga kuboresha manufaa na kutokuwa na madhara kwa mtindo huo huku pia ikiboresha uwezo wake wa Kutoa Sababu. Hasa, modeli hiyo ilifunzwa kwa mchanganyiko wa ishara za malipo na ugawaji tofauti wa haraka.

Kwa data ya Kuangazia, mbinu iliyofafanuliwa katika DeepSeek-R1-Zero inafuatwa, kwa kutumia utaratibu wa malipo unaozingatia kanuni ili kuongoza ujifunzaji wa modeli katika nyanja za hisabati, upangaji programu na hoja zenye mantiki.
Kwa data ya jumla, mfano wa Zawadi hutumiwa kunasa mapendeleo ya binadamu katika hali ngumu na ndogo. Mkakati sawa wa jozi za upendeleo na usambazaji wa haraka wa mafunzo hutumiwa kulingana na mchakato wa DeepSeek-V3.
Kwa upande wa manufaa, ni muhtasari wa mwisho pekee unaozingatiwa, kuhakikisha kwamba tathmini inazingatia utendakazi na umuhimu wa Majibu kwa mtumiaji huku ikipunguza kuingiliwa kwa mchakato wa kimsingi wa Kutoa Sababu.
Kuhusu kutokuwa na madhara, Majibu yote ya muundo huo yanatathminiwa kwa kina, ikijumuisha mchakato wa Kutoa Sababu na muhtasari, ili kutambua na kuondoa hatari zozote zinazoweza kutokea, upendeleo au maudhui hatari ambayo yanaweza kutokea wakati wa mchakato wa kuzalisha.
Hatimaye, kwa kuunganisha ishara za zawadi na usambazaji wa data mseto, muundo unaotanguliza manufaa na kutokuwa na madhara huku pia ukifanya vyema katika Kutoa Sababu unaweza kufunzwa.

3.3.5 kunereka (Hatua ya-4)

Ili kuandaa modeli ndogo yenye ufanisi zaidi yenye uwezo wa kufikiri wa DeepSeek-R1, waandishi walirekebisha moja kwa moja modeli za chanzo huria za Qwen na LLaMA kwa kutumia sampuli 800,000 zilizochaguliwa katika DeepSeek-R1-Stage-1. Matokeo yanaonyesha kuwa njia hii ya kunereka moja kwa moja inaboresha kwa kiasi kikubwa uwezo wa kufikiri wa mifano ndogo. Mifano ya msingi iliyotumiwa na waandishi ni pamoja na Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, Qwen2.5-14B, Qwen2.5-32B, Llama-3.1-8B na Llama-3.3-70B-Instruct. Llama-3.3 ilichaguliwa kwa sababu uwezo wake wa kufikiri ni bora kidogo kuliko Llama-3.1.

Kwa mfano wa kunereka, mwandishi hutumia SFT pekee na haijumuishi hatua ya RL. Ingawa kuanzishwa kwa RL kunaweza kuboresha sana utendaji wa modeli, kusudi kuu la mwandishi hapa ni kuonyesha ufanisi wa teknolojia ya kunereka, na uchunguzi wa hatua ya RL unaachwa kwa utafiti unaofuata.

PS: Kwa kuongeza, ni kweli inawezekana kutumia DeepSeek-R1 ya mwisho ili kuzalisha data hapo juu na kuunda upya data 800,000 iliyotumiwa kwa kunereka, na mfano wa distilled unaweza kuwa na athari bora; hata hivyo, bei ni kwamba data inahitaji kujengwa upya.

Ufafanuzi wa karatasi wa DeepSeek R1 & pointi muhimu za kiufundi

1 Usuli