Siri ya DeepSeek 1 | DeepSeekMath na maelezo ya GRPO

Leo ningependa kushiriki makala kutoka DeepSeek, yenye mada DeepSeekMath: Kusukuma Mipaka ya Kutoa Sababu za Hisabati katika Miundo ya Lugha Huria.

Makala haya yanatanguliza DeepSeekMath 7B, ambayo imefunzwa mapema kwenye DeepSeek-Coder-Base-v1.5 7B kulingana na mkusanyiko wa 120B tokeni zinazohusiana na hesabu, lugha asilia na data ya msimbo.

Muundo huu ulipata alama ya kushangaza ya 51.7% katika viwango vya ushindani vya MATH bila kutegemea zana za nje na mbinu za kupiga kura, ikikaribia kiwango cha utendaji cha Gemini-Ultra na GPT-4.

Uwezo wa kufikiri wa kihisabati wa DeepSeekMath 7B unahusishwa na mambo mawili muhimu: Kwanza, kupitia bomba la uteuzi wa data iliyoundwa kwa uangalifu, data ya ubora wa juu inayohusiana na hisabati inachimbwa mara kwa mara kutoka kwa data inayopatikana kwa umma.

Pili, uboreshaji wa sera ya jamaa wa kikundi (GRPO) ni iliyoanzishwa, ambayo ni lahaja ya uboreshaji wa sera ya karibu (PPO) ambayo inaweza kuongeza uwezo wa kufikiri wa kihisabati huku ikiboresha utumiaji wa kumbukumbu ya PPO.

Vipengele vya mbinu vimefupishwa kama ifuatavyo:Seti ya mafunzo ya awali ya kihisabati yenye ubora wa juu ilijengwa, na bomba lililoundwa kwa uangalifu lilitumiwa kuchimba data ya hesabu ya ubora wa juu kutoka kwa Common Crawl.
Algorithm ya GRPO ilipendekezwa, ambayo inapunguza rasilimali zinazohitajika kwa mafunzo na kuboresha uwezo wa kufikiri wa hisabati wa mfano. 3) Utendaji wa hali ya juu ilikuwa kufikiwa katika vipimo vingi vya ulinganifu wa kihisabati.

Muhtasari

Kichwa: DeepSeekMath: Kusukuma Mipaka ya Hoja za Hisabati katika Miundo ya Lugha Huria

URL: bonyeza hapa

Waandishi: Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Wimbo wa Junxiao, Xiao Bi, Haowei Zhang, Mingchuan Zhang, YK Li, Y. Wu, Daya Guo

Msimbo: bonyeza hapa

Kuhamasisha

Mawazo ya kihisabati huleta changamoto kubwa kwa miundo ya lugha kutokana na uchangamano na asili ya muundo wa hisabati. Miundo ya hali ya juu zaidi, kama vile GPT-4 na Gemini-Ultra, ina nguvu lakini haipatikani kwa umma. Kwa hiyo, kuna nafasi kubwa ya kuboresha utendaji wa mifano ya chanzo wazi.

Ugumu na muundo: Mawazo ya kihisabati huleta changamoto kubwa kwa miundo ya lugha kutokana na uchangamano na asili ya muundo wa hisabati.

Uwezo wa data ya umma: Data ya wavuti inayopatikana hadharani inaweza kuwa na maelezo tele ya hisabati ambayo bado hayajachimbwa na kutumiwa.

Mbinu

Mkusanyiko wa data: Jumla ya DeepSeekMath ya tokeni 120B iliundwa kwa kukusanya data ya mtandao inayohusiana na hesabu ya ubora wa juu kutoka Common Crawl kupitia bomba la kurudia.

Mafunzo ya mfano: Mchanganyiko ulitumika kwa mafunzo ya awali juu ya DeepSeek-Coder-Base-v1.5 7B, na urekebishaji mzuri wa maagizo ya hisabati na uboreshaji wa sera ya kikundi (GRPO) ilitumiwa.

Algorithm ya GRPO: GRPO ni kanuni ya uimarishaji iliyoboreshwa ambayo huondoa muundo wa Uhakiki katika PPO na kukadiria msingi kutoka kwa alama za kikundi, na hivyo kupunguza kwa kiasi kikubwa rasilimali za mafunzo.

Mbinu na taratibu za kina:

Ukusanyaji na usindikaji wa data:

Jenga Corpus ya DeepSeekMath: Kutumia kiainishaji cha msingi wa maandishi haraka, toa tokeni 120B zinazohusiana na hesabu kutoka Common Crawl ili kujenga kundi kubwa, la ubora wa juu lililofunzwa awali, DeepSeekMath Corpus.

Uchujaji wa data unaorudiwa: Mkakati wa kurudia hutumiwa, kutumia OpenWebMath kama data ya mbegu kutoa mafunzo kwa kiainishaji cha awali, na kisha kutumia kiainishaji hiki kuchimba mifano chanya zaidi. kutoka kwa Common Crawl, ambazo zimefafanuliwa mwenyewe ili kuboresha utendaji wa kiainishaji kila mara.

Vipengele vya lugha nyingi: DeepSeekMath Corpus ina data ya lugha nyingi, ambayo huboresha utendaji wa modeli kwenye viwango vya hesabu vya Kichina.

Usindikaji wa uchafuzi wa mazingira: De-usindikaji wa uchafuzi unafanywa kwenye data ya mafunzo ili kuzuia mwingiliano na kipimo cha majaribio.

Mafunzo ya awali:

Uanzishaji wa modeli kulingana na msimbo: Uanzishaji kwa kutumia DeepSeek-Coder-Base-v1.5 7B mfano ulionekana kuwa mzuri zaidi kuliko uanzishaji kutoka kwa LLM ya jumla.

Maandalizi ya muundo wa data: 56% DeepSeekMath Corpus, 4% AlgebraicStack, 10% arXiv, 20% Msimbo wa Github, 10% Data ya kawaida ya Tambaza lugha asilia.

Vigezo vya maandalizi: Kiboreshaji cha AdamW kinatumika, kwa kiwango cha kujifunza cha 4.2e-4, saizi ya bechi ya tokeni 10M, na mafunzo ya tokeni 500B.

Urekebishaji wa maagizo:

Tengeneza mpangilio mzuri wa data wa maagizo: Unda mpangilio mzuri wa data wa maagizo ya hisabati iliyo na Sampuli 776K, inayoshughulikia nyanja mbalimbali za hisabati na viwango vya ugumu, ikijumuisha CoT, PoT, na umbizo la maelekezo lililounganishwa na zana kwa ajili ya kusuluhisha hatua.

Vigezo vya mafunzo: Ukubwa wa kundi 256, kiwango cha kujifunza 5e-5, treni kwa hatua 500.

Mafunzo ya kuimarisha - Uboreshaji wa Sera ya Kikundi (GRPO):

Pendekeza algorithm ya GRPO: Pendekeza a PPO lahaja ya algorithm GRPO, ambayo inaepuka hitaji la kielelezo cha Mhakiki kwa kutumia alama za kikundi kukadiria msingi, na hivyo kupunguza rasilimali za mafunzo..

Utendaji wa lengo: GRPO huboresha muundo wa sera kwa kuongeza utendakazi wa lengo ambao inazingatia faida ya jamaa ya matokeo ya kikundi na inaongeza moja kwa moja tofauti ya KL kama neno la kuhalalisha..

Mahesabu ya faida: GRPO hukokotoa faida kupitia thawabu za jamaa za ndani ya kikundi, kuzuia ulinganisho wa vikundi tofauti na kufuata vyema asili ya kulinganisha ya mfano wa zawadi..

Inasaidia ufuatiliaji wa matokeo na mchakato: GRPO inaweza kusaidia ufuatiliaji wa matokeo na mchakato, na kufuatilia sera kwa ufanisi zaidi kwa kutoa zawadi mwishoni mwa kila hatua ya makisio.

Iterative RL: Hutumia a mkakati wa kurudia RL kuunda seti mpya ya mafunzo kulingana na matokeo ya sampuli ya muundo wa sera, kuendelea kutoa mafunzo kwa muundo wa zamani wa zawadi, na kutumia muundo mpya wa zawadi kusasisha muundo wa sera.

Data ya mafunzo: Hutumia matatizo ya umbizo la CoT kuhusiana na GSM8K na MATH katika data ya SFT, kuhusu matatizo 144K.

Vigezo vya mafunzo: Kiwango cha ujifunzaji cha muundo wa sera ni 1e-6, mgawo wa KL ni 0.04, matokeo 64 huchukuliwa kwa kila tatizo, urefu wa juu zaidi ni 1024, na ukubwa wa bechi ya mafunzo ni 1024.

Hitimisho

Hitimisho 1:DeepSeekMath 7B hufanya vyema zaidi miundo ya vyanzo huria katika uwezo wa kufikiri wa kihisabati. Katika jaribio la ushindani la benchmark la MATH, DeepSeekMath 7B ilipata usahihi wa 51.7%, ambayo iko karibu na kiwango cha utendaji cha Gemini-Ultra na GPT-4.

Hitimisho 2:Data iliyoundwa vizuri ya mafunzo ya awali na algoriti za GRPO ni ufunguo wa mafanikio ya kielelezo. Mchanganyiko wa hisabati ya ubora wa juu na algoriti za GRPO huwezesha kielelezo kupata mafanikio makubwa ya utendaji katika kazi za kufikiri za kihisabati.

Hitimisho 3:Mafunzo ya kanuni husaidia kuboresha uwezo wa kufikiri wa kihisabati. Kuongeza data ya msimbo kwenye hatua ya mafunzo ya awali kunaweza kuboresha uwezo wa modeli wa kutatua matatizo ya hisabati, kwa kutumia na bila zana.

Hitimisho 4: Umuhimu mdogo wa data ya arXiv: Kinyume na imani za hapo awali, data ya arXiv ilionekana kuwa na msaada mdogo katika kuboresha mawazo ya kihisabati.

Kizuizi

Jiometri na uwezo wa uthibitisho ni dhaifu: Ingawa DeepSeekMath hufaulu katika hoja za kiasi, uwezo wake katika jiometri na uthibitisho bado ni duni kuliko miundo ya chanzo funge. Hii inaweza kuwa kutokana na uteuzi wa data ulioegemea upande wowote katika hatua za utayarishaji na urekebishaji mzuri.

Udhaifu katika uwezo mdogo wa sampuli: DeepSeekMath ni duni kwa GPT-4 kwa suala la sampuli ndogo ya kujifunza, ambayo inaweza kuwa kutokana na kizuizi cha ukubwa wa mfano.

Njia bora zaidi za uimarishaji wa mafunzo zinahitajika: Ingawa mbinu za uimarishaji za ujifunzaji zilizopendekezwa kwenye karatasi ni nzuri, bado kuna nafasi ya kuboreshwa, kwa mfano, jinsi ya kutumia vyema maoni kutoka kwa muundo wa zawadi na jinsi ya kukabiliana na ishara za zawadi zenye kelele.

Maelezo

Uchunguzaji na Uchambuzi wa Mafunzo ya Kuimarisha

Muhtasari:

Utangulizi wa Uboreshaji wa Sera ya Kikundi (GRPO): Karatasi inapendekeza kanuni mpya ya uimarishaji ya kujifunza, GRPO, kama kibadala cha Uboreshaji wa Sera ya Karibuni (PPO). Sifa kuu ya GRPO ni kwamba huacha muundo wa Uhakiki unaotumiwa sana katika PPO na kukadiria msingi kupitia alama za kikundi, na hivyo kupunguza kwa kiasi kikubwa rasilimali za hesabu zinazohitajika kwa mafunzo.

Onyesho la ufanisi la GRPO: Karatasi inaonyesha kwa majaribio kuwa GRPO inaweza kuboresha ipasavyo utendakazi wa miundo ya kupanga vizuri amri, ikijumuisha kazi za hisabati za ndani na nje ya kikoa..

Mfumo wa umoja wa mbinu za ujifunzaji za kuimarisha: Karatasi inapendekeza mfumo wa umoja wa kuelewa mbinu tofauti za uimarishaji wa kujifunza, kama vile Urekebishaji wa Sampuli za Kukataliwa (RFT), Uboreshaji wa Upendeleo wa Moja kwa Moja (DPO), PPO na GRPO. Mfumo huo unachukulia mbinu hizi kama mbinu za uimarishaji za moja kwa moja au zilizorahisishwa.

Uchunguzi wa kina wa vipengele vya mafunzo ya kuimarisha: Karatasi inachunguza kwa kina vipengele muhimu vya ujifunzaji wa kuimarisha, kama vile mafunzo ya mtandaoni na mafunzo ya nje ya mtandao, usimamizi wa matokeo na usimamizi wa mchakato, mafunzo ya uimarishaji wa awamu moja na mafunzo ya kuimarisha mara kwa mara., kupitia majaribio ya kina, na muhtasari wa maelekezo yanayowezekana ya kuboresha ufanisi wa ujifunzaji wa kuimarisha.

Kanuni za GRPO (Uboreshaji wa Sera ya Kikundi).

Mapungufu ya PPO: PPO ni algoriti ya kawaida ya ujifunzaji wa kuimarisha, lakini inahitaji mafunzo ziada Mkosoaji mfano kukadiria kipengele cha kukokotoa thamani, ambacho kinalazimisha mzigo wa ziada wa hesabu na kumbukumbu. Kwa kuongeza, katika hali ya LLM, Mafunzo ya kielelezo cha wakosoaji yanaweza kuwa magumu kwa sababu yanahitaji kutathminiwa matokeo ya kila ishara.

Wazo la msingi la GRPO: Wazo la msingi la GRPO ni acha kielelezo cha Uhakiki na badala yake utumie alama ya wastani ya seti ya matokeo kwa tatizo sawa na msingi. Msingi huu unaweza kutumika kukadiria utendakazi wa faida na uboreshaji wa sera. Njia hii inapunguza kwa kiasi kikubwa ugumu wa mafunzo.

Uhesabuji wa kazi ya faida: GRPO hukokotoa kitendakazi cha faida kwa kuhesabu kiwango cha jamaa cha kila pato katika seti sawa ya matokeo, badala ya kutegemea utendaji tofauti wa thamani. kama katika PPO.

Adhabu ya tofauti ya KL: GRPO haiongezi adhabu ya tofauti ya KL kwenye zawadi kama vile PPO, lakini badala yake huongeza tofauti ya KL kati ya muundo wa sera na muundo wa marejeleo moja kwa moja kwenye chaguo la kukokotoa la kupoteza. Hii inaepuka hesabu changamano ya utendakazi wa faida.

Wazo la msingi la GRPO

hauhitaji Mkosoaji (tendakazi ya thamani): GRPO huepuka hitaji la kitendakazi cha thamani na hutumia alama ya ndani ya kikundi kukadiria msingi, na hivyo kupunguza rasilimali za mafunzo.

Faida ya jamaa ya ndani ya kikundi: Kwa kila tatizo q, GRPO hutoa sampuli za seti ya matokeo {o(1), o(2), …, o(G)} kutoka kwa sera ya zamani π(θold) na kisha kuboresha muundo wa sera kwa kuongeza mlinganyo ufuatao kama chaguo la kukokotoa la lengo.

Hasa:

Ufunguo hapa ni Â(i,t), ambayo inawakilisha faida na inakokotolewa na malipo ya jamaa ya pato la ndani ya kikundi, badala ya kutegemea kitendakazi tofauti cha thamani kama ilivyo katika PPO.

Kazi ya lengo pia huongeza moja kwa moja Tofauti ya KL kama neno la kuratibisha kudhibiti ukubwa wa masasisho ya sera

na ulinganishe na asili ya kulinganisha ya mfano wa zawadi: GRPO hutumia zawadi ya ndani ya kikundi kukokotoa faida, ambayo inalingana zaidi na asili ya muundo wa zawadi, ambao kwa kawaida hufunzwa kulingana na ulinganisho wa jozi.

Je, mtindo wa Zawadi wa GRPO unawezaje kuundwa (rejelea DeepSeek R1)?

Vipengele:

zawadi ya umbizo: inalazimisha kizazi cha muda mrefu kitanda matokeo, ambayo yanaweza kusukuma modeli kutoa michakato ya uelekezaji na kuboresha athari ya uelekezaji wa modeli.

malipo ya usahihi: hisabati inaweza kutumia matokeo ya mwisho, na msimbo unaweza kutumia maoni ya mkusanyaji.

Faida za GRPO

Alama ndogo ya kumbukumbu: hakuna mfano wa Mkosoaji unaohitajika, kupunguza mahitaji ya kumbukumbu.

Mafunzo yenye ufanisi zaidi: hesabu kwa kutumia faida ya jamaa ya ndani ya kikundi hurahisisha mchakato wa mafunzo.

Inalingana zaidi na asili ya mifano ya zawadi: inaboresha utulivu na ufanisi wa mafunzo.

Muhtasari wa Paradigm Iliyounganishwa ya RL

Paradigm Iliyounganishwa Imependekezwa

Waandishi wanapendekeza dhana iliyounganishwa ili kuelewa mbinu tofauti za mafunzo kama vile SFT (Urekebishaji Uzuri Unaosimamiwa), RFT (Urekebishaji wa Sampuli ya Kukataliwa), DPO (Uboreshaji wa Upendeleo wa Moja kwa Moja), PPO, GRPO, n.k. Vipengele muhimu vya RL: Vipengele muhimu vya mfumo uliounganishwa ni pamoja na: vyanzo vya data, utendaji wa zawadi na algoriti.

Chanzo cha data: Hii inarejelea data inayotumika kwa mafunzo, ambayo inaweza kutolewa kutoka kwa uwekaji lebo mwenyewe, miundo ya SFT, au miundo ya sera ya wakati halisi.
Utendaji wa zawadi: Hii inarejelea kazi inayotumiwa kutathmini ubora wa matokeo, ambayo inaweza kuwa kanuni au modeli.
Algorithm: Hii inarejelea mbinu inayotumika kuchakata data na mawimbi ya zawadi na kusasisha vigezo vya muundo.

Uchambuzi wa mbinu tofauti kulingana na dhana ya umoja

Jedwali la 10 linatoa muhtasari wa mfanano na tofauti kati ya SFT, RFT, DPO, RFT Mtandaoni, PPO na GRPO kulingana na vyanzo vya data, utendakazi wa malipo na vigawo vya gradient.

Mbinu	Data ya mafunzo	Kazi ya malipo	Mgawo wa gradient	Mbinu ya mafunzo	Faida/sifa	Matukio yanayotumika
SFT	Data ya SFT iliyo na lebo mwenyewe	Umechagua mwenyewe (zawadi kamili)	Imewekwa kwa 1	Mafunzo yaliyosimamiwa	Rahisi na thabiti, inategemea data yenye lebo ya ubora wa juu	Mafunzo ya msingi ya mfano, kazi ya upatanishi wa awali
RFT	Tatizo la mkusanyiko wa data wa SFT + Pato la mfano wa SFT	Kulingana na usahihi wa jibu (hukumu ya sheria)	0 (sio sahihi) au 1 (sahihi)	Uboreshaji wa sera ya nje ya mtandao	Hesabu ya ufanisi, matumizi ya moja kwa moja ya maoni ya sheria	Kazi za hisabati/kimantiki zenye sheria zilizo wazi
DPO	Tatizo la mkusanyiko wa data wa SFT + pato la mfano kwa	Uwekaji lebo au ulinganisho wa kanuni za upendeleo wa binadamu	Kulingana na hesabu ya uwezekano wa mapendeleo (kwa mfano, muundo wa Bradley-Terry)	Kujifunza kulinganisha	Huepuka uundaji dhahiri wa zawadi, kuboresha mapendeleo moja kwa moja	Kazi za upatanishi wa upendeleo wa kibinadamu (kwa mfano, kuunda mazungumzo)
RFT ya mtandaoni	Sampuli ya modeli ya sera ya wakati halisi jozi za pato la shida	Kulingana na usahihi wa jibu (hukumu ya sheria)	0 (sio sahihi) au 1 (sahihi)	Uboreshaji wa sera mtandaoni	Husasisha sera kwa nguvu kwa uboreshaji wa maoni katika wakati halisi	Matukio ambayo yanahitaji mwingiliano wa mtandaoni (km, mchezo wa AI)
PPO	Tatizo la mkusanyiko wa data wa SFT + pato la sampuli za modeli	Mfano wa tuzo (RM) umefunzwa	Chaguo za kutawala (kulingana na makadirio ya zawadi)	Mbinu ya gradient ya sera	Ufanisi na thabiti, inasaidia uboreshaji wa hatua nyingi	Kazi ngumu (kwa mfano, utengenezaji wa maandishi, udhibiti wa roboti)
GRPO	Tatizo la mkusanyiko wa data wa SFT + pato la sampuli za muundo wa sera	Mfano wa tuzo (RM) umefunzwa	Zawadi ya jamaa ya ndani ya kikundi (ulinganisho wa kawaida)	Uboreshaji wa sera ya kikundi	Punguza tofauti za zawadi na uboresha ulinganisho wa ndani ya kikundi	Majukumu yaliyo na tofauti kubwa (km kuunda maandishi marefu)

Uchunguzi juu ya vyanzo vya data

Mafunzo ya mtandaoni dhidi ya nje ya mtandao: Mafunzo ya mtandaoni yanarejelea kutumia matokeo ya modeli ya sera ya wakati halisi kama data ya mafunzo, huku mafunzo ya nje ya mtandao yanarejelea kutumia matokeo ya muundo maalum (kama vile muundo wa SFT) kama data ya mafunzo. Matokeo ya majaribio yanaonyesha hivyo mafunzo ya mtandaoni kwa ujumla ni bora kuliko mafunzo ya nje ya mtandao.

Usimamizi wa matokeo dhidi ya usimamizi wa mchakato: Usimamizi wa matokeo unarejelea tu kuthawabisha hatua ya mwisho ya matokeo, wakati usimamizi wa mchakato unarejelea kuthawabisha kila hatua ya mchakato wa hoja. Matokeo ya majaribio yanaonyesha hivyo usimamizi wa mchakato ni bora zaidi katika kazi ngumu.

Kipindi kimoja dhidi ya mafunzo ya kuimarisha mara kwa mara: Mafunzo ya uimarishaji wa kipindi kimoja hurejelea uboreshaji wa mkakati mmoja, huku mafunzo ya uimarishaji mara kwa mara yanarejelea usasishaji unaoendelea wa muundo wa zawadi baada ya uboreshaji wa mikakati mingi. Matokeo ya majaribio yanaonyesha hivyo ujifunzaji wa kuimarisha mara kwa mara unaweza kuboresha utendaji kwa kiasi kikubwa, hasa katika marudio ya kwanza.

Uchunguzi wa mgawo wa gradient

Kulingana na sheria dhidi ya msingi wa mfano: Sheria inarejelea kubainisha zawadi kulingana na usahihi wa jibu, na Model inarejelea kufundisha mtindo wa zawadi ili kupata alama.

Tofauti katika mgawo wa gradient: Tofauti kuu kati ya GRPO na RFT ya mtandaoni ni kwamba GRPO hurekebisha mgawo wake wa gradient kulingana na thamani za zawadi zinazotolewa na muundo wa zawadi, huku RFT ya Mtandaoni haifanyi hivyo.

Faida za GRPO: Majaribio yanaonyesha hivyo GRPO ni bora kuliko RFT ya Mtandaoni, inayoonyesha ufanisi wa kubadilisha ishara ya mgawo wa gradient. GRPO+PS ni bora kuliko GRPO+OS, inayoonyesha manufaa ya kutumia mgawo wa upinde rangi ulioboreshwa, unaofahamu hatua..

Ufanisi wa RL na maelekezo ya kuboresha

Kwa nini RL inafaa?

Matokeo ya majaribio: RL inaboresha utendakazi wa Maj@K lakini si Pass@K.

Ufafanuzi: RL inaboresha utendakazi wa jumla wa modeli kwa kufanya usambazaji wa matokeo kuwa thabiti zaidi, yaani, inaboresha uwezekano wa majibu sahihi katika TopK, badala ya kuimarisha uwezo wa kimsingi wa muundo.

Je, RL yenye ufanisi zaidi inawezaje kupatikana?

Kulingana na dhana iliyounganishwa, waandishi wanapendekeza maelekezo ya siku zijazo ya kuboresha RL katika vipengele vitatu: vyanzo vya data, algoriti na utendaji wa zawadi.

Vyanzo vya data:
- Chunguza masuala zaidi ya hatua ya SFT.
- Tumia mikakati ya juu zaidi ya sampuli (kuweka msimbo), kama vile mbinu za utafutaji wa miti.
- Tumia mbinu bora za uelekezaji ili kuboresha ufanisi wa uchunguzi wa muundo wa sera.
Algorithm:
- Gundua kanuni za uimarishaji wa ujifunzaji ambazo ni thabiti zaidi kwa ishara za zawadi zenye kelele.
- Jifunze mbinu za kupanga aina za WEAK-TO-STRONG.
Utendaji wa zawadi:
- Boresha uwezo wa jumla wa muundo wa zawadi ili kushughulikia matatizo ya nje ya usambazaji na matokeo ya hali ya juu yaliyotambulishwa.
- Onyesha kutokuwa na uhakika wa muundo wa zawadi na uutumie kama daraja kuunganisha miundo dhaifu ya zawadi na kanuni za kujifunza za WEAK-TO-STRONG.
- Tengeneza miundo ya ubora wa juu ya zawadi za mchakato ili kutoa mawimbi madhubuti ya mchakato wa makisio.

Muhtasari

DeepSeekMath imeboresha kwa kiasi kikubwa uwezo wa miundo ya lugha chanzo huria katika hoja za kihisabati kwa kuunda mkusanyiko mkubwa wa hisabati na kupendekeza kanuni mpya ya uimarishaji ya kujifunza. Muhtasari wa karatasi hii ni

ujenzi na uthibitishaji wa DeepSeekMath Corpus, shirika la hisabati kubwa, la ubora wa juu na la lugha nyingi.
Kanuni bora ya uimarishaji wa ujifunzaji, GRPO, inapendekezwa ili kupunguza matumizi ya kumbukumbu huku ikiboresha uwezo wa kufikiri wa kihisabati wa modeli.
Athari za mafunzo ya msimbo juu ya uwezo wa kufikiri wa kihisabati hujadiliwa kwa kina, na inabainika kuwa data ya arXiv ina athari ndogo. Thamani ya DeepSeekMath:
Inatoa jumuiya ya chanzo huria na modeli yenye nguvu ya hoja za kihisabati na inakuza ukuzaji wa AI ya kihisabati.
Inatoa uzoefu muhimu na mbinu za kujenga shirika la hisabati na mafunzo ya mifano ya kufikiri ya hisabati.
Kanuni ya kanuni ya GRPO inayopendekezwa inatoa mawazo mapya kwa mafunzo ya uimarishaji wa mafunzo katika nyanja zingine.

Siri ya DeepSeek 1 | DeepSeekMath na maelezo ya GRPO