Leo tutashiriki DeepSeek R1, Kichwa: DeepSeek-R1: Kuhamasisha Uwezo wa Kutoa Sababu katika LLMs kupitia Mafunzo ya Kuimarisha: Kuhamasisha uwezo wa kufikiri wa LLM kupitia mafunzo ya kuimarisha.

Karatasi hii inatanguliza kizazi cha kwanza cha DeepSeek cha mifano ya hoja, DeepSeek-R1-Zero na DeepSeek-R1. Mfano wa DeepSeek-R1-Zero ulifunzwa kupitia kujifunza kwa kiwango kikubwa cha kuimarisha (RL) bila urekebishaji mzuri unaosimamiwa (SFT) kama hatua ya awali, inayoonyesha uwezo wa RL na uwezo wa juu zaidi wa kufikiri. inaleta. Kupitia mafunzo ya kuimarisha, DeepSeek-R1-Zero iliibuka ikiwa na tabia nyingi zenye nguvu na za kuvutia za kufikiria. Ili kuboresha zaidi baadhi ya masuala na R1-Zero (mkanganyiko wa lugha, uboreshaji wa uwezo wa jumla), walitoa. DeepSeek-R1, ambayo inachanganya mafunzo ya hatua nyingi na urekebishaji laini wa data kabla ya kujifunza kwa uimarishaji. DeepSeek-R1 ilipata utendakazi sawa juu ya kazi ya hoja na OpenAI-01-1217. Ili kusaidia jumuiya ya watafiti, wameweza DeepSeek-R1-Zero, DeepSeek-R1, na miundo sita minene (1.5B, 7B, 8B, 14B, 32B, 70B) iliyotolewa kutoka DeepSeek-R1, ambayo inategemea Qwen na Llama..

Tabia za mbinu zimefupishwa kama ifuatavyo:

  1. Kujifunza kwa uimarishaji kunatumika moja kwa moja kwa mfano wa msingi, bila kutegemea urekebishaji mzuri unaosimamiwa (SFT) kama hatua ya awali.
  2. Mchakato wa maendeleo wa DeepSeek-R1 umeanzishwa, ambayo inachanganya awamu mbili za mafunzo ya uimarishaji na awamu mbili za kurekebisha vizuri zinazosimamiwa ili kuweka msingi wa uwezo wa kufikiri na usio wa kusababu wa mtindo..
  3. Utendaji wa miundo midogo kwenye kazi za hoja unaboreshwa kwa kuhamisha mifumo ya hoja ya miundo mikubwa hadi kwa mifano midogo kupitia mbinu za kunereka.

Muhtasari

Kuhamasisha

  • Miundo ya sasa ya lugha kubwa (LLMs) imepata maendeleo makubwa katika kazi za uelekezaji, lakini bado inakabiliwa na changamoto.
  • Uwezo wa safi ujifunzaji wa kuimarisha (RL) katika kuboresha uwezo wa kufikiri wa LLM haujachunguzwa kikamilifu, hasa bila kutegemea data inayosimamiwa.
  • Mifano zilizofunzwa kupitia RL, kama vile DeepSeek-R1-Zero, wana matatizo ya kusomeka na kuchanganya lugha (km, kuzungumza Kichina na Kiingereza mchanganyiko), na wanahitaji uboreshaji zaidi ili kuboresha urafiki wa watumiaji..

Mbinu

DeepSeek-R1-Zero: Hutumia DeepSeek-V3-Base kama modeli ya msingi, na GRPO (Uboreshaji wa Sera ya Kikundi inayohusiana) kama mafunzo ya kuimarisha mfumo, bila data inayosimamiwa ili kuboresha utendaji wa modeli katika makisio.

DeepSeek-R1:

  • Kuanza kwa Baridi: Hukusanya kiasi kidogo cha data ya ubora wa juu ya CoT (Chain-of-Thought) na kurekebisha Mfano wa DeepSeek-V3-Base kama muigizaji wa awali wa mafunzo ya kuimarisha.
  • Mafunzo ya Kuimarisha yenye mwelekeo wa Kusababu: sawa mchakato wa mafunzo ya uimarishaji wa mafunzo kama DeepSeek-R1-Zero inatumika, lakini kwa kuzingatia kuimarisha uwezo wa kufikiri wa kielelezo. katika maeneo kama vile kuweka misimbo, hisabati, sayansi na hoja za kimantiki. Tuzo za uthabiti wa lugha huletwa ili kupunguza tatizo la kuchanganya lugha linalotokea katika CoT.
  • Sampuli ya Kukataliwa na Urekebishaji Uzuri Unaosimamiwa: Hutumia sehemu ya ukaguzi iliyounganishwa ya mafunzo ya kuimarisha kukusanya data ya Urekebishaji Uzuri Unaosimamiwa (SFT). kwa mafunzo yanayofuata.
  • Mafunzo ya Kuimarisha kwa Matukio yote: Hutekeleza awamu ya uimarishaji wa kiwango cha pili, ambayo inalenga kuboresha usaidizi na kutokuwa na madhara kwa mtindo huku ukiboresha uwezo wake wa kufikiri.
  • Uboreshaji wa maarifa: Boresha miundo ya chanzo huria ya Qwen na Llama moja kwa moja kwa kutumia sampuli 800k zilizoratibiwa na DeepSeek-R1.

Mbinu na taratibu za kina:

DeepSeek-R1-Zero: Kuimarisha mafunzo kwa miundo msingi

  • Algorithm ya mafunzo ya kuimarisha: Hutumia algoriti ya Uboreshaji wa Sera ya Kikundi (GRPO), ambayo hauhitaji a mkosoaji mfano, hukadiria msingi kwa alama za kikundi, na kupunguza gharama za mafunzo.
  • Muundo wa zawadi: Hutumia a mfumo wa malipo unaozingatia kanuni, ikiwa ni pamoja na
  • malipo ya usahihi: Hutathmini kama jibu ni sahihi, kama vile usahihi wa matokeo ya mwisho ya jibu la shida ya hesabu, maoni kutoka kwa mkusanyaji kwa shida za nambari.
  • Zawadi ya umbizo: Inahimiza mfano kwa weka mchakato wa kufikiria kati na vitambulisho.

Kiolezo cha mafunzo: Kiolezo kilicho na na vitambulisho vimeundwa ili ongoza kielelezo kutoa mchakato wa kufikiria kwanza, na kisha jibu la mwisho.

  • Mchakato wa mageuzi ya kibinafsi: DeepSeek-R1-Zero imeonyeshwa sifa za mageuzi wakati wa mafunzo, na aliweza kujifunza kwa uhuru mikakati changamano zaidi ya hoja, kama vile kutafakari na uchunguzi wa njia nyingi za kutatua matatizo..

DeepSeek-R1: Kuimarisha kujifunza pamoja na kuanza kwa baridi

  • Mwanzo wa baridi: Ili kutatua DeepSeek-R1-Zero's tatizo la usomaji, DeepSeek-R1 kwanza hukusanya kiasi kidogo cha data ya hali ya juu ya CoT na kuboresha muundo wa DeepSeek-V3-Base kwa fanya kazi kama muigizaji wa awali wa mafunzo ya kuimarisha. Data ya kuanza kwa baridi ina lebo za muhtasari na majibu yasiyo rafiki huchujwa.
    • Mbinu: 1) Chagua data ya ubora wa juu ya COT. 2) Ongeza na vitambulisho.
    • Manufaa: 1) Usomaji ulioboreshwa (suluhisha tatizo la lugha nyingi la R1-Sufuri au tatizo la umbizo la alama). 2) Data iliyochaguliwa kwa uangalifu na mwanadamu inaweza kuendelea kuboresha utendakazi kwenye R1-Zero.
    • Swali: Kwa nini kutatua tatizo la usomaji? Je, haiwezekani kufanya vyema zaidi bila kuitatua (kwa mfano, kupunguza urefu wa matokeo na kukisia kwa ufanisi zaidi)?
  • RL yenye mwelekeo wa hoja: Kulingana na mfano wa kuanza-baridi, mchakato wa mafunzo ya kuimarisha sawa na DeepSeek-R1-Zero inatumika, ikilenga kuboresha uwezo wa modeli katika kazi kama vile kuweka misimbo, hisabati, hoja za kisayansi na kimantiki.. Ili kutatua tatizo la lugha mchanganyiko (hoja za lugha nyingi), malipo ya uthabiti wa lugha zinatambulishwa.
    • Swali: Je, kazi za hoja za kisayansi na kimantiki na seti za data hufunzwaje?
  • Sampuli za Kukataliwa na SFT: Baada ya ujifunzaji wa uimarishaji unaoongozwa na mwongozo kuunganishwa, kituo cha ukaguzi kilichopatikana kinatumika sampuli za kukataliwa ili kutoa data mpya ya SFT, ambayo imeunganishwa na data kutoka DeepSeek-V3 ili kuboresha uwezo wa modeli katika kuandika, uigizaji dhima na majukumu ya jumla.
    • Kusudi:
      • Awamu hii inaanzishwa baada ya Mchakato wa uimarishaji unaozingatia marejeleo (RL) huungana.
      • Lengo kuu ni kukusanya data ya urekebishaji mzuri unaosimamiwa (SFT). kwa matumizi katika raundi za mafunzo zinazofuata.
      • Tofauti na data ya awali ya kuanza kwa baridi, ambayo inalenga tu juu ya inference, awamu hii inalenga kupanua uwezo wa mfano kufunika uandishi, igizo dhima na kazi zingine za madhumuni ya jumla, sio tu makisio.
    • Mkusanyiko wa data - data ya makisio:
      • Mbinu: Tumia vituo vya ukaguzi vilivyopatikana kutoka kwa awamu ya RL yenye mwelekeo wa kuelekeza ili kutoa mwelekeo wa uelekezaji kwa sampuli za kukataliwa.
      • Upanuzi wa seti ya data: Tofauti na awamu ya awali ya RL, ambayo ilitumia data ya zawadi inayotegemea kanuni pekee, data ya zawadi isiyo ya sheria inaletwa hapa. Katika baadhi ya matukio, mtindo wa zawadi generative (DeepSeek-V3) hutumiwa kubainisha jibu.
      • Uchujaji wa data: Ili kuhakikisha ubora na usomaji, matokeo huchujwa ili kuondoa:
        • minyororo ya mawazo yenye lugha mchanganyiko
        • aya ndefu
        • kanuni vitalu
      • Sampuli na uteuzi: Kwa kila kidokezo, majibu mengi yalitolewa. Jibu "sahihi" pekee ndilo lililobaki kwa mkusanyiko wa data.
      • Ukubwa wa seti ya data: Takriban Sampuli 600,000 za mafunzo zinazohusiana na marejeleo zilikusanywa kwa njia hii.
    • Mkusanyiko wa data - data isiyo ya makisio:
      • Chanjo: Kuandika, kujibu swali la kweli (QA), kujitambua na kutafsiri.
      • Karatasi inataja matumizi ya Mchakato wa DeepSeek-V3 na kutumia tena sehemu ya seti ya data ya DeepSeek-V3 SFT kushughulikia kazi hizi zisizo za marejeleo. Kuhusu Sampuli 200,000 zinazojitegemea zilikusanywa. (Kumbuka: Maelezo ya ukusanyaji wa data isiyo ya makisio yamefafanuliwa zaidi katika Sehemu ya 2.3.4)
    • Matumizi ya data iliyokusanywa:
      • Data iliyokusanywa ya hoja na zisizo za hoja (jumla ya takriban sampuli 800,000 - sampuli za hoja 600,000 + sampuli 200,000 zisizo na hoja) zilitumika rekebisha vizuri muundo wa DeepSeek-V3-Base kwa vipindi viwili. Muundo huu uliopangwa vizuri ulitumiwa katika awamu ya mwisho ya RL iliyoelezwa katika Sehemu ya 2.3.4.
    • Muhtasari Hatua hii hutumia uwezo wa uelekezaji imejifunza kupitia RL ili kutoa mkusanyiko wa data tofauti na wa ubora wa juu wa SFT. Seti hii ya data huimarisha uwezo wa uelekezaji na pia huongeza uwezo wa jumla wa mfano wa mafunzo katika hatua ya mwisho ya upatanishi na uboreshaji.
  • Mafunzo ya Kuimarisha kwa Matukio Yote: Ili kuoanisha zaidi mapendeleo ya binadamu, awamu ya pili ya mafunzo ya uimarishaji inatekelezwa ili kuboresha usaidizi na kutokuwa na madhara kwa modeli.
    • Data ya makisio: kwa mfano hesabu, msimbo, makisio ya kimantiki au kusimamiwa kwa mbinu za msingi.
    • Data ya jumla: miundo ya zawadi bado inatumika kutoa maelezo ya mapendeleo kwa matukio changamano na fiche. Miundo iliyofunzwa kwa data ya jozi pia inakadiriwa.
    • Umuhimu: lenga tu matokeo ya mwisho ya muhtasari, kupunguza mwingiliano wa mchakato wa uelekezaji.
    • Kutokuwa na madhara: simamia mwitikio mzima ili kupunguza hatari zozote.

Muundo wa kunereka ( kunereka):

  • Ili kupata modeli ndogo ya ufanisi zaidi, karatasi hutawanya uwezo wa uelekezaji wa DeepSeek-R1 katika mifano ya chanzo huria ya mfululizo wa Qwen na Llama. Mchakato wa kunereka hutumia tu urekebishaji mzuri unaosimamiwa (SFT) na haitumii hatua ya mafunzo ya kuimarisha.

Hitimisho

DeepSeek-R1-Zero: Inaonyesha uwezo wa ujifunzaji safi wa uimarishaji katika kuhamasisha uwezo wa uelekezaji wa LLM, na unaweza kufikia utendakazi dhabiti bila kutegemea data inayosimamiwa.

  • Aha-wakati: Uzuri wa ujifunzaji wa kuimarisha (wakati wa ufahamu wa mfano, ambapo ni hutenga muda zaidi wa kufikiri kwa tatizo kwa kujifunza kutathmini upya njia ya awali)
  • Urefu wa pato unaendelea kuongezeka (wakati wa kufikiria unaendelea kuongezeka)
  • Usahihi unaendelea kuboreshwa (kuchukua sampuli za majibu 16 ili kukokotoa usahihi)
  • DeepSeek-R1: Huboresha zaidi utendakazi wa kielelezo kwa kuchanganya data ya kuanzia bila kusita na urekebishaji wa uimarishaji wa kujifunza, kufikia kiwango kinacholingana na OpenAI-01-1217 kwenye kazi mbalimbali.
  • Kunereka kwa maarifa: Kwa kutumia DeepSeek-R1 kama kielelezo cha mwalimu, sampuli za mafunzo 800K zilitolewa na miundo kadhaa midogo minene ilirekebishwa vyema. Matokeo yanaonyesha kuwa hii kunereka njia inaweza kwa kiasi kikubwa kuboresha uwezo wa inference mifano ndogo.

Kizuizi

  • Kizuizi cha 1: Uwezo wa jumla wa DeepSeek-R1 unahitaji kuboreshwa. DeepSeek-R1 bado ni duni kwa DeepSeek-V3 katika kazi kama vile simu za kukokotoa, mazungumzo ya zamu nyingi, uigizaji-dhima changamano na utoaji wa JSON.
  • Kizuizi cha 2: Tatizo la kuchanganya lugha. DeepSeek-R1 inaweza kukumbwa na tatizo la kuchanganya lugha wakati wa kuchakata maswali yasiyo ya Kichina na yasiyo ya Kiingereza, kwa mfano, hoja na kujibu kwa Kiingereza.
  • Kizuizi cha 3: Usikivu wa haraka. DeepSeek-R1 ni nyeti kwa maneno ya papo hapo, na ushawishi wa picha chache utapunguza utendakazi wake.
  • Kizuizi cha 4: Utumizi mdogo kwa kazi za uhandisi wa programu. Kutokana na muda mrefu wa tathmini, mafunzo ya uimarishaji kwa kiasi kikubwa hayajatumika kikamilifu kwa kazi za uhandisi wa programu, na DeepSeek-R1 ina uboreshaji mdogo zaidi ya DeepSeek-V3 katika vigezo vya uhandisi wa programu.

Machapisho Yanayofanana

Toa Jibu

Barua-pepe haitachapishwa. Fildi za lazima zimetiwa alama ya *