Muhtasari
Karatasi hii inatanguliza miundo ya kizazi cha kwanza ya DeepSeek: DeepSeek-R1-Zero na DeepSeek-R1. DeepSeek-R1-Zero, iliyofunzwa kupitia ujifunzaji wa kiwango kikubwa cha uimarishaji (RL) bila urekebishaji mzuri unaosimamiwa (SFT), huonyesha uwezo wa ajabu wa kufikiri. Kupitia RL, kwa kawaida huendeleza tabia zenye nguvu za kufikiri. Hata hivyo, inakabiliwa na changamoto kama vile kutoweza kusoma vizuri na kuchanganya lugha. Ili kushughulikia masuala haya na kuboresha utendakazi wa hoja, DeepSeek-R1 iliundwa, ikijumuisha mafunzo ya hatua nyingi na data ya kuanza kwa baridi kabla ya RL. DeepSeek-R1 inafanikisha utendaji unaolinganishwa na OpenAI-o1-1217 kwenye kazi za hoja. Ili kusaidia utafiti, DeepSeek vyanzo huria modeli zote mbili na miundo sita mnene (1.5B, 7B, 8B, 14B, 32B, 70B) imetolewa kutoka DeepSeek-R1 kulingana na Qwen na Llama.
Michango Muhimu
Baada ya Mafunzo: Mafunzo ya Kuimarisha kwa Kiwango Kikubwa
- Imefaulu kutumia RL moja kwa moja kwenye muundo msingi bila SFT
- Imeundwa DeepSeek-R1-Zero, inayoonyesha uwezo kama vile kujithibitisha na kutafakari
- Utafiti wazi wa kwanza unaothibitisha kwamba uwezo wa kufikiri unaweza kuhamasishwa kupitia RL
- Ilianzisha bomba la DeepSeek-R1 na hatua mbili za RL na hatua mbili za SFT
Unereka: Kuwezesha Miundo Ndogo
- Imeonyeshwa kuwa mifumo ya kufikiri kutoka kwa miundo mikubwa zaidi inaweza kusagwa hadi ndogo
- Open-sourced DeepSeek-R1 na API yake ili kunufaisha jumuiya ya utafiti
- Imesanifiwa vyema miundo kadhaa minene inayoonyesha utendakazi wa kipekee wa kuigwa
- Miundo iliyochanganuliwa inashinda kwa kiasi kikubwa mifano ya awali ya chanzo-wazi
Matokeo ya Tathmini
Kazi za Kuzingatia
- DeepSeek-R1 inapata 79.8% Pass@1 kwenye AIME 2024, na kupita OpenAI-o1-1217
- Alama ya 97.3% kwenye MATH-500, ikicheza sambamba na OpenAI-o1-1217
- Utendaji wa kiwango cha utaalamu katika majukumu ya ushindani wa msimbo na ukadiriaji wa Elo 2,029 kwenye Codeforces
Kazi za Maarifa
- Matokeo bora zaidi kwenye MMLU (90.8%), MMLU-Pro (84.0%), na GPQA Diamond (71.5%)
- Hupita miundo mingine ya chanzo funge katika kazi za elimu
- Utendaji thabiti kwenye alama za kweli kama vile SimpleQA
Uwezo wa Jumla
- Excels katika uandishi wa ubunifu, kujibu maswali, kuhariri, na muhtasari
- Kiwango cha ushindi cha 87.6% kwenye AlpacaEval 2.0 na 92.3% kwenye ArenaHard
- Utendaji thabiti katika kazi za uelewa wa muktadha mrefu
Kazi ya Baadaye
Timu inapanga kuzingatia:
- Kuimarisha uwezo wa jumla katika maeneo kama vile wito wa utendaji kazi na uigizaji changamano
- Kushughulikia masuala ya kuchanganya lugha
- Kuboresha uhandisi wa uhamasishaji
- Kuboresha utendaji wa kazi za uhandisi wa programu
Hitimisho
DeepSeek-R1 inawakilisha maendeleo makubwa katika uwezo wa kufikiri wa AI kupitia mafunzo ya kuimarisha. Mafanikio ya modeli kuu na matoleo yake ya distilled yanaonyesha uwezo wa mbinu hii ya kuendeleza mifumo ya AI yenye uwezo zaidi. Utoaji wa chanzo huria wa miundo hii utachangia katika utafiti zaidi na maendeleo katika uwanja huo.