Karatasi-DeepSeek-R1: Kuhamasisha Uwezo wa Kutoa Sababu katika LLMs kupitia Mafunzo ya Kuimarisha

Jedwali la Yaliyomo

Muhtasari

Karatasi hii inatanguliza miundo ya kizazi cha kwanza ya DeepSeek: DeepSeek-R1-Zero na DeepSeek-R1. DeepSeek-R1-Zero, iliyofunzwa kupitia ujifunzaji wa kiwango kikubwa cha uimarishaji (RL) bila urekebishaji mzuri unaosimamiwa (SFT), huonyesha uwezo wa ajabu wa kufikiri. Kupitia RL, kwa kawaida huendeleza tabia zenye nguvu za kufikiri. Hata hivyo, inakabiliwa na changamoto kama vile kutoweza kusoma vizuri na kuchanganya lugha. Ili kushughulikia masuala haya na kuboresha utendakazi wa hoja, DeepSeek-R1 iliundwa, ikijumuisha mafunzo ya hatua nyingi na data ya kuanza kwa baridi kabla ya RL. DeepSeek-R1 inafanikisha utendaji unaolinganishwa na OpenAI-o1-1217 kwenye kazi za hoja. Ili kusaidia utafiti, DeepSeek vyanzo huria modeli zote mbili na miundo sita mnene (1.5B, 7B, 8B, 14B, 32B, 70B) imetolewa kutoka DeepSeek-R1 kulingana na Qwen na Llama.

Michango Muhimu

Baada ya Mafunzo: Mafunzo ya Kuimarisha kwa Kiwango Kikubwa

Imefaulu kutumia RL moja kwa moja kwenye muundo msingi bila SFT
Imeundwa DeepSeek-R1-Zero, inayoonyesha uwezo kama vile kujithibitisha na kutafakari
Utafiti wazi wa kwanza unaothibitisha kwamba uwezo wa kufikiri unaweza kuhamasishwa kupitia RL
Ilianzisha bomba la DeepSeek-R1 na hatua mbili za RL na hatua mbili za SFT

Unereka: Kuwezesha Miundo Ndogo

Imeonyeshwa kuwa mifumo ya kufikiri kutoka kwa miundo mikubwa zaidi inaweza kusagwa hadi ndogo
Open-sourced DeepSeek-R1 na API yake ili kunufaisha jumuiya ya utafiti
Imesanifiwa vyema miundo kadhaa minene inayoonyesha utendakazi wa kipekee wa kuigwa
Miundo iliyochanganuliwa inashinda kwa kiasi kikubwa mifano ya awali ya chanzo-wazi

Matokeo ya Tathmini

Kazi za Kuzingatia

DeepSeek-R1 inapata 79.8% Pass@1 kwenye AIME 2024, na kupita OpenAI-o1-1217
Alama ya 97.3% kwenye MATH-500, ikicheza sambamba na OpenAI-o1-1217
Utendaji wa kiwango cha utaalamu katika majukumu ya ushindani wa msimbo na ukadiriaji wa Elo 2,029 kwenye Codeforces

Kazi za Maarifa

Matokeo bora zaidi kwenye MMLU (90.8%), MMLU-Pro (84.0%), na GPQA Diamond (71.5%)
Hupita miundo mingine ya chanzo funge katika kazi za elimu
Utendaji thabiti kwenye alama za kweli kama vile SimpleQA

Uwezo wa Jumla

Excels katika uandishi wa ubunifu, kujibu maswali, kuhariri, na muhtasari
Kiwango cha ushindi cha 87.6% kwenye AlpacaEval 2.0 na 92.3% kwenye ArenaHard
Utendaji thabiti katika kazi za uelewa wa muktadha mrefu

Kazi ya Baadaye

Timu inapanga kuzingatia:

Kuimarisha uwezo wa jumla katika maeneo kama vile wito wa utendaji kazi na uigizaji changamano
Kushughulikia masuala ya kuchanganya lugha
Kuboresha uhandisi wa uhamasishaji
Kuboresha utendaji wa kazi za uhandisi wa programu

Hitimisho

DeepSeek-R1 inawakilisha maendeleo makubwa katika uwezo wa kufikiri wa AI kupitia mafunzo ya kuimarisha. Mafanikio ya modeli kuu na matoleo yake ya distilled yanaonyesha uwezo wa mbinu hii ya kuendeleza mifumo ya AI yenye uwezo zaidi. Utoaji wa chanzo huria wa miundo hii utachangia katika utafiti zaidi na maendeleo katika uwanja huo.

DeepSeek_R1 Pakua

Isiyowekwa katika kundi

Onyesho la Wanamitindo Wanne Bora! Mapitio Yanaonyesha Jinsi Deepseek R1 Ilivyo na Nguvu

Nazddeepseeker Juni 1, 2025Juni 1, 2025

Katika siku chache zilizopita, Deepseek-R1 0528 imefunguliwa rasmi. Kwenye LiveCodeBench, utendakazi wake unakaribia kuwa sawa na OpenAI's o3 (juu); katika jaribio la Aider la lugha nyingi la kuigwa, inashikilia yake dhidi ya Claude Opus. Ilipozinduliwa kwenye tovuti rasmi, tulijaribu haraka uwezo wake wa mwisho na tukapata kuwa ya kipekee…

Isiyowekwa katika kundi

DeepSeek imefanya! OpenAI inakubali kosa la chanzo kilichofungwa, faida inayoongoza inakuwa ndogo

Nazddeepseeker Februari 2, 2025Februari 2, 2025

Baada ya OpenAI iliyotolewa mfano wa o3-mini, Mkurugenzi Mtendaji wake Sam Altman, Afisa Mkuu wa Utafiti Mark Chen, Afisa Mkuu wa Bidhaa Kevin Weil; Makamu wa Rais wa Uhandisi Srinivas Narayanan, Mkuu wa Utafiti wa API Michelle Pokrass, na Mkuu wa Utafiti Hongyu Ren, walifanya Maswali na Majibu ya mtandaoni kuhusu reddit, mojawapo ya mabaraza makubwa ya kina duniani. Mada kuu…

Isiyowekwa katika kundi

DeepSeek R1 ilikuja kwanza katika jaribio la uandishi wa ubunifu, na o3 mini ilikuwa mbaya zaidi kuliko o1 mini!

Nazddeepseeker Februari 3, 2025Februari 3, 2025

DeepSeek R1 ilishinda ubingwa katika jaribio la kuigwa la uandishi wa hadithi fupi za ubunifu, na kumpita kwa mafanikio mchezaji mkuu wa awali Claude 3.5 Sonnet! Mtihani wa kuigwa Jaribio la kuigwa lililoundwa na mtafiti Lech Mazur si shindano lako la wastani la uandishi. Kila modeli ya AI ilihitajika kukamilisha hadithi fupi 500, na kila hadithi ilibidi ijumuishe kwa ustadi…

Isiyowekwa katika kundi

Deepseek inaweza kufikia nini? Hata OpenAI haiwezi kuifanya?

Nazddeepseeker Februari 10, 2025Februari 10, 2025

Thamani ya kweli ya DeepSeek haijakadiriwa! DeepSeek-R1 bila shaka imeleta wimbi jipya la shauku kwenye soko. Sio tu kwamba walengwa husika wanaoitwa walengwa wanaongezeka kwa kasi, lakini baadhi ya watu wameunda kozi na programu zinazohusiana na DeepSeek katika jaribio la kupata pesa kutoka kwayo. Tunaamini kuwa ingawa matukio haya yana…

Isiyowekwa katika kundi

Habari zinazochipuka! Mtafiti wa DeepSeek anafichua mtandaoni: Mafunzo ya R1 yalichukua wiki mbili hadi tatu pekee, na mageuzi yenye nguvu ya sifuri ya R1 yalionekana wakati wa likizo ya Mwaka Mpya wa Uchina.

Nazddeepseeker Februari 4, 2025Februari 4, 2025

Habari zinazochipuka! Mtafiti wa DeepSeek anafichua mtandaoni: Mafunzo ya R1 yalichukua wiki mbili hadi tatu pekee, na mabadiliko makubwa ya sifuri ya R1 yalionekana wakati wa likizo ya Mwaka Mpya wa Uchina Hivi sasa, tuligundua kuwa mtafiti wa DeepSeek Daya Guo alijibu maswali ya wanamtandao kuhusu DeepSeek R1 na mipango ya kampuni. kwenda mbele. Tunaweza kusema tu…

Isiyowekwa katika kundi

Le Chat inaongoza chati, kwa uwekezaji wa dola bilioni mia. Baada ya Merika na Uchina, ni nguvu ya tatu ya AI?

Nazddeepseeker Februari 11, 2025Februari 11, 2025

Mnamo Februari 9, Rais wa Ufaransa Emmanuel Macron alitangaza kwamba Ufaransa itawekeza euro bilioni 109 (dola za kimarekani bilioni 113) katika uwanja wa AI katika miaka michache ijayo. Uwekezaji huu utatumika kujenga bustani ya AI nchini Ufaransa, kuboresha miundombinu, na kuwekeza katika kuanzisha AI za ndani. Wakati huo huo, Mistral, mwanzilishi wa Ufaransa,…

Muhtasari

Michango Muhimu

Baada ya Mafunzo: Mafunzo ya Kuimarisha kwa Kiwango Kikubwa

Unereka: Kuwezesha Miundo Ndogo

Matokeo ya Tathmini

Kazi za Kuzingatia

Kazi za Maarifa

Uwezo wa Jumla

Kazi ya Baadaye

Hitimisho

Machapisho Yanayofanana

Toa Jibu Ghairi kujibu