Karatasi-DeepSeek-R1: Kuhamasisha Uwezo wa Kutoa Sababu katika LLMs kupitia Mafunzo ya Kuimarisha

Muhtasari Karatasi hii inatanguliza mifano ya kizazi cha kwanza ya DeepSeek: DeepSeek-R1-Zero na DeepSeek-R1. DeepSeek-R1-Zero, iliyofunzwa kupitia ujifunzaji wa kiwango kikubwa cha uimarishaji (RL) bila urekebishaji mzuri unaosimamiwa (SFT), huonyesha uwezo wa ajabu wa kufikiri. Kupitia RL, inakuza tabia zenye nguvu za kufikiria. Hata hivyo, inakabiliwa na changamoto kama vile kutoweza kusoma vizuri na kuchanganya lugha. Ili kushughulikia masuala haya na kuboresha utendaji wa hoja, DeepSeek-R1 iliundwa,…