Teknolojia ya DeepSeek-R1 imefichuliwa: kanuni za msingi za karatasi zimevunjwa na ufunguo wa ufanisi wa utendakazi wa mfano unafichuliwa.
Leo tutashiriki DeepSeek R1, Kichwa: DeepSeek-R1: Kuhamasisha Uwezo wa Kutoa Sababu katika LLMs kupitia Mafunzo ya Kuimarisha: Kuhamasisha uwezo wa kufikiri wa LLM kupitia mafunzo ya kuimarisha. Karatasi hii inatanguliza kizazi cha kwanza cha DeepSeek cha mifano ya hoja, DeepSeek-R1-Zero na DeepSeek-R1. Muundo wa DeepSeek-R1-Zero ulifunzwa kupitia ujifunzaji wa kiwango kikubwa cha uimarishaji (RL) bila urekebishaji mzuri unaosimamiwa (SFT) kama hatua ya awali,…