Paper-DeepSeek-R1: Incentivisering af ræsonneringsevnen i LLM'er via forstærkningslæring

Resumé Denne artikel introducerer DeepSeek's første generation af ræsonneringsmodeller: DeepSeek-R1-Zero og DeepSeek-R1. DeepSeek-R1-Zero, der er trænet gennem storstilet forstærkningslæring (RL) uden overvåget finjustering (SFT), demonstrerer bemærkelsesværdige ræsonnementsevner. Gennem RL udvikler den naturligt en stærk ræsonnerende adfærd. Den står dog over for udfordringer som dårlig læsbarhed og sprogblanding. For at løse disse problemer og forbedre ræsonnementets ydeevne blev DeepSeek-R1 udviklet,...