Paper-DeepSeek-R1: Motyvavimo gebėjimų skatinimas LLM naudojant mokymąsi su pastiprinimu
Santrauka Šiame straipsnyje pristatomi DeepSeek pirmosios kartos samprotavimo modeliai: DeepSeek-R1-Zero ir DeepSeek-R1. DeepSeek-R1-Zero, apmokytas taikant didelio masto mokymąsi pastiprinant (angl. reinforcement learning, RL) be prižiūrimo derinimo (angl. supervised fine-tuning, SFT), demonstruoja puikius samprotavimo gebėjimus. Naudojant RL, jis natūraliai išvysto galingą samprotavimo elgseną. Tačiau jis susiduria su tokiomis problemomis kaip prastas skaitomumas ir kalbos maišymas. Siekiant išspręsti šias problemas ir pagerinti samprotavimo našumą, buvo sukurtas DeepSeek-R1,...