Paper-DeepSeek-R1: Motivace schopnosti uvažování v LLM prostřednictvím učení s posilováním (Reinforcement Learning)

Abstrakt Tento článek představuje první generaci argumentačních modelů DeepSeek: DeepSeek-R1-Zero a DeepSeek-R1. Model DeepSeek-R1-Zero, vycvičený pomocí rozsáhlého posilovacího učení (RL) bez dolaďování pod dohledem (SFT), vykazuje pozoruhodné schopnosti uvažování. Prostřednictvím RL přirozeně rozvíjí výkonné rozumové chování. Potýká se však s problémy, jako je špatná čitelnost a míchání jazyků. Pro řešení těchto problémů a zvýšení výkonnosti uvažování byl vyvinut DeepSeek-R1,...