Paper-DeepSeek-R1: Поттикнување на способноста за расудување кај LLM преку учење за зајакнување

Апстракт Овој труд ги воведува моделите за расудување од првата генерација на DeepSeek: DeepSeek-R1-Zero и DeepSeek-R1. DeepSeek-R1-Zero, обучен преку учење за засилување од големи размери (RL) без надгледувано фино подесување (SFT), покажува извонредни способности за расудување. Преку RL, природно развива моќни однесувања за расудување. Сепак, се соочува со предизвици како што се слаба читливост и мешање јазици. За да се решат овие проблеми и да се подобрат перформансите на расудувањето, развиен е DeepSeek-R1,…