Paper-DeepSeek-R1: Põhjendamisvõime stimuleerimine LLM-ides tugevdamise õppimise kaudu

Kokkuvõte Käesolevas dokumendis tutvustatakse DeepSeek esimese põlvkonna arutlusmudeleid: DeepSeek-R1-Zero ja DeepSeek-R1. DeepSeek-R1-Zero, mis on koolitatud laiaulatusliku tugevdava õppimise (RL) abil ilma juhitud peenhäälestuseta (SFT), näitab märkimisväärset arutlusvõimet. RL-i abil arendab see loomulikult võimsat arutluskäitumist. Siiski seisab see silmitsi selliste probleemidega nagu halb loetavus ja keele segunemine. Nende probleemide lahendamiseks ja arutlusvõime suurendamiseks töötati välja DeepSeek-R1,...