Paper-DeepSeek-R1: Az érvelési képesség ösztönzése az LLM-ekben megerősítő tanulás segítségével
Összefoglaló Ez a cikk bemutatja az DeepSeek első generációs érvelési modelljeit: DeepSeek-R1-Zero és DeepSeek-R1. Az DeepSeek-R1-Zero, amelyet nagyméretű megerősítő tanulással (RL), felügyelt finomhangolás (SFT) nélkül képeztek ki, figyelemre méltó következtetési képességeket mutat. Az RL révén természetesen erőteljes következtetési viselkedést fejleszt ki. Ugyanakkor olyan kihívásokkal kell szembenéznie, mint a gyenge olvashatóság és a nyelvi keveredés. Ezen problémák megoldására és a következtetési teljesítmény fokozására fejlesztették ki az DeepSeek-R1-et,...