Paper-DeepSeek-R1: Incentivare la capacità di ragionamento nei LLM attraverso l'apprendimento per rinforzo
Abstract Questo documento presenta i modelli di ragionamento DeepSeek di prima generazione: DeepSeek-R1-Zero e DeepSeek-R1. DeepSeek-R1-Zero, addestrato attraverso l'apprendimento per rinforzo (RL) su larga scala senza messa a punto supervisionata (SFT), dimostra notevoli capacità di ragionamento. Grazie all'RL, sviluppa naturalmente potenti comportamenti di ragionamento. Tuttavia, deve affrontare problemi come la scarsa leggibilità e la mescolanza del linguaggio. Per affrontare questi problemi e migliorare le prestazioni di ragionamento, è stato sviluppato DeepSeek-R1,...