Document-DeepSeek-R1: Stimularea capacității de raționament în LLM prin învățarea prin consolidare
Rezumat Această lucrare prezintă prima generație de modele de raționament DeepSeek: DeepSeek-R1-Zero și DeepSeek-R1. DeepSeek-R1-Zero, instruit prin învățarea prin consolidare (RL) la scară largă, fără reglaj fin supravegheat (SFT), demonstrează capacități remarcabile de raționament. Prin RL, acesta dezvoltă în mod natural comportamente de raționament puternice. Cu toate acestea, se confruntă cu provocări precum lizibilitatea redusă și amestecul de limbaje. Pentru a aborda aceste probleme și a îmbunătăți performanța de raționament, a fost dezvoltat DeepSeek-R1,...