Paper-DeepSeek-R1: Poticanje sposobnosti rasuđivanja na LLM-u putem učenja s pojačanjem
Sažetak Ovaj rad predstavlja modele razmišljanja prve generacije DeepSeek: DeepSeek-R1-Zero i DeepSeek-R1. DeepSeek-R1-Zero, obučen kroz učenje s pojačanjem (RL) bez nadziranog finog podešavanja (SFT), pokazuje izvanredne sposobnosti zaključivanja. Kroz RL, ono prirodno razvija snažna ponašanja rasuđivanja. Međutim, suočava se s izazovima poput loše čitljivosti i miješanja jezika. Za rješavanje ovih problema i poboljšanje performansi zaključivanja, DeepSeek-R1 je razvijen,…