Ikke kategoriseret

Paper-DeepSeek-R1: Incentivisering af ræsonneringsevnen i LLM'er via forstærkningslæring

Afdeepseeker 29. januar 202529. januar 2025

Resumé Denne artikel introducerer DeepSeek's første generation af ræsonneringsmodeller: DeepSeek-R1-Zero og DeepSeek-R1. DeepSeek-R1-Zero, der er trænet gennem storstilet forstærkningslæring (RL) uden overvåget finjustering (SFT), demonstrerer bemærkelsesværdige ræsonnementsevner. Gennem RL udvikler den naturligt en stærk ræsonnerende adfærd. Den står dog over for udfordringer som dårlig læsbarhed og sprogblanding. For at løse disse problemer og forbedre ræsonnementets ydeevne blev DeepSeek-R1 udviklet,...