Paper-DeepSeek-R1: Stimuleren van redeneervermogen in LLM's via versterkingsleren

Abstract Deze paper introduceert DeepSeek's eerste generatie redeneermodellen: DeepSeek-R1-Zero en DeepSeek-R1. DeepSeek-R1-Zero, getraind door middel van grootschalige reinforcement learning (RL) zonder supervised fine-tuning (SFT), toont opmerkelijke redenering vermogens. Door RL ontwikkelt het op natuurlijke wijze krachtig redeneergedrag. Het heeft echter te kampen met uitdagingen zoals slechte leesbaarheid en taalvermenging. Om deze problemen aan te pakken en de redeneerprestaties te verbeteren, werd DeepSeek-R1...