Uncategorized

Paper-DeepSeek-R1: Stimuleren van redeneervermogen in LLM's via versterkingsleren

Doordeepseeker 29 januari 202529 januari 2025

Abstract Deze paper introduceert DeepSeek's eerste generatie redeneermodellen: DeepSeek-R1-Zero en DeepSeek-R1. DeepSeek-R1-Zero, getraind door middel van grootschalige reinforcement learning (RL) zonder supervised fine-tuning (SFT), toont opmerkelijke redenering vermogens. Door RL ontwikkelt het op natuurlijke wijze krachtig redeneergedrag. Het heeft echter te kampen met uitdagingen zoals slechte leesbaarheid en taalvermenging. Om deze problemen aan te pakken en de redeneerprestaties te verbeteren, werd DeepSeek-R1...