Uncategorized - Deepseek R1

Vraestel-DeepSeek-R1: Aansporing van redenasievermoë in LLM's via versterkingsleer

Deurdeepseeker 29 Januarie 202529 Januarie 2025

Opsomming Hierdie vraestel stel DeepSeek se eerstegenerasie redenasiemodelle bekend: DeepSeek-R1-Zero en DeepSeek-R1. DeepSeek-R1-Zero, opgelei deur grootskaalse versterkingsleer (RL) sonder toesig fyninstelling (SFT), toon merkwaardige redenasievermoëns. Deur RL ontwikkel dit natuurlik kragtige redenasiegedrag. Dit staar egter uitdagings in die gesig, soos swak leesbaarheid en taalvermenging. Om hierdie kwessies aan te spreek en redenasieprestasie te verbeter, is DeepSeek-R1 ontwikkel, ...