Paper-DeepSeek-R1: Incentivisering av resonemangsförmågan i LLM:er via förstärkningsinlärning
Sammanfattning Detta dokument introducerar DeepSeek:s första generation av resonemangsmodeller: DeepSeek-R1-Zero och DeepSeek-R1. DeepSeek-R1-Zero, som tränats genom storskalig förstärkningsinlärning (RL) utan övervakad finjustering (SFT), uppvisar anmärkningsvärda resonemangsförmågor. Genom RL utvecklar den på ett naturligt sätt kraftfulla resonemangsbeteenden. Den står dock inför utmaningar som dålig läsbarhet och språkblandning. För att ta itu med dessa problem och förbättra resonemangsprestanda utvecklades DeepSeek-R1,...