Okategoriserad - Deepseek R1

Paper-DeepSeek-R1: Incentivisering av resonemangsförmågan i LLM:er via förstärkningsinlärning

Avdeepseeker 29 januari 202529 januari 2025

Sammanfattning Detta dokument introducerar DeepSeek:s första generation av resonemangsmodeller: DeepSeek-R1-Zero och DeepSeek-R1. DeepSeek-R1-Zero, som tränats genom storskalig förstärkningsinlärning (RL) utan övervakad finjustering (SFT), uppvisar anmärkningsvärda resonemangsförmågor. Genom RL utvecklar den på ett naturligt sätt kraftfulla resonemangsbeteenden. Den står dock inför utmaningar som dålig läsbarhet och språkblandning. För att ta itu med dessa problem och förbättra resonemangsprestanda utvecklades DeepSeek-R1,...