Paper-DeepSeek-R1: Motywowanie zdolności rozumowania w LLM poprzez uczenie się ze wzmocnieniem
Streszczenie Niniejszy artykuł przedstawia modele rozumowania DeepSeek pierwszej generacji: DeepSeek-R1-Zero i DeepSeek-R1. DeepSeek-R1-Zero, wytrenowany poprzez wielkoskalowe uczenie ze wzmocnieniem (RL) bez nadzorowanego dostrajania (SFT), wykazuje niezwykłe możliwości rozumowania. Dzięki RL naturalnie rozwija potężne zachowania rozumowania. Napotyka jednak wyzwania, takie jak słaba czytelność i mieszanie języków. Aby rozwiązać te problemy i zwiększyć wydajność rozumowania, opracowano DeepSeek-R1,...