Paper-DeepSeek-R1: Mendorong Kemampuan Penalaran dalam LLM melalui Pembelajaran Penguatan

Abstrak Makalah ini memperkenalkan model penalaran generasi pertama DeepSeek: DeepSeek-R1-Nol dan DeepSeek-R1. DeepSeek-R1-Zero, yang dilatih melalui pembelajaran penguatan skala besar (RL) tanpa fine-tuning yang diawasi (SFT), menunjukkan kemampuan penalaran yang luar biasa. Melalui RL, secara alami mengembangkan perilaku penalaran yang kuat. Namun, RL menghadapi tantangan seperti keterbacaan yang buruk dan pencampuran bahasa. Untuk mengatasi masalah ini dan meningkatkan kinerja penalaran, DeepSeek-R1 dikembangkan,...