Abstrak
Makalah ini memperkenalkan model penalaran generasi pertama DeepSeek: DeepSeek-R1-Zero dan DeepSeek-R1. DeepSeek-R1-Zero, yang dilatih melalui pembelajaran penguatan skala besar (RL) tanpa penyempurnaan yang diawasi (SFT), menunjukkan kemampuan penalaran yang luar biasa. Melalui RL, secara alami mengembangkan perilaku penalaran yang kuat. Namun, RL menghadapi tantangan seperti keterbacaan yang buruk dan pencampuran bahasa. Untuk mengatasi masalah ini dan meningkatkan performa penalaran, DeepSeek-R1 dikembangkan dengan menggabungkan pelatihan multi-tahap dan data awal sebelum RL. DeepSeek-R1 mencapai kinerja yang sebanding dengan OpenAI-o1-1217 pada tugas-tugas penalaran. Untuk mendukung penelitian, DeepSeek membuka sumber kedua model dan enam model padat (1,5B, 7B, 8B, 14B, 32B, 70B) yang disaring dari DeepSeek-R1 berdasarkan Qwen dan Llama.
Kontribusi Utama
Pasca Pelatihan: Pembelajaran Penguatan Skala Besar
- Berhasil menerapkan RL secara langsung ke model dasar tanpa SFT
- Mengembangkan DeepSeek-R1-Zero, mendemonstrasikan kemampuan seperti verifikasi diri dan refleksi
- Penelitian terbuka pertama yang memvalidasi bahwa kemampuan penalaran dapat diberi insentif murni melalui RL
- Memperkenalkan pipeline untuk DeepSeek-R1 dengan dua tahap RL dan dua tahap SFT
Penyulingan: Memberdayakan Model yang Lebih Kecil
- Mendemonstrasikan bahwa pola penalaran dari model yang lebih besar dapat secara efektif disaring menjadi pola yang lebih kecil
- DeepSeek-R1 bersumber terbuka dan API-nya untuk memberi manfaat bagi komunitas penelitian
- Menyempurnakan beberapa model padat yang menunjukkan performa tolok ukur yang luar biasa
- Model yang disuling secara signifikan mengungguli model sumber terbuka sebelumnya
Hasil Evaluasi
Tugas Penalaran
- DeepSeek-R1 mencapai 79,8% Pass@1 pada AIME 2024, melampaui OpenAI-o1-1217
- Skor 97.3% pada MATH-500, berkinerja setara dengan OpenAI-o1-1217
- Performa tingkat ahli dalam tugas kompetisi kode dengan peringkat 2.029 Elo di Codeforces
Tugas Pengetahuan
- Hasil yang luar biasa pada MMLU (90,8%), MMLU-Pro (84,0%), dan GPQA Diamond (71,5%)
- Melampaui model sumber tertutup lainnya dalam tugas-tugas pendidikan
- Performa yang kuat pada tolok ukur faktual seperti SimpleQA
Kemampuan Umum
- Unggul dalam menulis kreatif, menjawab pertanyaan, mengedit, dan meringkas
- 87.6% tingkat kemenangan di AlpacaEval 2.0 dan 92.3% di ArenaHard
- Performa yang kuat dalam tugas pemahaman konteks yang panjang
Pekerjaan di Masa Depan
Tim berencana untuk fokus pada:
- Meningkatkan kemampuan umum di berbagai bidang seperti pemanggilan fungsi dan permainan peran yang kompleks
- Mengatasi masalah pencampuran bahasa
- Meningkatkan rekayasa petunjuk
- Meningkatkan kinerja pada tugas rekayasa perangkat lunak
Kesimpulan
DeepSeek-R1 mewakili kemajuan yang signifikan dalam kemampuan penalaran AI melalui pembelajaran penguatan. Keberhasilan model utama dan versi penyempurnaannya menunjukkan potensi pendekatan ini untuk mengembangkan sistem AI yang lebih mumpuni. Rilis sumber terbuka dari model-model ini akan berkontribusi pada penelitian dan pengembangan lebih lanjut di lapangan.