Hari ini kita akan berbagi DeepSeek R1Judul: DeepSeek-R1: Memberikan Insentif Kemampuan Penalaran dalam LLM melalui Pembelajaran Penguatan: Memberikan insentif pada kemampuan penalaran LLM melalui pembelajaran penguatan.
Makalah ini memperkenalkan model penalaran generasi pertama DeepSeek, DeepSeek-R1-Zero dan DeepSeek-R1Model DeepSeek-R1-Zero dilatih melalui pembelajaran penguatan skala besar (RL) tanpa penyempurnaan terbimbing (SFT) sebagai langkah awal, menunjukkan potensi RL dan kemampuan penalaran yang unggul itu membawa. Melalui pembelajaran penguatan, DeepSeek-R1-Zero secara alami muncul dengan banyak perilaku penalaran yang kuat dan menarikUntuk lebih mengoptimalkan beberapa masalah dengan R1-Zero (kebingungan linguistik, peningkatan kemampuan generalisasi), mereka merilis DeepSeek-R1, yang menggabungkan pelatihan multi-tahap dan penyempurnaan data cold-start sebelum pembelajaran penguatan. DeepSeek-R1 mencapai kinerja yang sebanding pada tugas penalaran dengan OpenAI-01-1217. Untuk mendukung komunitas penelitian, mereka telah DeepSeek-R1-Zero sumber terbuka, DeepSeek-R1, dan enam model padat (1.5B, 7B, 8B, 14B, 32B, 70B) yang disuling dari DeepSeek-R1, yang didasarkan pada Qwen dan Llama.
Karakteristik metode ini dirangkum sebagai berikut:
- Pembelajaran penguatan diterapkan langsung ke model dasar, tanpa mengandalkan fine-tuning yang diawasi (SFT) sebagai langkah awal.
- Proses pengembangan DeepSeek-R1 diperkenalkan, yang menggabungkan dua fase pembelajaran penguatan dan dua fase penyempurnaan yang diawasi untuk meletakkan dasar bagi kemampuan penalaran dan non-penalaran model.
- Kinerja model kecil pada tugas penalaran ditingkatkan dengan mentransfer pola penalaran model besar ke model kecil melalui teknik distilasi.
Ringkasan
- Judul: DeepSeek-R1: Memberikan Insentif Kemampuan Penalaran dalam LLM melalui Pembelajaran Penguatan
- Penulis: DeepSeek-AI
- Sumber: Github deepseek R1
Motivasi
- Model bahasa besar (LLM) saat ini telah membuat kemajuan signifikan dalam tugas inferensi, tetapi masih menghadapi tantangan.
- Potensi murni Pembelajaran penguatan (RL) dalam meningkatkan kemampuan penalaran LLM belum sepenuhnya dieksplorasi, terutama tanpa bergantung pada data yang diawasi.
- Model yang dilatih melalui RL, seperti DeepSeek-R1-Zero, memiliki masalah dengan keterbacaan dan pencampuran bahasa (misalnya, berbicara bahasa Mandarin dan Inggris bercampur), dan perlu perbaikan lebih lanjut untuk meningkatkan keramahan pengguna.
Metode

DeepSeek-R1-Nol: Menggunakan DeepSeek-V3-Base sebagai model dasar, dan GRPO (Group Relative Policy Optimization) sebagai pembelajaran penguatan kerangka, tanpa data yang diawasi untuk meningkatkan kinerja model dalam inferensi.
DeepSeek-R1:
- Mulai Dingin: Mengumpulkan sejumlah kecil data CoT (Chain-of-Thought) berkualitas tinggi dan menyempurnakannya DeepSeek-V3-Model dasar sebagai aktor awal untuk pembelajaran penguatan.
- Pembelajaran Penguatan Berorientasi pada Penalaran: Sama saja Proses pelatihan pembelajaran penguatan seperti DeepSeek-R1-Zero diterapkan, namun dengan fokus pada peningkatan kemampuan penalaran model dalam bidang seperti pengkodean, matematika, sains, dan penalaran logis. Penghargaan konsistensi linguistik diperkenalkan untuk mengurangi masalah pencampuran linguistik yang terjadi dalam CoT.
- Pengambilan Sampel Penolakan dan Penyetelan Halus yang Diawasi: Menggunakan titik pemeriksaan konvergen pembelajaran penguatan untuk mengumpulkan data Supervised Fine-Tuning (SFT) untuk pelatihan selanjutnya.
- Pembelajaran Penguatan untuk semua Skenario: Menerapkan fase pembelajaran penguatan tingkat kedua, yang bertujuan untuk meningkatkan kegunaan dan tidak berbahayanya model tersebut sambil mengoptimalkan kemampuan penalarannya.
- Distilasi pengetahuan: Menyempurnakan model sumber terbuka Qwen dan Llama secara langsung menggunakan 800 ribu sampel yang dikurasi oleh DeepSeek-R1.
Metode dan prosedur terperinci:

DeepSeek-R1-Zero: Pembelajaran penguatan untuk model dasar
- Algoritma pembelajaran penguatan: Menggunakan algoritma Group Relative Policy Optimization (GRPO), yang tidak memerlukan pengkritik model, memperkirakan nilai dasar berdasarkan skor kelompok, dan mengurangi biaya pelatihan.
- Pemodelan penghargaan: Menggunakan sistem penghargaan berbasis aturan, termasuk

- hadiah akurasi: Mengevaluasi apakah jawabannya benar, seperti kebenaran hasil akhir dari jawaban soal matematika, umpan balik dari kompiler untuk masalah kode.
- Format hadiah: Mendorong model untuk menempatkan proses berpikir antara
dan
tagar.
Template pelatihan: Templat yang berisi dan
tag dirancang untuk memandu model untuk mengeluarkan proses berpikir terlebih dahulu, lalu jawaban akhir.

- Proses evolusi diri: DeepSeek-R1-Zero didemonstrasikan karakteristik evolusi diri selama pelatihan, dan mampu secara mandiri mempelajari strategi penalaran yang lebih kompleks, seperti refleksi dan eksplorasi berbagai jalur pemecahan masalah.

DeepSeek-R1: Pembelajaran penguatan dikombinasikan dengan start dingin

- Mulai dingin: Untuk menyelesaikan DeepSeek-R1-Zero masalah keterbacaan, DeepSeek-R1 pertama kali mengumpulkan sejumlah kecil data CoT berkualitas tinggi dan menyempurnakan model DeepSeek-V3-Base menjadi berfungsi sebagai aktor awal untuk pembelajaran penguatanData awal dingin berisi tag ringkasan dan balasan yang tidak ramah disaring.
- Metode: 1) Pilih data COT Panjang berkualitas tinggi. 2) Tambahkan dan tag.
- Keunggulan: 1) Keterbacaan yang dioptimalkan (menyelesaikan masalah multibahasa R1-Zero atau masalah format penurunan harga). 2) Data pilihan manusia yang dipilih secara cermat dapat terus meningkatkan kinerja pada R1-Zero.
- Pertanyaan: Mengapa harus mengatasi masalah keterbacaan? Bukankah mungkin untuk melakukan hal yang lebih baik tanpa mengatasinya (misalnya, mengurangi panjang output dan menyimpulkan dengan lebih efisien)?
- RL berorientasi pada penalaran: Berdasarkan model cold-start, proses pembelajaran penguatan serupa dengan DeepSeek-R1-Zero diterapkan, dengan fokus pada peningkatan kemampuan model dalam tugas-tugas seperti pengkodean, matematika, penalaran ilmiah dan logisUntuk mengatasi masalah bahasa campuran (penalaran multibahasa), penghargaan konsistensi bahasa diperkenalkan.
- Pertanyaan: Bagaimana tugas dan kumpulan data penalaran ilmiah dan logis dilatih?
- Pengambilan Sampel Penolakan dan SFT: Setelah pembelajaran penguatan yang dipandu inferensi konvergen, titik pemeriksaan yang diperoleh digunakan untuk pengambilan sampel penolakan untuk menghasilkan data SFT baru, yang digabungkan dengan data dari DeepSeek-V3 untuk meningkatkan kemampuan model dalam menulis, bermain peran, dan tugas-tugas umum.
- Tujuan:
- Fase ini dimulai setelah Proses pembelajaran penguatan berorientasi inferensi (RL) menyatu.
- Tujuan utama adalah untuk mengumpulkan data fine-tuning yang diawasi (SFT) untuk digunakan pada putaran pelatihan berikutnya.
- Berbeda dengan data cold-start awal, yang hanya berfokus pada inferensi, fase ini bertujuan untuk memperluas kemampuan model untuk mencakup tugas menulis, bermain peran, dan tugas-tugas umum lainnya, bukan hanya inferensi.
- Pengumpulan data – Data inferensi:
- Metode: Gunakan titik pemeriksaan yang diperoleh dari fase RL berorientasi inferensi untuk menghasilkan lintasan inferensi dengan pengambilan sampel penolakan.
- Perluasan set data: Tidak seperti fase RL sebelumnya, yang hanya menggunakan data penghargaan berbasis aturan, data penghargaan non-aturan diperkenalkan di sini. Dalam beberapa kasus, model penghargaan generatif (DeepSeek-V3) digunakan untuk menentukan respons.
- Penyaringan data: Untuk memastikan kualitas dan keterbacaan, output difilter untuk menghilangkan:
- rantai pemikiran yang mengandung bahasa campuran
- paragraf panjang
- blok kode
- Pengambilan sampel dan pemilihan: Untuk setiap pertanyaan, beberapa respons dibuat. Hanya respons yang “benar” yang disimpan untuk kumpulan data.
- Ukuran kumpulan data: Sekitar 600.000 sampel pelatihan terkait inferensi dikumpulkan dengan cara ini.
- Pengumpulan data – data non-inferensi:
- Cakupan: Penulisan, tanya jawab faktual (QA), kesadaran diri dan penerjemahan.
- Makalah ini menyebutkan penggunaan Proses DeepSeek-V3 dan menggunakan kembali sebagian dataset SFT DeepSeek-V3 untuk menangani tugas-tugas non-inferensi ini. Tentang 200.000 sampel independen inferensi dikumpulkan. (Catatan: Rincian pengumpulan data non-inferensi dijelaskan lebih lanjut di Bagian 2.3.4)
- Penggunaan data yang dikumpulkan:
- Data penalaran dan non-penalaran yang terkumpul (total sekitar 800.000 sampel – 600.000 sampel penalaran + 200.000 sampel non-penalaran) kemudian digunakan untuk menyempurnakan model DeepSeek-V3-Base selama dua zamanModel yang telah disempurnakan ini kemudian digunakan dalam fase RL final yang dijelaskan di Bagian 2.3.4.
- Ringkasan Langkah ini menggunakan kemampuan inferensi dipelajari melalui RL untuk menghasilkan kumpulan data SFT yang beragam dan berkualitas tinggi. Kumpulan data ini memperkuat kemampuan inferensi dan juga memperluas kemampuan umum model untuk pelatihan dalam fase penyelarasan dan perbaikan akhir.
- Tujuan:
- Pembelajaran Penguatan untuk semua Skenario: Untuk lebih menyelaraskan preferensi manusia, fase kedua pembelajaran penguatan diterapkan untuk meningkatkan kegunaan dan ketidakberbahayaan model.
- Data inferensi: misalnya matematika, kode, inferensi logis atau diawasi dengan metode basis aturan.
- Data umum: model penghargaan masih digunakan untuk memberikan informasi preferensi untuk skenario yang rumit dan rumit. Model yang dilatih dengan data berpasangan juga diestimasi.
- Kegunaan: hanya fokus pada hasil ringkasan akhir, mengurangi gangguan pada proses inferensi.
- Tidak berbahaya: awasi seluruh respons untuk mengurangi risiko apa pun.
Model distilasi (Distilasi):
- Untuk memperoleh model inferensi kecil yang lebih efisien, makalah ini menyaring kemampuan inferensi DeepSeek-R1 ke dalam model sumber terbuka seri Qwen dan Llama. Proses penyulingan hanya menggunakan fine-tuning terawasi (SFT) dan tidak menggunakan tahap pembelajaran penguatan.
Kesimpulan
DeepSeek-R1-Zero:Menunjukkan potensi pembelajaran penguatan murni dalam memotivasi kemampuan inferensi LLM, dan dapat mencapai kinerja yang kuat tanpa bergantung pada data yang diawasi.


- Momen Aha: Keindahan pembelajaran penguatan (momen pencerahan model, di mana ia mengalokasikan lebih banyak waktu berpikir untuk suatu masalah dengan belajar mengevaluasi kembali (pendekatan awal)
- Panjang keluaran terus meningkat (waktu berpikir terus meningkat)
- Akurasi terus meningkat (mengambil sampel 16 respons untuk menghitung akurasi)

- DeepSeek-R1:Lebih meningkatkan kinerja model dengan menggabungkan data cold-start dan fine-tuning pembelajaran penguatan iteratif, mencapai tingkat yang sebanding dengan OpenAI-01-1217 pada berbagai tugas.

- Penyulingan pengetahuan: Menggunakan DeepSeek-R1 sebagai model guru, 800K sampel pelatihan dihasilkan dan beberapa model kecil dan padat disempurnakan. Hasilnya menunjukkan bahwa metode distilasi dapat meningkatkan kemampuan inferensi secara signifikan model kecil.
Keterbatasan
- Keterbatasan 1: Kemampuan umum DeepSeek-R1 perlu ditingkatkan. DeepSeek-R1 masih kalah dibandingkan DeepSeek-V3 dalam tugas-tugas seperti pemanggilan fungsi, dialog multi-giliran, permainan peran yang kompleks, dan keluaran JSON.
- Keterbatasan 2: Masalah pencampuran bahasa. DeepSeek-R1 mungkin mengalami masalah campur bahasa saat memproses pertanyaan non-Mandarin dan non-Inggris, misalnya, memberi alasan dan menanggapi dalam bahasa Inggris.
- Keterbatasan 3: Sensitivitas prompt. DeepSeek-R1 sensitif terhadap kata-kata prompt, dan prompting beberapa kali akan mengurangi kinerjanya.
- Keterbatasan 4: Penerapannya terbatas pada tugas-tugas rekayasa perangkat lunak. Karena waktu evaluasi yang lama, pembelajaran penguatan skala besar belum sepenuhnya diterapkan pada tugas-tugas rekayasa perangkat lunak, dan DeepSeek-R1 memiliki peningkatan yang terbatas dibandingkan DeepSeek-V3 dalam tolok ukur rekayasa perangkat lunak.