Interpretasi paper DeepSeek R1 & poin teknis utama

1 Latar Belakang

Selama Festival Musim Semi, DeepSeek R1 sekali lagi menarik perhatian luas, dan bahkan artikel interpretasi DeepSeek V3 yang kami tulis sebelumnya juga disiarkan ulang dan banyak dibahas.

Meskipun telah ada banyak analisis dan reproduksi DeepSeek R1, di sini kami memutuskan untuk menyusun beberapa catatan bacaan yang sesuai.

Kami akan menggunakan tiga diagram skematik inti untuk menunjukkan konstruksi model dan poin teknis utama, menyaring esensi seri DeepSeek-R1 untuk memberikan pemahaman yang lebih intuitif tentang ide desainnya.

Makalah yang sesuai adalah [2501.12948] DeepSeek-R1: Memberikan Insentif Kemampuan Penalaran dalam LLM melalui Pembelajaran Penguatan

dan model sumber terbuka yang sesuai adalah DeepSeek-R1

2 Pendahuluan

2.1 Algoritma Penalaran Umum

Seperti yang ditunjukkan pada Gambar 2 di bawah, penulis menjelaskan empat algoritma penalaran umum. Meskipun berbeda dalam rincian spesifiknya, semuanya mencakup dua operasi inti:

Ekspansi: hasilkan token untuk memperluas jalur solusi.
Agregasi: mengintegrasikan hasil dari setiap jalur untuk memperoleh jawaban akhir. Meningkatkan sumber daya komputasi dalam fase perluasan biasanya dapat meningkatkan kualitas jawaban dalam fase agregasi.

Konsistensi diri (SC). Seperti yang ditunjukkan pada Gambar 2a, ide inti SC adalah menghasilkan beberapa keluaran yang berbeda (yang dapat dicapai dengan mengubah parameter pengambilan sampel, dll.), lalu memilih semua jawaban untuk memilih jawaban dengan tingkat kemenangan tertinggi. Parameter kuncinya adalah jumlah jawaban kandidat n.

Algoritma Rebase: Seperti yang ditunjukkan pada Gambar 2b di bawah, Rebase juga menghasilkan beberapa keluaran, tetapi keluaran tersebut dihasilkan dalam beberapa langkah. Setiap langkah dinilai menggunakan model Reward, dan hasil dengan skor tertinggi digunakan untuk melanjutkan pembuatan. Terakhir, pohon penalaran dengan beberapa cabang dihasilkan. Jawaban dengan skor tertinggi (Best-of-N) dipilih dalam tahap agregasi.

Pencarian Pohon Monte Carlo (MCTS): Seperti yang ditunjukkan pada Gambar 2c di bawah, MCTS adalah algoritma Penalaran yang kuat yang memperluas simpul dengan mengambil sampel secara bertahap dan membangun pohon solusi hingga mencapai simpul daun yang berisi solusi kandidat. Setiap solusi dinilai melalui model atau simulasi Reward, dan skor disebarkan kembali ke simpul leluhurnya untuk memperbarui nilai reward mereka, sehingga menyelesaikan iterasi. Parameter kuncinya juga n, dan peningkatan n memungkinkan eksplorasi solusi potensial yang lebih dalam dan lebih luas.

Rantai kognitif terinternalisasi (ICoT). Seperti yang ditunjukkan pada Gambar 2d di bawah, LLM terbaru, seperti OpenAI o1 dan Qwen-QWQ, dapat menginternalisasi perilaku penalaran selama pelatihan tanpa memerlukan algoritma penalaran eksplisit. Ide intinya adalah untuk menghasilkan urutan CoT, menguraikan masalah kompleks menjadi beberapa sub-masalah, dan kemudian mengoptimalkan jawaban ini secara berulang dengan merefleksikan keluaran sebelumnya untuk akhirnya sampai pada solusi.

2.2 Metode penyelarasan penalaran

2.2.1 Gambaran umum metode Best-of-N

Singkatnya, Best-of-N adalah metode penyelarasan yang banyak digunakan dalam inferensi LLM, yang bertujuan untuk memastikan kualitas tinggi dari hasil yang dihasilkan dengan menghasilkan beberapa respons kandidat dan memilih yang terbaik. Metode ini terdiri dari tiga proses utama:

Proses pembangkitan: Untuk perintah X tertentu, metode Best-of-N menghasilkan respons IID N (Y1, Y₂, …, Yₙ), di mana N sering disebut sebagai “ukuran batch”.
Mekanisme penilaian: Setiap respons yang dihasilkan dinilai oleh model penghargaan untuk memperoleh skor yang sesuai {s(Y₁), s(Y₂), …, s(Yₙ)}.
Memilih respons terbaik: Akhirnya, respons dengan skor tertinggi di antara semua respons yang dihasilkan dipilih sebagai output, yaitu, Y_Best-of-N = argmax {s(Y₁), s(Y₂), …, s(Yₙ)}.

Keuntungan dari metode ini adalah:

Hal ini secara efektif dapat menghindari langkah-langkah penyempurnaan yang rumit, membuatnya lebih mudah untuk menyebarkan model bahasa yang telah dilatih sebelumnya atau disempurnakan dengan instruksi.
Mudah diimplementasikan, mudah dipahami, dan pada dasarnya bebas dari hiperparameter: hiperparameter utama adalah N, yang dapat disesuaikan secara dinamis selama inferensi.
Metode ini sangat kompetitif dalam hal kualitas pembangkitan dan bahkan dapat menyaingi beberapa teknik pasca-pelatihan yang rumit seperti RLHF atau DPO. Penelitian menunjukkan bahwa metode Best-of-N bekerja dengan baik pada kurva trade-off antara reward dan divergensi KL, bahkan melampaui strategi penyelarasan rumit lainnya.

Kerugian dari metode ini adalah

inferensi memerlukan pembuatan urutan N, yang dapat menyebabkan beban komputasi yang signifikan. Dalam praktiknya, nilai wajar untuk N berkisar antara 4 hingga 128, tetapi untuk bersaing dengan metode pasca-pelatihan yang paling canggih, nilai N yang lebih tinggi mungkin diperlukan, seperti 1000 hingga 60000, yang dapat menyebabkan beban komputasi yang hampir tidak dapat diterima.

Metode best-of-N sering digunakan untuk menghasilkan himpunan data berkualitas tinggi untuk penyempurnaan terawasi berikutnya dan memainkan peran penting dalam proses penyelarasan LLaMA-2 dan LLaMA-3.

2.2.2 Metode OpenAI terbaik dari N

OpenAI pertama kali mengusulkan pengambilan sampel Best-of-N di [2009.01325] Belajar meringkas dari umpan balik manusia Secara khusus, metode ini digunakan untuk mengevaluasi dan mengoptimalkan kinerja model ringkasan dengan memilih ringkasan terbaik yang dihasilkan dari beberapa model. Metode ini membantu peneliti lebih memahami hubungan antara berbagai metrik evaluasi dan preferensi penilai manusia, serta digunakan untuk memandu pelatihan dan pengoptimalan model.

OpenAI juga menggunakan pengambilan sampel Best-of-N (pengambilan sampel penolakan) dalam tindak lanjut [2112.09332] WebGPT: Pertanyaan dan jawaban dibantu browser dengan umpan balik manusiaSecara khusus, sejumlah jawaban tetap (4, 16 atau 64) diambil sampelnya dari model BC atau model RL, dan jawaban dengan skor model penghargaan tertinggi dipilih sebagai metode pengoptimalan untuk model penghargaan adversarial. Metode ini tidak memerlukan pelatihan tambahan, tetapi meningkatkan kompleksitas komputasi tahap inferensi untuk mencapainya.

2.2.3 Metode Google BOND

Dalam [2407.14622] BOND: Menyelaraskan LLM dengan Distilasi Best-of-N, penulis dari Google mengusulkan Distilasi Best-of-N (BOND), algoritma RLHF baru yang dirancang untuk mensimulasikan strategi pengambilan sampel Best-of-N melalui algoritma Pencocokan Distribusi tanpa meningkatkan overhead komputasi secara signifikan selama Inferensi.

Secara khusus, penulis pertama-tama memperoleh distribusi analitis yang tepat dari pengambilan sampel Best-of-N dan memberikan fungsi probabilitas pengambilan sampel Best-of-N:

Kedua, penulis menyatakan permasalahan ini sebagai masalah pencocokan distribusi;

selanjutnya penulis mengusulkan untuk menggunakan divergensi Jeffreys sebagai tujuan pencocokan distribusi:

Akhirnya, untuk memecahkan masalah pemilihan N, penulis mengusulkan metode BOND iteratif, yang meningkatkan kinerja strategi dengan secara iteratif menyaring distribusi Best-of-N. Langkah-langkah spesifiknya meliputi:

Inisialisasi strategi Jangkar tambahan π(jangkar).

Jalankan BOND secara berulang untuk menyaring π(jangkar) Terbaik-dari-N dan memperbarui π(jangkar) setelah setiap langkah.

2.3 Supervisi proses dan supervisi hasil

Hasil dan Proses mengacu pada dua aspek evaluasi model Reward:

Model Penghargaan Hasil: Mengevaluasi apakah hasil akhir keluaran model benar atau seperti yang diharapkan.
Model Proses Penghargaan: Mengevaluasi apakah penalaran model dan langkah-langkah pengambilan keputusan dalam proses menghasilkan hasil masuk akal dan efektif.

Misalnya, OpenAI Let's Verify Step by Step | OpenAI juga menyebutkan:

Supervisi proses (Outcome-supervised): melibatkan pemberian umpan balik pada setiap langkah proses Penalaran model. Model Penghargaan yang diawasi proses (Process-supervised Reward Models/PRM) dilatih untuk memprediksi kebenaran setiap langkah solusi.
Outcome-supervised: Outcome-supervised memberikan umpan balik hanya berdasarkan hasil akhir penalaran model. Model penghargaan Outcome-supervised (ORM) dilatih menggunakan jawaban akhir dari solusi, dan kebenarannya ditentukan oleh pemeriksaan otomatis.

2.4 Peretasan Hadiah

Dalam kehidupan nyata, reward hacking mengacu pada fenomena di mana seorang agen mengeksploitasi kelemahan dalam desain fungsi reward untuk memaksimalkan reward kumulatif dengan cara yang tidak sesuai dengan tujuan awal perancang. Meskipun perilaku ini secara teknis memenuhi tujuan pengoptimalan fungsi reward, efek aktualnya menyimpang dari tujuan tugas yang diharapkan dan bahkan dapat menyebabkan konsekuensi negatif.

Analisis poin utama:

Definisi dan manifestasi:
1. Agen menemukan kelemahan dalam fungsi penghargaan dan memperoleh penghargaan tinggi dengan mengambil “jalan pintas” alih-alih benar-benar menyelesaikan masalah.
2. Misalnya, robot pembersih mematikan lampu agar ruangan "terlihat" bersih, alih-alih benar-benar membersihkannya; agen permainan berulang kali mencetak poin tanpa menyelesaikan tujuan level; memilih untuk tidak memperlambat laju untuk mengurangi jumlah waktu pengereman, yang menimbulkan bahaya keselamatan; menghasilkan konten tak berarti yang cocok dengan kata kunci untuk mengelabui perolehan skor tinggi.
Akar penyebabnya:
1. Desain fungsi penghargaan tidak lengkap: penyederhanaan yang berlebihan atau kegagalan untuk mencakup kasus-kasus ekstrem.
2. Ketidakselarasan antara tujuan dan imbalan: fungsi imbalan gagal untuk sepenuhnya mencerminkan tujuan sebenarnya, menyebabkan agen mengoptimalkan tujuan yang “salah”.
Solusi:
1. Tingkatkan desain hadiah: perkenalkan hadiah multi-dimensi (misalnya keselamatan, efisiensi, dll.) atau sesuaikan fungsi hadiah secara dinamis.
2. Verifikasi adversarial: mendeteksi apakah agen melakukan “kecurangan” melalui mekanisme tambahan.
3. Intervensi dan kendala manual: tetapkan batasan perilaku (misalnya lapisan keamanan) atau umpan balik manual (misalnya RLHF).
4. Pembelajaran penguatan terbalik (IRL): pelajari fungsi penghargaan yang lebih realistis dari demonstrasi ahli.
5. Pembelajaran penguatan hierarkis: menguraikan tugas menjadi sub-tujuan untuk mengurangi risiko pengoptimalan lokal.
Kaitannya dengan overfitting:
1. Keduanya menunjukkan kesenjangan antara metrik pelatihan dan kinerja dunia nyata, tetapi Reward Hacking lebih menekankan pada kelemahan desain fungsi hadiah dibandingkan dengan kemampuan generalisasi model.
Ringkasan:
1. Reward Hacking mengungkap tantangan penyelarasan tujuan dalam kehidupan nyata. Memecahkan masalah ini memerlukan kombinasi perancangan mekanisme penghargaan yang lebih tangguh, pengenalan kendala eksternal, dan penggabungan pengetahuan awal manusia untuk memastikan bahwa perilaku agen efisien dan sejalan dengan maksud perancangan.

3 DeepSeek-R1-Nol & DeepSeek-R1

3.1 Gambaran Umum

Penelitian sebelumnya sebagian besar mengandalkan sejumlah besar data terbimbing untuk meningkatkan kinerja model. Studi ini menunjukkan bahwa bahkan tanpa SFT sebagai cold start, RL skala besar dapat meningkatkan kemampuan penalaran model secara signifikan. Selain itu, pengenalan sejumlah kecil data cold start dapat lebih mengoptimalkan kinerja. Berikut ini adalah model yang terkait dengan DeepSeek-R1:

DeepSeek-R1-Zero: Model ini menerapkan RL langsung ke model Dasar tanpa data SFT apa pun.
DeepSeek-R1: Model ini menerapkan RL mulai dari titik pemeriksaan yang telah disetel dengan ribuan sampel CoT yang panjang.
DeepSeek-R1-Distill-xx: Menyuling kemampuan Penalaran DeepSeek-R1 menjadi model Padat kecil.

3.2 DeepSeek-R1-Nol

Gambar berikut menunjukkan poin-poin utama dalam pelatihan model DeepSeek-R1-Zero:

PS: Perlu dicatat bahwa makalah ini tidak memberikan banyak informasi tentang data yang digunakan dalam proses RL DeepSeek-R1-Zero. Namun, ada beberapa penjelasan tentang proses pembuatan data dan kuantitas dalam pelatihan R1 berikutnya, meskipun tidak terlalu spesifik.

3.2.1 Algoritma RL

Untuk mengurangi biaya pelatihan RL, penulis menggunakan metode GRPO (Group Relative Policy Optimization) milik DeepSeek, [2402.03300] DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. Metode ini mengabaikan model Critic, yang biasanya berukuran sebanding dengan model Policy, dan sebagai gantinya memperkirakan nilai dasar menggunakan skor kelompok. Penjelasan terkait ditunjukkan pada gambar di bawah ini (gambar dari Twitter):

3.2.2 Pemodelan penghargaan

Hadiah merupakan sumber sinyal pelatihan dan menentukan arah pengoptimalan RL. Untuk melatih DeepSeek-R1-Zero, penulis menggunakan sistem hadiah berbasis aturan, yang terutama terdiri dari dua jenis hadiah:

Penghargaan akurasi: Mengevaluasi apakah responsnya benar. Misalnya:
- Dalam masalah matematika dengan hasil deterministik, model perlu memberikan jawaban akhir dalam format tertentu (seperti di dalam kotak) sehingga kebenarannya dapat diverifikasi secara andal oleh aturan.
- Demikian pula, untuk masalah LeetCode, umpan balik dapat dihasilkan menggunakan kompiler berdasarkan kasus uji yang telah ditentukan sebelumnya.
Hadiah format: Hadiah format juga digunakan untuk memaksa model untuk menempatkan proses pemikirannya di antara “ " Dan " " tag.

Selama pengembangan DeepSeek-R1-Zero, penulis tidak menggunakan Model Imbalan Neural Hasil atau Model Imbalan Neural Proses karena penulis menemukan bahwa Model Imbalan Neural dapat mengalami pemalsuan imbalan (Reward Hacking) dalam proses RL skala besar; selain itu, pelatihan ulang Model Imbalan tidak hanya membutuhkan sumber daya pelatihan tambahan, tetapi juga mempersulit seluruh proses pelatihan.

3.2.3 Template Pelatihan

Untuk melatih DeepSeek-R1-Zero, penulis pertama-tama merancang Template sederhana untuk memandu model Dasar agar mengikuti instruksi yang ditetapkan. Seperti yang ditunjukkan pada Tabel 1 di bawah, Template mengharuskan DeepSeek-R1-Zero untuk menghasilkan proses inferensi dan kemudian memberikan jawaban akhir.

Penulis sengaja membatasi kendala pada kerangka struktural ini untuk menghindari munculnya bias konten apa pun – misalnya, memaksakan penalaran reflektif atau mempromosikan strategi pemecahan masalah tertentu – untuk memastikan bahwa evolusi alami model dapat diamati secara akurat selama proses RL.

3.2.4 Kesimpulan

Kemampuan penalaran yang kuat tanpa data SFT: Dengan memulai RL langsung dari model Dasar, lintasan evolusi model dapat dipantau secara ketat tanpa gangguan SFT. Seperti yang ditunjukkan Gambar 3 di bawah, waktu berpikir DeepSeek-R1-Zero terus membaik (panjang pertumbuhan secara bertahap menjadi lebih panjang) selama proses pelatihan. Peningkatan ini tidak berasal dari penyesuaian eksternal, tetapi merupakan hasil alami dari pengembangan internal model. DeepSeek-R1-Zero secara alami memperoleh kemampuan untuk menyelesaikan tugas inferensi yang semakin kompleks, seperti kemampuan untuk berefleksi, dengan menggunakan kalkulasi waktu pengujian yang diperpanjang.

DeepSeek-R1-Zero mengalami "momen aha" selama pelatihan. Seperti yang ditunjukkan pada Tabel 3 di bawah, momen ini terjadi selama tahap versi tengah model. Selama tahap ini, DeepSeek-R1-Zero belajar mengalokasikan lebih banyak waktu berpikir untuk memecahkan masalah dengan mengevaluasi ulang pendekatan awalnya.

Pemungutan suara mayoritas: Performa DeepSeek-R1-Zero dapat ditingkatkan lebih lanjut dengan menerapkan pemungutan suara mayoritas. Misalnya, seperti yang ditunjukkan pada Tabel 2 di bawah ini, setelah pemungutan suara mayoritas digunakan dalam uji tolok ukur AIME, performanya melonjak dari 71,0% menjadi 86,7%, melampaui OpenAI-o1-0912.

Kelemahan: Sementara DeepSeek-R1-Zero menunjukkan kemampuan Penalaran yang kuat dan secara mandiri mengembangkan perilaku Penalaran yang tidak terduga dan kuat, ia masih menghadapi tantangan seperti keterbacaan yang buruk dan pencampuran bahasa.

3.3 DeepSeek-R1

Untuk membuat proses Penalaran lebih mudah dibaca dan membagikannya dengan komunitas terbuka, penulis lebih lanjut mengeksplorasi metode DeepSeek-R1, yang menggunakan data cold-start yang ramah manusia untuk RL. Terinspirasi oleh DeepSeek-R1-Zero, dua pertanyaan alami berikut:

Dapatkah kinerja Penalaran ditingkatkan lebih lanjut atau proses konvergensi dipercepat dengan memperkenalkan sejumlah kecil data berkualitas tinggi sebagai permulaan?
Bagaimana kita dapat melatih model yang mudah digunakan yang tidak hanya menghasilkan CoT yang jelas dan koheren, tetapi juga menunjukkan kemampuan generalisasi yang kuat?

Menanggapi pertanyaan-pertanyaan ini, kami merancang proses pelatihan untuk DeepSeek-R1. Proses ini terdiri dari beberapa tahap, seperti yang dijelaskan di bawah ini:

Tahap-1, seperti yang ditunjukkan pada gambar di bawah, melatih keadaan antara DeepSeek-R1 melalui SFT + RL:

Gambar berikut menunjukkan Tahap-2, 3, dan 4:

Tahap-2: kiri atas, buat 200 ribu data Non-Penalaran dan 600 ribu data Penalaran.
Tahap-3: kanan atas, kereta SFT + RL DeepSeek-R1.
Tahap-4: gambar bagian bawah, Distilasi DeepSeek-R1-Distill-xx.

3.3.1 Start Dingin (Tahap-1)

Tidak seperti DeepSeek-R1-Zero, untuk mencegah fase Cold Start yang tidak stabil dari model Base di awal pelatihan RL, penulis membuat dan mengumpulkan sejumlah kecil data Long CoT untuk DeepSeek-R1 guna menyempurnakan model sebagai RL Actor awal. Untuk mengumpulkan data ini, penulis mengeksplorasi berbagai metode:

Menggunakan perintah few-shot dengan contoh CoT Panjang
Meminta model secara langsung untuk menghasilkan jawaban terperinci dengan refleksi dan verifikasi
Mengumpulkan output DeepSeek-R1-Zero dalam format yang dapat dibaca manusia
Menyempurnakan hasil melalui pasca-pemrosesan dengan pelabelan manual

Penulis mengumpulkan total ribuan data Cold Start, yang digunakan untuk menyempurnakan DeepSeek-V3-Base sebagai titik awal untuk RL. Dibandingkan dengan DeepSeek-R1-Zero, keunggulan data Cold Start meliputi:

Keterbacaan: Respons DeepSeek-R1-Zero dapat dicampur dalam beberapa bahasa atau tidak memiliki format Markdown yang digunakan untuk menyorot jawaban pengguna. Sebaliknya, saat membuat data Cold Start untuk DeepSeek-R1, penulis merancang format yang mudah dibaca yang menyertakan ringkasan di akhir setiap Respons dan menyaring Respons yang tidak dapat dibaca. Di sini, format keluaran didefinisikan sebagai |special_token| |token_khusus|
, di mana reasoning_process merupakan pemikiran berantai dari Query dan summary digunakan untuk meringkas hasil penalaran.
Potensi: Dengan merancang secara cermat kombinasi pola data Cold Start manusia-apriori, penulis mengamati bahwa kinerjanya lebih unggul daripada DeepSeek-R1-Zero.

3.3.2 RL yang digerakkan oleh penalaran (Tahap-1)

Setelah menyempurnakan DeepSeek-V3-Base pada data Cold Start, proses pelatihan RL skala besar yang sama seperti DeepSeek-R1-Zero digunakan. Tahap ini bertujuan untuk meningkatkan kemampuan model dalam tugas-tugas yang membutuhkan penalaran intensif, terutama pada masalah pemrograman, matematika, sains, dan penalaran logis dengan solusi yang jelas.

Selama pelatihan, penulis mengamati bahwa CoT sering mengalami pencampuran bahasa, terutama ketika perintah RL melibatkan beberapa bahasa. Untuk mengatasi masalah pencampuran bahasa, penulis memperkenalkan hadiah konsistensi bahasa ke dalam pelatihan RL, yang dihitung berdasarkan proporsi kata dalam bahasa target di CoT. Meskipun eksperimen ablasi menunjukkan bahwa metode penyelarasan ini menyebabkan sedikit penurunan kinerja model, mekanisme hadiah ini konsisten dengan preferensi manusia dan meningkatkan keterbacaan. Akhirnya, penulis secara langsung menambahkan akurasi tugas Penalaran ke hadiah konsistensi bahasa untuk membentuk hadiah akhir, dan menerapkan pelatihan RL pada model yang disetel dengan baik hingga menyatu pada tugas Penalaran.

3.3.3 Konstruksi 800.000 data terpilih (Tahap-2)

Sementara RL untuk Penalaran menyatu, data SFT dikumpulkan menggunakan titik pemeriksaan yang dihasilkan untuk putaran pelatihan berikutnya. Tidak seperti data Cold Start awal, yang terutama berfokus pada Penalaran, tahap ini menggabungkan data dari domain lain untuk meningkatkan kemampuan model dalam menulis, bermain peran, dan tugas-tugas umum lainnya. Secara khusus, data dihasilkan dan model disempurnakan sebagai berikut:

Data penalaran: Prompt penalaran dipilih dan lintasan penalaran dihasilkan dengan melakukan pengambilan sampel penolakan dari Checkpoint yang dilatih RL yang disebutkan sebelumnya (DeepSeek-R1 Tahap 1). Pada tahap sebelumnya, hanya data yang dapat dievaluasi menggunakan hadiah berbasis aturan yang disertakan. Namun, pada tahap ini, kumpulan data diperluas dengan menyertakan lebih banyak data, beberapa di antaranya dihasilkan menggunakan model hadiah, dan jawaban sebenarnya dinilai dengan memasukkan prediksi model ke dalam DeepSeek-V3 (DeepSeek V3 sebagai Juri). Selain itu, karena keluaran model terkadang membingungkan dan sulit dibaca, rantai pemikiran bahasa campuran, paragraf panjang, dan blok kode disaring. Untuk setiap prompt, beberapa respons diambil sampelnya dan hanya yang benar (Best-of-N) yang dipertahankan. Secara total, sekitar 600.000 sampel pelatihan terkait penalaran dikumpulkan.
Data Non-Penalaran: seperti tulisan, pertanyaan fakta, kesadaran diri, dan penerjemahan, menggunakan proses DeepSeek-V3 dan menggunakan kembali beberapa set data SFT DeepSeek-V3. Untuk beberapa tugas Non-Penalaran, DeepSeek-V3 dipanggil untuk menghasilkan CoT potensial sebelum menjawab pertanyaan. Namun, untuk pertanyaan sederhana seperti "Halo", tidak ada rantai pemikiran yang disediakan dalam Respons. Pada akhirnya, total sekitar 200.000 sampel pelatihan Non-Penalaran dikumpulkan.

3.3.4 SFT & RL untuk semua skenario (Tahap-3)

Dua putaran penyempurnaan terhadap total sekitar 800.000 sampel terpilih dilakukan pada DeepSeek-V3-Base menggunakan dua set data yang disebutkan di atas (Penalaran dan non-Penalaran).

Untuk lebih menyelaraskan model dengan preferensi manusia, penulis menerapkan fase kedua RL, yang bertujuan untuk meningkatkan kegunaan dan keamanan model sekaligus menyempurnakan kemampuan Penalarannya. Secara khusus, model dilatih dengan kombinasi sinyal penghargaan dan distribusi perintah yang beragam.

Untuk data Penalaran, metodologi yang dijelaskan dalam DeepSeek-R1-Zero diikuti, menggunakan mekanisme penghargaan berbasis aturan untuk memandu pembelajaran model di bidang matematika, pemrograman, dan penalaran logis.
Untuk data umum, model Reward digunakan untuk menangkap preferensi manusia dalam situasi yang kompleks dan rumit. Strategi serupa berupa pasangan preferensi dan distribusi perintah pelatihan digunakan berdasarkan proses DeepSeek-V3.
Dalam hal kegunaan, hanya ringkasan akhir yang dipertimbangkan, memastikan bahwa evaluasi berfokus pada kepraktisan dan relevansi Respons bagi pengguna sambil meminimalkan gangguan pada proses Penalaran yang mendasarinya.
Mengenai tidak berbahayanya, seluruh Respons model dievaluasi secara komprehensif, termasuk proses Penalaran dan ringkasan, untuk mengidentifikasi dan menghilangkan segala risiko, bias, atau konten berbahaya yang mungkin timbul selama proses pembuatan.
Pada akhirnya, dengan mengintegrasikan sinyal penghargaan dan mendiversifikasi distribusi data, model yang mengutamakan manfaat dan tidak membahayakan sekaligus unggul dalam Penalaran dapat dilatih.

3.3.5 Distilasi (Tahap-4)

Untuk melengkapi model kecil yang lebih efisien dengan kemampuan penalaran DeepSeek-R1, penulis secara langsung menyempurnakan model sumber terbuka Qwen dan LLaMA menggunakan 800.000 sampel yang dipilih dalam DeepSeek-R1-Tahap-1. Hasilnya menunjukkan bahwa metode distilasi langsung ini secara signifikan meningkatkan kemampuan penalaran model kecil. Model dasar yang digunakan oleh penulis meliputi Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, Qwen2.5-14B, Qwen2.5-32B, Llama-3.1-8B, dan Llama-3.3-70B-Instruct. Llama-3.3 dipilih karena kemampuan penalarannya sedikit lebih baik daripada Llama-3.1.

Untuk model distilasi, penulis hanya menggunakan SFT dan tidak menyertakan tahap RL. Meskipun pengenalan RL dapat meningkatkan kinerja model secara signifikan, tujuan utama penulis di sini adalah untuk menunjukkan efektivitas teknologi distilasi, dan eksplorasi tahap RL diserahkan kepada penelitian selanjutnya.

PS: Selain itu, sebenarnya dimungkinkan untuk menggunakan DeepSeek-R1 final untuk menghasilkan data di atas dan merekonstruksi 800.000 data yang digunakan untuk distilasi, dan model distilasi mungkin memiliki efek yang lebih baik; namun, harganya adalah data tersebut perlu direkonstruksi.

Interpretasi makalah DeepSeek R1 & poin-poin teknis utama

1 Latar Belakang