Tafsiran kertas DeepSeek R1 & perkara teknikal utama

1 Latar Belakang

Semasa Pesta Musim Bunga, DeepSeek R1 sekali lagi menarik perhatian meluas, malah artikel tafsiran DeepSeek V3 yang kami tulis sebelum ini turut dihantar semula dan banyak dibincangkan.

Walaupun terdapat banyak analisis dan pengeluaran semula DeepSeek R1, di sini kami telah memutuskan untuk menyusun beberapa nota bacaan yang sepadan.

Kami akan menggunakan tiga rajah skematik teras untuk menunjukkan pembinaan model dan perkara teknikal utama, menyuling intipati siri DeepSeek-R1 untuk memberikan pemahaman yang lebih intuitif tentang idea reka bentuknya.

Kertas yang sepadan ialah [2501.12948] DeepSeek-R1: Insentif Keupayaan Penaakulan dalam LLM melalui Pembelajaran Pengukuhan

dan model sumber terbuka yang sepadan ialah DeepSeek-R1

2 Pengenalan

2.1 Algoritma Penaakulan Biasa

Seperti yang ditunjukkan dalam Rajah 2 di bawah, penulis menerangkan empat algoritma penaakulan biasa. Walaupun mereka berbeza dalam butiran khusus, semuanya termasuk dua operasi teras:

Pengembangan: menjana token untuk mengembangkan laluan penyelesaian.
Pengagregatan: integrasikan hasil setiap laluan untuk mendapatkan jawapan akhir. Meningkatkan sumber pengiraan dalam fasa pengembangan biasanya boleh meningkatkan kualiti jawapan dalam fasa pengagregatan.

Ketekalan diri (SC). Seperti yang ditunjukkan dalam Rajah 2a, idea teras SC adalah untuk menjana berbilang output yang berbeza (yang boleh dicapai dengan menukar parameter pensampelan, dsb.), dan kemudian mengundi semua jawapan untuk memilih jawapan dengan kadar kemenangan tertinggi. Parameter utama ialah bilangan jawapan calon n.

Algoritma Rebase: Seperti yang ditunjukkan dalam Rajah 2b di bawah, Rebase juga menjana berbilang output, tetapi ia dijana dalam berbilang langkah. Setiap langkah dijaringkan menggunakan model Ganjaran, dan hasil dengan skor tertinggi digunakan untuk meneruskan penjanaan. Akhirnya, pokok penaakulan dengan berbilang cabang dijana. Jawapan dengan markah tertinggi (Best-of-N) dipilih dalam peringkat pengagregatan.

Carian Pokok Monte Carlo (MCTS): Seperti yang ditunjukkan dalam Rajah 2c di bawah, MCTS ialah algoritma Penaakulan yang berkuasa yang mengembangkan nod dengan pensampelan secara beransur-ansur dan membina pokok penyelesaian sehingga ia mencapai nod daun yang mengandungi penyelesaian calon. Setiap penyelesaian dijaringkan melalui model Ganjaran atau simulasi, dan skor itu disebarkan kembali ke nod moyangnya untuk mengemas kini nilai ganjarannya, sekali gus melengkapkan lelaran. Parameter utama juga ialah n, dan peningkatan n membolehkan penerokaan penyelesaian berpotensi yang lebih mendalam dan lebih luas.

Rantaian kognitif dalaman (ICoT). Seperti yang ditunjukkan dalam Rajah 2d di bawah, LLM terkini, seperti OpenAI o1 dan Qwen-QWQ, boleh menghayati tingkah laku penaakulan semasa latihan tanpa memerlukan algoritma penaakulan yang jelas. Idea teras adalah untuk menjana jujukan CoT, menguraikan masalah kompleks kepada berbilang sub-masalah, dan kemudian secara berulang mengoptimumkan jawapan ini dengan merenung pada output sebelumnya untuk akhirnya mencapai penyelesaian.

2.2 Kaedah penjajaran penaakulan

2.2.1 Gambaran keseluruhan kaedah Best-of-N

Ringkasnya, Best-of-N ialah kaedah penjajaran yang digunakan secara meluas dalam inferens LLM, yang bertujuan untuk memastikan kualiti tinggi hasil yang dijana dengan menjana pelbagai respons calon dan memilih yang terbaik. Ia terdiri daripada tiga proses utama:

Proses penjanaan: Untuk X gesaan yang diberikan, kaedah Best-of-N menjana respons N IID (Y₁, Y₂, …, Yₙ), di mana N sering dirujuk sebagai "saiz kelompok".
Mekanisme pemarkahan: Setiap respons yang dijana dijaringkan oleh model ganjaran untuk mendapatkan skor yang sepadan {s(Y₁), s(Y₂), …, s(Yₙ)}.
Memilih respons terbaik: Akhir sekali, respons dengan skor tertinggi antara semua respons yang dijana dipilih sebagai output, iaitu, Y_Best-of-N = argmax {s(Y₁), s(Y₂), …, s(Yₙ)}.

Kelebihan kaedah ini ialah:

Ia boleh mengelakkan langkah penalaan halus yang rumit dengan berkesan, menjadikannya lebih mudah untuk menggunakan model bahasa yang telah dilatih terlebih dahulu atau diperhalusi dengan arahan.
Ia mudah untuk dilaksanakan, mudah difahami dan pada asasnya bebas daripada hiperparameter: hiperparameter utama ialah N, yang boleh dilaraskan secara dinamik semasa inferens.
Ia sangat berdaya saing dari segi kualiti penjanaan dan malah boleh menandingi beberapa teknik pasca latihan yang kompleks seperti RLHF atau DPO. Penyelidikan menunjukkan bahawa kaedah Best-of-N berprestasi baik pada keluk tukar ganti antara ganjaran dan perbezaan KL, malah mengatasi strategi penjajaran kompleks yang lain.

Kelemahan kaedah ini ialah

inferens memerlukan penjanaan N jujukan, yang boleh membawa kepada overhed pengiraan yang ketara. Dalam amalan, nilai munasabah untuk N berjulat dari 4 hingga 128, tetapi untuk bersaing dengan kaedah pasca latihan yang paling maju, nilai N yang lebih tinggi mungkin diperlukan, seperti 1000 hingga 60000, yang boleh membawa kepada overhed pengiraan yang hampir tidak boleh diterima.

Kaedah best-of-N sering digunakan untuk menjana set data berkualiti tinggi untuk penalaan halus diselia seterusnya dan memainkan peranan penting dalam proses penjajaran LLaMA-2 dan LLaMA-3.

2.2.2 Kaedah terbaik-of-N OpenAI

OpenAI mula-mula mencadangkan persampelan Best-of-N dalam [2009.01325] Belajar meringkaskan daripada maklum balas manusia . Secara khusus, ia digunakan untuk menilai dan mengoptimumkan prestasi model ringkasan dengan memilih ringkasan terbaik yang dijana daripada berbilang model. Kaedah ini membantu penyelidik lebih memahami hubungan antara metrik penilaian yang berbeza dan keutamaan penilai manusia, dan digunakan untuk membimbing latihan dan pengoptimuman model.

OpenAI juga menggunakan pensampelan Best-of-N (persampelan penolakan) dalam susulan [2112.09332] WebGPT: Menjawab soalan berbantukan pelayar dengan maklum balas manusia. Secara khusus, bilangan jawapan tetap (4, 16 atau 64) diambil daripada model BC atau model RL, dan jawapan yang mempunyai skor model ganjaran tertinggi dipilih sebagai kaedah pengoptimuman untuk model ganjaran lawan. Kaedah ini tidak memerlukan latihan tambahan, tetapi meningkatkan kerumitan pengiraan peringkat inferens untuk dicapai.

2.2.3 Kaedah BON Google

Dalam [2407.14622] BOND: Menjajarkan LLM dengan Penyulingan Best-of-N, pengarang daripada Google mencadangkan Penyulingan Best-of-N (BOND), algoritma RLHF baharu yang direka bentuk untuk mensimulasikan strategi persampelan Best-of-N melalui algoritma Pemadanan Agihan tanpa meningkatkan overhed pengiraan dengan ketara semasa Inferens.

Secara khusus, pengarang mula-mula memperoleh taburan analitikal tepat bagi persampelan Best-of-N dan memberikan fungsi kebarangkalian persampelan Best-of-N:

Kedua, penulis menyatakan masalah tersebut sebagai masalah padanan pengedaran;

selepas itu, penulis mencadangkan untuk menggunakan perbezaan Jeffreys sebagai objektif pemadanan pengedaran:

Akhir sekali, untuk menyelesaikan masalah memilih N, penulis mencadangkan kaedah BOND berulang, yang meningkatkan prestasi strategi dengan menyaring secara berulang taburan Best-of-N. Langkah-langkah khusus termasuk:

Mulakan strategi Anchor tambahan π(anchor).

Laksanakan BOND secara berulang untuk menyaring Best-of-N π(anchor) dan mengemas kini π(anchor) selepas setiap langkah.

2.3 Penyeliaan proses dan penyeliaan hasil

Hasil dan Proses merujuk kepada dua aspek penilaian model Ganjaran:

Model Ganjaran Hasil: Menilai sama ada keputusan akhir keluaran model adalah betul atau seperti yang dijangkakan.
Model Ganjaran Proses: Menilai sama ada penaakulan model dan langkah membuat keputusan dalam proses menjana keputusan adalah munasabah dan berkesan.

Contohnya, OpenAI's Let's Verify Step by Step | OpenAI juga menyebut:

Penyeliaan proses (Seliaan hasil): melibatkan pemberian maklum balas pada setiap langkah proses Penaakulan model. Model Ganjaran diselia proses (PRM) dilatih untuk meramalkan ketepatan setiap langkah penyelesaian.
Penyeliaan hasil: Penyeliaan hasil memberikan maklum balas hanya berdasarkan hasil akhir penaakulan model. Model ganjaran seliaan hasil (ORM) dilatih menggunakan jawapan akhir penyelesaian, dan ketepatan ditentukan melalui semakan automatik.

2.4 Penggodaman Ganjaran

Dalam RL, penggodaman ganjaran merujuk kepada fenomena di mana ejen mengeksploitasi kecacatan dalam reka bentuk fungsi ganjaran untuk memaksimumkan ganjaran terkumpul dengan cara yang tidak memenuhi niat asal pereka bentuk. Walaupun tingkah laku ini secara teknikalnya memenuhi matlamat pengoptimuman fungsi ganjaran, kesan sebenar menyimpang daripada matlamat tugas yang dijangkakan dan mungkin membawa kepada akibat negatif.

Analisis perkara utama:

Definisi dan manifestasi:
1. Ejen mendapati kelemahan dalam fungsi ganjaran dan memperoleh ganjaran yang tinggi dengan mengambil "jalan pintas" dan bukannya menyelesaikan masalah.
2. Sebagai contoh, robot pembersih mematikan lampu untuk menjadikan bilik "kelihatan" bersih, dan bukannya membersihkannya; ejen permainan berulang kali menjaringkan mata tanpa melengkapkan matlamat tahap; memilih untuk tidak memperlahankan kelajuan untuk mengurangkan bilangan masa brek, yang menimbulkan bahaya keselamatan; menjana kandungan tidak bermakna yang sepadan dengan kata kunci untuk menipu skor tinggi.
Punca punca:
1. Reka bentuk fungsi ganjaran yang tidak lengkap: penyederhanaan berlebihan atau kegagalan untuk menutup kes tepi.
2. Kesilapan antara matlamat dan ganjaran: fungsi ganjaran gagal mencerminkan sepenuhnya matlamat sebenar, menyebabkan ejen mengoptimumkan matlamat "salah".
Penyelesaian:
1. Memperbaik reka bentuk ganjaran: memperkenalkan ganjaran berbilang dimensi (cth keselamatan, kecekapan, dsb.) atau melaraskan fungsi ganjaran secara dinamik.
2. Pengesahan lawan: mengesan sama ada ejen "menipu" melalui mekanisme tambahan.
3. Intervensi manual dan kekangan: tetapkan sempadan tingkah laku (cth lapisan keselamatan) atau maklum balas manual (cth RLHF).
4. Pembelajaran peneguhan songsang (IRL): pelajari fungsi ganjaran yang lebih realistik daripada demonstrasi pakar.
5. Pembelajaran pengukuhan hierarki: menguraikan tugas kepada submatlamat untuk mengurangkan risiko pengoptimuman tempatan.
Persatuan dengan overfitting:
1. Kedua-duanya mempamerkan pemutusan hubungan antara metrik latihan dan prestasi dunia sebenar, tetapi Penggodaman Ganjaran lebih menekankan pada kelemahan reka bentuk fungsi ganjaran berbanding keupayaan generalisasi model.
Ringkasan:
1. Penggodaman Ganjaran mendedahkan cabaran penjajaran matlamat dalam RL. Menyelesaikan masalah ini memerlukan gabungan mereka bentuk mekanisme ganjaran yang lebih mantap, memperkenalkan kekangan luaran dan menggabungkan pengetahuan sedia ada manusia untuk memastikan bahawa tingkah laku ejen adalah cekap dan selaras dengan niat reka bentuk.

3 DeepSeek-R1-Sifar & DeepSeek-R1

3.1 Gambaran Keseluruhan

Penyelidikan sebelum ini sebahagian besarnya bergantung pada sejumlah besar data yang diselia untuk meningkatkan prestasi model. Kajian ini menunjukkan bahawa walaupun tanpa SFT sebagai permulaan yang sejuk, RL berskala besar boleh meningkatkan keupayaan penaakulan model dengan ketara. Di samping itu, pengenalan sejumlah kecil data mula sejuk boleh mengoptimumkan lagi prestasi. Berikut ialah model yang berkaitan dengan DeepSeek-R1:

DeepSeek-R1-Zero: Model ini menggunakan RL terus ke model Base tanpa sebarang data SFT.
DeepSeek-R1: Model ini menggunakan RL bermula dari pusat pemeriksaan yang telah diperhalusi dengan beribu-ribu sampel CoT yang panjang.
DeepSeek-R1-Distill-xx: Menyaring keupayaan Penaakulan DeepSeek-R1 ke dalam model Padat kecil.

3.2 DeepSeek-R1-Sifar

Rajah berikut menunjukkan perkara utama dalam latihan model DeepSeek-R1-Zero:

PS: Perlu diingatkan bahawa kertas itu tidak memberikan banyak maklumat tentang data yang digunakan dalam proses RL DeepSeek-R1-Zero. Walau bagaimanapun, terdapat beberapa penjelasan mengenai proses dan kuantiti penjanaan data dalam latihan R1 berikutnya, walaupun ia tidak khusus.

3.2.1 Algoritma RL

Untuk mengurangkan kos latihan RL, penulis menggunakan kaedah GRPO (Group Relative Policy Optimization) DeepSeek sendiri, [2402.03300] DeepSeekMath: Menolak Had Penaakulan Matematik dalam Model Bahasa Terbuka. Kaedah ini meninggalkan model Kritik, yang biasanya mempunyai saiz yang setanding dengan model Dasar, dan sebaliknya menganggar garis dasar menggunakan skor kumpulan. Penjelasan yang sepadan ditunjukkan dalam rajah di bawah (gambar dari Twitter):

3.2.2 Pemodelan ganjaran

Ganjaran ialah sumber isyarat latihan dan menentukan arah pengoptimuman RL. Untuk melatih DeepSeek-R1-Zero, pengarang menggunakan sistem ganjaran berasaskan peraturan, yang kebanyakannya terdiri daripada dua jenis ganjaran:

Ganjaran ketepatan: Nilaikan sama ada respons itu betul. Contohnya:
- Dalam masalah matematik dengan keputusan deterministik, model perlu menyediakan jawapan akhir dalam format tertentu (seperti di dalam kotak) supaya ketepatannya boleh disahkan dengan pasti oleh peraturan.
- Begitu juga, untuk masalah LeetCode, maklum balas boleh dijana menggunakan pengkompil berdasarkan kes ujian yang telah ditetapkan.
Ganjaran format: Ganjaran format juga digunakan untuk memaksa model meletakkan proses pemikirannya antara “ ” dan “ ” tag.

Semasa pembangunan DeepSeek-R1-Zero, penulis tidak menggunakan Model Ganjaran Neural Outcome atau Model Ganjaran Neural Proses kerana penulis mendapati Model Ganjaran Neural mungkin menghadapi spoofing ganjaran (Reward Hacking) dalam proses RL berskala besar; selain itu, melatih semula Model Ganjaran bukan sahaja memerlukan sumber latihan tambahan, tetapi juga merumitkan keseluruhan proses latihan.

3.2.3 Templat Latihan

Untuk melatih DeepSeek-R1-Zero, pengarang mula-mula mereka bentuk Templat mudah untuk membimbing model Base mengikut arahan yang ditetapkan. Seperti yang ditunjukkan dalam Jadual 1 di bawah, Templat memerlukan DeepSeek-R1-Zero untuk menghasilkan proses inferens dan kemudian memberikan jawapan akhir.

Pengarang sengaja mengehadkan kekangan pada rangka kerja struktur ini untuk mengelak daripada memperkenalkan sebarang berat sebelah kandungan - contohnya, memaksa penaakulan reflektif atau mempromosikan strategi penyelesaian masalah khusus - untuk memastikan bahawa evolusi semula jadi model dapat diperhatikan dengan tepat semasa proses RL.

3.2.4 Kesimpulan

Keupayaan penaakulan teguh tanpa data SFT: Dengan memulakan RL terus daripada model Base, trajektori evolusi model boleh dipantau dengan teliti tanpa gangguan SFT. Seperti yang ditunjukkan oleh Rajah 3 di bawah, masa berfikir DeepSeek-R1-Zero terus bertambah baik (panjang pertumbuhan secara beransur-ansur menjadi lebih panjang) sepanjang proses latihan. Peningkatan ini tidak datang daripada pelarasan luaran, tetapi merupakan hasil semula jadi daripada pembangunan dalaman model. DeepSeek-R1-Zero secara semula jadi memperoleh keupayaan untuk menyelesaikan tugas inferens yang semakin kompleks, seperti keupayaan untuk mencerminkan, dengan menggunakan pengiraan masa ujian lanjutan.

DeepSeek-R1-Zero mengalami "saat aha" semasa latihan. Seperti yang ditunjukkan dalam Jadual 3 di bawah, detik ini berlaku semasa peringkat versi pertengahan model. Semasa peringkat ini, DeepSeek-R1-Zero belajar untuk memperuntukkan lebih banyak masa berfikir kepada masalah dengan menilai semula pendekatan awalnya.

Pengundian majoriti: Prestasi DeepSeek-R1-Zero boleh dipertingkatkan lagi dengan menggunakan undian majoriti. Sebagai contoh, seperti yang ditunjukkan dalam Jadual 2 di bawah, selepas undian majoriti digunakan dalam ujian penanda aras AIME, prestasinya melonjak daripada 71.0% kepada 86.7%, mengatasi OpenAI-o1-0912.

Kelemahan: Walaupun DeepSeek-R1-Zero menunjukkan keupayaan Penaakulan yang kuat dan secara autonomi membangunkan tingkah laku Penaakulan yang tidak dijangka dan berkuasa, ia masih menghadapi cabaran seperti kebolehbacaan yang lemah dan percampuran bahasa.

3.3 DeepSeek-R1

Untuk menjadikan proses Penaakulan lebih mudah dibaca dan berkongsi dengan komuniti terbuka, pengarang meneroka lebih lanjut kaedah DeepSeek-R1, yang menggunakan data permulaan sejuk mesra manusia untuk RL. Diilhamkan oleh DeepSeek-R1-Zero, dua soalan semula jadi berikut:

Bolehkah prestasi Penaakulan dipertingkatkan lagi atau proses penumpuan dipercepatkan dengan memperkenalkan sejumlah kecil data berkualiti tinggi sebagai permulaan yang sejuk?
Bagaimanakah kita boleh melatih model mesra pengguna yang bukan sahaja menjana CoT yang jelas dan koheren, tetapi juga menunjukkan keupayaan generalisasi yang kukuh?

Sebagai tindak balas kepada soalan ini, kami mereka bentuk proses latihan untuk DeepSeek-R1. Proses ini terdiri daripada beberapa peringkat, seperti yang diterangkan di bawah:

Peringkat-1, seperti yang ditunjukkan dalam rajah di bawah, melatih keadaan perantaraan DeepSeek-R1 melalui SFT + RL:

Rajah berikut menunjukkan Peringkat-2, 3, dan 4:

Peringkat-2: kiri atas, bina 200K data bukan Penaakulan dan 600K data Penaakulan.
Peringkat-3: bahagian atas sebelah kanan, kereta api SFT + RL DeepSeek-R1.
Peringkat-4: angka bawah, Suling DeepSeek-R1-Suling-xx.

3.3.1 Permulaan Dingin (Peringkat-1)

Tidak seperti DeepSeek-R1-Zero, untuk mengelakkan fasa Cold Start model Base yang tidak stabil pada permulaan latihan RL, penulis membina dan mengumpul sejumlah kecil data Long CoT untuk DeepSeek-R1 untuk memperhalusi model sebagai Pelakon RL awal. Untuk mengumpul data ini, penulis meneroka pelbagai kaedah:

Menggunakan gesaan beberapa pukulan dengan contoh Long CoT
Mendorong model secara langsung untuk menjana jawapan terperinci dengan refleksi dan pengesahan
Mengumpul output DeepSeek-R1-Zero dalam format yang boleh dibaca manusia
Memperhalusi hasil melalui pemprosesan pasca dengan pelabelan manual

Penulis mengumpul sejumlah ribuan data Cold Start, yang digunakan untuk memperhalusi DeepSeek-V3-Base sebagai titik permulaan untuk RL. Berbanding dengan DeepSeek-R1-Zero, kelebihan data Cold Start termasuk

Kebolehbacaan: Respons DeepSeek-R1-Zero boleh dicampur dalam pelbagai bahasa atau kekurangan pemformatan Markdown yang digunakan untuk menyerlahkan jawapan pengguna. Sebaliknya, apabila mencipta data Cold Start untuk DeepSeek-R1, pengarang mereka bentuk format yang boleh dibaca yang merangkumi ringkasan pada penghujung setiap Respons dan menapis Respons yang tidak boleh dibaca. Di sini, format output ditakrifkan sebagai |special_token| |token_istimewa|
, di mana proses_penaakulan ialah pemikiran berangkai bagi Pertanyaan dan ringkasan digunakan untuk meringkaskan hasil penaakulan.
Potensi: Dengan mereka bentuk dengan teliti gabungan corak data Mula Dingin manusia-a priori, penulis memerhatikan bahawa prestasinya lebih baik daripada DeepSeek-R1-Zero.

3.3.2 RL dipacu penaakulan (Peringkat-1)

Selepas memperhalusi data DeepSeek-V3-Base on Cold Start, proses latihan RL berskala besar yang sama seperti DeepSeek-R1-Zero digunakan. Peringkat ini bertujuan untuk meningkatkan keupayaan model dalam tugasan intensif Penaakulan, terutamanya pada pengaturcaraan, matematik, sains dan masalah penaakulan logik dengan penyelesaian yang jelas.

Semasa latihan, penulis memerhatikan bahawa CoT sering mengalami percampuran bahasa, terutamanya apabila gesaan RL melibatkan pelbagai bahasa. Untuk mengurangkan masalah percampuran bahasa, penulis memperkenalkan ganjaran ketekalan bahasa ke dalam latihan RL, yang dikira berdasarkan perkadaran perkataan dalam bahasa sasaran dalam CoT. Walaupun eksperimen ablasi menunjukkan bahawa kaedah penjajaran ini membawa kepada penurunan sedikit dalam prestasi model, mekanisme ganjaran ini konsisten dengan keutamaan manusia dan meningkatkan kebolehbacaan. Akhir sekali, pengarang secara langsung menambah ketepatan tugasan Penaakulan kepada ganjaran ketekalan bahasa untuk membentuk ganjaran akhir, dan melaksanakan latihan RL pada model yang diperhalusi sehingga ia menumpu pada tugasan Penaakulan.

3.3.3 Pembinaan 800,000 data terpilih (Peringkat-2)

Semasa RL untuk Penaakulan bertumpu, data SFT dikumpul menggunakan pusat pemeriksaan yang terhasil untuk pusingan latihan seterusnya. Tidak seperti data Mula Dingin awal, yang memfokuskan terutamanya pada Penaakulan, peringkat ini menggabungkan data daripada domain lain untuk meningkatkan keupayaan model dalam penulisan, main peranan dan tugasan tujuan umum yang lain. Secara khusus, data dijana dan model diperhalusi seperti berikut:

Data penaakulan: Gesaan penaakulan dipilih dan trajektori Penaakulan dijana dengan melakukan pensampelan penolakan daripada Pusat Pemeriksaan terlatih RL yang disebutkan di atas (DeepSeek-R1 Peringkat 1). Pada peringkat sebelumnya, hanya data yang boleh dinilai menggunakan ganjaran berasaskan peraturan dimasukkan. Walau bagaimanapun, pada peringkat ini, set data telah diperluaskan dengan memasukkan lebih banyak data, sebahagian daripadanya dijana menggunakan model ganjaran, dan jawapan sebenar dinilai dengan memasukkan ramalan model ke dalam DeepSeek-V3 (DeepSeek V3 sebagai Hakim). Di samping itu, kerana output model kadangkala mengelirukan dan sukar dibaca, rantai pemikiran bahasa campuran, perenggan panjang dan blok kod telah ditapis keluar. Untuk setiap gesaan, berbilang respons telah dijadikan sampel dan hanya yang betul (Terbaik-dari-N) dikekalkan. Secara keseluruhan, kira-kira 600,000 sampel latihan berkaitan penaakulan telah dikumpulkan.
Data Bukan Penaakulan: seperti penulisan, soalan factoid, kesedaran diri dan terjemahan, menggunakan proses DeepSeek-V3 dan menggunakan semula beberapa set data SFT DeepSeek-V3. Untuk beberapa tugasan bukan Penaakulan, DeepSeek-V3 dipanggil untuk menjana CoT berpotensi sebelum menjawab soalan. Walau bagaimanapun, untuk pertanyaan mudah seperti "Hello", tiada rantai pemikiran disediakan dalam Respons. Pada akhirnya, sejumlah kira-kira 200,000 sampel latihan bukan Penaakulan telah dikumpulkan.

3.3.4 SFT & RL untuk semua senario (Peringkat-3)

Dua pusingan penalaan halus sejumlah kira-kira 800,000 sampel terpilih telah dilakukan pada DeepSeek-V3-Base menggunakan dua set data yang dinyatakan di atas (Penaakulan dan bukan Penaakulan).

Untuk menyelaraskan lagi model dengan pilihan manusia, pengarang melaksanakan fasa kedua RL, yang bertujuan untuk meningkatkan kebergunaan dan ketidakmudaratan model itu sambil turut memperhalusi keupayaan Penaakulannya. Secara khusus, model itu dilatih dengan gabungan isyarat ganjaran dan pengedaran segera yang pelbagai.

Untuk data Penaakulan, metodologi yang diterangkan dalam DeepSeek-R1-Zero diikuti, menggunakan mekanisme ganjaran berasaskan peraturan untuk membimbing pembelajaran model dalam bidang matematik, pengaturcaraan dan penaakulan logik.
Untuk data umum, model Ganjaran digunakan untuk menangkap keutamaan manusia dalam situasi yang kompleks dan halus. Strategi yang serupa bagi pasangan keutamaan dan pengedaran segera latihan digunakan berdasarkan proses DeepSeek-V3.
Dari segi kegunaan, hanya ringkasan akhir yang dipertimbangkan, memastikan penilaian memfokuskan pada kepraktisan dan kaitan Respons kepada pengguna sambil meminimumkan gangguan terhadap proses Penaakulan yang mendasari.
Bagi tidak berbahaya, keseluruhan Respons model dinilai secara menyeluruh, termasuk proses Penaakulan dan ringkasan, untuk mengenal pasti dan menghapuskan sebarang potensi risiko, berat sebelah atau kandungan berbahaya yang mungkin timbul semasa proses penjanaan.
Akhirnya, dengan menyepadukan isyarat ganjaran dan mempelbagaikan pengedaran data, model yang mengutamakan manfaat dan tidak berbahaya sambil juga cemerlang dalam Penaakulan boleh dilatih.

3.3.5 Penyulingan (Peringkat-4)

Untuk melengkapkan model kecil yang lebih cekap dengan keupayaan penaakulan DeepSeek-R1, penulis memperhalusi model sumber terbuka Qwen dan LLaMA secara langsung menggunakan 800,000 sampel yang dipilih dalam DeepSeek-R1-Stage-1. Keputusan menunjukkan bahawa kaedah penyulingan terus ini secara signifikan meningkatkan keupayaan penaakulan model kecil. Model asas yang digunakan oleh pengarang termasuk Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, Qwen2.5-14B, Qwen2.5-32B, Llama-3.1-8B dan Llama-3.3-70B-Instruct. Llama-3.3 dipilih kerana keupayaan penaakulannya lebih baik sedikit daripada Llama-3.1.

Bagi model penyulingan, penulis hanya menggunakan SFT dan tidak termasuk peringkat RL. Walaupun pengenalan RL boleh meningkatkan prestasi model, tujuan utama penulis di sini adalah untuk menunjukkan keberkesanan teknologi penyulingan, dan penerokaan peringkat RL diserahkan kepada penyelidikan seterusnya.

PS: Di samping itu, sebenarnya adalah mungkin untuk menggunakan DeepSeek-R1 akhir untuk menjana data di atas dan membina semula 800,000 data yang digunakan untuk penyulingan, dan model suling mungkin mempunyai kesan yang lebih baik; bagaimanapun, harganya ialah data itu perlu dibina semula.

Tafsiran kertas DeepSeek R1 & perkara teknikal utama

1 Latar Belakang