Rahsia di sebalik DeepSeek 1 | Butiran DeepSeekMath dan GRPO

Hari ini saya ingin berkongsi artikel daripada DeepSeek, bertajuk DeepSeekMath: Menolak Had Penaakulan Matematik dalam Model Bahasa Terbuka.

Artikel ini memperkenalkan DeepSeekMath 7B, yang telah dilatih pada DeepSeek-Coder-Base-v1.5 7B berdasarkan koleksi token berkaitan matematik 120B, bahasa semula jadi dan data kod.

Model ini mencapai skor yang menakjubkan 51.7% dalam penanda aras MATH peringkat kompetitif tanpa bergantung pada toolkit luaran dan teknik pengundian, menghampiri tahap prestasi Gemini-Ultra dan GPT-4.

Keupayaan penaakulan matematik DeepSeekMath 7B dikaitkan dengan dua faktor utama: Pertama, melalui saluran paip pemilihan data yang direka dengan teliti, data berkaitan matematik berkualiti tinggi dilombong secara berulang daripada data web yang tersedia untuk umum.

Kedua, pengoptimuman dasar relatif kumpulan (GRPO) ialah diperkenalkan, yang merupakan varian pengoptimuman dasar proksimal (PPO) yang boleh meningkatkan keupayaan penaakulan matematik sambil mengoptimumkan penggunaan memori PPO.

Ciri-ciri kaedah diringkaskan seperti berikut:Korpus pra-latihan matematik berkualiti tinggi telah dibina, dan saluran paip yang direka dengan teliti telah digunakan untuk melombong data matematik berkualiti tinggi daripada Common Crawl.
Algoritma GRPO telah dicadangkan, yang mengurangkan sumber yang diperlukan untuk latihan dan meningkatkan keupayaan penaakulan matematik model. 3) Persembahan terkini adalah dicapai dalam pelbagai ujian tanda aras penaakulan matematik.

Gambaran keseluruhan

Tajuk: DeepSeekMath: Menolak Had Penaakulan Matematik dalam Model Bahasa Terbuka

URL: klik sini

Pengarang: Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Xiao Bi, Haowei Zhang, Mingchuan Zhang, YK Li, Y. Wu, Daya Guo

Kod: klik sini

Motivasi

Penaakulan matematik menimbulkan cabaran besar kepada model bahasa kerana kerumitan dan sifat berstruktur matematik. Model tercanggih, seperti GPT-4 dan Gemini-Ultra, berkuasa tetapi tidak tersedia untuk umum. Oleh itu, terdapat ruang yang ketara untuk penambahbaikan dalam prestasi model sumber terbuka.

Kerumitan dan struktur: Penaakulan matematik menimbulkan cabaran besar kepada model bahasa kerana kerumitan dan sifat berstruktur matematik.

Potensi data awam: Data web yang tersedia secara umum mungkin mengandungi maklumat matematik yang kaya yang masih belum dilombong dan digunakan.

Kaedah

Pengumpulan data: Korpus DeepSeekMath daripada token 120B telah dibina dengan mengumpul data web berkaitan matematik berkualiti tinggi daripada Common Crawl melalui saluran paip berulang.

Latihan model: Korpus digunakan untuk pra-latihan di atas DeepSeek-Coder-Base-v1.5 7B, dan algoritma penalaan halus arahan matematik dan pengoptimuman dasar relatif kumpulan (GRPO) telah digunakan.

Algoritma GRPO: GRPO ialah algoritma pembelajaran pengukuhan yang dipertingkatkan yang mengalih keluar model Kritik dalam PPO dan menganggarkan garis dasar daripada skor kumpulan, dengan itu mengurangkan dengan ketara sumber latihan.

Kaedah dan prosedur terperinci:

Pengumpulan dan pemprosesan data:

Bina DeepSeekMath Corpus: Menggunakan pengelas berasaskan fastText, ekstrak token berkaitan matematik 120B daripada Common Crawl untuk membina korpus pra-latihan berskala besar dan berkualiti tinggi, DeepSeekMath Corpus.

Penapisan data berulang: Strategi berulang digunakan, menggunakan OpenWebMath sebagai data benih untuk melatih pengelas awal, dan kemudian menggunakan pengelas ini untuk mendapatkan contoh yang lebih positif daripada Common Crawl, yang dianotasi secara manual untuk terus mengoptimumkan prestasi pengelas.

Ciri berbilang bahasa: DeepSeekMath Corpus mengandungi data berbilang bahasa, yang meningkatkan prestasi model pada penanda aras matematik Cina.

Pemprosesan nyah pencemaran: de-pemprosesan pencemaran dilakukan pada data latihan untuk mengelakkan pertindihan dengan penanda aras ujian.

Pralatihan:

Permulaan model berasaskan kod: Inisialisasi menggunakan DeepSeek-Coder-Base-v1.5 7B model didapati lebih berkesan daripada permulaan daripada LLM umum.

Komposisi data pralatihan: 56% DeepSeekMath Corpus, 4% AlgebraicStack, 10% arXiv, 20% kod Github, 10% Common Crawl data bahasa semula jadi.

Parameter pralatihan: Pengoptimum AdamW digunakan, dengan kadar pembelajaran 4.2e-4, saiz kelompok token 10M, dan latihan token 500B.

Penalaan halus arahan:

Bina set data penalaan halus arahan: Bina set data penalaan halus arahan matematik yang mengandungi 776K sampel, meliputi pelbagai bidang matematik dan aras kesukaran, termasuk CoT, PoT dan format inferens bersepadu alatan untuk langkah penyelesaian.

Parameter latihan: Saiz batch 256, kadar pembelajaran 5e-5, latih selama 500 langkah.

Pembelajaran pengukuhan – Pengoptimuman Dasar Relatif Kumpulan (GRPO):

Cadangkan algoritma GRPO: Cadangkan a Algoritma varian PPO GRPO, yang mengelakkan keperluan untuk model Kritik dengan menggunakan skor mengikut kumpulan untuk menganggar garis dasar, dengan itu mengurangkan sumber latihan.

Fungsi objektif: GRPO mengoptimumkan model dasar dengan memaksimumkan fungsi objektif yang mengambil kira kelebihan relatif output dalam kumpulan dan secara langsung menambah perbezaan KL sebagai istilah regularisasi.

Pengiraan kelebihan: GRPO mengira kelebihan melalui ganjaran relatif dalam kumpulan, mengelakkan perbandingan merentas kumpulan dan lebih mematuhi sifat perbandingan model ganjaran.

Menyokong pemantauan hasil dan proses: GRPO boleh menyokong pemantauan hasil dan proses, dan memantau dasar dengan lebih berkesan dengan memberikan ganjaran pada akhir setiap langkah inferens.

RL berulang: Menggunakan an strategi RL berulang untuk menjana set latihan baharu berdasarkan hasil persampelan model dasar, melatih model ganjaran lama secara berterusan dan menggunakan model ganjaran baharu untuk mengemas kini model dasar.

Data latihan: Menggunakan masalah format CoT yang berkaitan dengan GSM8K dan MATH dalam data SFT, kira-kira masalah 144K.

Parameter latihan: Kadar pembelajaran model dasar ialah 1e-6, pekali KL ialah 0.04, 64 output dijadikan sampel untuk setiap masalah, panjang maksimum ialah 1024, dan saiz kelompok latihan ialah 1024.

Kesimpulan

Kesimpulan 1:DeepSeekMath 7B mengatasi semua model sumber terbuka dalam keupayaan penaakulan matematik. Dalam ujian penanda aras MATH yang kompetitif, DeepSeekMath 7B mencapai ketepatan 51.7%, yang hampir dengan tahap prestasi Gemini-Ultra dan GPT-4.

Kesimpulan 2:Data pralatihan yang direka dengan baik dan algoritma GRPO adalah kunci kepada kejayaan model. Gabungan korpus matematik berkualiti tinggi dan algoritma GRPO membolehkan model mencapai peningkatan prestasi yang ketara dalam tugasan penaakulan matematik.

Kesimpulan 3:Latihan kod membantu meningkatkan keupayaan penaakulan matematik. Menambah data kod pada peringkat pralatihan boleh meningkatkan keupayaan model untuk menyelesaikan masalah matematik, dengan dan tanpa alatan.

Kesimpulan 4: Kegunaan terhad data arXiv: Bertentangan dengan kepercayaan sebelumnya, data arXiv didapati membantu terhad dalam meningkatkan penaakulan matematik.

Had

Keupayaan geometri dan bukti agak lemah: Walaupun DeepSeekMath cemerlang dalam penaakulan kuantitatif, keupayaannya dalam geometri dan pembuktian masih lebih rendah daripada model sumber tertutup. Ini mungkin disebabkan oleh pemilihan data yang berat sebelah dalam peringkat pralatihan dan penalaan halus.

Kelemahan dalam kapasiti sampel yang kecil: DeepSeekMath adalah lebih rendah daripada GPT-4 dari segi pembelajaran sampel kecil, yang mungkin disebabkan oleh had saiz model.

Kaedah pembelajaran pengukuhan yang lebih cekap diperlukan: Walaupun kaedah pembelajaran pengukuhan yang dicadangkan dalam kertas kerja adalah berkesan, masih terdapat ruang untuk penambahbaikan, contohnya, cara menggunakan maklum balas daripada model ganjaran dengan lebih berkesan dan cara menangani isyarat ganjaran yang bising.

Butiran

Penerokaan dan Analisis Pembelajaran Pengukuhan

Gambaran Keseluruhan:

Pengenalan Pengoptimuman Dasar Relatif Kumpulan (GRPO): Makalah itu mencadangkan algoritma pembelajaran pengukuhan baharu, GRPO, sebagai varian Pengoptimuman Dasar Proksimal (PPO). Ciri utama GRPO ialah ia meninggalkan model Kritik yang biasa digunakan dalam PPO dan menganggarkan garis dasar melalui skor kumpulan, sekali gus mengurangkan sumber pengiraan yang diperlukan untuk latihan.

Demonstrasi keberkesanan GRPO: Kertas itu secara eksperimen menunjukkan bahawa GRPO boleh meningkatkan prestasi model penalaan halus perintah secara berkesan, termasuk kedua-dua tugas matematik dalam domain dan luar domain.

Rangka kerja bersatu untuk kaedah pembelajaran pengukuhan: Kertas kerja mencadangkan rangka kerja bersatu untuk memahami kaedah pembelajaran pengukuhan yang berbeza, seperti Penalaan Halus Pensampelan Penolakan (RFT), Pengoptimuman Keutamaan Langsung (DPO), PPO dan GRPO. Rangka kerja menganggap kaedah ini sebagai teknik pembelajaran peneguhan secara langsung atau dipermudahkan.

Penerokaan mendalam tentang elemen pembelajaran pengukuhan: Kertas itu meneroka secara mendalam elemen utama pembelajaran pengukuhan, seperti latihan dalam talian dan latihan luar talian, penyeliaan keputusan dan penyeliaan proses, pembelajaran pengukuhan pusingan tunggal dan pembelajaran pengukuhan berulang, melalui eksperimen terperinci, dan meringkaskan arah yang berpotensi untuk meningkatkan keberkesanan pembelajaran pengukuhan.

Algoritma GRPO (Pengoptimuman Dasar Relatif Kumpulan).

Had daripada PPO: PPO ialah algoritma pembelajaran pengukuhan yang biasa digunakan, tetapi ia memerlukan latihan dan model Kritik tambahan untuk menganggar fungsi nilai, yang mengenakan beban pengiraan dan ingatan tambahan. Selain itu, dalam senario LLM, Latihan model pengkritik boleh menjadi rumit kerana ia memerlukan penilaian output setiap token.

Idea teras GRPO: Idea teras GRPO adalah untuk meninggalkan model Kritik dan sebaliknya menggunakan skor purata set output untuk masalah yang sama sebagai garis dasar. Garis dasar ini boleh digunakan untuk menganggarkan fungsi kelebihan dan untuk pengoptimuman dasar. Pendekatan ini mengurangkan kerumitan latihan dengan ketara.

Pengiraan fungsi kelebihan: GRPO mengira fungsi kelebihan dengan mengira kedudukan relatif setiap output dalam set output yang sama, dan bukannya bergantung pada fungsi nilai yang berasingan seperti dalam PPO.

Penalti perbezaan KL: GRPO tidak menambah penalti perbezaan KL kepada ganjaran seperti PPO, tetapi sebaliknya menambah perbezaan KL antara model dasar dan model rujukan terus kepada fungsi kerugian. Ini mengelakkan pengiraan fungsi kelebihan kompleks.

Idea teras GRPO

tidak memerlukan Pengkritik (fungsi nilai): GRPO mengelakkan keperluan untuk fungsi nilai dan menggunakan skor dalam kumpulan untuk menganggar garis dasar, dengan itu mengurangkan sumber latihan.

Kelebihan relatif antara kumpulan: Bagi setiap masalah q, GRPO mengambil sampel set output {o(1), o(2), …, o(G)} daripada dasar lama π(θlama) dan kemudian mengoptimumkan model dasar dengan memaksimumkan persamaan berikut sebagai fungsi objektif.

Secara khusus:

Kuncinya di sini ialah Â(i,t), yang mewakili kelebihan dan dikira oleh ganjaran relatif keluaran dalam kumpulan, dan bukannya bergantung pada fungsi nilai yang berasingan seperti dalam PPO.

Fungsi objektif juga secara langsung menambah Perbezaan KL sebagai istilah regularisasi untuk mengawal magnitud kemas kini dasar

dan selaraskan dengan sifat perbandingan model ganjaran: GRPO menggunakan ganjaran intrakumpulan relatif untuk mengira kelebihan, yang lebih konsisten dengan sifat model ganjaran, yang biasanya dilatih berdasarkan perbandingan berpasangan.

Bagaimanakah model Ganjaran GRPO boleh direka bentuk (rujuk DeepSeek R1)?

ciri-ciri:

format ganjaran: memaksa generasi panjang katil bayi keputusan, yang boleh menolak model untuk menjana proses inferens dan meningkatkan kesan inferens model.

ganjaran ketepatan: matematik boleh menggunakan hasil akhir, dan kod boleh menggunakan maklum balas pengkompil.

Kelebihan GRPO

Kurang jejak ingatan: model Kritik tidak diperlukan, mengurangkan keperluan memori.

Latihan yang lebih cekap: pengiraan menggunakan kelebihan relatif intra-kumpulan memudahkan proses latihan.

Lebih serasi dengan sifat model ganjaran: meningkatkan kestabilan dan kecekapan latihan.

Ringkasan Paradigma Bersatu RL

Paradigma Bersatu Dicadangkan

Penulis mencadangkan paradigma bersatu untuk memahami kaedah latihan yang berbeza seperti SFT (Supervised Fine-tuning), RFT (Rejection Sampling Fine-tuning), DPO (Direct Preference Optimization), PPO, GRPO, dll. Elemen Utama RL: Elemen utama rangka kerja bersatu termasuk: sumber data, fungsi ganjaran dan algoritma.

Sumber data: Ini merujuk kepada data yang digunakan untuk latihan, yang boleh diperoleh daripada pelabelan manual, model SFT atau model dasar masa nyata.
Fungsi ganjaran: Ini merujuk kepada fungsi yang digunakan untuk menilai kualiti output, yang boleh menjadi peraturan atau model.
Algoritma: Ini merujuk kepada kaedah yang digunakan untuk memproses data dan isyarat ganjaran serta mengemas kini parameter model.

Analisis kaedah yang berbeza berdasarkan paradigma bersatu

Jadual 10 meringkaskan persamaan dan perbezaan antara SFT, RFT, DPO, RFT Dalam Talian, PPO dan GRPO dari segi sumber data, fungsi ganjaran dan pekali kecerunan.

Kaedah	Data latihan	Fungsi ganjaran	Pekali kecerunan	Kaedah latihan	Kelebihan/ciri	Senario yang berkenaan
SFT	Data SFT yang dilabelkan secara manual	Dipilih secara manual (ganjaran tersirat)	Tetap kepada 1	Pembelajaran diselia	Mudah dan stabil, bergantung pada data berlabel berkualiti tinggi	Latihan model asas, tugas penjajaran awal
RFT	Masalah set data SFT + Output sampel model SFT	Berdasarkan ketepatan jawapan (pertimbangan peraturan)	0 (salah) atau 1 (betul)	Pengoptimuman dasar luar talian	Pengiraan yang cekap, penggunaan langsung maklum balas peraturan	Tugasan matematik/logik dengan peraturan yang jelas
DPO	Masalah set data SFT + keluaran model kepada	Pelabelan keutamaan manusia atau perbandingan peraturan	Berdasarkan pengiraan kebarangkalian keutamaan (cth, model Bradley-Terry)	Pembelajaran perbandingan	Elakkan pemodelan ganjaran eksplisit, secara langsung mengoptimumkan pilihan	Tugas penjajaran keutamaan manusia (cth, penjanaan dialog)
RFT dalam talian	Persampelan model dasar masa nyata pasangan masalah-keluaran	Berdasarkan ketepatan jawapan (pertimbangan peraturan)	0 (salah) atau 1 (betul)	Pengoptimuman dasar dalam talian	Mengemas kini dasar secara dinamik dengan pengoptimuman maklum balas masa nyata	Senario yang memerlukan interaksi dalam talian (cth, AI permainan)
PPO	Masalah set data SFT + output persampelan model dasar	Model ganjaran (RM) terlatih	Fungsi penguasaan (berdasarkan anggaran ganjaran)	Kaedah kecerunan dasar	Cekap dan stabil, menyokong pengoptimuman berbilang langkah	Tugas kompleks (cth penjanaan teks, kawalan robot)
GRPO	Masalah set data SFT + output pensampelan model dasar	Model ganjaran (RM) terlatih	Ganjaran relatif dalam kumpulan (perbandingan normal)	Pengoptimuman dasar kumpulan	Kurangkan varians ganjaran dan tingkatkan perbandingan antara kumpulan	Tugasan dengan varians tinggi (cth penjanaan teks panjang)

Pemerhatian terhadap sumber data

Latihan dalam talian vs luar talian: Latihan dalam talian merujuk kepada menggunakan output model dasar masa nyata sebagai data latihan, manakala latihan luar talian merujuk kepada menggunakan output model tetap (seperti model SFT) sebagai data latihan. Keputusan eksperimen menunjukkan bahawa latihan dalam talian secara amnya lebih baik daripada latihan luar talian.

Penyeliaan hasil vs penyeliaan proses: Penyeliaan hasil merujuk kepada hanya memberi ganjaran pada langkah akhir output, manakala penyeliaan proses merujuk kepada ganjaran setiap langkah proses penaakulan. Keputusan eksperimen menunjukkan bahawa penyeliaan proses adalah lebih berkesan dalam tugas yang kompleks.

Episod tunggal vs pembelajaran pengukuhan berulang: Pembelajaran peneguhan episod tunggal merujuk kepada pengoptimuman strategi tunggal, manakala pembelajaran pengukuhan berulang merujuk kepada pengemaskinian berterusan model ganjaran selepas pengoptimuman strategi berbilang. Keputusan eksperimen menunjukkan bahawa pembelajaran pengukuhan berulang boleh meningkatkan prestasi dengan ketara, terutamanya dalam lelaran pertama.

Pemerhatian pekali kecerunan

Berasaskan peraturan lwn. berasaskan model: Peraturan merujuk kepada menentukan ganjaran berdasarkan ketepatan jawapan, dan Model merujuk kepada melatih model ganjaran untuk menjaringkan gol.

Perbezaan dalam pekali kecerunan: Perbezaan utama antara GRPO dan RFT Dalam Talian ialah GRPO melaraskan pekali kecerunannya berdasarkan nilai ganjaran yang disediakan oleh model ganjaran, manakala RFT Dalam Talian tidak.

Kelebihan GRPO: Eksperimen menunjukkan bahawa GRPO lebih unggul daripada RFT Dalam Talian, menunjukkan keberkesanan menukar tanda pekali kecerunan. GRPO+PS adalah lebih baik daripada GRPO+OS, menunjukkan faedah menggunakan pekali kecerunan berbutir halus dan sedar langkah.

Keberkesanan RL dan arahan untuk penambahbaikan

Kenapa RL berkesan?

Keputusan eksperimen: RL meningkatkan prestasi Maj@K tetapi bukan Pass@K.

Penjelasan: RL menambah baik prestasi keseluruhan model dengan menjadikan pengagihan output lebih mantap, iaitu, ia meningkatkan kebarangkalian jawapan yang betul dalam TopK, dan bukannya meningkatkan keupayaan asas model.

Bagaimanakah RL yang lebih berkesan boleh dicapai?

Berdasarkan paradigma bersatu, penulis mencadangkan arah masa depan untuk menambah baik RL dalam tiga aspek: sumber data, algoritma dan fungsi ganjaran.

Sumber data:
- Terokai isu di luar peringkat SFT.
- Gunakan strategi pensampelan (penyahkodan) yang lebih maju, seperti kaedah berasaskan carian pokok.
- Gunakan teknik inferens yang cekap untuk meningkatkan kecekapan penerokaan model dasar.
Algoritma:
- Terokai algoritma pembelajaran pengukuhan yang lebih teguh kepada isyarat ganjaran yang bising.
- Kaji kaedah penjajaran jenis LEMAH-KE-KUAT.
Fungsi ganjaran:
- Tingkatkan keupayaan generalisasi model ganjaran untuk menangani masalah luar pengedaran dan output terdekod lanjutan.
- Mencerminkan ketidakpastian model ganjaran dan gunakannya sebagai jambatan untuk menghubungkan model ganjaran yang lemah dan algoritma pembelajaran LEMAH KE KUAT.
- Bina model ganjaran proses berkualiti tinggi dengan cekap untuk menyediakan isyarat latihan yang terperinci untuk proses inferens.

Ringkasan

DeepSeekMath telah meningkatkan dengan ketara keupayaan model bahasa sumber terbuka dalam penaakulan matematik dengan membina korpus matematik berskala besar dan mencadangkan algoritma pembelajaran pengukuhan baharu. Sorotan kertas ini ialah

pembinaan dan pengesahan Korpus DeepSeekMath, korpus matematik berskala besar, berkualiti tinggi, berbilang bahasa.
Algoritma pembelajaran pengukuhan yang cekap, GRPO, dicadangkan untuk mengurangkan penggunaan memori sambil meningkatkan keupayaan penaakulan matematik model.
Kesan latihan kod terhadap keupayaan penaakulan matematik dibincangkan secara mendalam, dan didapati bahawa data arXiv mempunyai kesan terhad. Nilai DeepSeekMath:
Ia menyediakan komuniti sumber terbuka dengan model penaakulan matematik yang berkuasa dan menggalakkan pembangunan AI matematik.
Ia menyediakan pengalaman dan kaedah yang berharga untuk membina korpora matematik dan melatih model penaakulan matematik.
Algoritma GRPO yang dicadangkan menyediakan idea baharu untuk latihan pembelajaran pengukuhan dalam bidang lain.

Rahsia di sebalik DeepSeek 1 | Butiran DeepSeekMath dan GRPO