Rahasia di balik DeepSeek 1 | Rincian DeepSeekMath dan GRPO

Hari ini saya ingin berbagi artikel dari DeepSeek, berjudul DeepSeekMath: Mendorong Batasan Penalaran Matematika dalam Model Bahasa Terbuka.

Artikel ini memperkenalkan DeepSeekMath 7B, yang sudah dilatih sebelumnya pada DeepSeek-Coder-Base-v1.5 7B berdasarkan kumpulan 120 miliar token terkait matematika, bahasa alami, dan data kode.

Model ini mencapai skor mencengangkan sebesar 51.7% dalam tolok ukur MATH tingkat kompetitif tanpa bergantung pada perangkat eksternal dan teknik pemungutan suara, mendekati tingkat kinerja Gemini-Ultra dan GPT-4.

Kemampuan penalaran matematika siswa DeepSeekMath 7B dikaitkan dengan dua faktor kunci: Pertama, melalui alur pemilihan data yang dirancang dengan cermat, data terkait matematika berkualitas tinggi ditambang secara berulang dari data web yang tersedia untuk umum.

Kedua, optimasi kebijakan relatif kelompok (GRPO) adalah diperkenalkan, yang merupakan varian dari optimasi kebijakan proksimal (PPO) yang dapat meningkatkan kemampuan penalaran matematika sambil mengoptimalkan penggunaan memori PPO.

Fitur-fitur metode dirangkum sebagai berikut:Korpus pra-pelatihan matematika berkualitas tinggi dibangun, dan jalur pipa yang dirancang dengan cermat digunakan untuk menambang data matematika berkualitas tinggi dari Common Crawl.
Algoritma GRPO diusulkan, yang mengurangi sumber daya yang dibutuhkan untuk pelatihan dan meningkatkan kemampuan penalaran matematika model. 3) Performa canggih adalah dicapai dalam beberapa tes tolok ukur penalaran matematika.

Ringkasan

Judul: DeepSeekMath: Mendorong Batasan Penalaran Matematika dalam Model Bahasa Terbuka

Alamat: klik disini

Penulis: Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Xiao Bi, Haowei Zhang, Mingchuan Zhang, YK Li, Y. Wu, Daya Guo

Kode: klik disini

Motivasi

Penalaran matematika menimbulkan tantangan yang signifikan terhadap model bahasa karena kompleksitas dan sifat matematika yang terstruktur. Model yang paling maju, seperti GPT-4 dan Gemini-Ultra, sangat kuat tetapi tidak tersedia untuk umum. Oleh karena itu, ada ruang yang signifikan untuk perbaikan dalam kinerja model sumber terbuka.

Kompleksitas dan struktur: Penalaran matematika menimbulkan tantangan signifikan terhadap model bahasa karena kompleksitas dan sifat matematika yang terstruktur.

Potensi data publik: Data web yang tersedia untuk umum mungkin berisi informasi matematika yang kaya yang belum ditambang dan dimanfaatkan.

Metode

Pengumpulan data: Korpus DeepSeekMath berisi 120 miliar token dibangun dengan mengumpulkan data web terkait matematika berkualitas tinggi dari Common Crawl melalui jalur berulang.

Pelatihan model: Korpus digunakan untuk pra-pelatihan di atas DeepSeek-Coder-Base-v1.5 7B, dan algoritma penyempurnaan instruksi matematika dan pengoptimalan kebijakan relatif grup (GRPO) diterapkan.

Algoritma GRPO: GRPO merupakan algoritma pembelajaran penguatan yang disempurnakan yang menghilangkan model Critic dalam PPO dan memperkirakan nilai dasar dari skor kelompok, sehingga secara signifikan mengurangi sumber daya pelatihan.

Metode dan prosedur terperinci:

Pengumpulan dan pemrosesan data:

Bangun Korpus Matematika DeepSeekM: Menggunakan pengklasifikasi berbasis fastText, ekstrak 120B token terkait matematika dari Common Crawl untuk membangun korpus pra-terlatih berskala besar dan berkualitas tinggi, DeepSeekMath Corpus.

Penyaringan data berulang: Strategi iteratif digunakan, menggunakan OpenWebMath sebagai data awal untuk melatih pengklasifikasi awal, dan kemudian menggunakan pengklasifikasi ini untuk menambang lebih banyak contoh positif dari Common Crawl, yang diberi anotasi secara manual untuk terus mengoptimalkan kinerja pengklasifikasi.

Fitur multibahasa: Korpus DeepSeekMath berisi data multibahasa, yang meningkatkan kinerja model pada ujian matematika Cina.

Pengolahan de-polusi: De-Pengolahan polusi dilakukan pada data pelatihan untuk menghindari tumpang tindih dengan tolok ukur pengujian.

Prapelatihan:

Inisialisasi model berbasis kode: Inisialisasi menggunakan DeepSeek-Coder-Basis-v1.5 7B model ditemukan lebih efektif daripada inisialisasi dari LLM umum.

Komposisi data pra-pelatihan: 56% DeepSeekMath Corpus, 4% AlgebraicStack, 10% arXiv, 20% Kode Github, 10% Common Crawl data bahasa alami.

Parameter pra-pelatihan: Pengoptimal AdamW digunakan, dengan laju pembelajaran 4,2e-4, ukuran batch 10 juta token, dan pelatihan 500 miliar token.

Instruksi penyempurnaan:

Membangun kumpulan data penyetelan halus instruksi: Membangun kumpulan data fine-tuning instruksi matematika yang berisi 776 ribu sampel, yang mencakup berbagai bidang matematika dan tingkat kesulitan, termasuk CoT, PoT, dan format inferensi terintegrasi alat untuk menyelesaikan langkah-langkah.

Parameter pelatihan: Ukuran batch 256, kecepatan pembelajaran 5e-5, berlatih untuk 500 langkah.

Pembelajaran penguatan – Optimalisasi Kebijakan Relatif Kelompok (GRPO):

Usulkan algoritma GRPO: Mengusulkan Algoritma varian PPO GRPO, yang menghindari perlunya model Critic dengan menggunakan skor berdasarkan kelompok untuk memperkirakan garis dasar, sehingga mengurangi sumber daya pelatihan.

Fungsi tujuan: GRPO mengoptimalkan model kebijakan dengan memaksimalkan fungsi tujuan yang memperhitungkan keuntungan relatif dari output dalam kelompok dan secara langsung menambahkan divergensi KL sebagai istilah regularisasi.

Perhitungan keuntungan: GRPO menghitung keuntungan melalui penghargaan relatif dalam kelompok, menghindari perbandingan antar kelompok dan lebih sesuai dengan sifat komparatif dari model penghargaan.

Mendukung pemantauan hasil dan proses: GRPO dapat mendukung pemantauan hasil dan proses, dan memantau kebijakan secara lebih efektif dengan memberikan hadiah di akhir setiap langkah inferensi.

RL Iteratif: Menggunakan strategi RL iteratif untuk menghasilkan set pelatihan baru berdasarkan hasil pengambilan sampel model kebijakan, melatih model imbalan lama secara terus-menerus, dan menggunakan model imbalan baru untuk memperbarui model kebijakan.

Data pelatihan: Menggunakan masalah format CoT yang terkait dengan GSM8K dan MATH dalam data SFT, sekitar 144K masalah.

Parameter pelatihan: Laju pembelajaran model kebijakan adalah 1e-6, koefisien KL adalah 0,04, 64 keluaran diambil sampelnya untuk setiap masalah, panjang maksimum adalah 1024, dan ukuran kelompok pelatihan adalah 1024.

Kesimpulan

Kesimpulan 1:DeepSeekMath 7B mengungguli semua model sumber terbuka dalam kemampuan penalaran matematika. Dalam uji tolok ukur MATH kompetitif, DeepSeekMath 7B mencapai akurasi 51,7%, yang mendekati tingkat kinerja Gemini-Ultra dan GPT-4.

Kesimpulan 2:Data prapelatihan yang dirancang dengan baik dan algoritma GRPO adalah kunci keberhasilan model. Kombinasi korpus matematika berkualitas tinggi dan algoritma GRPO memungkinkan model tersebut memperoleh peningkatan kinerja signifikan dalam tugas penalaran matematika.

Kesimpulan 3:Pelatihan kode membantu meningkatkan kemampuan penalaran matematika. Menambahkan data kode ke tahap prapelatihan dapat meningkatkan kemampuan model untuk memecahkan masalah matematika, baik dengan maupun tanpa alat.

Kesimpulan 4: Keterbatasan kegunaan data arXiv: Bertentangan dengan keyakinan sebelumnya, data arXiv ditemukan hanya memberikan bantuan terbatas dalam meningkatkan penalaran matematika.

Keterbatasan

Kemampuan geometri dan pembuktiannya relatif lemah: Meskipun DeepSeekMath unggul dalam penalaran kuantitatif, kemampuannya dalam geometri dan pembuktian masih kalah dengan model sumber tertutup. Hal ini mungkin disebabkan oleh pemilihan data yang bias dalam tahap prapelatihan dan penyempurnaan.

Kelemahan pada kapasitas sampel kecil: DeepSeekMath lebih rendah daripada GPT-4 dalam hal pembelajaran sampel kecil, yang mungkin disebabkan oleh keterbatasan ukuran model.

Diperlukan metode pembelajaran penguatan yang lebih efisien: Meskipun metode pembelajaran penguatan yang diusulkan dalam makalah ini efektif, masih ada ruang untuk perbaikan, misalnya, bagaimana memanfaatkan umpan balik dari model penghargaan secara lebih efektif dan bagaimana menangani sinyal penghargaan yang tidak jelas.

Rincian

Eksplorasi dan Analisis Pembelajaran Penguatan

Ringkasan:

Pengenalan Optimasi Kebijakan Relatif Grup (GRPO): Makalah ini mengusulkan algoritma pembelajaran penguatan baru, GRPO, sebagai varian dari Proximal Policy Optimization (PPO). Fitur utama GRPO adalah meninggalkan model Critic yang umum digunakan dalam PPO dan memperkirakan nilai dasar melalui skor kelompok, sehingga sangat mengurangi sumber daya komputasi yang diperlukan untuk pelatihan.

Demonstrasi efektivitas GRPO: Makalah ini secara eksperimental menunjukkan bahwa GRPO dapat secara efektif meningkatkan kinerja model fine-tuning perintah, termasuk tugas matematika dalam domain dan luar domain.

Kerangka kerja terpadu untuk metode pembelajaran penguatan: Makalah ini mengusulkan kerangka kerja terpadu untuk memahami berbagai metode pembelajaran penguatan, seperti Penyetelan Halus Pengambilan Sampel Penolakan (RFT), Optimasi Preferensi Langsung (DPO), PPO dan GRPOKerangka kerja ini memperlakukan metode ini sebagai teknik pembelajaran penguatan langsung atau yang disederhanakan.

Eksplorasi mendalam tentang elemen pembelajaran penguatan: Makalah ini membahas secara mendalam elemen kunci pembelajaran penguatan, seperti pelatihan online dan pelatihan offline, supervisi hasil dan supervisi proses, pembelajaran penguatan satu putaran dan pembelajaran penguatan berulang, melalui eksperimen terperinci, dan merangkum arah potensial untuk meningkatkan efektivitas pembelajaran penguatan.

Algoritma GRPO (Group Relative Policy Optimization)

Keterbatasan PPO: PPO adalah algoritma pembelajaran penguatan yang umum digunakan, tetapi memerlukan pelatihan model Kritik tambahan untuk memperkirakan fungsi nilai, yang memaksakan beban komputasi dan memori tambahanSelain itu, dalam skenario LLM, Pelatihan model kritik bisa menjadi rumit karena memerlukan evaluasi keluaran setiap token.

Ide inti GRPO: Ide inti GRPO adalah untuk tinggalkan model Kritik dan sebagai gantinya gunakan skor rata-rata dari serangkaian keluaran untuk masalah yang sama sebagai dasar. Dasar ini dapat digunakan untuk memperkirakan fungsi keuntungan dan untuk optimasi kebijakan.Pendekatan ini secara signifikan mengurangi kompleksitas pelatihan.

Perhitungan fungsi keuntungan: GRPO menghitung fungsi keuntungan dengan menghitung peringkat relatif setiap output dalam kumpulan output yang sama, daripada mengandalkan fungsi nilai yang terpisah seperti pada PPO.

Penalti divergensi KL: GRPO tidak menambahkan penalti divergensi KL ke reward seperti PPO, tetapi menambahkan divergensi KL antara model kebijakan dan model referensi langsung ke fungsi kerugian. Hal ini menghindari perhitungan fungsi keuntungan yang kompleks.

Ide inti GRPO

tidak memerlukan Kritik (fungsi nilai): GRPO menghindari kebutuhan akan fungsi nilai dan menggunakan skor dalam kelompok untuk memperkirakan nilai dasar, sehingga mengurangi sumber daya pelatihan.

Keunggulan relatif intra-grup: Untuk setiap permasalahan q, GRPO mengambil sampel sekumpulan keluaran {o(1), o(2), …, o(G)} dari kebijakan lama π(θold) dan kemudian mengoptimalkan model kebijakan dengan memaksimalkan persamaan berikut sebagai fungsi objektif.

Secara khusus:

Kunci di sini adalah Â(i,t), yang mewakili keuntungan dan dihitung dengan imbalan relatif dari output intra-grup, daripada mengandalkan fungsi nilai terpisah seperti pada PPO.

Fungsi objektif juga secara langsung menambahkan Divergensi KL sebagai istilah regularisasi untuk mengontrol besarnya pembaruan kebijakan

dan selaras dengan sifat perbandingan model penghargaan: GRPO menggunakan imbalan intragrup relatif untuk menghitung keuntungan, yang lebih konsisten dengan sifat model imbalan, yang biasanya dilatih berdasarkan perbandingan berpasangan.

Bagaimana model Reward GRPO dapat dirancang (lihat DeepSeek R1)?

Fitur:

format hadiah: memaksa generasi panjang pondok hasil, yang dapat mendorong model untuk menghasilkan proses inferensi dan meningkatkan efek inferensi model.

hadiah akurasi: matematika dapat menggunakan hasil akhir, dan kode dapat menggunakan umpan balik kompiler.

Keuntungan GRPO

Jejak memori lebih sedikit: tidak memerlukan model Critic, sehingga mengurangi kebutuhan memori.

Pelatihan yang lebih efisien: perhitungan menggunakan keunggulan relatif intra-grup menyederhanakan proses pelatihan.

Lebih sesuai dengan sifat model penghargaan: meningkatkan stabilitas dan efisiensi pelatihan.

Ringkasan Paradigma Terpadu RL

Paradigma Terpadu Diusulkan

Para penulis mengusulkan paradigma terpadu untuk memahami berbagai metode pelatihan seperti SFT (Supervised Fine-tuning), RFT (Rejection Sampling Fine-tuning), DPO (Direct Preference Optimization), PPO, GRPO, dll. Elemen Kunci RL: Elemen kunci dari kerangka kerja terpadu meliputi: sumber data, fungsi penghargaan, dan algoritma.

Sumber data: Ini mengacu pada data yang digunakan untuk pelatihan, yang dapat diperoleh dari pelabelan manual, model SFT, atau model kebijakan waktu nyata.
Fungsi hadiah: Ini merujuk pada fungsi yang digunakan untuk mengevaluasi kualitas keluaran, yang dapat berupa aturan atau model.
Algoritma: Ini mengacu pada metode yang digunakan untuk memproses data dan sinyal penghargaan serta memperbarui parameter model.

Analisis berbagai metode berdasarkan paradigma terpadu

Tabel 10 merangkum persamaan dan perbedaan antara SFT, RFT, DPO, RFT Online, PPO dan GRPO dalam hal sumber data, fungsi penghargaan, dan koefisien gradien.

Metode	Data pelatihan	Fungsi hadiah	Koefisien gradien	Metode pelatihan	Keunggulan/fitur	Skenario yang berlaku
Bahasa Indonesia: SFT	Data SFT berlabel manual	Dipilih secara manual (hadiah implisit)	Diperbaiki ke 1	Pembelajaran yang diawasi	Sederhana dan stabil, bergantung pada data berlabel berkualitas tinggi	Pelatihan model dasar, tugas penyelarasan awal
TTL	Masalah himpunan data SFT + Contoh keluaran model SFT	Berdasarkan kebenaran jawaban (penilaian aturan)	0 (salah) atau 1 (benar)	Optimasi kebijakan offline	Perhitungan yang efisien, penggunaan umpan balik aturan secara langsung	Tugas matematika/logika dengan aturan yang jelas
DPO	Masalah himpunan data SFT + keluaran model ke	Pelabelan preferensi manusia atau perbandingan aturan	Berdasarkan perhitungan probabilitas preferensi (misalnya, model Bradley-Terry)	Pembelajaran perbandingan	Menghindari pemodelan penghargaan eksplisit, mengoptimalkan preferensi secara langsung	Tugas penyelarasan preferensi manusia (misalnya, pembuatan dialog)
RFT daring	Pengambilan sampel model kebijakan waktu nyata pasangan masalah-keluaran	Berdasarkan kebenaran jawaban (penilaian aturan)	0 (salah) atau 1 (benar)	Optimasi kebijakan online	Memperbarui kebijakan secara dinamis dengan pengoptimalan umpan balik waktu nyata	Skenario yang memerlukan interaksi daring (misalnya, AI game)
PPO	Masalah himpunan data SFT + keluaran pengambilan sampel model kebijakan	Model penghargaan (RM) dilatih	Fungsi dominasi (berdasarkan estimasi hadiah)	Metode gradien kebijakan	Efisien dan stabil, mendukung pengoptimalan multi-langkah	Tugas yang kompleks (misalnya pembuatan teks, kontrol robot)
GRPO	Masalah himpunan data SFT + keluaran pengambilan sampel model kebijakan	Model penghargaan (RM) dilatih	Imbalan relatif intra-grup (perbandingan yang dinormalisasi)	Optimasi kebijakan grup	Mengurangi varians imbalan dan meningkatkan perbandingan intra-grup	Tugas dengan varians tinggi (misalnya pembuatan teks panjang)

Pengamatan pada sumber data

Pelatihan online vs offline: Pelatihan online mengacu pada penggunaan output dari model kebijakan waktu nyata sebagai data pelatihan, sedangkan pelatihan offline mengacu pada penggunaan output dari model tetap (seperti model SFT) sebagai data pelatihan. Hasil eksperimen menunjukkan bahwa Pelatihan online umumnya lebih baik daripada pelatihan offline.

Supervisi hasil vs supervisi proses: Supervisi hasil mengacu pada pemberian penghargaan hanya pada langkah terakhir dari output, sedangkan supervisi proses mengacu pada pemberian penghargaan pada setiap langkah dari proses penalaran. Hasil eksperimen menunjukkan bahwa pengawasan proses lebih efektif dalam tugas-tugas yang kompleks.

Pembelajaran penguatan episode tunggal vs. pembelajaran penguatan berulang: Pembelajaran penguatan episode tunggal mengacu pada pengoptimalan strategi tunggal, sedangkan pembelajaran penguatan berulang mengacu pada pembaruan berkelanjutan model penghargaan setelah beberapa pengoptimalan strategi. Hasil eksperimen menunjukkan bahwa pembelajaran penguatan berulang dapat meningkatkan kinerja secara signifikan, terutama pada iterasi pertama.

Pengamatan koefisien gradien

Berbasis aturan vs. berbasis model: Aturan mengacu pada penentuan hadiah berdasarkan kebenaran jawaban, dan Model mengacu pada pelatihan model hadiah untuk mencetak skor.

Perbedaan koefisien gradien: Perbedaan utama antara GRPO dan RFT Online adalah GRPO yang menyesuaikan koefisien gradiennya berdasarkan nilai imbalan yang diberikan oleh model imbalan, sedangkan RFT Online tidak.

Keunggulan GRPO: Percobaan menunjukkan bahwa GRPO lebih unggul daripada RFT Online, menunjukkan keefektifan dalam mengubah tanda koefisien gradien. GRPO+PS lebih unggul daripada GRPO+OS, menunjukkan manfaat penggunaan koefisien gradien yang sangat teliti dan tanggap.

Efektivitas RL dan arah perbaikannya

Mengapa RL efektif?

Hasil percobaan: RL meningkatkan kinerja Maj@K tetapi tidak Pass@K.

Penjelasan: RL meningkatkan kinerja model secara keseluruhan dengan membuat distribusi keluaran lebih tangguh, yaitu meningkatkan kemungkinan jawaban yang benar dalam TopK, daripada meningkatkan kemampuan dasar model.

Bagaimana RL yang lebih efektif dapat dicapai?

Berdasarkan paradigma terpadu, penulis mengusulkan arah masa depan untuk meningkatkan RL dalam tiga aspek: sumber data, algoritma, dan fungsi penghargaan.

Sumber data:
- Jelajahi isu-isu di luar tahap SFT.
- Gunakan strategi pengambilan sampel (decoding) yang lebih maju, seperti metode berbasis pencarian pohon.
- Gunakan teknik inferensi yang efisien untuk meningkatkan efisiensi eksplorasi model kebijakan.
Algoritma:
- Jelajahi algoritma pembelajaran penguatan yang lebih tangguh terhadap sinyal penghargaan yang bising.
- Pelajari metode penyelarasan tipe LEMAH-KE-KUAT.
Fungsi hadiah:
- Meningkatkan kemampuan generalisasi model penghargaan untuk menangani masalah di luar distribusi dan keluaran yang didekodekan tingkat lanjut.
- Mencerminkan ketidakpastian model penghargaan dan menggunakannya sebagai jembatan untuk menghubungkan model penghargaan yang lemah dan algoritma pembelajaran LEMAH-KE-KUAT.
- Membangun model penghargaan proses berkualitas tinggi secara efisien untuk menyediakan sinyal pelatihan terperinci bagi proses inferensi.

Ringkasan

DeepSeekMath telah meningkatkan kemampuan model bahasa sumber terbuka dalam penalaran matematika secara signifikan dengan membangun korpus matematika berskala besar dan mengusulkan algoritma pembelajaran penguatan baru. Hal-hal penting dari makalah ini adalah

konstruksi dan validasi Korpus DeepSeekMath, korpus matematika berskala besar, berkualitas tinggi, dan multibahasa.
Sebuah algoritma pembelajaran penguatan yang efisien, GRPO, diusulkan untuk mengurangi penggunaan memori sekaligus meningkatkan kemampuan penalaran matematika model.
Dampak pelatihan kode pada kemampuan penalaran matematika dibahas secara mendalam, dan ditemukan bahwa data arXiv memiliki efek yang terbatas. Nilai DeepSeekMath:
Ini memberi komunitas sumber terbuka model penalaran matematika yang kuat dan mendorong pengembangan AI matematika.
Menyediakan pengalaman dan metode berharga untuk membangun korpora matematika dan melatih model penalaran matematika.
Algoritma GRPO yang diusulkan memberikan ide-ide baru untuk pelatihan pembelajaran penguatan di bidang lain.

Rahasia di balik DeepSeek 1 | Rincian Matematika dan GRPO DeepSeekM