Hari ini kami akan kongsikan DeepSeek R1, Tajuk: DeepSeek-R1: Insentif Keupayaan Penaakulan dalam LLM melalui Pembelajaran Peneguhan: Insentif keupayaan penaakulan LLM melalui pembelajaran peneguhan.

Kertas kerja ini memperkenalkan model penaakulan generasi pertama DeepSeek, DeepSeek-R1-Sifar dan DeepSeek-R1. Model DeepSeek-R1-Zero telah dilatih melalui pembelajaran pengukuhan (RL) berskala besar tanpa penalaan halus (SFT) yang diselia sebagai langkah awal, menunjukkan potensi RL dan keupayaan penaakulan yang unggul ia membawa. Melalui pembelajaran pengukuhan, DeepSeek-R1-Zero secara semula jadi muncul dengan banyak tingkah laku penaakulan yang kuat dan menarik. Untuk mengoptimumkan lagi beberapa isu dengan R1-Zero (kekeliruan linguistik, keupayaan generalisasi yang lebih baik), mereka mengeluarkan DeepSeek-R1, yang menggabungkan latihan berbilang peringkat dan penalaan data permulaan sejuk sebelum pembelajaran pengukuhan. DeepSeek-R1 mencapai prestasi yang setanding mengenai tugas penaakulan dengan OpenAI-01-1217. Untuk menyokong komuniti penyelidikan, mereka telah DeepSeek-R1-Zero, DeepSeek-R1 dan enam model padat sumber terbuka (1.5B, 7B, 8B, 14B, 32B, 70B) disuling daripada DeepSeek-R1, yang berasaskan Qwen dan Llama.

Ciri-ciri kaedah diringkaskan seperti berikut:

  1. Pembelajaran pengukuhan diterapkan secara langsung kepada model asas, tanpa bergantung pada penyeliaan penalaan halus (SFT) sebagai langkah awal.
  2. Proses pembangunan DeepSeek-R1 diperkenalkan, yang menggabungkan dua fasa pembelajaran pengukuhan dan dua fasa penalaan halus yang diselia untuk meletakkan asas bagi keupayaan penaakulan dan bukan penaakulan model.
  3. Prestasi model kecil pada tugas penaakulan dipertingkatkan dengan memindahkan corak penaakulan model besar kepada model kecil melalui teknik penyulingan.

Gambaran keseluruhan

Motivasi

  • Model bahasa besar (LLM) semasa telah mencapai kemajuan yang ketara dalam tugasan inferens, tetapi masih menghadapi cabaran.
  • Potensi murni pembelajaran pengukuhan (RL) dalam meningkatkan keupayaan penaakulan LLM belum diterokai sepenuhnya, terutamanya tanpa bergantung pada data yang diselia.
  • Model yang dilatih melalui RL, seperti DeepSeek-R1-Zero, mempunyai masalah dengan kebolehbacaan dan percampuran bahasa (cth, bercampur Cina dan Inggeris), dan memerlukan penambahbaikan lanjut untuk meningkatkan kemesraan pengguna.

Kaedah

DeepSeek-R1-Sifar: Menggunakan DeepSeek-V3-Base sebagai model asas, dan GRPO (Group Relative Policy Optimization) sebagai pembelajaran pengukuhan rangka kerja, tanpa data yang diselia untuk meningkatkan prestasi model secara inferens.

DeepSeek-R1:

  • Mula Dingin: Mengumpul sejumlah kecil data CoT (Chain-of-Thought) berkualiti tinggi dan memperhalusi Model DeepSeek-V3-Asas sebagai pelaku awal untuk pembelajaran pengukuhan.
  • Pembelajaran Pengukuhan Berorientasikan Penaakulan: yang sama proses latihan pembelajaran pengukuhan kerana DeepSeek-R1-Zero digunakan, tetapi dengan tumpuan untuk meningkatkan kebolehan penaakulan model dalam bidang seperti pengekodan, matematik, sains dan penaakulan logik. Ganjaran ketekalan linguistik diperkenalkan untuk mengurangkan masalah percampuran linguistik yang berlaku dalam CoT.
  • Pensampelan Penolakan dan Penyeliaan Penalaan Halus: Menggunakan pusat pemeriksaan tertumpu pembelajaran pengukuhan untuk mengumpul data Penyeliaan Penalaan Halus (SFT). untuk latihan seterusnya.
  • Pembelajaran Pengukuhan untuk semua Senario: Melaksanakan fasa pembelajaran pengukuhan peringkat kedua, yang bertujuan untuk menambah baik membantu dan tidak berbahaya model sambil mengoptimumkan keupayaan penaakulannya.
  • Penyulingan pengetahuan: Perhalusi model sumber terbuka Qwen dan Llama secara langsung menggunakan 800k sampel yang dipilih susun oleh DeepSeek-R1.

Kaedah dan prosedur terperinci:

DeepSeek-R1-Zero: Pembelajaran pengukuhan untuk model asas

  • Algoritma pembelajaran pengukuhan: Menggunakan algoritma Pengoptimuman Dasar Relatif Kumpulan (GRPO), yang tidak memerlukan a pengkritik model, menganggar garis dasar mengikut markah kumpulan, dan mengurangkan kos latihan.
  • Pemodelan ganjaran: Kegunaan a sistem ganjaran berasaskan peraturan, termasuk
  • ganjaran ketepatan: Menilai sama ada jawapan itu betul, seperti ketepatan keputusan akhir jawapan masalah matematik, maklum balas daripada pengkompil untuk masalah kod.
  • Format ganjaran: Menggalakkan model untuk letakkan proses berfikir antara dan tag.

Templat latihan: Templat yang mengandungi dan tag direka untuk membimbing model untuk mengeluarkan proses berfikir dahulu, dan kemudian jawapan akhir.

  • Proses evolusi diri: DeepSeek-R1-Zero ditunjukkan ciri-ciri evolusi diri semasa latihan, dan dapat belajar secara autonomi strategi penaakulan yang lebih kompleks, seperti refleksi dan penerokaan pelbagai laluan penyelesaian masalah.

DeepSeek-R1: Pembelajaran pengukuhan digabungkan dengan permulaan sejuk

  • Permulaan sejuk: Untuk menyelesaikan DeepSeek-R1-Zero masalah kebolehbacaan, DeepSeek-R1 mula-mula mengumpul sejumlah kecil data CoT berkualiti tinggi dan memperhalusi model DeepSeek-V3-Base kepada berfungsi sebagai pelakon awal untuk pembelajaran pengukuhan. Data permulaan yang sejuk mengandungi tag ringkasan dan balasan yang tidak mesra ditapis keluar.
    • Kaedah: 1) Pilih data Long COT berkualiti tinggi. 2) Tambah dan tag.
    • Kelebihan: 1) Kebolehbacaan yang dioptimumkan (selesaikan masalah berbilang bahasa R1-Zero atau masalah format penurunan harga). 2) Data pilihan manusia yang dipilih dengan teliti boleh terus meningkatkan prestasi pada R1-Zero.
    • Soalan: Mengapa menyelesaikan masalah kebolehbacaan? Bukankah mungkin untuk melakukan lebih baik tanpa menyelesaikannya (cth, mengurangkan panjang output dan membuat kesimpulan dengan lebih cekap)?
  • RL berorientasikan penaakulan: Berdasarkan model cold-start, proses pembelajaran pengukuhan serupa dengan DeepSeek-R1-Zero digunakan, memfokuskan pada meningkatkan keupayaan model dalam tugas seperti pengekodan, matematik, penaakulan saintifik dan logik. Untuk menyelesaikan masalah bahasa campuran (penaakulan pelbagai bahasa), ganjaran ketekalan bahasa diperkenalkan.
    • Soalan: Bagaimanakah tugasan dan set data penaakulan saintifik dan logik dilatih?
  • Persampelan Penolakan dan SFT: Selepas pembelajaran peneguhan berpandukan inferens bertumpu, titik semak yang diperoleh digunakan untuk pensampelan penolakan untuk menjana data SFT baharu, yang digabungkan dengan data daripada DeepSeek-V3 untuk meningkatkan keupayaan model dalam penulisan, main peranan dan tugasan umum.
    • Tujuan:
      • Fasa ini dimulakan selepas proses pembelajaran peneguhan berorientasikan inferens (RL) bertumpu.
      • Objektif utama adalah untuk mengumpul data penalaan halus (SFT) yang diselia untuk digunakan dalam pusingan latihan seterusnya.
      • Tidak seperti data permulaan sejuk awal, yang hanya memfokuskan pada inferens, fasa ini bertujuan untuk mengembangkan keupayaan model meliputi penulisan, main peranan dan tugasan tujuan umum yang lain, bukan hanya membuat kesimpulan.
    • Pengumpulan data – Data inferens:
      • Kaedah: Gunakan pusat pemeriksaan yang diperoleh daripada fasa RL berorientasikan inferens untuk menjana trajektori inferens melalui pensampelan penolakan.
      • Peluasan set data: Tidak seperti fasa RL sebelumnya, yang hanya menggunakan data ganjaran berasaskan peraturan, data ganjaran bukan berasaskan peraturan diperkenalkan di sini. Dalam sesetengah kes, model ganjaran generatif (DeepSeek-V3) digunakan untuk menentukan tindak balas.
      • Penapisan data: Untuk memastikan kualiti dan kebolehbacaan, output ditapis untuk dialih keluar:
        • rantai pemikiran yang mengandungi bahasa campuran
        • perenggan panjang
        • blok kod
      • Persampelan dan pemilihan: Untuk setiap gesaan, berbilang respons telah dihasilkan. Hanya respons "betul" dikekalkan untuk set data.
      • Saiz set data: lebih kurang 600,000 sampel latihan berkaitan inferens telah dikumpulkan dengan cara ini.
    • Pengumpulan data – data bukan inferens:
      • Liputan: Penulisan, menjawab soalan fakta (QA), kesedaran diri dan terjemahan.
      • Kertas itu menyebut tentang kegunaan Proses DeepSeek-V3 dan menggunakan semula sebahagian daripada set data DeepSeek-V3 SFT untuk mengendalikan tugasan bukan inferens ini. Tentang 200,000 sampel bebas inferens telah dikumpulkan. (Nota: Butiran pengumpulan data bukan inferens diterangkan dengan lebih lanjut dalam Bahagian 2.3.4)
    • Penggunaan data yang dikumpul:
      • Data penaakulan dan bukan penaakulan yang dikumpul (sejumlah kira-kira 800,000 sampel – 600,000 sampel penaakulan + 200,000 sampel bukan penaakulan) kemudiannya digunakan untuk memperhalusi model DeepSeek-V3-Base untuk dua zaman. Model diperhalusi ini kemudiannya digunakan dalam fasa RL akhir yang diterangkan dalam Bahagian 2.3.4.
    • Ringkasan Langkah ini menggunakan keupayaan inferens dipelajari melalui RL untuk menjana set data SFT yang pelbagai dan berkualiti tinggi. Set data ini mengukuhkan keupayaan inferens dan juga mengembangkan keupayaan am model untuk latihan dalam fasa penjajaran dan penambahbaikan akhir.
  • Pembelajaran Pengukuhan untuk semua Senario: Untuk menyelaraskan lagi pilihan manusia, fasa kedua pembelajaran pengukuhan dilaksanakan untuk meningkatkan sifat membantu dan tidak berbahaya model.
    • Data inferens: cth matematik, kod, inferens logik atau diselia dengan kaedah asas peraturan.
    • Data am: model ganjaran masih digunakan untuk menyediakan maklumat keutamaan untuk senario yang kompleks dan halus. Model yang dilatih dengan data berpasangan juga dianggarkan.
    • Kebergunaan: hanya fokus pada hasil ringkasan akhir, mengurangkan gangguan terhadap proses inferens.
    • Tidak berbahaya: mengawasi keseluruhan tindak balas untuk mengurangkan sebarang risiko.

Penyulingan model (Penyulingan):

  • Untuk mendapatkan model inferens kecil yang lebih cekap, makalah ini menyaring keupayaan inferens DeepSeek-R1 ke dalam model sumber terbuka siri Qwen dan Llama. Proses penyulingan hanya menggunakan penyeliaan penalaan halus (SFT) dan tidak menggunakan peringkat pembelajaran pengukuhan.

Kesimpulan

DeepSeek-R1-Sifar: Menunjukkan potensi pembelajaran peneguhan tulen dalam memotivasikan keupayaan inferens LLM, dan boleh mencapai prestasi yang kukuh tanpa bergantung pada data yang diselia.

  • Aha-detik: Keindahan pembelajaran pengukuhan (momen pencerahan model, di mana ia memperuntukkan lebih masa berfikir untuk sesuatu masalah dengan belajar menilai semula pendekatan awal)
  • Panjang keluaran terus meningkat (masa berfikir terus meningkat)
  • Ketepatan terus bertambah baik (mensampel 16 respons untuk mengira ketepatan)
  • DeepSeek-R1: Meningkatkan lagi prestasi model dengan menggabungkan data permulaan sejuk dan pembelajaran pengukuhan lelaran penalaan halus, mencapai tahap yang setanding dengan OpenAI-01-1217 dalam pelbagai tugas.
  • Penyulingan pengetahuan: Menggunakan DeepSeek-R1 sebagai model guru, 800K sampel latihan telah dihasilkan dan beberapa model kecil dan padat telah diperhalusi. Keputusan menunjukkan bahawa ini kaedah penyulingan boleh meningkatkan keupayaan inferens dengan ketara model kecil.

Had

  • Had 1: Keupayaan umum DeepSeek-R1 perlu dipertingkatkan. DeepSeek-R1 masih lebih rendah daripada DeepSeek-V3 dalam tugas seperti panggilan fungsi, dialog berbilang pusingan, main peranan yang kompleks dan output JSON.
  • Had 2: Masalah percampuran bahasa. DeepSeek-R1 mungkin menghadapi masalah percampuran bahasa apabila memproses pertanyaan bukan bahasa Cina dan bukan bahasa Inggeris, contohnya, menaakul dan menjawab dalam bahasa Inggeris.
  • Had 3: Kepekaan segera. DeepSeek-R1 sensitif kepada perkataan gesaan, dan gesaan beberapa tangkapan akan mengurangkan prestasinya.
  • Had 4: Aplikasi terhad kepada tugas kejuruteraan perisian. Disebabkan oleh masa penilaian yang panjang, pembelajaran pengukuhan berskala besar belum digunakan sepenuhnya untuk tugas kejuruteraan perisian, dan DeepSeek-R1 mempunyai peningkatan terhad berbanding DeepSeek-V3 dalam penanda aras kejuruteraan perisian.

Catatan Serupa

Tinggalkan Balasan

Alamat e-mel anda tidak akan disiarkan. Medan diperlukan ditanda dengan *