Abstrak

Makalah ini memperkenalkan model penaakulan generasi pertama DeepSeek: DeepSeek-R1-Zero dan DeepSeek-R1. DeepSeek-R1-Zero, dilatih melalui pembelajaran tetulang berskala besar (RL) tanpa penyeliaan penalaan halus (SFT), menunjukkan keupayaan penaakulan yang luar biasa. Melalui RL, ia secara semula jadi membangunkan tingkah laku penaakulan yang kuat. Walau bagaimanapun, ia menghadapi cabaran seperti kebolehbacaan yang lemah dan percampuran bahasa. Untuk menangani isu ini dan meningkatkan prestasi penaakulan, DeepSeek-R1 telah dibangunkan, menggabungkan latihan berbilang peringkat dan data permulaan sejuk sebelum RL. DeepSeek-R1 mencapai prestasi yang setanding dengan OpenAI-o1-1217 pada tugas penaakulan. Untuk menyokong penyelidikan, sumber terbuka DeepSeek kedua-dua model dan enam model padat (1.5B, 7B, 8B, 14B, 32B, 70B) disuling daripada DeepSeek-R1 berdasarkan Qwen dan Llama.

Sumbangan Utama

Selepas Latihan: Pembelajaran Pengukuhan Berskala Besar

  • Berjaya menggunakan RL terus pada model asas tanpa SFT
  • Membangunkan DeepSeek-R1-Zero, menunjukkan keupayaan seperti pengesahan kendiri dan refleksi
  • Penyelidikan terbuka pertama yang mengesahkan bahawa keupayaan penaakulan boleh diberi insentif semata-mata melalui RL
  • Saluran paip yang diperkenalkan untuk DeepSeek-R1 dengan dua peringkat RL dan dua peringkat SFT

Penyulingan: Memperkasakan Model Yang Lebih Kecil

  • Menunjukkan bahawa corak penaakulan daripada model yang lebih besar boleh disuling dengan berkesan kepada yang lebih kecil
  • DeepSeek-R1 sumber terbuka dan APInya untuk memberi manfaat kepada komuniti penyelidikan
  • Beberapa model padat yang diperhalusi menunjukkan prestasi penanda aras yang luar biasa
  • Model suling dengan ketara mengatasi model sumber terbuka sebelumnya

Keputusan Penilaian

Tugas Penaakulan

  • DeepSeek-R1 mencapai 79.8% Pass@1 pada AIME 2024, mengatasi OpenAI-o1-1217
  • Skor 97.3% pada MATH-500, berprestasi setanding dengan OpenAI-o1-1217
  • Prestasi peringkat pakar dalam tugasan pertandingan kod dengan penilaian 2,029 Elo pada Codeforces

Tugas Pengetahuan

  • Keputusan cemerlang pada MMLU (90.8%), MMLU-Pro (84.0%) dan GPQA Diamond (71.5%)
  • Melangkaui model sumber tertutup lain dalam tugas pendidikan
  • Prestasi kukuh pada penanda aras fakta seperti SimpleQA

Keupayaan Umum

  • Cemerlang dalam penulisan kreatif, menjawab soalan, penyuntingan dan rumusan
  • Kadar kemenangan 87.6% pada AlpacaEval 2.0 dan 92.3% di ArenaHard
  • Prestasi kukuh dalam tugas pemahaman konteks panjang

Kerja Masa Depan

Pasukan merancang untuk memberi tumpuan kepada:

  1. Meningkatkan keupayaan umum dalam bidang seperti panggilan fungsi dan main peranan yang kompleks
  2. Menangani isu percampuran bahasa
  3. Memperbaiki kejuruteraan dorongan
  4. Meningkatkan prestasi pada tugas kejuruteraan perisian

Kesimpulan

DeepSeek-R1 mewakili kemajuan ketara dalam keupayaan penaakulan AI melalui pembelajaran pengukuhan. Kejayaan kedua-dua model utama dan versi sulingnya menunjukkan potensi pendekatan ini untuk membangunkan sistem AI yang lebih berkebolehan. Keluaran sumber terbuka model ini akan menyumbang kepada penyelidikan dan pembangunan lanjut dalam bidang tersebut.

Catatan Serupa

Tinggalkan Balasan

Alamat e-mel anda tidak akan disiarkan. Medan diperlukan ditanda dengan *