Paper-DeepSeek-R1: Insentif Keupayaan Penaakulan dalam LLM melalui Pembelajaran Pengukuhan

Jadual Kandungan

Abstrak

Makalah ini memperkenalkan model penaakulan generasi pertama DeepSeek: DeepSeek-R1-Zero dan DeepSeek-R1. DeepSeek-R1-Zero, dilatih melalui pembelajaran tetulang berskala besar (RL) tanpa penyeliaan penalaan halus (SFT), menunjukkan keupayaan penaakulan yang luar biasa. Melalui RL, ia secara semula jadi membangunkan tingkah laku penaakulan yang kuat. Walau bagaimanapun, ia menghadapi cabaran seperti kebolehbacaan yang lemah dan percampuran bahasa. Untuk menangani isu ini dan meningkatkan prestasi penaakulan, DeepSeek-R1 telah dibangunkan, menggabungkan latihan berbilang peringkat dan data permulaan sejuk sebelum RL. DeepSeek-R1 mencapai prestasi yang setanding dengan OpenAI-o1-1217 pada tugas penaakulan. Untuk menyokong penyelidikan, sumber terbuka DeepSeek kedua-dua model dan enam model padat (1.5B, 7B, 8B, 14B, 32B, 70B) disuling daripada DeepSeek-R1 berdasarkan Qwen dan Llama.

Sumbangan Utama

Selepas Latihan: Pembelajaran Pengukuhan Berskala Besar

Berjaya menggunakan RL terus pada model asas tanpa SFT
Membangunkan DeepSeek-R1-Zero, menunjukkan keupayaan seperti pengesahan kendiri dan refleksi
Penyelidikan terbuka pertama yang mengesahkan bahawa keupayaan penaakulan boleh diberi insentif semata-mata melalui RL
Saluran paip yang diperkenalkan untuk DeepSeek-R1 dengan dua peringkat RL dan dua peringkat SFT

Penyulingan: Memperkasakan Model Yang Lebih Kecil

Menunjukkan bahawa corak penaakulan daripada model yang lebih besar boleh disuling dengan berkesan kepada yang lebih kecil
DeepSeek-R1 sumber terbuka dan APInya untuk memberi manfaat kepada komuniti penyelidikan
Beberapa model padat yang diperhalusi menunjukkan prestasi penanda aras yang luar biasa
Model suling dengan ketara mengatasi model sumber terbuka sebelumnya

Keputusan Penilaian

Tugas Penaakulan

DeepSeek-R1 mencapai 79.8% Pass@1 pada AIME 2024, mengatasi OpenAI-o1-1217
Skor 97.3% pada MATH-500, berprestasi setanding dengan OpenAI-o1-1217
Prestasi peringkat pakar dalam tugasan pertandingan kod dengan penilaian 2,029 Elo pada Codeforces

Tugas Pengetahuan

Keputusan cemerlang pada MMLU (90.8%), MMLU-Pro (84.0%) dan GPQA Diamond (71.5%)
Melangkaui model sumber tertutup lain dalam tugas pendidikan
Prestasi kukuh pada penanda aras fakta seperti SimpleQA

Keupayaan Umum

Cemerlang dalam penulisan kreatif, menjawab soalan, penyuntingan dan rumusan
Kadar kemenangan 87.6% pada AlpacaEval 2.0 dan 92.3% di ArenaHard
Prestasi kukuh dalam tugas pemahaman konteks panjang

Kerja Masa Depan

Pasukan merancang untuk memberi tumpuan kepada:

Meningkatkan keupayaan umum dalam bidang seperti panggilan fungsi dan main peranan yang kompleks
Menangani isu percampuran bahasa
Memperbaiki kejuruteraan dorongan
Meningkatkan prestasi pada tugas kejuruteraan perisian

Kesimpulan

DeepSeek-R1 mewakili kemajuan ketara dalam keupayaan penaakulan AI melalui pembelajaran pengukuhan. Kejayaan kedua-dua model utama dan versi sulingnya menunjukkan potensi pendekatan ini untuk membangunkan sistem AI yang lebih berkebolehan. Keluaran sumber terbuka model ini akan menyumbang kepada penyelidikan dan pembangunan lanjut dalam bidang tersebut.

DeepSeek_R1 Muat turun

Tidak dikategorikan

Perbandingan menyeluruh bagi o3-mini dan DeepSeek R1 yang baru dikeluarkan OpenAI

Olehzddeepseeker 1 Februari 20251 Februari 2025

OpenAI telah mengeluarkan model inferens terbaharunya, o3-mini, yang dioptimumkan untuk bidang seperti sains, matematik dan pengaturcaraan, memberikan respons yang lebih pantas, ketepatan yang lebih tinggi dan kos yang lebih rendah. Berbanding dengan pendahulunya o1-mini, o3-mini telah meningkatkan dengan ketara keupayaan inferensnya, terutamanya dalam menyelesaikan masalah yang kompleks. Penguji lebih suka jawapan o3-mini oleh 56%, dan kadar ralat mempunyai…

Tidak dikategorikan

Apakah FlashMLA? Panduan Komprehensif untuk Kesannya pada Inti Penyahkod AI

Olehdeepseeker 24 Februari 202524 Februari 2025

FlashMLA telah cepat mendapat perhatian dalam dunia kecerdasan buatan, khususnya dalam bidang model bahasa besar (LLM). Alat inovatif ini, yang dibangunkan oleh DeepSeek, berfungsi sebagai kernel penyahkodan yang dioptimumkan yang direka untuk GPU Hopper—cip berprestasi tinggi yang biasa digunakan dalam pengiraan AI. FlashMLA memfokuskan pada pemprosesan cekap jujukan panjang berubah-ubah, menjadikannya sangat sesuai…

Tidak dikategorikan

Gemini 2.0 mendominasi carta, manakala DeepSeek V3 menangis dalam harganya, dan juara kos efektif baharu dilahirkan!

Olehzddeepseeker 8 Februari 20258 Februari 2025

Keluarga Google Gemini 2.0 akhirnya lengkap! Ia mendominasi carta sebaik sahaja ia dikeluarkan. Di tengah-tengah pengejaran dan sekatan Deepseek, Qwen dan o3, Google mengeluarkan tiga model sekali gus awal pagi ini: Gemini 2.0 Pro, Gemini 2.0 Flash dan Gemini 2.0 Flash-Lite. Pada kedudukan LMSYS model besar, Gemini…

Tidak dikategorikan

Cathie Wood: DeepSeek hanya mempercepatkan proses pengurangan kos; struktur pasaran tertumpu yang melampau setanding dengan Kemelesetan Besar akan berubah

Olehzddeepseeker 8 Februari 20258 Februari 2025

Sorotan Persaingan dengan DeepSeek bagus untuk Cathie Wood AS: Saya rasa ia menunjukkan bahawa kos inovasi menurun secara mendadak, dan trend ini telah pun bermula. Sebagai contoh, sebelum DeepSeek, kos latihan kecerdasan buatan jatuh sebanyak 75% setahun, dan kos inferens juga turun sebanyak 85% kepada…

Tidak dikategorikan

DeepSeek TOP17 Alternatif Terbaik: Analisis Komprehensif (2025)

Olehdeepseeker 6 Februari 20256 Februari 2025

Pengenalan Dalam landskap kecerdasan buatan yang berkembang pesat, DeepSeek telah muncul sebagai model bahasa yang berkuasa. Analisis komprehensif ini meneroka 17 alternatif teratas kepada DeepSeek, meneliti ciri unik, keupayaan dan kes penggunaannya. Penyelidikan kami memfokuskan pada platform antarabangsa dan China yang menawarkan integrasi DeepSeek atau keupayaan serupa. Analisis Alternatif Teratas 1….

Tidak dikategorikan

Altman: Kami silap tentang AI sumber terbuka! DeepSeek telah menjadikan OpenAI kurang berfaedah, dan yang seterusnya ialah GPT-5

Olehzddeepseeker 1 Februari 20251 Februari 2025

o3-mini tiba lewat malam, dan OpenAI akhirnya mendedahkan kad truf terbarunya. Semasa Soal Jawab AMA Reddit, Altman dengan mendalam mengaku bahawa dia telah berdiri di sisi yang salah dari AI sumber terbuka. Beliau berkata bahawa strategi dalaman sumber terbuka sedang dipertimbangkan, dan model itu akan terus dibangunkan, tetapi…

Abstrak

Sumbangan Utama

Selepas Latihan: Pembelajaran Pengukuhan Berskala Besar

Penyulingan: Memperkasakan Model Yang Lebih Kecil

Keputusan Penilaian

Tugas Penaakulan

Tugas Pengetahuan

Keupayaan Umum

Kerja Masa Depan

Kesimpulan

Catatan Serupa

Tinggalkan Balasan Batal balasan