Berita terkini! Peneliti DeepSeek mengungkapkan secara online:Pelatihan R1 hanya memakan waktu dua hingga tiga minggu, dan evolusi R1 nol yang kuat diamati selama liburan Tahun Baru Cina
Baru saja kami melihat bahwa peneliti DeepSeek Daya Guo menanggapi pertanyaan netizen tentang DeepSeek R1 dan rencana perusahaan ke depannya. Kami hanya dapat mengatakan bahwa DeepSeek R1 baru permulaan, dan penelitian internal masih berkembang pesat. Peneliti DeepSeek bahkan tidak beristirahat selama liburan Tahun Baru Imlek, dan mereka telah bekerja tanpa lelah untuk memajukan penelitian. DeepSeek memiliki beberapa langkah besar yang akan datang
Begini masalahnya: Pada tanggal 1 Februari, Daya Guo memposting tweet yang mengungkapkan hal yang membuatnya paling bersemangat selama liburan Tahun Baru Imlek: menyaksikan “pertumbuhan berkelanjutan” dari kurva kinerja R1-Nol model, dan merasakan kekuatan dahsyat pembelajaran penguatan (RL)!
Peneliti AI Deepseek Daya Guo berbicara dengan netizen
Sekarang saya akan membantu Anda mereproduksi percakapan Daya Guo dengan netizen:
Netizen A @PseudoProphet: “Yang hebat, saya ingin bertanya berapa lama peningkatan kinerja berkelanjutan ini akan berlangsung. Apakah ini masih dalam tahap awal? Apakah model RL DeepSeek terasa baru saja dimulai, seperti GPT-2 dalam model bahasa? Atau sudah mencapai tahap yang lebih matang seperti GPT-3.5, dan akan segera mengalami kemacetan?”
Ini adalah pertanyaan yang sangat tajam, yang secara langsung berkaitan dengan potensi teknologi RL DeepSeek! Tanggapan Daya Guo juga sangat jujur:
Daya Guo: “Saya pikir kita masih dalam tahap yang sangat awal, dan masih ada jalan panjang yang harus ditempuh di bidang RL. Namun saya yakin kita akan melihat kemajuan yang signifikan tahun ini.”
Soroti poin-poin utamanya! “Sangat awal”, “jalan yang panjang untuk dijelajahi”, “kemajuan signifikan tahun ini”! Kata kunci ini penuh dengan informasi. Ini berarti bahwa DeepSeek yakin bahwa mereka masih memiliki banyak ruang untuk perbaikan di bidang RL, dan hasil R1 saat ini mungkin hanya puncak gunung es, jadi masa depannya menjanjikan!
Segera setelah itu, netizen lain @kaush_trip (Cheeku Tripathi) mengajukan pertanyaan yang lebih profesional dan langsung menyentuh inti kemampuan model:
Pengguna B @kaush_trip: “Berdasarkan kinerja R1-Zero, bagaimana Anda menilai apakah model tersebut benar-benar memiliki kemampuan generalisasi, atau apakah itu hanya menghafal transisi negara dan hadiah"Apa maksudmu?"
Pertanyaan ini sangat tepat sasaran! Lagi pula, banyak model yang tampaknya sangat hebat, tetapi pada kenyataannya mereka hanya 'belajar hafalan' dari data pelatihan, dan mereka akan gagal di lingkungan yang berbeda. Apakah DeepSeek R1 benar-benar sesuai harapan?
Daya Guo: “Kami menggunakan tolok ukur untuk domain yang tidak tercakup oleh perintah RL untuk mengevaluasi kemampuan generalisasi. Saat ini, tampaknya ia memiliki kemampuan generalisasi.”
Frase “area yang tidak tercakup oleh prompt RL” adalah kuncinya! Ini berarti bahwa DeepSeek tidak “mencurangi” evaluasi dengan data pelatihan, tetapi diuji dengan skenario baru yang modelnya belum pernah melihat sebelumnya, yang benar-benar dapat mencerminkan tingkat generalisasi model. Penggunaan kata-kata yang ketat “tampaknya” oleh Daya Guo juga membuatnya lebih realistis dan kredibel
Berikutnya, seorang netizen dengan ID @teortaxesTex, penggemar berat DeepSeek (komentarnya bahkan menyertakan kata-kata “Tim pemandu sorak paus DeepSeek”), memulai dengan laporan teknis DeepSeek V3 dan mengajukan pertanyaan tentang waktu pelatihan model:
Pengguna C @teortaxesTex: “Kalau bukan rahasia: berapa lama pelatihan RL kali ini? Rasanya Anda sudah menjalani R1 atau setidaknya R1-Zero sejak 10 Desember, karena laporan teknis V3 menyebutkan bahwa model V2.5 menggunakan penyulingan pengetahuan R1, dan skor V2.5-1210 sama dengan model saat ini. Apakah ini merupakan kelanjutan dari pelatihan tersebut?”
Netizen ini memiliki kemampuan observasi yang luar biasa! Ia mampu mengekstrak begitu banyak detail dari laporan teknis. Daya Guo juga dengan sabar menjelaskan proses iteratif model tersebut:
Daya Guo: “Parameter R1-Zero dan R1 dari 660B baru mulai berjalan setelah rilis V3, dan pelatihannya memakan waktu sekitar 2-3 minggu. Model R1 yang kami sebutkan sebelumnya (seperti dalam laporan teknis V3) sebenarnya adalah R1-Lite atau R1-Lite-Zero.”
Nah, itu dia! R1-Zero dan R1 yang kita lihat sekarang adalah "versi baru dan yang sudah ditingkatkan", dan seri R1-Lite sebelumnya adalah versi minor. Tampaknya DeepSeek diam-diam telah mengulang dan meningkatkan banyak versi di balik layar.
Terkait kecepatan latihan, netizen @jiayi_pirate (Jiayi Pan) dan netizen B @kaush_trip telah menyampaikan “interogasi jiwa”:
Pengguna D @jiayi_pirate: ”10.000 langkah RL dalam 3 minggu, setiap langkah propagasi gradien (grpo) membutuhkan waktu ~3 menit 🤔”
Pengguna B @kaush_trip: ”Jika setiap langkah perambatan gradien (grpo) memakan waktu ~3 menit, itu sekitar 5 langkah per jam, 120 langkah per hari, yang memang sangat lambat.”
Ini adalah perhitungan yang sangat teliti! Menurut perhitungan netizen, kecepatan pelatihan DeepSeek R1 memang tidak cepat. Ini juga menunjukkan bahwa biaya pelatihan dan investasi waktu dari model RL berkinerja tinggi tersebut sangat besar. "Pekerjaan yang lambat menghasilkan pekerjaan yang baik" tampaknya merupakan cara yang cukup tepat untuk menggambarkan pelatihan model AI.
Terakhir, seorang netizen bernama @davikrehalt (Andy Jiang) mengajukan pertanyaan dari perspektif aplikasi yang lebih mutakhir:
Pengguna E @davikrehalt: “Sudahkah Anda mencoba menggunakan RL untuk melakukan bukti formal lingkungan, alih-alih hanya menjawab pertanyaan? Akan sangat hebat jika model sumber terbuka dapat memenangkan medali emas di IMO (Olimpiade Matematika Internasional) tahun ini! (Dan lebih banyak harapan!)”
Bukti formal! Medali emas menurut saya! Netizen ini cukup ambisius! Namun, penerapan AI pada bidang pembuktian matematika yang sulit memang merupakan tren masa depan. Jawaban Daya Guo sekali lagi mengejutkan:
Daya Guo: “Kami juga mencoba menerapkan R1 ke lingkungan pembuktian formal seperti Lean. Kami berharap dapat segera merilis model yang lebih baik kepada komunitas.”
Dari perkataan Daya Guo, tampaknya mereka telah membuat kemajuan di bidang ini, dan mungkin akan ada model yang lebih mengesankan yang dirilis di masa mendatang!
Sebagai penutup
Tiga sinyal kunci dapat disimpulkan dari tanggapan Daya Guo:
Posisi teknis: RL masih dalam tahap awal, dan peningkatan kinerja masih jauh dari mencapai batasnya;
Logika verifikasi: kemampuan generalisasi untuk pengujian lintas domain, menolak “spekulasi memori”
Batasan aplikasi: dari model bahasa hingga bukti matematika, RL bergerak menuju penalaran tingkat tinggi