Berita tergempar! Penyelidik DeepSeek mendedahkan dalam talian: Latihan R1 hanya mengambil masa dua hingga tiga minggu, dan evolusi sifar R1 yang kuat telah diperhatikan semasa cuti Tahun Baru Cina
Tadi, kami perasan bahawa penyelidik DeepSeek Daya Guo menjawab soalan netizen tentang DeepSeek R1 dan rancangan syarikat pada masa hadapan. Kita hanya boleh mengatakan bahawa DeepSeek R1 hanyalah permulaan, dan penyelidikan dalaman masih berkembang pesat. Penyelidik DeepSeek tidak pun berehat semasa cuti Tahun Baru Cina, dan mereka telah bekerja tanpa jemu untuk memajukan penyelidikan. DeepSeek mempunyai beberapa langkah besar yang akan datang
Inilah perkaranya: Pada 1 Februari, Daya Guo menyiarkan tweet mendedahkan perkara yang paling membuatkan dia teruja semasa cuti Tahun Baharu Cina: menyaksikan "pertumbuhan berterusan" daripada keluk prestasi R1-Sifar model, dan merasai kuasa yang kuat daripada pembelajaran pengukuhan (RL)!
Penyelidik AI Deepseek Daya Guo bercakap dengan netizen
Saya kini akan membantu anda menghasilkan semula perbualan Daya Guo dengan netizen:
Netizen A @PseudoProphet: “Biasanya, saya ingin bertanya berapa lama peningkatan berterusan dalam prestasi ini akan bertahan. Adakah ini masih di peringkat awal? Adakah rasanya model RL DeepSeek baru bermula, seperti GPT-2 dalam model bahasa? Atau adakah ia telah mencapai tahap yang lebih matang seperti GPT-3.5, dan hampir mengalami kesesakan?”
Ini adalah soalan yang sangat tajam, yang secara langsung berkaitan dengan potensi teknologi RL DeepSeek! Tanggapan Daya Guo juga sangat jujur:
Daya Guo: “Saya rasa kita masih di peringkat awal, dan masih jauh lagi untuk pergi dalam bidang RL. Tetapi saya percaya kita akan melihat kemajuan yang ketara tahun ini.”
Serlahkan perkara utama! “Sangat awal”, “jalan yang jauh untuk diterokai”, "kemajuan yang ketara tahun ini"! Kata kunci ini penuh dengan maklumat. Ini bermakna DeepSeek percaya bahawa mereka masih mempunyai banyak ruang untuk penambahbaikan dalam bidang RL, dan keputusan semasa R1 mungkin hanya puncak gunung ais, jadi masa depan adalah menjanjikan!
Sejurus selepas itu, seorang lagi netizen @kaush_trip (Cheeku Tripathi) bertanyakan soalan yang lebih profesional yang terus kepada nadi keupayaan model:
Pengguna B @kaush_trip: “Berdasarkan prestasi R1-Zero, bagaimana anda menilai sama ada model itu benar-benar ada keupayaan generalisasi, atau sama ada ia hanya menghafal peralihan negeri dan ganjaran?”
Soalan ini sangat tepat! Lagipun, banyak model kelihatan sangat berkuasa, tetapi sebenarnya mereka hanya 'pembelajaran hafalan' daripada data latihan, dan mereka akan gagal dalam persekitaran yang berbeza. Adakah DeepSeek R1 benar-benar hebat?
Daya Guo: “Kami menggunakan penanda aras untuk domain yang tidak dilindungi oleh gesaan RL untuk menilai keupayaan generalisasi. Pada masa ini, ia nampaknya mempunyai keupayaan generalisasi."
Ungkapan "kawasan yang tidak diliputi oleh gesaan RL" adalah kuncinya! Ini bermakna DeepSeek tidak "menipu" penilaian dengan data latihan, tetapi diuji dengan senario baharu yang model itu tak pernah nampak sebelum ini, yang benar-benar boleh mencerminkan tahap generalisasi model. Penggunaan kata-kata "nampak ada" yang ketat oleh Daya Guo juga menjadikannya lebih realistik dan boleh dipercayai
Seterusnya, seorang netizen dengan ID @teortaxesTex, peminat tegar DeepSeek (komennya malah termasuk perkataan "pasukan sorak paus DeepSeek"), bermula dengan laporan teknikal DeepSeek V3 dan bertanyakan soalan tentang masa latihan model:
Pengguna C @teortaxesTex: “Jika bukan rahsia: berapa lama masa latihan RL kali ini? Rasanya anda sudah mempunyai R1 atau sekurang-kurangnya R1-Zero seawal 10 Disember, kerana laporan teknikal V3 menyebut bahawa model V2.5 menggunakan penyulingan pengetahuan R1, dan skor V2.5-1210 adalah sama dengan model semasa. Adakah ini adalah kesinambungan daripada latihan itu?”
Netizen ini mempunyai kuasa pemerhatian yang menakjubkan! Dia dapat mengeluarkan begitu banyak butiran daripada laporan teknikal itu. Daya Guo juga dengan sabar menjelaskan proses lelaran model:
Daya Guo: “Parameter R1-Zero dan R1 660B hanya mula berjalan selepas keluaran V3, dan latihan mengambil masa kira-kira 2-3 minggu. Model R1 yang kami nyatakan sebelum ini (seperti dalam laporan teknikal V3) sebenarnya ialah R1-Lite atau R1-Lite-Zero.”
Jadi itu sahaja! R1-Zero dan R1 yang kita lihat sekarang ialah "versi baharu dan dinaik taraf", dan siri R1-Lite sebelum ini ialah versi kecil. Nampaknya DeepSeek telah secara senyap-senyap melelakan dan menaik taraf banyak versi di belakang tabir
Mengenai kelajuan latihan, netizen @jiayi_pirate (Jiayi Pan) dan netizen B @kaush_trip telah menyampaikan "soal siasat jiwa":
Pengguna D @jiayi_pirate: ”10,000 langkah RL dalam 3 minggu, setiap langkah perambatan kecerunan (grpo) mengambil masa ~3 minit 🤔”
Pengguna B @kaush_trip: "Jika setiap langkah perambatan kecerunan (grpo) mengambil masa ~3 minit, itu kira-kira 5 langkah sejam, 120 langkah sehari, yang sememangnya sangat perlahan."
Ini adalah pengiraan yang sangat teliti! Mengikut kiraan netizen, kelajuan latihan DeepSeek R1 memang tidak laju. Ini juga menunjukkan bahawa kos latihan dan pelaburan masa bagi model RL berprestasi tinggi sedemikian adalah besar. "Kerja perlahan menghasilkan kerja yang baik" nampaknya cara yang cukup sesuai untuk menerangkan latihan model AI
Akhirnya, seorang netizen bernama @davikrehalt (Andy Jiang) bertanya soalan dari perspektif aplikasi yang lebih canggih:
Pengguna E @davikrehalt: “Adakah anda cuba menggunakan RL untuk melakukan bukti rasmi alam sekitar, bukannya hanya menjawab soalan? Alangkah baiknya jika model sumber terbuka boleh memenangi pingat emas di IMO (International Mathematical Olympiad) tahun ini! (Dan lebih banyak harapan!)”
Bukti rasmi! pingat emas IMO! Netizen ini agak bercita-cita tinggi! Walau bagaimanapun, menggunakan AI pada bidang tegar pembuktian matematik sememangnya menjadi trend masa depan. Jawapan Daya Guo sekali lagi mengejutkan:
Daya Guo: “Kami juga cuba menerapkan R1 pada persekitaran bukti formal seperti Lean. Kami berharap dapat mengeluarkan model yang lebih baik kepada masyarakat tidak lama lagi.”
Daripada kata-kata Daya Guo, nampaknya mereka telah pun mencapai kemajuan dalam bidang ini, dan mungkin ada model yang lebih mengagumkan dikeluarkan pada masa hadapan!
Sebagai penutup
Tiga isyarat utama boleh disuling daripada tindak balas Daya Guo:
Kedudukan teknikal: RL masih di peringkat awal, dan peningkatan prestasi masih jauh daripada mencapai hadnya;
Logik pengesahan: keupayaan generalisasi untuk ujian merentas domain, menolak "spekulasi memori
Sempadan aplikasi: daripada model bahasa kepada pembuktian matematik, RL sedang menuju ke arah penaakulan peringkat tinggi