Son dakika! DeepSeek araştırmacısı çevrimiçi olarak açıklıyor: R1 eğitimi sadece iki ila üç hafta sürdü ve Çin Yeni Yılı tatili sırasında R1 sıfırının güçlü bir evrimi gözlemlendi

Az önce DeepSeek araştırmacısının Daya Guo netizenlerin DeepSeek R1 ve şirketin ileriye dönük planları hakkındaki sorularına yanıt verdi. Sadece DeepSeek R1'nin sadece bir başlangıç olduğunu ve dahili araştırmanın hala hızla ilerlediğini söyleyebiliriz. DeepSeek araştırmacıları Çin Yeni Yılı tatili sırasında bile ara vermediler ve araştırmayı ilerletmek için yorulmadan çalıştılar. DeepSeek'nin yakında bazı büyük hamleleri olacak

İşte olay: Daya Guo, 1 Şubat'ta Çin Yeni Yılı tatilinde kendisini en çok heyecanlandıran şeyin ne olduğunu açıklayan bir tweet attı: “sürekli büyüme” performans eğrisinin R1-Sıfır modelve hissetmek güçlü kuvvet takviyeli öğrenme (RL)!

Deepseek AI araştırmacısı Daya Guo, internet kullanıcılarıyla konuşuyor

Şimdi Daya Guo'nun internet kullanıcılarıyla olan konuşmasını yeniden üretmenize yardımcı olacağım:

Netizen A @PseudoProphet: "Büyük adam, performanstaki bu sürekli iyileştirmenin ne kadar süreceğini sormak istiyorum. Bu hala erken aşamalarda mı? DeepSeek'nin RL modelinin dil modellerindeki GPT-2 gibi yeni başladığını mı düşünüyorsunuz? Yoksa GPT-3.5 gibi daha olgun bir aşamaya mı ulaştı ve bir darboğaza girmek üzere mi?"

Bu, DeepSeek'nin RL teknolojisinin potansiyeliyle doğrudan ilişkili olan çok keskin bir soru! Daya Guo'nun cevabı da oldukça dürüst:

Daya Guo: "Hala çok erken bir aşamada olduğumuzu düşünüyorum ve RL alanında kat edilecek daha çok yol var. Ancak bu yıl önemli ilerlemeler göreceğimize inanıyorum."

Önemli noktaları vurgulayın! “Çok erken”, "keşfedilecek uzun bir yol", “bu yıl önemli ilerleme”! Bu anahtar kelimeler bilgi dolu. Bu, DeepSeek'nin RL alanında hala çok fazla iyileştirme alanına sahip olduğuna inandığı ve R1'in mevcut sonuçlarının buzdağının sadece görünen kısmı olabileceği anlamına geliyor, bu yüzden gelecek umut verici!

Hemen ardından başka bir netizen @kaush_trip (Cheeku Tripathi) modellik yeteneklerinin özüne inen daha profesyonel bir soru sordu:

Kullanıcı B @kaush_trip: "R1-Zero'nun performansına dayanarak, modelin gerçekten işe yarayıp yaramadığını nasıl değerlendiriyorsunuz? genelleme yeteneği, ya da sadece durum geçişlerini ve ödülleri ezberler?”

Bu soru çok yerinde! Sonuçta, birçok model çok güçlü görünüyor, ancak gerçekte bunlar sadece eğitim verilerinden 'ezbere öğrenme'dir ve farklı bir ortamda başarısız olacaklardır. DeepSeek R1 gerçekten de çizgiye uygun mu?

Daya Guo: “RL istemi tarafından kapsanmayan alanlar için genelleme yeteneğini değerlendirmek amacıyla bir kıyaslama kullanıyoruz. Şu anda genelleme yeteneğine sahip gibi görünüyor.”

"RL istemi tarafından kapsanmayan alanlar" ifadesi anahtardır! Bu, DeepSeek'nin eğitim verileriyle değerlendirmeyi "aldatmaması", ancak modelin yeni senaryolarla test edilmesi anlamına gelir hiç görmedi daha önce, modelin genelleme düzeyini gerçekten yansıtabilir. Daya Guo'nun "sahip gibi görünüyor" şeklindeki titiz ifadeyi kullanması da onu daha gerçekçi ve güvenilir hale getirir

Daha sonra, DeepSeek'nin büyük bir hayranı olan @teortaxesTex kimlikli bir internet kullanıcısı (yorumunda "DeepSeek balina amigo takımı" ifadeleri bile vardı), DeepSeek V3 teknik raporuyla başladı ve şu konuda bir soru sordu: model eğitim zamanı:

Kullanıcı C @teortaxesTex: "Eğer bir sır değilse: RL eğitimi bu sefer ne kadar sürdü? 10 Aralık gibi erken bir tarihte R1 veya en azından R1-Zero'ya sahipmişsiniz gibi geliyor, çünkü V3 teknik raporu V2.5 modelinin R1 bilgi damıtmasını kullandığını ve V2.5-1210 puanının mevcut modelle aynı olduğunu belirtiyor. Bu, o eğitimin bir devamı mı?"

Bu internet kullanıcısının inanılmaz gözlem güçleri var! Teknik rapordan çok sayıda ayrıntı çıkarabildi. Daya Guo ayrıca modelin yinelemeli sürecini sabırla açıkladı:

Daya Guo: “660B'nin R1-Zero ve R1 parametreleri yalnızca V3'ün yayınlanmasından sonra çalışmaya başladı ve eğitim yaklaşık 2-3 hafta sürdü. Daha önce bahsettiğimiz R1 modeli (örneğin V3 teknik raporunda olduğu gibi) aslında R1-Lite veya R1-Lite-Zero'dur.”

İşte bu kadar! Şu anda gördüğümüz R1-Zero ve R1 "yeni ve yükseltilmiş versiyonlar" ve önceki R1-Lite serisi küçük versiyonlardır. Görünüşe göre DeepSeek sahne arkasında birçok versiyonu sessizce yinelemiş ve yükseltmiş

Eğitim hızıyla ilgili olarak netizen @jiayi_pirate (Jiayi Pan) ve netizen B @kaush_trip bir "ruh sorgulaması" aktardılar:

Kullanıcı D @jiayi_pirate: "3 haftada 10.000 RL adımı, her gradyan yayılımı (grpo) adımı ~3 dakika sürüyor 🤔"

Kullanıcı B @kaush_trip: "Her bir gradyan yayılım (grpo) adımı yaklaşık 3 dakika sürüyorsa, bu saatte yaklaşık 5 adım, günde 120 adım demektir ki bu gerçekten çok yavaştır."

Bu gerçekten titiz bir hesaplama! Netizen'in hesaplamasına göre, DeepSeek R1'nin eğitim hızı gerçekten hızlı değil. Bu ayrıca böylesine yüksek performanslı bir RL modelinin eğitim maliyetinin ve zaman yatırımının çok büyük olduğunu gösteriyor. "Yavaş çalışma iyi çalışma üretir" AI modeli eğitimini tanımlamanın oldukça uygun bir yolu gibi görünüyor

Son olarak @davikrehalt (Andy Jiang) isimli bir internet kullanıcısı daha ileri düzey bir uygulama perspektifinden bir soru sordu:

Kullanıcı E @davikrehalt: "RL'yi kullanarak bunu yapmayı denediniz mi? Çevrenin resmi kanıtı, sadece soruları cevaplamak yerine? Açık kaynaklı bir modelin bu yıl IMO'da (Uluslararası Matematik Olimpiyatı) altın madalya kazanması harika olurdu! (Ve daha fazla umut!)”

Resmi kanıt! Bence altın madalya! Bu internet kullanıcısı oldukça hırslı! Ancak, AI'yı matematiksel kanıtın hardcore alanına uygulamak gerçekten de geleceğin trendi. Daya Guo'nun cevabı bir kez daha şaşırtıcı:

Daya Guo: “Ayrıca R1'i Lean gibi resmi kanıt ortamlarına uygulamaya çalışıyoruz. Yakında topluluğa daha iyi modeller sunmayı umuyoruz.”

Daya Guo'nun sözlerinden, bu alanda çoktan ilerleme sağladıkları ve gelecekte daha da etkileyici modeller piyasaya sürülebileceği anlaşılıyor!

Sonuç olarak

Daya Guo'nun yanıtından üç önemli sinyal çıkarılabilir:

Teknik konumlandırma: RL hala erken aşamalardadır ve performans iyileştirmeleri henüz sınırlarına ulaşmadan çok uzaktır;

Doğrulama mantığı: alanlar arası test için genelleme yeteneği, "hafıza spekülasyonunun" reddedilmesi

Uygulama sınırları: Dil modellerinden matematiksel kanıtlara kadar, RL yüksek düzeyli akıl yürütmeye doğru ilerliyor

Benzer Yazılar

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir