Özet
Bu makalede DeepSeek'nin birinci nesil muhakeme modelleri tanıtılmaktadır: DeepSeek-R1-Zero ve DeepSeek-R1. Denetimli ince ayar (SFT) olmadan büyük ölçekli takviyeli öğrenme (RL) yoluyla eğitilen DeepSeek-R1-Zero, dikkate değer muhakeme yetenekleri sergilemektedir. RL sayesinde doğal olarak güçlü muhakeme davranışları geliştirir. Ancak, zayıf okunabilirlik ve dil karışımı gibi zorluklarla karşı karşıyadır. Bu sorunları ele almak ve muhakeme performansını artırmak için, RL'den önce çok aşamalı eğitim ve soğuk başlangıç verilerini içeren DeepSeek-R1 geliştirilmiştir. DeepSeek-R1, muhakeme görevlerinde OpenAI-o1-1217 ile karşılaştırılabilir bir performans elde etmiştir. Araştırmaları desteklemek için DeepSeek, her iki modeli ve Qwen ve Llama'ya dayalı DeepSeek-R1'den damıtılmış altı yoğun modeli (1.5B, 7B, 8B, 14B, 32B, 70B) açık kaynak olarak sunmaktadır.
Önemli Katkılar
Eğitim Sonrası: Büyük Ölçekli Takviye Öğrenimi
- RL'yi SFT olmadan doğrudan temel modele başarıyla uyguladı
- DeepSeek-R1-Zero geliştirildi, kendi kendini doğrulama ve yansıtma gibi yetenekler sergilendi
- Muhakeme yeteneklerinin tamamen RL yoluyla teşvik edilebileceğini doğrulayan ilk açık araştırma
- İki RL aşaması ve iki SFT aşaması ile DeepSeek-R1 için tanıtılan boru hattı
Damıtma: Daha Küçük Modellerin Güçlendirilmesi
- Daha büyük modellerden akıl yürütme modellerinin daha küçük modellere etkili bir şekilde damıtılabileceğini göstermiştir
- Araştırma topluluğuna fayda sağlamak için DeepSeek-R1 ve API'si açık kaynaklı
- Olağanüstü kıyaslama performansı gösteren birkaç yoğun modele ince ayar yapıldı
- Damıtılmış modeller önceki açık kaynaklı modellerden önemli ölçüde daha iyi performans gösteriyor
Değerlendirme Sonuçları
Muhakeme Görevleri
- DeepSeek-R1, AIME 2024'te 79,8% Pass@1 değerine ulaşarak OpenAI-o1-1217'yi geride bıraktı
- 97.3% MATH-500 puanı, OpenAI-o1-1217 ile eşit performans gösteriyor
- Codeforces'ta 2,029 Elo derecelendirmesi ile kod yarışması görevlerinde uzman düzeyinde performans
Bilgi Görevleri
- MMLU (90.8%), MMLU-Pro (84.0%) ve GPQA Diamond (71.5%) üzerinde olağanüstü sonuçlar
- Eğitim görevlerinde diğer kapalı kaynak modellerini geride bırakır
- SimpleQA gibi gerçeklere dayalı kıyaslamalarda güçlü performans
Genel Yetenekler
- Yaratıcı yazma, soru yanıtlama, düzenleme ve özetleme konularında başarılıdır
- AlpacaEval 2.0'da 87,6% ve ArenaHard'da 92,3% kazanma oranı
- Uzun bağlamlı anlama görevlerinde güçlü performans
Gelecek Çalışmalar
Ekip şu konulara odaklanmayı planlıyor:
- Fonksiyon çağırma ve karmaşık rol yapma gibi alanlarda genel yeteneklerin geliştirilmesi
- Dil karışımı sorunlarının ele alınması
- Yönlendirme mühendisliğinin geliştirilmesi
- Yazılım mühendisliği görevlerinde performansın artırılması
Sonuç
DeepSeek-R1, takviyeli öğrenme yoluyla YZ muhakeme yeteneklerinde önemli bir ilerlemeyi temsil etmektedir. Hem ana modelin hem de damıtılmış versiyonlarının başarısı, daha yetenekli YZ sistemleri geliştirmek için bu yaklaşımın potansiyelini göstermektedir. Bu modellerin açık kaynak olarak yayınlanması, bu alanda daha fazla araştırma ve geliştirme yapılmasına katkıda bulunacaktır.