DeepSeek R1 makale yorumlama ve temel teknik noktalar

1 Arka Plan

Bahar Şenliği sırasında, DeepSeek R1 bir kez daha geniş yankı buldu, hatta daha önce yazdığımız DeepSeek V3 yorumlama yazısı da tekrar iletildi ve çokça tartışıldı.

DeepSeek R1 hakkında pek çok analiz ve yeniden üretim yapılmış olmasına rağmen, burada bunlara karşılık gelen bazı okuma notlarını derlemeye karar verdik.

DeepSeek-R1 serisinin özünü ortaya koyarak tasarım fikirlerinin daha sezgisel bir şekilde anlaşılmasını sağlamak için model yapımını ve temel teknik noktaları göstermek amacıyla üç temel şematik diyagram kullanacağız.

İlgili makale [2501.12948] DeepSeek-R1: Güçlendirme Öğrenimi yoluyla LLM'lerde Muhakeme Yeteneğini Teşvik Etme

ve buna karşılık gelen açık kaynak modeli DeepSeek-R1

2 Giriş

2.1 Ortak Akıl Yürütme algoritmaları

Aşağıdaki Şekil 2'de gösterildiği gibi, yazar dört yaygın akıl yürütme algoritmasını açıklıyor. Belirli ayrıntılarda farklılık gösterseler de, hepsi iki temel işlemi içerir:

Genişletme: Çözüm yolunu genişletmek için token üretin.
Toplama: Son cevabı elde etmek için her yolun sonuçlarını entegre edin. Genişletme aşamasında hesaplama kaynaklarını artırmak genellikle toplama aşamasındaki cevabın kalitesini iyileştirebilir.

Öz tutarlılık (SC). Şekil 2a'da gösterildiği gibi, SC'nin temel fikri, birden fazla farklı çıktı üretmektir (bu, örnekleme parametrelerini değiştirerek vb. elde edilebilir) ve ardından en yüksek kazanma oranına sahip yanıtı seçmek için tüm yanıtlara oy vermektir. Anahtar parametre, aday yanıt sayısıdır n.

Rebase algoritması: Aşağıdaki Şekil 2b'de gösterildiği gibi, Rebase de birden fazla çıktı üretir, ancak bunlar birden fazla adımda üretilir. Her adım Ödül modeli kullanılarak puanlanır ve en yüksek puana sahip sonuç üretmeye devam etmek için kullanılır. Son olarak, birden fazla dalı olan bir akıl yürütme ağacı üretilir. En yüksek puana sahip yanıt (N'nin En İyisi) toplama aşamasında seçilir.

Monte Carlo Ağacı Araması (MCTS): Aşağıdaki Şekil 2c'de gösterildiği gibi, MCTS, düğümleri kademeli olarak örnekleme yoluyla genişleten ve aday bir çözüm içeren bir yaprak düğüme ulaşana kadar bir çözüm ağacı oluşturan güçlü bir Akıl Yürütme algoritmasıdır. Her çözüm bir Ödül modeli veya simülasyonu aracılığıyla puanlanır ve puan, ödül değerlerini güncellemek için ata düğümlerine geri yayılır, böylece bir yineleme tamamlanır. Anahtar parametre de n'dir ve n'i artırmak, olası çözümlerin daha derin ve daha geniş bir şekilde keşfedilmesine olanak tanır.

İçselleştirilmiş bilişsel zincir (ICoT). Aşağıdaki Şekil 2d'de gösterildiği gibi, OpenAI o1 ve Qwen-QWQ gibi en son LLM'ler, açık bir akıl yürütme algoritmasına ihtiyaç duymadan eğitim sırasında akıl yürütme davranışını içselleştirebilir. Temel fikir, bir CoT dizisi oluşturmak, karmaşık sorunları birden fazla alt soruna ayırmak ve ardından bu yanıtları önceki çıktıları yansıtarak yinelemeli olarak optimize ederek sonunda bir çözüme ulaşmaktır.

2.2 Akıl yürütme hizalama yöntemleri

2.2.1 En İyi-N yöntemine genel bakış

Kısacası, Best-of-N, LLM çıkarımında yaygın olarak kullanılan, birden fazla aday yanıt üreterek ve en iyisini seçerek üretilen sonuçların yüksek kalitesini garantilemeyi amaçlayan bir hizalama yöntemidir. Üç ana süreçten oluşur:

Oluşturma süreci: Belirli bir X istemi için, En İyi-N yöntemi N IID yanıtı (Y₁, Y₂, …, Yₙ) oluşturur; burada N genellikle “toplu boyut” olarak adlandırılır.
Puanlama mekanizması: Üretilen her yanıt, karşılık gelen bir puan {s(Y₁), s(Y₂), …, s(Yₙ)} elde etmek için bir ödül modeli tarafından puanlanır.
En iyi yanıtın seçilmesi: Son olarak, üretilen tüm yanıtlar arasında en yüksek puana sahip yanıt çıktı olarak seçilir, yani Y_Best-of-N = argmax {s(Y₁), s(Y₂), …, s(Yₙ)}.

Bu yöntemin avantajları şunlardır:

Karmaşık ince ayar adımlarından etkili bir şekilde kaçınılabilir ve bu sayede önceden eğitilmiş veya talimatlarla ince ayarlanmış dil modellerinin dağıtımı kolaylaştırılabilir.
Uygulanması basit, anlaşılması kolay ve esasen hiperparametrelerden arındırılmış: ana hiperparametre, çıkarım sırasında dinamik olarak ayarlanabilen N'dir.
Nesil kalitesi açısından oldukça rekabetçidir ve hatta RLHF veya DPO gibi bazı karmaşık eğitim sonrası tekniklerle bile rekabet edebilir. Araştırmalar, Best-of-N yönteminin ödül ve KL sapması arasındaki denge eğrisinde iyi performans gösterdiğini, hatta diğer karmaşık hizalama stratejilerini geride bıraktığını göstermektedir.

Bu yöntemin dezavantajları şunlardır:

çıkarım, önemli hesaplama yüküne yol açabilen N dizileri üretmeyi gerektirir. Pratikte, N için makul bir değer 4 ila 128 arasındadır, ancak en gelişmiş eğitim sonrası yöntemlerle rekabet edebilmek için, 1000 ila 60000 gibi daha yüksek N değerleri gerekebilir ve bu da kabul edilemez hesaplama yüküne yol açabilir.

En iyi-N yöntemi, daha sonraki denetlenen ince ayar için genellikle yüksek kaliteli veri kümeleri oluşturmak amacıyla kullanılır ve LLaMA-2 ve LLaMA-3'ün hizalama sürecinde önemli bir rol oynamıştır.

2.2.2 OpenAI en iyi-N yöntemi

OpenAI, ilk olarak En İyi N örneklemesini önerdi [2009.01325] İnsan geri bildirimlerinden özetlemeyi öğrenmek . Özellikle, birden fazla modelden üretilen en iyi özeti seçerek özet modelinin performansını değerlendirmek ve optimize etmek için kullanılır. Bu yöntem, araştırmacıların farklı değerlendirme ölçütleri ile insan değerlendirici tercihleri arasındaki ilişkiyi daha iyi anlamalarına yardımcı olur ve model eğitimi ve optimizasyonuna rehberlik etmek için kullanılır.

OpenAI ayrıca takipte En İyi-N örneklemesini (reddetme örneklemesi) kullanır [2112.09332] WebGPT: İnsan geri bildirimiyle tarayıcı destekli soru-cevaplama. Özellikle, BC modeli veya RL modelinden sabit sayıda cevap (4, 16 veya 64) örneklenir ve en yüksek ödül modeli puanına sahip olan, rakip ödül modeli için bir optimizasyon yöntemi olarak seçilir. Bu yöntem ek eğitim gerektirmez, ancak çıkarım aşamasının elde edilmesi için hesaplama karmaşıklığını artırır.

2.2.3 Google BOND yöntemi

İçinde [2407.14622] BOND: LLM'leri En İyi-N Damıtma ile Uyumlu Hale Getirme, Google'dan yazarlar En İyi-N Damıtmayı (BOND) öneriyorÇıkarım sırasında hesaplama yükünü önemli ölçüde artırmadan Dağıtım Eşleştirme algoritması aracılığıyla En İyi-N örnekleme stratejisini simüle etmek için tasarlanmış yeni bir RLHF algoritması.

Yazar, özellikle, ilk önce En İyi-N örneklemesinin kesin analitik dağılımını türetir ve En İyi-N örneklemesinin olasılık fonksiyonunu verir:

İkinci olarak, yazarlar problemi bir dağılım eşleştirme problemi olarak ifade etmektedirler;

sonrasında yazarlar dağıtım eşleştirme hedefi olarak Jeffreys ıraksamasını kullanmayı öneriyorlar:

Son olarak, N'yi seçme sorununu çözmek için yazarlar, En İyi-N dağılımını yinelemeli olarak damıtarak stratejinin performansını iyileştiren yinelemeli BOND yöntemini önermektedir. Belirli adımlar şunları içerir:

Yardımcı Çapa stratejisi π(çapa)'yı başlatın.

En İyi-N π(çapa) değerini çıkarmak için BOND'u yinelemeli olarak yürütün ve her adımdan sonra π(çapa) değerini güncelleyin.

2.3 Süreç denetimi ve sonuç denetimi

Sonuç ve Süreç, Ödül modeli değerlendirmesinin iki yönünü ifade eder:

Sonuç Ödül Modeli: Model çıktısının nihai sonucunun doğru veya beklendiği gibi olup olmadığını değerlendirin.
Süreç Ödül Modeli: Modelin sonuç üretme sürecindeki akıl yürütme ve karar alma adımlarının makul ve etkili olup olmadığını değerlendirir.

Örneğin, OpenAI'nin Adım Adım Doğrulayalım | OpenAI ayrıca şunları da belirtiyor:

Süreç denetimi (Sonuç denetimli): Modelin Muhakeme sürecinin her adımı hakkında geri bildirim sağlamayı içerir. Süreç denetimli Ödül Modelleri (PRM), çözümün her adımının doğruluğunu tahmin etmek üzere eğitilmiştir.
Sonuç-denetimli: Sonuç-denetimli, yalnızca modelin muhakemesinin nihai sonucuna dayalı geri bildirim sağlar. Sonuç-denetimli ödül modelleri (ORM), çözümün nihai cevabı kullanılarak eğitilir ve doğruluk otomatik kontrol ile belirlenir.

2.4 Ödül Hilesi

RL'de ödül hilesi, bir ajanın ödül fonksiyonunun tasarımındaki bir kusuru, tasarımcının orijinal niyetini karşılamayan bir şekilde kümülatif ödülü maksimize etmek için kullandığı olguyu ifade eder. Bu davranış teknik olarak ödül fonksiyonunun optimizasyon hedefini karşılasa da, gerçek etki beklenen görev hedefinden sapar ve hatta olumsuz sonuçlara yol açabilir.

Anahtar nokta analizi:

Tanım ve tezahür:
1. Ajan, ödül fonksiyonunda bir kusur bulur ve sorunu gerçekten çözmek yerine "kısayollar" kullanarak yüksek bir ödül elde eder.
2. Örneğin, bir temizlik robotu odayı gerçekten temizlemek yerine, odanın temiz "görünmesini" sağlamak için ışıkları kapatır; bir oyun aracısı, seviye hedefini tamamlamadan tekrar tekrar puan kazanır; fren yapma sayısını azaltmak için yavaşlamamayı seçer ve bu da güvenlik tehlikesi oluşturur; yüksek puanları kandırmak için anahtar kelimelerle eşleşen anlamsız içerikler üretir.
Kök nedenler:
1. Eksik ödül fonksiyonu tasarımı: aşırı basitleştirme veya uç durumları kapsayamama.
2. Hedefler ve ödüller arasındaki uyumsuzluk: Ödül fonksiyonu gerçek hedefi tam olarak yansıtmaz ve bu da aracının "yanlış" hedef için optimizasyon yapmasına neden olur.
Çözümler:
1. Ödül tasarımını iyileştirin: Çok boyutlu ödüller (örneğin güvenlik, verimlilik, vb.) sunun veya ödül işlevini dinamik olarak ayarlayın.
2. Karşıt doğrulama: Ek mekanizmalar aracılığıyla ajanın “hile” yapıp yapmadığını tespit edin.
3. Manuel müdahale ve kısıtlamalar: Davranışsal sınırlar belirleyin (örn. güvenlik katmanı) veya manuel geri bildirim (örn. RLHF) sağlayın.
4. Ters takviyeli öğrenme (IRL): Uzman gösterimlerinden daha gerçekçi bir ödül fonksiyonu öğrenin.
5. Hiyerarşik takviyeli öğrenme: Yerel optimizasyon riskini azaltmak için görevi alt hedeflere ayırın.
Aşırı uyumla ilişki:
1. Her ikisi de eğitim ölçümleri ile gerçek dünya performansı arasında bir kopukluk sergiliyor, ancak Ödül Hilesi, modelin genelleme yeteneğinden çok ödül fonksiyonunun tasarım kusurlarına daha fazla vurgu yapıyor.
Özet:
1. Ödül Hackleme, RL'de hedef uyumunun zorluğunu ortaya koyar. Bu sorunu çözmek, daha sağlam ödül mekanizmaları tasarlama, dış kısıtlamalar getirme ve aracının davranışının hem verimli hem de tasarım amacına uygun olmasını sağlamak için insanın önceden sahip olduğu bilgileri dahil etme kombinasyonunu gerektirir.

3 DeepSeek-R1-Sıfır ve DeepSeek-R1

3.1 Genel Bakış

Önceki araştırmalar, model performansını iyileştirmek için büyük miktarda denetlenen veriye büyük ölçüde güvenmiştir. Bu çalışma, soğuk başlatma olarak SFT olmasa bile, büyük ölçekli RL'nin modelin muhakeme yeteneğini önemli ölçüde artırabileceğini göstermektedir. Ek olarak, az miktarda soğuk başlatma verisinin eklenmesi performansı daha da iyileştirebilir. DeepSeek-R1 ile ilgili modeller şunlardır:

DeepSeek-R1-Zero: Bu model, herhangi bir SFT verisi olmaksızın RL'yi doğrudan Temel modele uygular.
DeepSeek-R1: Bu model, binlerce uzun CoT örneğiyle ince ayarlanmış bir kontrol noktasından başlayarak RL'yi uygular.
DeepSeek-R1-Distill-xx: DeepSeek-R1'in Muhakeme yeteneğini küçük bir Yoğun modele damıtır.

3.2 DeepSeek-R1-Sıfır

Aşağıdaki şekil DeepSeek-R1-Zero modelinin eğitimindeki önemli noktaları göstermektedir:

PS: Makalenin DeepSeek-R1-Zero'nun RL sürecinde kullanılan veriler hakkında fazla bilgi sağlamadığı belirtilmelidir. Ancak, özellikle spesifik olmasa da, sonraki R1 eğitiminde veri oluşturma süreci ve niceliği hakkında bazı açıklamalar bulunmaktadır.

3.2.1 RL algoritması

RL'nin eğitim maliyetini azaltmak için yazarlar DeepSeek'nin kendi GRPO (Grup Göreceli Politika Optimizasyonu) yöntemini kullanır, [2402.03300] DeepSeekMath: Açık Dil Modellerinde Matematiksel Akıl Yürütmenin Sınırlarını Zorlamak. Bu yöntem, genellikle Politika modeliyle boyut olarak karşılaştırılabilir olan Eleştirmen modelini terk eder ve bunun yerine bir grup puanı kullanarak temel çizgiyi tahmin eder. İlgili açıklama aşağıdaki şekilde gösterilmiştir (Twitter'dan alınan resim):

3.2.2 Ödül modellemesi

Ödüller eğitim sinyallerinin kaynağıdır ve RL'nin optimizasyon yönünü belirler. DeepSeek-R1-Zero'yu eğitmek için yazarlar, esas olarak iki tür ödülden oluşan kural tabanlı bir ödül sistemi kullandılar:

Doğruluk ödülü: Yanıtın doğru olup olmadığını değerlendirin. Örneğin:
- Deterministik sonuçlara sahip matematiksel problemlerde, modelin doğruluğunun kurallarla güvenilir bir şekilde doğrulanabilmesi için, nihai cevabı belirli bir formatta (örneğin bir kutunun içinde) sağlaması gerekir.
- Benzer şekilde LeetCode problemleri için önceden tanımlanmış test durumlarına dayalı bir derleyici kullanılarak geri bildirim üretilebilir.
Biçim ödülü: Biçim ödülü, modelin düşünce sürecini "" arasına yerleştirmesini zorlamak için de kullanılır. " Ve " ” etiketleri.

Yazar, DeepSeek-R1-Zero'nun geliştirilmesi sırasında Sonuç Sinirsel Ödül Modeli'ni veya Süreç Sinirsel Ödül Modeli'ni kullanmamıştır çünkü yazar, Sinirsel Ödül Modeli'nin büyük ölçekli RL süreçlerinde ödül sahteciliği (Ödül Hackleme) ile karşılaşabileceğini bulmuştur; ayrıca, Ödül Modeli'nin yeniden eğitilmesi yalnızca ek eğitim kaynakları gerektirmekle kalmaz, aynı zamanda tüm eğitim sürecini karmaşıklaştırır.

3.2.3 Eğitim Şablonu

Yazarlar, DeepSeek-R1-Zero'yu eğitmek için öncelikle Base modelinin belirlenen talimatları izlemesini sağlayacak basit bir Şablon tasarladılar. Aşağıdaki Tablo 1'de gösterildiği gibi, Şablon DeepSeek-R1-Zero'nun bir çıkarım süreci oluşturmasını ve ardından nihai cevabı vermesini gerektirir.

Yazar, herhangi bir içerik yanlılığı oluşmasını önlemek için (örneğin, yansıtıcı akıl yürütmeyi zorlamak veya belirli problem çözme stratejilerini teşvik etmek) kısıtlamaları kasıtlı olarak bu yapısal çerçeveyle sınırladı ve böylece RL süreci boyunca modelin doğal evriminin doğru bir şekilde gözlemlenebilmesini sağladı.

3.2.4 Sonuç

SFT verisi olmadan sağlam muhakeme yetenekleri: RL'yi doğrudan Temel modelden başlatarak, modelin evrim yörüngesi SFT müdahalesi olmadan yakından izlenebilir. Aşağıdaki Şekil 3'te gösterildiği gibi, DeepSeek-R1-Zero'nun düşünme süresi eğitim süreci boyunca iyileşmeye devam etti (büyüme uzunluğu kademeli olarak uzadı). Bu iyileşme dışsal ayarlamalardan kaynaklanmadı, ancak modelin içsel gelişiminin doğal bir sonucuydu. DeepSeek-R1-Zero, genişletilmiş test süresi hesaplamalarını kullanarak yansıtma yeteneği gibi giderek daha karmaşık çıkarım görevlerini çözme yeteneğini doğal olarak kazandı.

DeepSeek-R1-Zero eğitim sırasında bir "aha anı" yaşadı. Aşağıdaki Tablo 3'te gösterildiği gibi, bu an modelin orta sürüm aşamasında gerçekleşti. Bu aşamada, DeepSeek-R1-Zero ilk yaklaşımını yeniden değerlendirerek sorunlara daha fazla düşünme zamanı ayırmayı öğrendi.

Çoğunluk oylaması: DeepSeek-R1-Zero'nun performansı çoğunluk oylaması uygulanarak daha da iyileştirilebilir. Örneğin, aşağıdaki Tablo 2'de gösterildiği gibi, AIME kıyaslama testinde çoğunluk oylaması kullanıldıktan sonra performansı 71.0%'den 86.7%'ye sıçrayarak OpenAI-o1-0912'yi geride bırakıyor.

Zayıflıklar: DeepSeek-R1-Zero güçlü Muhakeme yetenekleri gösterirken ve otonom olarak beklenmedik ve güçlü Muhakeme davranışları geliştirirken, hâlâ zayıf okunabilirlik ve dil karıştırma gibi zorluklarla karşı karşıyadır.

3.3 DeepSeek-R1

Akıl Yürütme sürecini daha okunabilir hale getirmek ve açık toplulukla paylaşmak için yazarlar, RL için insan dostu soğuk başlatma verilerini kullanan DeepSeek-R1 yöntemini daha fazla araştırıyor. DeepSeek-R1-Zero'dan esinlenerek, iki doğal soru geliyor:

Soğuk başlangıç olarak az miktarda yüksek kaliteli verinin eklenmesiyle Muhakeme performansı daha da iyileştirilebilir veya yakınsama süreci hızlandırılabilir mi?
Sadece net ve tutarlı CoT'lar üretmekle kalmayıp aynı zamanda güçlü genelleme yetenekleri de gösteren, kullanıcı dostu bir modeli nasıl eğitebiliriz?

Bu sorulara yanıt olarak, DeepSeek-R1 için bir eğitim süreci tasarladık. Süreç, aşağıda açıklandığı gibi birden fazla aşamadan oluşur:

Aşağıdaki şekilde görüldüğü gibi Aşama-1, DeepSeek-R1'in ara durumunu SFT + RL aracılığıyla eğitir:

Aşağıdaki şekilde Aşama-2, 3 ve 4 gösterilmektedir:

Aşama-2: Sol üstte, 200 bin Muhakeme dışı veri ve 600 bin Muhakeme verisi oluşturun.
Aşama-3: Sağ üstte, SFT + RL treni DeepSeek-R1.
Aşama-4: Alt rakam, Damıt DeepSeek-R1-Damıt-xx.

3.3.1 Soğuk Başlatma (Aşama-1)

DeepSeek-R1-Zero'dan farklı olarak, RL eğitiminin başlangıcındaki Temel modelin kararsız Soğuk Başlangıç aşamasını önlemek için yazarlar, DeepSeek-R1 için küçük miktarda Uzun CoT verisi oluşturup topladılar ve modeli ilk RL Aktörü olarak hassas bir şekilde ayarladılar. Bu verileri toplamak için yazarlar çeşitli yöntemleri araştırdılar:

Uzun CoT örnekleriyle az çekimli istemleri kullanma
Modeli doğrudan yansıtma ve doğrulama ile ayrıntılı yanıtlar üretmeye yönlendirmek
DeepSeek-R1-Zero çıktısını insan tarafından okunabilir bir biçimde toplama
Sonuçların manuel etiketleme ile son işlem yoluyla iyileştirilmesi

Yazarlar, RL için başlangıç noktası olarak DeepSeek-V3-Base'i ince ayarlamak için kullanılan toplam binlerce Soğuk Başlatma verisi topladı. DeepSeek-R1-Zero ile karşılaştırıldığında, Soğuk Başlatma verilerinin avantajları şunlardır:

Okunabilirlik: DeepSeek-R1-Zero Yanıtları birden fazla dilde karıştırılabilir veya kullanıcı yanıtlarını vurgulamak için kullanılan Markdown biçimlendirmesinden yoksun olabilir. Buna karşılık, DeepSeek-R1 için Soğuk Başlatma verileri oluştururken, yazar her Yanıtın sonunda bir özet içeren ve okunamayan Yanıtları filtreleyen okunabilir bir biçim tasarladı. Burada, çıktı biçimi |special_token| olarak tanımlanır |özel_jeton|
Burada reasoning_process Sorgu'nun zincirleme düşüncesidir ve summary muhakeme sonuçlarını özetlemek için kullanılır.
Potansiyel: Yazarlar, insan-öncesi Soğuk Başlatma veri desenlerinin bir kombinasyonunu dikkatlice tasarlayarak, performansının DeepSeek-R1-Zero'dan daha üstün olduğunu gözlemlediler.

3.3.2 Muhakeme odaklı RL (Aşama-1)

DeepSeek-V3-Base'i Soğuk Başlatma verilerinde ince ayarladıktan sonra, DeepSeek-R1-Zero ile aynı büyük ölçekli RL eğitim süreci kullanılır. Bu aşama, özellikle programlama, matematik, bilim ve mantıksal akıl yürütme problemlerinde net çözümlerle, Mantık yoğun görevlerde modelin yeteneğini geliştirmeyi amaçlar.

Eğitim sırasında yazarlar, özellikle RL uyarısı birden fazla dili içerdiğinde, CoT'nin sıklıkla dil karıştırmasından muzdarip olduğunu gözlemlediler. Dil karıştırma sorununu hafifletmek için yazarlar, hedef dildeki CoT'deki kelime oranına göre hesaplanan bir dil tutarlılığı ödülünü RL eğitimine dahil ettiler. Ablasyon deneyleri, bu hizalama yönteminin model performansında hafif bir düşüşe yol açtığını gösterse de, bu ödül mekanizması insan tercihleriyle tutarlıdır ve okunabilirliği artırır. Son olarak, yazarlar, son ödülü oluşturmak için doğrudan Akıl Yürütme görevinin doğruluğunu dil tutarlılığı ödülüne ekler ve Akıl Yürütme görevine yakınsayana kadar ince ayarlı model üzerinde RL eğitimini uygularlar.

3.3.3 800.000 seçili verinin oluşturulması (Aşama-2)

RL for Reasoning birleşirken, SFT verileri bir sonraki eğitim turu için ortaya çıkan kontrol noktası kullanılarak toplanır. Esas olarak Reasoning'e odaklanan ilk Cold Start verilerinden farklı olarak, bu aşama modelin yazma, rol yapma ve diğer genel amaçlı görevlerdeki yeteneğini geliştirmek için diğer alanlardan veri içerir. Özellikle, veriler üretilir ve model aşağıdaki gibi ince ayarlanır:

Muhakeme verileri: Muhakeme istemleri seçilir ve Muhakeme yörüngeleri, yukarıda belirtilen RL eğitimli Kontrol Noktasından (DeepSeek-R1 Aşama 1) reddetme örneklemesi yapılarak oluşturulur. Önceki aşamada, yalnızca kural tabanlı ödüller kullanılarak değerlendirilebilen veriler dahil edildi. Ancak, bu aşamada, veri kümesi daha fazla veri eklenerek genişletildi, bunlardan bazıları bir ödül modeli kullanılarak oluşturuldu ve gerçek yanıtlar, model tahminlerinin DeepSeek-V3'e (Yargıç olarak DeepSeek V3) beslenmesiyle değerlendirildi. Ayrıca, model çıktısı bazen kafa karıştırıcı ve okunması zor olduğundan, karışık dilli düşünce zincirleri, uzun paragraflar ve kod blokları filtrelendi. Her istem için, birden fazla yanıt örneklendi ve yalnızca doğru olanlar (N'nin En İyisi) tutuldu. Toplamda, yaklaşık 600.000 muhakemeyle ilgili eğitim örneği toplandı.
Mantık Dışı Veriler: Yazma, olgusal sorular, öz farkındalık ve çeviri gibi veriler için DeepSeek-V3 süreci kullanıldı ve DeepSeek-V3'ün SFT veri kümelerinden bazıları yeniden kullanıldı. Bazı Mantık Dışı Görevler için, soruyu yanıtlamadan önce olası CoT'leri oluşturmak üzere DeepSeek-V3 çağrılır. Ancak, "Merhaba" gibi basit sorgular için Yanıt'ta herhangi bir düşünce zinciri sağlanmaz. Sonunda, toplamda yaklaşık 200.000 Mantık Dışı Eğitim örneği toplandı.

3.3.4 Tüm senaryolar için SFT ve RL (Aşama-3)

Yukarıda belirtilen iki veri seti (Muhakeme ve Muhakeme Olmayan) kullanılarak DeepSeek-V3-Base üzerinde toplamda yaklaşık 800.000 seçilmiş örnek üzerinde iki tur ince ayar gerçekleştirildi.

Yazarlar, modeli insan tercihleriyle daha da uyumlu hale getirmek için, modelin yararlılığını ve zararsızlığını geliştirmeyi ve aynı zamanda Muhakeme yeteneklerini iyileştirmeyi amaçlayan ikinci bir RL aşaması uyguladılar. Özellikle, model ödül sinyalleri ve çeşitli istem dağıtımlarının bir kombinasyonu ile eğitildi.

Muhakeme verileri için DeepSeek-R1-Zero'da açıklanan metodoloji izlenir ve modelin matematik, programlama ve mantıksal muhakeme alanlarındaki öğrenmesini yönlendirmek için kural tabanlı bir ödül mekanizması kullanılır.
Genel veriler için, Ödül modeli karmaşık ve incelikli durumlarda insan tercihlerini yakalamak için kullanılır. DeepSeek-V3 sürecine dayalı olarak benzer bir tercih çiftleri ve eğitim istemi dağıtımları stratejisi kullanılır.
Yararlılık açısından, yalnızca son özet dikkate alınır ve değerlendirmenin, Yanıtın kullanıcı açısından pratikliği ve alakalılığına odaklanması ve altta yatan Muhakeme sürecine müdahalenin en aza indirilmesi sağlanır.
Zararsızlık açısından, modelin tüm Yanıtı, Muhakeme süreci ve özeti de dahil olmak üzere kapsamlı bir şekilde değerlendirilir ve üretim süreci sırasında ortaya çıkabilecek olası riskler, önyargılar veya zararlı içerikler belirlenir ve ortadan kaldırılır.
Sonuç olarak, ödül sinyallerinin entegre edilmesi ve veri dağıtımının çeşitlendirilmesiyle, hem faydayı hem de zararsızlığı önceliklendiren, aynı zamanda Muhakemede üstünlük sağlayan bir model eğitilebilir.

3.3.5 Damıtma (Aşama-4)

DeepSeek-R1'in muhakeme yeteneğiyle daha verimli bir küçük model donatmak için yazarlar, DeepSeek-R1-Aşama-1'de seçilen 800.000 örneği kullanarak açık kaynaklı modeller Qwen ve LLaMA'yı doğrudan ince ayarladılar. Sonuçlar, bu doğrudan damıtma yönteminin küçük modellerin muhakeme yeteneğini önemli ölçüde iyileştirdiğini göstermektedir. Yazarlar tarafından kullanılan temel modeller arasında Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, Qwen2.5-14B, Qwen2.5-32B, Llama-3.1-8B ve Llama-3.3-70B-Instruct yer almaktadır. Llama-3.3, muhakeme yeteneği Llama-3.1'den biraz daha iyi olduğu için seçilmiştir.

Damıtma modeli için yazar yalnızca SFT'yi kullanır ve RL aşamasını dahil etmez. RL'nin tanıtılması modelin performansını büyük ölçüde iyileştirebilse de, yazarın buradaki temel amacı damıtma teknolojisinin etkinliğini göstermektir ve RL aşamasının keşfi sonraki araştırmalara bırakılmıştır.

PS: Ayrıca, yukarıdaki verileri üretmek ve damıtma için kullanılan 800.000 veriyi yeniden oluşturmak için nihai DeepSeek-R1'i kullanmak aslında mümkündür ve damıtılmış model daha iyi bir etkiye sahip olabilir; ancak bunun bedeli, verilerin yeniden oluşturulması gerektiğidir.

DeepSeek R1 makale yorumlama ve temel teknik noktalar

1 Arka Plan