Bugün paylaşacağız DeepSeek R1Başlık: DeepSeek-R1: Güçlendirmeli Öğrenme Yoluyla Hukuk Yüksek Lisansında Muhakeme Yeteneğini Teşvik Etmek: Güçlendirmeli öğrenme yoluyla Hukuk Yüksek Lisansında muhakeme yeteneğini teşvik etmek.

Bu makale DeepSeek'nin birinci nesil akıl yürütme modellerini tanıtmaktadır. DeepSeek-R1-Zero ve DeepSeek-R1. DeepSeek-R1-Zero modeli şu şekilde eğitildi: İlk adım olarak denetlenen ince ayar (SFT) olmaksızın büyük ölçekli takviyeli öğrenme (RL), RL'nin potansiyelini ve üstün muhakeme yeteneklerini göstermektedir getirir. Takviyeli öğrenme yoluyla, DeepSeek-R1-Zero doğal olarak birçok güçlü ve ilginç akıl yürütme davranışıyla ortaya çıktıR1-Zero ile ilgili bazı sorunları (dilsel karışıklıklar, gelişmiş genelleme yeteneği) daha da iyileştirmek için, yayınladılar Çok aşamalı eğitimi ve takviyeli öğrenmeden önce soğuk başlatma veri ince ayarını birleştiren DeepSeek-R1. DeepSeek-R1 karşılaştırılabilir performans elde etti OpenAI-01-1217 ile muhakeme görevinde. Araştırma topluluğunu desteklemek için, açık kaynaklı DeepSeek-R1-Zero, DeepSeek-R1 ve Qwen ve Llama'ya dayanan DeepSeek-R1'den damıtılmış altı yoğun model (1.5B, 7B, 8B, 14B, 32B, 70B).

Yöntemin özellikleri aşağıdaki şekilde özetlenebilir:

  1. Güçlendirme öğrenimi doğrudan temel modele uygulanır. İlk adım olarak denetlenen ince ayara (SFT) güvenmeden.
  2. DeepSeek-R1 geliştirme süreci tanıtıldı; Modelin akıl yürütme ve akıl yürütmeme yeteneklerinin temelini oluşturmak için iki takviyeli öğrenme aşamasını ve iki denetlenen ince ayar aşamasını birleştirir.
  3. Büyük modellerin muhakeme kalıplarının küçük modellere aktarılmasıyla, küçük modellerin muhakeme görevlerindeki performansı iyileştirilir. damıtma teknikleri.

Genel bakış

Motivasyon

  • Günümüzdeki büyük dil modelleri (LLM'ler) çıkarım görevlerinde önemli ilerlemeler kaydetmiş olsa da hâlâ zorluklarla karşı karşıyadır.
  • Saflığın potansiyeli LLM'lerin muhakeme yeteneğini geliştirmede takviyeli öğrenme (RL) henüz tam olarak araştırılmamıştırözellikle de denetlenen verilere dayanmadan.
  • RL aracılığıyla eğitilen modeller, örneğin: DeepSeek-R1-Zero, okunabilirlik ve dil karıştırma konusunda sorunlar yaşıyor (örneğin, Çince ve İngilizceyi karışık konuşmak) ve kullanıcı dostu olma özelliğini geliştirmek için daha fazla iyileştirmeye ihtiyaç duyuyor.

Yöntemler

DeepSeek-R1-Sıfır: Temel model olarak DeepSeek-V3-Base'i kullanır ve GRPO (Grup Göreceli Politika Optimizasyonu) takviyeli öğrenme olarak çerçeve, modelin çıkarım performansını iyileştirmek için denetlenen veriler olmadan.

DeepSeek-R1:

  • Soğuk Başlatma: Az miktarda yüksek kaliteli uzun CoT (Düşünce Zinciri) verisi toplar ve ince ayar yapar DeepSeek-V3-Temel model takviyeli öğrenmenin ilk aktörü olarak.
  • Akıl Yürütme Odaklı Takviyeli Öğrenme: Aynısı DeepSeek-R1-Zero'nun uygulandığı takviyeli öğrenme eğitim süreci, modelin muhakeme yeteneklerinin geliştirilmesine odaklanılarak gerçekleştirilir kodlama, matematik, bilim ve mantıksal akıl yürütme gibi alanlarda. CoT'de meydana gelen dilsel karıştırma sorununu hafifletmek için dilsel tutarlılık ödülleri tanıtıldı.
  • Reddetme Örneklemesi ve Gözetimli İnce Ayar: Takviyeli öğrenmenin birleşik kontrol noktasını kullanır Gözetimli İnce Ayar (SFT) verilerini toplayın sonraki eğitim için.
  • Tüm Senaryolar için Güçlendirmeli Öğrenme: Öğrenmeyi iyileştirmeyi amaçlayan ikinci seviye bir güçlendirmeli öğrenme aşaması uygular. Modelin akıl yürütme yeteneğinin optimize edilmesi sırasında yararlılığı ve zararsızlığı.
  • Bilgi damıtımı: DeepSeek-R1 tarafından derlenen 800 bin örneği doğrudan kullanarak açık kaynaklı modeller Qwen ve Llama'yı ince ayarlıyor.

Ayrıntılı yöntem ve prosedürler:

DeepSeek-R1-Zero: Temel modeller için takviyeli öğrenme

  • Takviyeli öğrenme algoritması: Grup Göreceli Politika Optimizasyonu (GRPO) algoritmasını kullanır. gerektirmez eleştirmen model, grup puanlarına göre temel çizgiyi tahmin eder ve eğitim maliyetlerini azaltır.
  • Ödül modellemesi: Birini kullanır kural tabanlı ödül sistemi, içermek
  • doğruluk ödülü: Cevabın doğru olup olmadığını, örneğin sorunun nihai sonucunun doğruluğu gibi konuları değerlendirir. matematik problemi cevabı, kod problemleri için derleyiciden gelen geri bildirim.
  • Ödül formatı: Modeli teşvik eder düşünme sürecini şuraya yerleştirin: ve etiketler.

Eğitim şablonu: İçeren bir şablon ve etiketler tasarlanmıştır modeli önce düşünme sürecini, sonra da nihai cevabı çıktı olarak vermeye yönlendirin.

  • Kendi kendini evrimleştirme süreci: DeepSeek-R1-Zero gösterildi Eğitim sırasında kendi kendini evrimleştiren özellikler ve çoklu problem çözme yollarının yansıtılması ve keşfi gibi daha karmaşık muhakeme stratejilerini otonom olarak öğrenebildi.

DeepSeek-R1: Soğuk başlatma ile birleştirilmiş takviyeli öğrenme

  • Soğuk başlatma: DeepSeek-R1-Zero'yu çözmek için okunabilirlik sorunu, DeepSeek-R1 ilk önce az miktarda toplar yüksek kaliteli CoT verileri ve DeepSeek-V3-Base modelini ince ayarlar takviyeli öğrenme için ilk aktör olarak hizmet etmekSoğuk başlatma verileri özet etiketleri ve dostça olmayan yanıtlar içerir filtrelenir.
    • Yöntem: 1) Yüksek kaliteli Uzun COT verilerini seçin. 2) Etiketler ekleyin.
    • Avantajları: 1) Optimize edilmiş okunabilirlik (R1-Zero'nun çok dillilik sorununu veya markdown format sorununu çözün). 2) Dikkatlice seçilmiş, insan tarafından tercih edilen veriler R1-Zero'daki performansı iyileştirmeye devam edebilir.
    • Soru: Okunabilirlik sorununu neden çözmeliyiz? Bunu çözmeden daha iyisini yapmak mümkün değil mi (örneğin, çıktının uzunluğunu azaltmak ve daha verimli çıkarımlar yapmak)?
  • Mantık odaklı RL: Soğuk başlatma modeline dayalı olarak, aşağıdakine benzer bir takviyeli öğrenme süreci: DeepSeek-R1-Zero, kodlama, matematik, bilimsel ve mantıksal akıl yürütme gibi görevlerde modelin yeteneğini geliştirmeye odaklanarak uygulanırKarma diller sorununu çözmek için (çok dilli muhakeme), dil tutarlılığı ödülleri Tanıtılır.
    • Soru: Bilimsel ve mantıksal akıl yürütme görevleri ve veri kümeleri nasıl eğitilir?
  • Red Örneklemesi ve SFT: Çıkarım-yönlendirmeli takviyeli öğrenme birleştikten sonra, elde edilen kontrol noktası şu amaçlar için kullanılır: Yeni SFT verileri üretmek için reddetme örneklemesi kullanılır ve bu veriler DeepSeek-V3'ten gelen verilerle birleştirilerek modelin yazma, rol yapma ve genel görevlerdeki yetenekleri artırılır.
    • Amaç:
      • Bu aşama, çıkarım odaklı takviyeli öğrenme (RL) süreci birleşiyor.
      • Ana hedefimiz denetlenen ince ayar (SFT) verilerini topla sonraki eğitim turlarında kullanılmak üzere.
      • Sadece çıkarıma odaklanan ilk soğuk başlangıç verilerinin aksine, bu aşama şunları amaçlamaktadır: modelin yeteneklerini genişletmek Sadece çıkarım değil, yazma, rol yapma ve diğer genel amaçlı görevleri de kapsayacak şekilde.
    • Veri toplama – Çıkarımsal veriler:
      • Yöntem: Çıkarım odaklı RL fazından elde edilen kontrol noktalarını kullanarak reddetme örneklemesi yoluyla çıkarım yörüngeleri oluşturun.
      • Veri seti genişlemesi: Yalnızca kural tabanlı ödül verisi kullanan önceki RL fazının aksine, burada kural tabanlı olmayan ödül verisi tanıtılmaktadır. Bazı durumlarda, yanıtı belirlemek için üretken bir ödül modeli (DeepSeek-V3) kullanılır.
      • Veri filtreleme: Kalite ve okunabilirliği sağlamak için çıktı, aşağıdakileri kaldıracak şekilde filtrelenir:
        • karışık dilleri içeren düşünce zincirleri
        • uzun paragraflar
        • kod blokları
      • Örnekleme ve Seçim: Her bir istem için birden fazla yanıt oluşturuldu. Veri kümesi için yalnızca "doğru" yanıt tutuldu.
      • Veri kümesi boyutu: Yaklaşık olarak 600.000 çıkarımla ilgili eğitim örneği bu şekilde toplandı.
    • Veri toplama – çıkarımsal olmayan veriler:
      • Kapsam: Yazma, olgusal soru cevaplama (QA), öz farkındalık ve çeviri.
      • Makalede kullanımından bahsediliyor DeepSeek-V3'ün süreci ve DeepSeek-V3 SFT veri kümesinin bir kısmını yeniden kullanması bu çıkarım dışı görevleri ele almak için. Hakkında 200.000 çıkarımdan bağımsız örnek toplandı. (Not: Çıkarımsal olmayan verilerin toplanmasının ayrıntıları Bölüm 2.3.4'te daha ayrıntılı olarak açıklanmaktadır)
    • Toplanan verilerin kullanımı:
      • Toplanan akıl yürütme ve akıl yürütme dışı veriler (toplamda yaklaşık 800.000 örnek - 600.000 akıl yürütme örneği + 200.000 akıl yürütme dışı örnek) daha sonra şu amaçlar için kullanıldı: DeepSeek-V3-Base modelini iki dönem için ince ayar yapınBu hassas ayarlı model daha sonra Bölüm 2.3.4'te açıklanan son RL aşamasında kullanıldı.
    • Özet Bu adım çıkarım yeteneklerini kullanır RL aracılığıyla öğrenilen çeşitli ve yüksek kaliteli bir SFT veri seti oluşturmak için. Bu veri seti çıkarım yeteneklerini güçlendirir ve ayrıca genel yeteneklerini genişletir Son uyum ve iyileştirme aşamasında eğitim modeli.
  • Tüm Senaryolar İçin Güçlendirmeli Öğrenme: İnsan tercihlerini daha da uyumlu hale getirmek için, modelin yararlılığını ve zararsızlığını artırmak amacıyla ikinci bir güçlendirmeli öğrenme aşaması uygulanır.
    • Çıkarım verileri: örneğin matematik, kod, mantıksal çıkarım veya kural tabanlı yöntemlerle denetlenen.
    • Genel veriler: ödül modelleri hala karmaşık ve incelikli senaryolar için tercih bilgisi sağlamak için kullanılır. Çiftler halinde verilerle eğitilen modeller de tahmin edilir.
    • Faydası: Sadece nihai özet sonuçlarına odaklanın, böylece çıkarım sürecine müdahaleyi azaltın.
    • Zararsızlık: Herhangi bir riski azaltmak için tüm müdahaleyi denetleyin.

Model damıtma (Distilasyon):

  • Daha verimli bir küçük çıkarım modeli elde etmek için, makale DeepSeek-R1'in çıkarım yeteneğini Qwen ve Llama serilerinin açık kaynak modellerine damıtıyor. Damıtma süreci yalnızca denetlenen ince ayar (SFT) kullanır ve takviyeli öğrenme aşamasını kullanmaz.

Sonuç

DeepSeek-R1-Zero: Potansiyelini gösterir Saf takviyeli öğrenme, LLM çıkarım yeteneğini motive etmede ve güçlü performans elde etmede kullanılabilir denetlenen verilere dayanmadan.

  • Aha anı: Takviyeli öğrenmenin güzelliği (modelin aydınlanma anı, burada Yeniden değerlendirmeyi öğrenerek bir sorun için daha fazla düşünme zamanı ayırır (ilk yaklaşım)
  • Çıktı uzunluğu artmaya devam ediyor (düşünme süresi artmaya devam ediyor)
  • Doğruluk artmaya devam ediyor (doğruluğu hesaplamak için 16 yanıt örnekleniyor)
  • DeepSeek-R1: Soğuk başlatma verilerini ve yinelemeli takviyeli öğrenme ince ayarını birleştirerek model performansını daha da iyileştirir, Çeşitli görevlerde OpenAI-01-1217 ile karşılaştırılabilir bir seviyeye ulaşmak.
  • Bilgi damıtımı: Öğretmen modeli olarak DeepSeek-R1 kullanılarak 800K eğitim örneği oluşturuldu ve birkaç küçük, yoğun model ince ayarlandı. Sonuçlar, bunun damıtma yöntemi, çıkarım yeteneğini önemli ölçüde iyileştirebilir küçük modeller.

Sınırlama

  • Sınırlama 1: DeepSeek-R1'in genel yeteneğinin geliştirilmesi gerekiyor. DeepSeek-R1, fonksiyon çağrıları, çok turlu diyaloglar, karmaşık rol yapma ve JSON çıktısı gibi görevlerde hala DeepSeek-V3'ten daha düşüktür.
  • Sınırlama 2: Dil karıştırma sorunu. DeepSeek-R1, Çince ve İngilizce olmayan sorguları işlerken, örneğin İngilizce muhakeme yaparken ve İngilizce yanıt verirken dil karıştırma sorunuyla karşılaşabilir.
  • Sınırlama 3: Hızlı duyarlılık. DeepSeek-R1 anlık kelimelere karşı hassastır ve birkaç atışlık anlık uyarılar performansını düşürecektir.
  • Sınırlama 4: Yazılım mühendisliği görevlerine sınırlı uygulama. Uzun değerlendirme süresi nedeniyle, büyük ölçekli takviyeli öğrenme yazılım mühendisliği görevlerine tam olarak uygulanamamıştır ve DeepSeek-R1, yazılım mühendisliği ölçütlerinde DeepSeek-V3'e göre sınırlı bir gelişme göstermiştir.

Benzer Yazılar

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir