DeepSeek 1'in ardındaki sır | DeepSeekMath ve GRPO detayları

Bugün DeepSeek'den DeepSeekMath: Açık Dil Modellerinde Matematiksel Muhakemenin Sınırlarını Zorlamak başlıklı bir makaleyi paylaşmak istiyorum.

Bu makale önceden eğitilmiş DeepSeekMath 7B'yi tanıtmaktadır DeepSeek-Coder-Base-v1.5 7B'ye dayalı 120 milyar matematikle ilgili token, doğal dil ve kod verisinden oluşan bir koleksiyon.

Model, harici araç kitlerine ve oylama tekniklerine dayanmadan rekabetçi seviyedeki MATH kıyaslamalarında 51.7% gibi şaşırtıcı bir puan elde ederek, Gemini-Ultra ve GPT-4'ün performans seviyesine yaklaştı.

DeepSeekMath 7B'nin matematiksel muhakeme yeteneği iki temel faktöre atfedilir: Birincisi, dikkatlice tasarlanmış veri seçme hattı, yüksek kaliteli matematikle ilgili veriler, kamuya açık web verilerinden yinelemeli olarak çıkarılır.

İkinci olarak, grup göreli politika optimizasyonu (GRPO) matematiksel muhakeme yeteneğini artırırken PPO'nun bellek kullanımını optimize edebilen bir yakınsal politika optimizasyonu (PPO) çeşidi olan tanıtıldı.

Yöntemin özellikleri aşağıdaki şekilde özetlenebilir:Yüksek kaliteli matematiksel ön eğitim gövdesi inşa edildi ve Common Crawl'dan yüksek kaliteli matematiksel verileri çıkarmak için dikkatlice tasarlanmış bir veri hattı kullanıldı.
GRPO algoritması 3) Eğitim için gereken kaynakları azaltan ve modelin matematiksel muhakeme yeteneğini geliştiren bir öneri sunuldu. Son teknoloji performans oldu birden fazla matematiksel muhakeme kıyaslama testinde elde edildi.

Genel bakış

Başlık: DeepSeekMath: Açık Dil Modellerinde Matematiksel Akıl Yürütmenin Sınırlarını Zorlamak

Bağlantı adresi: buraya tıklayın

Yazarlar: Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Xiao Bi, Haowei Zhang, Mingchuan Zhang, YK Li, Y. Wu, Daya Guo

Kod: buraya tıklayın

Motivasyon

Matematiksel akıl yürütme, matematiğin karmaşıklığı ve yapılandırılmış doğası nedeniyle dil modelleri için önemli bir zorluk teşkil eder. GPT-4 ve Gemini-Ultra gibi en gelişmiş modeller güçlüdür ancak kamuya açık değildir. Bu nedenle, performansında önemli iyileştirme alanı vardır açık kaynak modeller.

Karmaşıklık ve yapı: Matematiksel akıl yürütme, matematiğin karmaşıklığı ve yapılandırılmış yapısı nedeniyle dil modelleri için önemli bir zorluk oluşturmaktadır.

Kamusal verilerin potansiyeli: Kamuya açık web verileri henüz çıkarılmamış ve kullanılmamış zengin matematiksel bilgiler içerebilir.

Yöntemler

Veri toplama: Common Crawl'dan yinelemeli bir veri hattı aracılığıyla yüksek kaliteli matematikle ilgili web verileri toplanarak 120 milyar tokendan oluşan bir DeepSeekMath korpusu oluşturuldu.

Model eğitimi: Oluşturulan gövde, DeepSeek-Coder-Base-v1.5 7B üzerinde ön eğitim için kullanıldı ve matematiksel talimat ince ayarı ve grup göreli politika optimizasyonu (GRPO) algoritması uygulandı.

GRPO algoritması: GRPO, PPO'daki Kritik modelini kaldıran ve temel değeri grup puanından tahmin eden, böylece eğitim kaynaklarını önemli ölçüde azaltan gelişmiş bir takviyeli öğrenme algoritmasıdır.

Ayrıntılı yöntem ve prosedürler:

Veri toplama ve işleme:

DeepSeekMath Corpus'u oluşturun: fastText tabanlı bir sınıflandırıcı kullanarak, 120 milyar matematikle ilgili token'ı ayıkla Common Crawl'dan büyük ölçekli, yüksek kaliteli önceden eğitilmiş bir korpus olan DeepSeekMath Korpusu'nu oluşturmak için.

Tekrarlı veri filtreleme: Tekrarlı bir strateji kullanılır, başlangıç sınıflandırıcısını eğitmek için tohum verisi olarak OpenWebMath'i kullanmak ve ardından bu sınıflandırıcıyı daha olumlu örnekler çıkarmak için kullanmak Sınıflandırıcı performansını sürekli olarak iyileştirmek için manuel olarak eklenen Ortak Tarama'dan.

Çok dilli özellikler: DeepSeekMath Corpus şunları içerir: çok dilli veriBu da modelin Çince matematik ölçütlerindeki performansını artırıyor.

Kirlilik giderme işlemi: De-Kirlilik işleme, test kıyaslamasıyla çakışmayı önlemek için eğitim verilerinde gerçekleştirilir.

Ön eğitim:

Kod tabanlı model başlatma: Başlatma kullanılarak DeepSeek-Kodlayıcı-Taban-v1.5 7B modelin genel bir LLM'den başlatılan bir modelden daha etkili olduğu bulundu.

Ön eğitim veri kompozisyonu: 56% DeepSeekMath Corpus, 4% AlgebraicStack, 10% arXiv, 20% Github kodu, 10% Common Crawl doğal dil verileri.

Ön eğitim parametreleri: 4.2e-4 öğrenme oranına, 10M token toplu boyutuna ve 500B token eğitimine sahip AdamW optimizer kullanılmıştır.

Talimat ince ayarı:

Talimat ince ayarı veri kümesini oluşturun: Aşağıdakileri içeren matematiksel talimat ince ayar veri kümesini oluşturun: 776 bin örnekCoT, PoT ve adımları çözmek için araçla bütünleşik çıkarım biçimleri de dahil olmak üzere çeşitli matematik alanlarını ve zorluk seviyelerini kapsayan.

Eğitim parametreleri: Grup büyüklüğü 256, öğrenme hızı 5e-5, 500 adım için eğitim.

Güçlendirmeli öğrenme – Grup Göreli Politika Optimizasyonu (GRPO):

GRPO algoritmasını önerin: Bir öneride bulunun Grup bazında puanları kullanarak temel çizgiyi tahmin ederek Kritik modeline olan ihtiyacı ortadan kaldıran ve böylece eğitim kaynaklarını azaltan PPO değişken algoritması GRPO.

Amaç fonksiyonu: GRPO, hedef fonksiyonunu maksimize ederek politika modelini optimize eder. grup içi çıktıların göreceli avantajını hesaba katar ve KL farklılığını doğrudan bir düzenleme terimi olarak ekler.

Avantaj hesaplaması: GRPO avantajı şu şekilde hesaplar: Grup içi göreceli ödüller, grup içi karşılaştırmalardan kaçınma ve ödül modelinin karşılaştırmalı doğasına daha iyi uyum sağlama.

Hem çıktı hem de süreç izlemeyi destekler: GRPO hem sonuç hem de süreç izlemeyi destekleyebilir ve politikayı daha etkili bir şekilde izleyebilir Her çıkarım adımının sonunda ödüller sağlanarak.

Tekrarlı RL: Birini kullanır yinelemeli RL stratejisi Politika modelinin örnekleme sonuçlarına dayalı yeni bir eğitim kümesi oluşturmak, eski ödül modelini sürekli olarak eğitmek ve politika modelini güncellemek için yeni ödül modelini kullanmak.

Eğitim verileri: SFT verilerindeki GSM8K ve MATH ile ilgili CoT format problemlerini, yaklaşık 144K problemlerini kullanır.

Eğitim parametreleri: Politika modelinin öğrenme oranı 1e-6, KL katsayısı 0,04, her problem için 64 çıktı örneklenmiş, maksimum uzunluk 1024 ve eğitim partisi boyutu 1024'tür.

Sonuç

Sonuç 1:DeepSeekMath 7B matematiksel muhakeme yeteneği bakımından tüm açık kaynaklı modelleri geride bırakıyor. Rekabetçi MATH kıyaslama testinde DeepSeekMath 7B, Gemini-Ultra ve GPT-4'ün performans seviyesine yakın olan 51.7%'lik bir doğruluk elde etti.

Sonuç 2:İyi tasarlanmış ön eğitim verileri ve GRPO algoritmaları modelin başarısı için anahtardır. Yüksek kaliteli matematiksel yapı ile GRPO algoritmalarının birleşimi, modelin matematiksel muhakeme görevlerinde önemli performans kazanımları elde etmesini sağlar.

Sonuç 3:Kodlama eğitimi matematiksel muhakeme yeteneğinin gelişmesine yardımcı olur. Ön eğitim aşamasına kod verilerinin eklenmesi, modelin hem araç kullanarak hem de araç kullanmadan matematiksel problemleri çözme becerisini artırabilir.

Sonuç 4: arXiv verilerinin sınırlı faydası: Önceki inanışların aksine, arXiv verilerinin matematiksel muhakemeyi geliştirmede sınırlı bir yardımı olduğu bulundu.

Sınırlama

Geometri ve ispat yetenekleri nispeten zayıftır: DeepSeekMath niceliksel akıl yürütmede üstün olsa da, geometri ve kanıtlamadaki yetenekleri hala kapalı kaynaklı modellerden daha düşüktür. Bu, ön eğitim ve ince ayar aşamalarındaki önyargılı veri seçiminden kaynaklanıyor olabilir.

Küçük örneklem kapasitesindeki zayıflık: DeepSeekMath, küçük örneklem öğrenmesi açısından GPT-4'e göre daha düşüktür; bu durum model boyutunun sınırlı olmasından kaynaklanıyor olabilir.

Daha etkili takviyeli öğrenme yöntemlerine ihtiyaç var: Makalede önerilen takviyeli öğrenme yöntemleri etkili olmakla birlikte, örneğin ödül modelinden gelen geri bildirimin nasıl daha etkili kullanılacağı ve gürültülü ödül sinyalleriyle nasıl başa çıkılacağı gibi konularda hâlâ iyileştirmeye açık alanlar bulunmaktadır.

Detaylar

Takviyeli Öğrenme Araştırması ve Analizi

Genel Bakış:

Grup Göreceli Politika Optimizasyonunun (GRPO) Tanıtımı: Makale, Yakınsal Politika Optimizasyonunun (PPO) bir çeşidi olarak yeni bir takviyeli öğrenme algoritması olan GRPO'yu önermektedir. GRPO'nun temel özelliği, PPO'da yaygın olarak kullanılan Kritik modelini terk eder ve temel çizgiyi grup puanları üzerinden tahmin eder, böylece eğitim için gereken hesaplama kaynaklarını büyük ölçüde azaltır.

GRPO etkinlik gösterimi: Makale GRPO'nun deneysel olarak şunları yapabileceğini göstermektedir: hem alan içi hem de alan dışı matematiksel görevler dahil olmak üzere komut ince ayar modellerinin performansını etkili bir şekilde iyileştirin.

Takviyeli öğrenme yöntemleri için birleşik çerçeve: Makale, farklı takviyeli öğrenme yöntemlerini anlamak için birleşik bir çerçeve önermektedir, örneğin: Reddetme Örnekleme İnce Ayarı (RFT), Doğrudan Tercih Optimizasyonu (DPO), PPO ve GRPOÇerçeve bu yöntemleri doğrudan veya basitleştirilmiş takviyeli öğrenme teknikleri olarak ele alır.

Takviyeli öğrenmenin unsurlarının derinlemesine incelenmesi: Makale derinlemesine araştırıyor çevrimiçi eğitim ve çevrimdışı eğitim, sonuç denetimi ve süreç denetimi, tek turlu güçlendirme öğrenimi ve yinelemeli güçlendirme öğrenimi gibi güçlendirme öğreniminin temel unsurları, ayrıntılı deneyler yoluyla, takviyeli öğrenmenin etkinliğini artırmak için olası yönleri özetler.

GRPO (Grup Göreceli Politika Optimizasyonu) algoritması

Sınırlamaları PPO: PPO yaygın olarak kullanılan bir takviyeli öğrenme algoritmasıdır, ancak bir takviyeli öğrenme algoritmasının eğitilmesini gerektirir. ek Eleştirmen modeli değer fonksiyonunu tahmin etmek için, bu da ek bir hesaplama ve bellek yüküAyrıca, LLM senaryosunda, Eleştirel model eğitimi karmaşık olabilir çünkü değerlendirme gerektirir her tokenin çıktısı.

GRPO'nun temel fikri: GRPO'nun temel fikri şudur: Eleştirmen modelini terk edin ve bunun yerine aynı sorun için bir dizi çıktının ortalama puanını bir temel çizgi olarak kullanın. Bu temel çizgi avantaj fonksiyonunu tahmin etmek ve politika optimizasyonu için kullanılabilirBu yaklaşım eğitimin karmaşıklığını önemli ölçüde azaltır.

Avantaj fonksiyonu hesaplaması: GRPO avantaj fonksiyonunu şu şekilde hesaplar: ayrı bir değer fonksiyonuna güvenmek yerine, aynı çıktı kümesindeki her çıktının göreceli sıralamasını hesaplamak PPO'da olduğu gibi.

KL sapma cezası: GRPO PPO gibi ödüle bir KL sapma cezası eklemez, bunun yerine politika modeli ile referans modeli arasındaki KL sapmayı doğrudan kayıp fonksiyonuna ekler. Bu, karmaşık avantaj fonksiyonu hesaplamasını önler.

GRPO'nun temel fikri

Eleştirmen (değer fonksiyonu) gerektirmez: GRPO bir değer fonksiyonuna olan ihtiyacı ortadan kaldırır ve temel çizgiyi tahmin etmek için grup içi puanı kullanırBu da eğitim kaynaklarının azaltılması anlamına geliyor.

Grup içi göreceli avantaj: Her bir q problemi için GRPO, eski politika π(θold)'dan bir dizi çıktıyı {o(1), o(2), …, o(G)} örneklemler ve daha sonra politika modelini, hedef fonksiyon olarak aşağıdaki denklemi maksimize ederek optimize eder.

Özellikle:

Buradaki anahtar nokta, avantajı temsil eden ve aşağıdaki şekilde hesaplanan Â(i,t)'dir: Grup içi çıktının göreceli ödülüPPO'daki gibi ayrı bir değer fonksiyonuna güvenmek yerine.

Amaç fonksiyonu ayrıca doğrudan ekler KL sapması, büyüklüğünü kontrol etmek için bir düzenleme terimi olarak politika güncellemeleri

ve ödül modelinin karşılaştırma niteliğiyle uyumlu hale getirin: GRPO, genellikle çiftler arası karşılaştırmaya dayalı olarak eğitilen ödül modelinin doğasına daha uygun olan, avantajı hesaplamak için göreceli grup içi ödülü kullanır.

GRPO’nun Ödül modeli nasıl tasarlanabilir (bkz. DeepSeek R1)?

Özellikler:

ödül formatı: uzun nesillerin oluşmasını zorlar karyola Modelin çıkarım süreçlerini üretmesini ve modelin çıkarım etkisini iyileştirmesini sağlayabilecek sonuçlar.

doğruluk ödülü: Matematik sonucu kullanabilir ve kod derleyici geri bildirimini kullanabilir.

GRPO'nun Avantajları

Daha az bellek alanı: Kritik modele gerek yoktur, bu da bellek gereksinimlerini azaltır.

Daha verimli eğitim: Grup içi göreceli avantaj kullanılarak yapılan hesaplama eğitim sürecini basitleştirir.

Ödül modellerinin doğasıyla daha uyumlu: Antrenman istikrarını ve verimliliğini artırır.

RL Birleşik Paradigma Özeti

Birleşik Paradigma Önerisi

Yazarlar, SFT (Denetlenen İnce Ayar), RFT (Reddetme Örneklemesi İnce Ayarı), DPO (Doğrudan Tercih Optimizasyonu), PPO, GRPO gibi farklı eğitim yöntemlerini anlamak için birleşik bir paradigma önermektedir. RL Temel Unsurları: Birleşik çerçevenin temel unsurları şunlardır: veri kaynakları, ödül fonksiyonları ve algoritmalar.

Veri kaynağı: Bu, manuel etiketleme, SFT modelleri veya gerçek zamanlı politika modellerinden türetilebilen, eğitim için kullanılan verileri ifade eder.
Ödül fonksiyonu: Bu, bir kural veya model olabilen çıktının kalitesini değerlendirmek için kullanılan işlevi ifade eder.
Algoritma: Bu, verilerin ve ödül sinyalinin işlenmesi ve model parametrelerinin güncellenmesi için kullanılan yöntemi ifade eder.

Birleştirilmiş bir paradigmaya dayalı farklı yöntemlerin analizi

Tablo 10'da SFT, RFT, DPO, Online RFT, PPO ve GRPO arasındaki benzerlik ve farklılıklar veri kaynakları, ödül fonksiyonları ve eğim katsayıları açısından özetlenmiştir.

Yöntem	Eğitim verileri	Ödül fonksiyonu	Gradyan katsayısı	Eğitim yöntemi	Avantajlar/özellikler	Uygulanabilir senaryolar
SFT	Manuel olarak etiketlenen SFT verileri	Manuel olarak seçildi (örtülü ödül)	1'e sabitlendi	Gözetimli öğrenme	Basit ve kararlı, yüksek kaliteli etiketli verilere bağımlı	Temel model eğitimi, ilk hizalama görevi
Teklif Talebi	SFT veri kümesi sorunu + SFT modeli örnek çıktısı	Cevap doğruluğuna göre (kural yargısı)	0 (yanlış) veya 1 (doğru)	Çevrimdışı politika optimizasyonu	Verimli hesaplama, kural geri bildiriminin doğrudan kullanımı	Net kurallara sahip matematiksel/mantıksal görevler
VDP	SFT veri kümesi sorunu + model çıktısı	İnsan tercihi etiketleme veya kural karşılaştırması	Tercih olasılığı hesaplamasına dayalı (örneğin, Bradley-Terry modeli)	Karşılaştırmalı öğrenme	Açık ödül modellemesinden kaçınır, tercihleri doğrudan optimize eder	İnsan tercihi hizalama görevleri (örneğin, diyalog oluşturma)
Çevrimiçi RFT	Gerçek zamanlı politika modeli örneklemesi sorun-çıktı çiftleri	Cevap doğruluğuna göre (kural yargısı)	0 (yanlış) veya 1 (doğru)	Çevrimiçi politika optimizasyonu	Gerçek zamanlı geri bildirim optimizasyonuyla politikaları dinamik olarak günceller	Çevrimiçi etkileşim gerektiren senaryolar (örneğin, oyun yapay zekası)
PPO	SFT veri kümesi sorunu + politika modeli örnekleme çıktısı	Ödül modeli (RM) eğitildi	Hakimiyet fonksiyonu (ödül tahminine dayalı)	Politika eğim yöntemi	Verimli ve istikrarlı, çok adımlı optimizasyonu destekler	Karmaşık görevler (örneğin metin oluşturma, robot kontrolü)
GRPO	SFT veri kümesi sorunu + politika modeli örnekleme çıktısı	Ödül modeli (RM) eğitildi	Grup içi göreceli ödül (normalleştirilmiş karşılaştırma)	Grup politikası optimizasyonu	Ödül varyansını azaltın ve grup içi karşılaştırmayı iyileştirin	Yüksek varyansa sahip görevler (örneğin uzun metin oluşturma)

Veri kaynaklarına ilişkin gözlemler

Çevrimiçi ve çevrimdışı eğitim: Çevrimiçi eğitim, gerçek zamanlı politika modelinin çıktısını eğitim verisi olarak kullanmayı ifade ederken, çevrimdışı eğitim, sabit bir modelin (örneğin SFT modeli) çıktısını eğitim verisi olarak kullanmayı ifade eder. Deneysel sonuçlar şunu göstermektedir: Çevrimiçi eğitim genellikle çevrimdışı eğitimden daha iyidir.

Sonuç denetimi ve süreç denetimi: Sonuç denetimi yalnızca çıktının son adımını ödüllendirmeyi ifade ederken, süreç denetimi akıl yürütme sürecinin her adımını ödüllendirmeyi ifade eder. Deneysel sonuçlar şunu göstermektedir: karmaşık görevlerde süreç denetimi daha etkilidir.

Tek bölümlü ve yinelemeli pekiştirmeli öğrenme: Tek bölümlü takviyeli öğrenme, tek bir strateji optimizasyonunu ifade ederken, yinelemeli takviyeli öğrenme, birden fazla strateji optimizasyonundan sonra ödül modelinin sürekli güncellenmesini ifade eder. Deneysel sonuçlar şunu göstermektedir: yinelemeli takviyeli öğrenme, özellikle ilk yinelemede performansı önemli ölçüde artırabilir.

Gradyan katsayılarının gözlemlenmesi

Kural tabanlı ve model tabanlı: Kural, cevabın doğruluğuna göre ödülün belirlenmesine, Model ise puanlama için bir ödül modelinin eğitilmesine denir.

Gradyan katsayılarındaki fark: GRPO ile arasındaki temel fark Çevrimiçi RFT, GRPO'nun ödül modelinin sağladığı ödül değerlerine göre eğim katsayılarını ayarlamasıdır, Çevrimiçi RFT ise bunu yapmaz.

GRPO’nun avantajları: Deneyler şunu gösteriyor ki GRPO, Çevrimiçi RFT'den üstündür ve gradyan katsayılarının işaretini değiştirmenin etkinliğini gösterir. GRPO+PS, GRPO+OS'den üstündür ve ince taneli, adım farkında gradyan katsayılarının kullanılmasının faydalarını gösterir.

RL etkinliği ve iyileştirme yönleri

RL neden etkilidir?

Deneysel sonuçlar: RL Maj@K performansını iyileştirir ancak Pass@K'yi iyileştirmez.

Açıklama: RL, çıktı dağılımını daha sağlam hale getirerek modelin genel performansını iyileştirir, yani modelin temel yeteneğini geliştirmek yerine TopK'da doğru cevap olasılığını artırır.

Daha etkili RL nasıl elde edilebilir?

Yazarlar, birleşik paradigmaya dayanarak RL'yi üç açıdan iyileştirmek için gelecekteki yönleri önermektedir: veri kaynakları, algoritmalar ve ödül fonksiyonları.

Veri kaynakları:
- SFT aşamasının ötesindeki konuları keşfedin.
- Ağaç arama tabanlı yöntemler gibi daha gelişmiş örnekleme (kod çözme) stratejileri kullanın.
- Politika modelinin keşif verimliliğini artırmak için etkili çıkarım tekniklerini kullanın.
Algoritma:
- Gürültülü ödül sinyallerine karşı daha dayanıklı olan takviyeli öğrenme algoritmalarını keşfedin.
- ZAYIF-GÜÇLÜ tip hizalama yöntemlerini inceleyin.
Ödül fonksiyonu:
- Ödül modelinin dağıtım dışı sorunları ve gelişmiş kodlanmış çıktıları ele alma yeteneğini geliştirin.
- Ödül modelinin belirsizliğini yansıtın ve bunu zayıf ödül modelleri ile ZAYIF-GÜÇLÜ öğrenme algoritmalarını birbirine bağlamak için bir köprü olarak kullanın.
- Çıkarım süreci için ayrıntılı eğitim sinyalleri sağlamak amacıyla yüksek kaliteli süreç ödül modellerini verimli bir şekilde oluşturun.

Özet

DeepSeekMath, büyük ölçekli bir matematiksel gövde inşa ederek ve yeni bir takviyeli öğrenme algoritması önererek açık kaynaklı dil modellerinin matematiksel akıl yürütmedeki yeteneğini önemli ölçüde iyileştirdi. Bu makalenin önemli noktaları şunlardır:

Büyük ölçekli, yüksek kaliteli, çok dilli bir matematiksel korpus olan DeepSeekMath Corpus'un oluşturulması ve doğrulanması.
Modelin matematiksel muhakeme yeteneğini geliştirirken bellek kullanımını azaltmak için etkili bir takviyeli öğrenme algoritması olan GRPO önerilmiştir.
Kod eğitiminin matematiksel muhakeme yeteneği üzerindeki etkisi derinlemesine tartışılır ve arXiv verilerinin sınırlı bir etkiye sahip olduğu bulunur. DeepSeekMath değeri:
Açık kaynak topluluğuna güçlü bir matematiksel akıl yürütme modeli sağlar ve matematiksel yapay zekanın gelişimini teşvik eder.
Matematiksel kuramların oluşturulması ve matematiksel akıl yürütme modellerinin eğitilmesi için değerli deneyim ve yöntemler sağlar.
Önerilen GRPO algoritması, diğer alanlarda takviyeli öğrenme eğitimi için yeni fikirler sunmaktadır.

DeepSeek 1'in ardındaki sır | DeepSeekMath ve GRPO detayları