Paper-DeepSeek-R1: Takviyeli Öğrenme Yoluyla LLM'lerde Muhakeme Yeteneğinin Teşvik Edilmesi

İçindekiler

Özet

Bu makalede DeepSeek'nin birinci nesil muhakeme modelleri tanıtılmaktadır: DeepSeek-R1-Zero ve DeepSeek-R1. Denetimli ince ayar (SFT) olmadan büyük ölçekli takviyeli öğrenme (RL) yoluyla eğitilen DeepSeek-R1-Zero, dikkate değer muhakeme yetenekleri sergilemektedir. RL sayesinde doğal olarak güçlü muhakeme davranışları geliştirir. Ancak, zayıf okunabilirlik ve dil karışımı gibi zorluklarla karşı karşıyadır. Bu sorunları ele almak ve muhakeme performansını artırmak için, RL'den önce çok aşamalı eğitim ve soğuk başlangıç verilerini içeren DeepSeek-R1 geliştirilmiştir. DeepSeek-R1, muhakeme görevlerinde OpenAI-o1-1217 ile karşılaştırılabilir bir performans elde etmiştir. Araştırmaları desteklemek için DeepSeek, her iki modeli ve Qwen ve Llama'ya dayalı DeepSeek-R1'den damıtılmış altı yoğun modeli (1.5B, 7B, 8B, 14B, 32B, 70B) açık kaynak olarak sunmaktadır.

Önemli Katkılar

Eğitim Sonrası: Büyük Ölçekli Takviye Öğrenimi

RL'yi SFT olmadan doğrudan temel modele başarıyla uyguladı
DeepSeek-R1-Zero geliştirildi, kendi kendini doğrulama ve yansıtma gibi yetenekler sergilendi
Muhakeme yeteneklerinin tamamen RL yoluyla teşvik edilebileceğini doğrulayan ilk açık araştırma
İki RL aşaması ve iki SFT aşaması ile DeepSeek-R1 için tanıtılan boru hattı

Damıtma: Daha Küçük Modellerin Güçlendirilmesi

Daha büyük modellerden akıl yürütme modellerinin daha küçük modellere etkili bir şekilde damıtılabileceğini göstermiştir
Araştırma topluluğuna fayda sağlamak için DeepSeek-R1 ve API'si açık kaynaklı
Olağanüstü kıyaslama performansı gösteren birkaç yoğun modele ince ayar yapıldı
Damıtılmış modeller önceki açık kaynaklı modellerden önemli ölçüde daha iyi performans gösteriyor

Değerlendirme Sonuçları

Muhakeme Görevleri

DeepSeek-R1, AIME 2024'te 79,8% Pass@1 değerine ulaşarak OpenAI-o1-1217'yi geride bıraktı
97.3% MATH-500 puanı, OpenAI-o1-1217 ile eşit performans gösteriyor
Codeforces'ta 2,029 Elo derecelendirmesi ile kod yarışması görevlerinde uzman düzeyinde performans

Bilgi Görevleri

MMLU (90.8%), MMLU-Pro (84.0%) ve GPQA Diamond (71.5%) üzerinde olağanüstü sonuçlar
Eğitim görevlerinde diğer kapalı kaynak modellerini geride bırakır
SimpleQA gibi gerçeklere dayalı kıyaslamalarda güçlü performans

Genel Yetenekler

Yaratıcı yazma, soru yanıtlama, düzenleme ve özetleme konularında başarılıdır
AlpacaEval 2.0'da 87,6% ve ArenaHard'da 92,3% kazanma oranı
Uzun bağlamlı anlama görevlerinde güçlü performans

Gelecek Çalışmalar

Ekip şu konulara odaklanmayı planlıyor:

Fonksiyon çağırma ve karmaşık rol yapma gibi alanlarda genel yeteneklerin geliştirilmesi
Dil karışımı sorunlarının ele alınması
Yönlendirme mühendisliğinin geliştirilmesi
Yazılım mühendisliği görevlerinde performansın artırılması

Sonuç

DeepSeek-R1, takviyeli öğrenme yoluyla YZ muhakeme yeteneklerinde önemli bir ilerlemeyi temsil etmektedir. Hem ana modelin hem de damıtılmış versiyonlarının başarısı, daha yetenekli YZ sistemleri geliştirmek için bu yaklaşımın potansiyelini göstermektedir. Bu modellerin açık kaynak olarak yayınlanması, bu alanda daha fazla araştırma ve geliştirme yapılmasına katkıda bulunacaktır.

DeepSeek_R1 İndir

Uncategorized

DeepSeek-R1-0528 Güncellemesi: Daha Derin Düşünme, Daha Güçlü Muhakeme

Tarafındanzddeepseeker 29 Mayıs 202529 Mayıs 2025

DeepSeek R1 modeli küçük bir sürüm yükseltmesinden geçti, mevcut sürüm DeepSeek-R1-0528. DeepSeek web sayfasına veya uygulamasına girdiğinizde, en son sürümü deneyimlemek için diyalog arayüzünde “Derin Düşünme” özelliğini etkinleştirin. DeepSeek-R1-0528 model ağırlıkları HuggingFace'e yüklendi Son dört ayda, DeepSeek-R1…

Uncategorized

FlashMLA Nedir? AI Kod Çözme Çekirdekleri Üzerindeki Etkisine İlişkin Kapsamlı Bir Kılavuz

Tarafındandeepseeker 24 Şubat 202524 Şubat 2025

FlashMLA, yapay zeka dünyasında, özellikle büyük dil modelleri (LLM) alanında hızla ilgi gördü. DeepSeek tarafından geliştirilen bu yenilikçi araç, AI hesaplamalarında yaygın olarak kullanılan yüksek performanslı yongalar olan Hopper GPU'lar için tasarlanmış optimize edilmiş bir kod çözme çekirdeği olarak hizmet eder. FlashMLA, değişken uzunluklu dizilerin verimli bir şekilde işlenmesine odaklanır ve bu da onu özellikle uygun hale getirir…

Uncategorized

Le Chat, yüz milyar dolarlık yatırımla listelerin başında yer alıyor. ABD ve Çin'den sonra üçüncü yapay zeka gücü mü?

Tarafındanzddeepseeker 11 Şubat 202511 Şubat 2025

9 Şubat'ta Fransa Cumhurbaşkanı Emmanuel Macron, Fransa'nın önümüzdeki birkaç yıl içinde AI alanına 109 milyar avro (113 milyar ABD doları) yatırım yapacağını duyurdu. Bu yatırım, Fransa'da bir AI parkı inşa etmek, altyapıyı iyileştirmek ve yerel AI girişimlerine yatırım yapmak için kullanılacak. Bu arada, Fransız bir girişim olan Mistral,…

Uncategorized

Deepseek neyi başarabilir? OpenAI bile başaramaz mı?

Tarafındanzddeepseeker Şubat 10, 2025Şubat 10, 2025

DeepSeek'nin gerçek değeri küçümseniyor! DeepSeek-R1 şüphesiz pazara yeni bir coşku dalgası getirdi. Sadece ilgili sözde yararlanıcı hedefleri keskin bir şekilde artmakla kalmıyor, aynı zamanda bazı insanlar bundan para kazanmak amacıyla DeepSeek ile ilgili kurslar ve yazılımlar bile geliştirdiler. Bu fenomenlerin bir…

Uncategorized

DeepSeek-R1-32B'ye yakındır ve Fei-Fei Li'nin s1'ini ezer! UC Berkeley ve diğer açık kaynaklı yeni SOTA çıkarım modelleri

Tarafındanzddeepseeker 14 Şubat 202514 Şubat 2025

32B çıkarım modeli verilerin yalnızca 1/8'ini kullanır ve aynı boyuttaki DeepSeek-R1 ile eşittir! Şu anda, Stanford, UC Berkeley ve Washington Üniversitesi gibi kurumlar ortaklaşa bir SOTA düzeyinde çıkarım modeli olan OpenThinker-32B'yi yayınladılar ve ayrıca 114k'ya kadar eğitim verisini açık kaynaklı hale getirdiler. OpenThinker Projesi ana sayfası: OpenThinker Hugging Face:…

Uncategorized

Son dakika haberleri! OpenAI bugün 2 yeni çıkarım modeli yayınladı: o3-mini ve o3-mini-high.

Tarafındanzddeepseeker Şubat 1, 2025Şubat 1, 2025

o3-mini ve o3-mini (high) bugün yayınlanacak. Normal kullanıcılar da o3-mini alacak ve artı kullanıcılar o3-mini (high) kullanabilecek. o3-mini (high) Codeforce'ta o1'den yaklaşık 200 puan daha yüksek, o1'den daha hızlı ve kodlama ve matematikte daha iyi performans gösteriyor, ancak maliyeti hala o1-mini seviyesinde....

Bildiri-DeepSeek-R1: Takviyeli Öğrenme Yoluyla LLM'lerde Muhakeme Yeteneğinin Teşvik Edilmesi

Özet

Önemli Katkılar

Eğitim Sonrası: Büyük Ölçekli Takviye Öğrenimi

Damıtma: Daha Küçük Modellerin Güçlendirilmesi

Değerlendirme Sonuçları

Muhakeme Görevleri

Bilgi Görevleri

Genel Yetenekler

Gelecek Çalışmalar

Sonuç

DeepSeek-R1-0528 Güncellemesi: Daha Derin Düşünme, Daha Güçlü Muhakeme

FlashMLA Nedir? AI Kod Çözme Çekirdekleri Üzerindeki Etkisine İlişkin Kapsamlı Bir Kılavuz

Le Chat, yüz milyar dolarlık yatırımla listelerin başında yer alıyor. ABD ve Çin'den sonra üçüncü yapay zeka gücü mü?

Deepseek neyi başarabilir? OpenAI bile başaramaz mı?

DeepSeek-R1-32B'ye yakındır ve Fei-Fei Li'nin s1'ini ezer! UC Berkeley ve diğer açık kaynaklı yeni SOTA çıkarım modelleri

Son dakika haberleri! OpenAI bugün 2 yeni çıkarım modeli yayınladı: o3-mini ve o3-mini-high.

Bir yanıt yazın Yanıtı iptal et

Özet

Önemli Katkılar

Eğitim Sonrası: Büyük Ölçekli Takviye Öğrenimi

Damıtma: Daha Küçük Modellerin Güçlendirilmesi

Değerlendirme Sonuçları

Muhakeme Görevleri

Bilgi Görevleri

Genel Yetenekler

Gelecek Çalışmalar

Sonuç

Benzer Yazılar

Bir yanıt yazın Yanıtı iptal et