DeepSeek-R1-32B'ye yakın ve Fei-Fei Li'nin s1'ini eziyor! UC Berkeley ve diğer açık kaynaklı yeni SOTA çıkarım modelleri

32B çıkarım modeli verilerin yalnızca 1/8'ini kullanır ve aynı boyuttaki DeepSeek-R1 ile eşittir!

Şu anda Stanford, UC Berkeley ve Washington Üniversitesi gibi kurumlar ortaklaşa bir SOTA düzeyinde çıkarım modeli yayınladılar. AçıkDüşünür-32Bve ayrıca 114k'ya kadar eğitim verisini açık kaynaklı hale getirdik.

OpenThinker Projesi ana sayfası:

OpenThinker Sarılma Yüzü:

Açık düşünceler Veri seti:

Ekip keşfi: DeepSeek-R1 doğrulanmış açıklamalara sahip (R1 damıtmasına dayalı) büyük ölçekli, yüksek kaliteli bir veri kümesi kullanılarak bir SOTA çıkarım modeli eğitilebilir.

Belirli yöntem, verileri ölçeklendirmek, çıkarım sürecini doğrulamak ve modeli ölçeklendirmektir.

Ortaya çıkan OpenThinker-32B, matematik, kodlama ve fen alanlarındaki çoklu kıyaslama testlerinde Li Fei-Fei'nin s1 ve s1.1 modellerini geride bıraktı ve R1-Distill-32B'ye yakındı.

800 bin veri (600 bin çıkarım örneği dahil) kullanan R1-Distill-32B ile karşılaştırıldığında, OpenThinker-32B'nin neredeyse aynı mükemmel sonuçları elde etmek için yalnızca 114 bin veri kullandığını belirtmekte fayda var.

Ayrıca OpenThinker-32 tüm model ağırlıklarını, veri kümelerini, veri oluşturma kodunu ve eğitim kodunu da kamuoyuna açıkladı!

İçindekiler

Veri küratörlüğü

Araştırmacılar, daha önce OpenThinker-7B'yi eğittikleri OpenThoughts-114k veri setini kullanarak OpenThinker-32B'yi eğittiler.

DeepSeek-R1 modelini, dikkatlice seçilmiş 173.000 soruluk bir küme için muhakeme süreçlerini ve cevap girişimlerini toplamak için kullandılar. Bu ham veriler daha sonra OpenThoughts-Unverified-173k veri kümesi olarak yayınlandı.

Sürecin son adımı, akıl yürütme süreci doğrulamayı geçemezse, ilgili veri örneklerini filtrelemektir.

Aşağıdaki şekil tüm süreci görsel olarak göstermektedir.

Araştırma ekibi öncelikle BAAI/TACO, DeepMind, Python sunumları gibi farklı alan ve platformlardan gelebilecek, kod, bulmacalar, bilim ve matematik gibi çeşitli alanları kapsayan kaynak verileri veya soru istemlerini girer.

Bu çeşitli girdiler daha sonra verilerin analiz edildiği ve işlendiği çekirdek işleme modülü DeepSeek-R1'e aktarılır. Sorular üç kategoriye ayrılır: bilim soruları, matematik ve bulmacalar ve kod.

Bazı sonuçlar doğrulama gerektirmez ve basit analizler veya doğrudan çıktılar olabilir. Derinlemesine doğrulama gerektiren bazı içerikler için, onu GT'ye (Ground Truth) benzer bir şekilde değerlendirmek için büyük bir dil modeli (LLM) kullanılır. Kod ise, kod yürütülür ve doğruluğu ve etkililiğinden emin olmak için birim testleri gerçekleştirilir.

Son olarak, farklı yönlerden elde edilen sonuçlar birleştirilerek açık fikirli düşünme ve daha kapsamlı çözümler üretilebilir.

Araştırma ekibi, veri setini oluşturmak için kullanılan bazı ek sütunları içeren “metadata” adlı bir yapılandırmayla son OpenThoughts-114k veri setini güncelledi:

sorun
zemin_gerçeği_çözümü
test_cases (sadece kod)
başlangıç_kodu (sadece kod)
DeepSeek_akıl yürütme
DeepSeek_çözüm
ihtisas
kaynak

Bu ek meta veriler, veri filtreleme, alan adı değiştirme, doğrulama kontrolleri ve çıkarım süreci şablonunu değiştirme gibi yeni senaryolarda bu veri setinin kullanılmasını kolaylaştıracaktır.

Bu ek meta veriler, bu veri setinin kullanımını kolaylaştıracak ve filtreleme, alan adını değiştirme, doğrulamayı kontrol etme ve çıkarım izleme şablonunu değiştirme gibi işlemleri yalnızca bir satır kodla yapabileceksiniz.

load_dataset("açık-düşünceler/AçıkDüşünceler-114k", "meta veri", split="eğitim")

Araştırma ekibi, topluluğun bu soruları ve standart cevapları OpenThinker modelinde takviyeli öğrenme (RL) üzerine araştırma için kullanmasını dört gözle beklediklerini söylüyor. DeepScaleR, bu yaklaşımın özellikle daha küçük ölçeklerde iyi çalıştığını zaten gösterdi.

Doğrulama

Son OpenThoughts-114k veri setine ulaşmak için araştırma ekibi yanıtları doğruladı ve yanlış yanıtları eledi.

Aşağıdaki tabloda görüldüğü üzere, doğrulamadan geçemeyen çıkarımların tutulması performansı olumsuz etkileyebilir; ancak doğrulanmamış model diğer 32B çıkarım modellerine kıyasla yine de iyi performans göstermektedir.

Doğrulamanın rolü, eğitim istemi setinin çeşitliliğini ve boyutunu genişletirken R1 açıklamalarının kalitesini korumaktır. Öte yandan, doğrulanmamış veriler daha kolay genişletilebilir ve bu nedenle daha fazla araştırmaya değerdir.

Kod problemleri için, cevap girişimlerini mevcut test durumlarına göre doğrulayarak çıkarım sürecinin doğrulamasını tamamlıyoruz.

Kod yürütme sırasında karşılaşılan zorluklardan ilham alarak, kullanıcıların büyük ölçekte ve güvenli bir şekilde kod yürütmesini ve beklenen çıktıyla karşılaştırmasını sağlayan bir kod yürütme çerçevesini Curator'da uyguladık.

Matematiksel problemler için araştırma ekibi, hem standart cevabı hem de DeepSeek-R1 çözüm girişimini alan bir LLM (Büyük Dil Modeli) yargıcı kullanarak doğrulama yaptı.

Daha katı ayrıştırma motoru (Math-Verify) yerine veri üretimi için LLM değerlendiricisinin kullanılmasının daha yüksek etkili veri oranına yol açtığı ve daha iyi performansla alt akış modellerinin eğitilmesine olanak sağladığı bulundu.

Eğitim

Araştırma ekibi, Qwen2.5-32B-Instruct'ı 16k bağlam uzunluğundaki OpenThoughts-114k veri kümesinde üç kez ince ayarlamak için LLaMa-Factory'yi kullandı. Tam eğitim yapılandırması GitHub'da bulunabilir.

OpenThinker-32B, AWS SageMaker kümesinde dört adet 8xH100 P5 düğümü kullanılarak 90 saat boyunca eğitildi ve toplamda 2.880 H100 saat eğitim verildi.

Bu arada OpenThinker-32B-Unverified, 96 adet 4xA100 düğümü (GPU başına 64 GB) kullanarak Leonardo süper bilgisayarında 30 saat boyunca eğitim aldı ve 11.520 A100 saat biriktirdi.

Değerlendirme

Araştırma ekibi tüm modelleri değerlendirmek için açık kaynaklı değerlendirme kütüphanesi Evalchemy'yi kullandı.

AIME24 ve AIME25 için, beş çalışmanın sonuçlarını ortalama alarak doğruluğu hesapladılar. Değerlendirme yapılandırması 0,7'lik bir sıcaklık parametresi kullandı, model yanıtını 32.768 belirteçle sınırladı, herhangi bir ek sistem veya kullanıcı istemi sözcüğü eklemedi ve herhangi bir özel kod çözme stratejisi (bütçe zorlama gibi) kullanmadı.

OpenThoughts projesi başlatıldığında, DeepSeek-R1-Distill-Qwen-32B ile eşleşebilecek performansa sahip açık bir veri modeli oluşturma hedefi belirlendi.

Şimdi o fark neredeyse ortadan kalktı.

Son olarak araştırma ekibi, topluluğun son birkaç hafta içinde açık veri çıkarım modelleri oluşturma konusunda kaydettiği hızlı ilerlemeden heyecan duyuyor ve birbirlerinin içgörülerine dayanarak ilerlemeye devam etmeyi dört gözle bekliyor.

OpenThinker-32B'nin açık kaynaklı sürümü, veriler, doğrulama ve model boyutu arasındaki sinerjilerin çıkarım yeteneklerini geliştirmede kilit öneme sahip olduğunu göstermektedir.

Bu sonuç yalnızca açık kaynaklı çıkarım modellerinin geliştirilmesini teşvik etmekle kalmıyor, aynı zamanda tüm yapay zeka topluluğu için değerli kaynaklar ve ilham sağlıyor.

DeepSeek-R1-32B'ye yakındır ve Fei-Fei Li'nin s1'ini ezer! UC Berkeley ve diğer açık kaynaklı yeni SOTA çıkarım modelleri

Veri küratörlüğü

Doğrulama

Eğitim

Değerlendirme

Qwen2.5-max ve DeepSeek R1: Modellerin derinlemesine karşılaştırılması: Uygulama senaryolarının tam analizi

Dünyanın ana akım AI ürünleri analiz ve kapsamlı kullanıcı deneyimi yönergelerine (DeepSeek ve GPT dahil) odaklanıyor

DeepSeek R1 makale yorumlama ve temel teknik noktalar

DeepSeek R1 yaratıcı yazma testinde birinci oldu ve o3 mini, o1 mini'den bile daha kötüydü!

DeepSeek 1'in ardındaki sır | DeepSeekMath ve GRPO detayları

DeepSeek, FlashMLA'nın kaynak kodunu ve ayrıntılı açıklamasını yayınladı

Bir yanıt yazın Yanıtı iptal et

Veri küratörlüğü

Doğrulama

Eğitim

Değerlendirme

Benzer Yazılar

Bir yanıt yazın Yanıtı iptal et