DeepSeek, FlashMLA'nın kaynak kodunu ve ayrıntılı açıklamasını yayınladı

DeepSeek, FlashMLA'nın kaynak kodunu ve ayrıntılı açıklamasını yayınladı

Geçtiğimiz hafta, DeepSeek önümüzdeki hafta beş projeyi açık kaynaklı hale getireceğini duyurdu: İnternet kullanıcıları, "Bu sefer, OpenAI gerçekten burada." dedi. Az önce, çıkarım hızlandırma ile ilgili ilk açık kaynaklı proje geldi, FlashMLA: Açık kaynaklı proje adresi: DeepSeek FlashMLA İki saattir açık kaynaklı ve Github'da halihazırda 2.7k+ yıldız var: The…

Qwen2.5-max ve DeepSeek R1: Modellerin derinlemesine karşılaştırılması: Uygulama senaryolarının tam analizi

Qwen2.5-max ve DeepSeek R1: Modellerin derinlemesine karşılaştırılması: Uygulama senaryolarının tam analizi

Giriş Günümüzde büyük dil modelleri (LLM'ler) önemli bir rol oynamaktadır. 2025'in başlarında, AI için rekabet yoğunlaştıkça, Alibaba yeni Qwen2.5-max AI modelini piyasaya sürdü ve Çin'in Hangzhou kentinden bir şirket olan DeepSeek, LLM teknolojisinin zirvesini temsil eden R1 modelini piyasaya sürdü. Deepseek R1, ilgi çeken açık kaynaklı bir AI modelidir…

DeepSeek-R1-32B'ye yakındır ve Fei-Fei Li'nin s1'ini ezer! UC Berkeley ve diğer açık kaynaklı yeni SOTA çıkarım modelleri

32B çıkarım modeli verilerin yalnızca 1/8'ini kullanır ve aynı boyuttaki DeepSeek-R1 ile eşittir! Şu anda, Stanford, UC Berkeley ve Washington Üniversitesi gibi kurumlar ortaklaşa bir SOTA düzeyinde çıkarım modeli olan OpenThinker-32B'yi yayınladılar ve ayrıca 114k'ya kadar eğitim verisini açık kaynaklı hale getirdiler. OpenThinker Projesi ana sayfası: OpenThinker Hugging Face:…

DeepSeek: Cherry Studio, Chatbox, AnythingLLM gibi Büyük Dil Modeli yönetim eserleri arasında verimliliğinizi kim hızlandırıyor?

DeepSeek: Cherry Studio, Chatbox, AnythingLLM gibi Büyük Dil Modeli yönetim eserleri arasında verimliliğinizi kim hızlandırıyor?

Birçok kişi Deepseek Büyük Dil Modellerini yerel olarak dağıtmaya ve kullanmaya başladı ve Chatbox'ı görselleştirme aracı olarak kullanıyor. Bu makale, iki başka AI Büyük Dil Modeli yönetimi ve görselleştirme eserini tanıtmaya devam edecek ve AI Büyük Dil Modellerini daha verimli kullanmanıza yardımcı olmak için üçünü ayrıntılı olarak karşılaştıracaktır. 2025'te,…

Le Chat, yüz milyar dolarlık yatırımla listelerin başında yer alıyor. ABD ve Çin'den sonra üçüncü yapay zeka gücü mü?

9 Şubat'ta Fransa Cumhurbaşkanı Emmanuel Macron, Fransa'nın önümüzdeki birkaç yıl içinde AI alanına 109 milyar avro (113 milyar ABD doları) yatırım yapacağını duyurdu. Bu yatırım, Fransa'da bir AI parkı inşa etmek, altyapıyı iyileştirmek ve yerel AI girişimlerine yatırım yapmak için kullanılacak. Bu arada, Fransız bir girişim olan Mistral,…

Deepseek neyi başarabilir? OpenAI bile başaramaz mı?

DeepSeek'nin gerçek değeri küçümseniyor! DeepSeek-R1 şüphesiz pazara yeni bir coşku dalgası getirdi. Sadece ilgili sözde yararlanıcı hedefleri keskin bir şekilde artmakla kalmıyor, aynı zamanda bazı insanlar bundan para kazanmak amacıyla DeepSeek ile ilgili kurslar ve yazılımlar bile geliştirdiler. Bu fenomenlerin bir…

Dünyanın ana akım AI ürünleri analiz ve kapsamlı kullanıcı deneyimi yönergelerine (DeepSeek ve GPT dahil) odaklanıyor

Dünyanın ana akım AI ürünleri analiz ve kapsamlı kullanıcı deneyimi yönergelerine (DeepSeek ve GPT dahil) odaklanıyor

Fonksiyon konumlandırma ve temel avantaj analizi ChatGPT (OpenAI) – çok yönlüler için küresel ölçüt ChatGPT Teknik genler: temel avantajları genel konuşma becerileri ve mantıksal akıl yürütme olan, büyük modellerden oluşan GPT serisine dayalı üretken AI. Çok dilli işleme: Çince'de sürekli iyileştirme ile İngilizce'de en iyi performansı gösterir; ancak İngilizce'yi kullanmanızı öneririz…

DeepSeek 1'in ardındaki sır | DeepSeekMath ve GRPO detayları

DeepSeek 1'in ardındaki sır | DeepSeekMath ve GRPO detayları

Bugün DeepSeek'den DeepSeekMath: Açık Dil Modellerinde Matematiksel Akıl Yürütmenin Sınırlarını Zorlamak başlıklı bir makale paylaşmak istiyorum. Bu makale, 120 milyar matematikle ilgili token, doğal dil ve kod verisi koleksiyonuna dayalı olarak DeepSeek-Coder-Base-v1.5 7B üzerinde önceden eğitilmiş olan DeepSeekMath 7B'yi tanıtıyor. Model, rekabetçi düzeyde 51.7% gibi şaşırtıcı bir puan elde etti…

DeepSeek-R1 teknolojisi ortaya çıkarıldı: Makalenin temel prensipleri açıklanıyor ve çığır açan model performansının anahtarı ortaya konuyor

Bugün DeepSeek R1'yi paylaşacağız, Başlık: DeepSeek-R1: Güçlendirme Öğrenimi ile LLM'lerde Muhakeme Yeteneğini Teşvik Etme: Güçlendirme öğrenimi ile LLM'nin muhakeme yeteneğini teşvik etme. Bu makale, DeepSeek'nin ilk nesil muhakeme modelleri olan DeepSeek-R1-Zero ve DeepSeek-R1'i tanıtıyor. DeepSeek-R1-Zero modeli, ilk adım olarak denetlenen ince ayar (SFT) olmadan büyük ölçekli güçlendirme öğrenimi (RL) yoluyla eğitildi,…

DeepSeek R1 makale yorumlama ve temel teknik noktalar

1 Arka Plan Bahar Festivali sırasında, DeepSeek R1 bir kez daha geniş ilgi gördü ve daha önce yazdığımız DeepSeek V3 yorumlama makalesi bile yeniden iletildi ve çokça tartışıldı. DeepSeek R1'nin birçok analizi ve yeniden üretimi olmasına rağmen, burada bazı ilgili okuma notlarını derlemeye karar verdik. Üç tane kullanacağız…