Gelecekte, daha fazla ve daha sert yenilikler olacaktır. Şu anda bunu anlamak kolay olmayabilir, çünkü tüm sosyal grubun gerçeklerle eğitilmesi gerekiyor. Bu toplum hardcore inovasyon yapan insanların başarılı olmasına izin verdiğinde, kolektif zihniyet değişecektir. Sadece bir takım gerçeklere ve bir sürece ihtiyacımız var. - Liang Wenfeng, DeepSeek'nin kurucusu
Son günlerde DeepSeek tüm dünyada patlama yaptı, ancak şirket çok düşük anahtarlı olduğu ve herhangi bir duyuru yapmadığı için, kamuoyu büyük potansiyele sahip bu teknoloji şirketi hakkında çok az şey biliyor - ister kuruluş geçmişi, ister iş kapsamı veya ürün düzeni olsun.
Tüm materyalleri gözden geçirmeyi bitirdikten sonra bu makaleyi yazdım
Mevcut YZ oyuncularının geçmişi nedir, neyin peşindeler ve kimleri işe alıyorlar?
ve muhtemelen DeepSeek'nin en kapsamlı tarihsel özeti.
Geçen yıl bu zamanlar Magic Cube Quant'tan bir arkadaşım bana geldi ve "Çin'de büyük bir model inşa etmek ister misin?" diye sordu. Ben de öğleden sonrayı kahve içerek geçirdim. Beklendiği gibi, hayat hala seçimlere bağlı.
Bu Magic Cube Quant burada bahsedilen yatırımcıdırveya DeepSeek'nin ana şirketi.
"Quant" denilen şey, kararları insan gücüyle değil algoritmalarla alan bir yatırım kurumudur. Quant Fantasy'nin kuruluşu uzun sürmedi, 2015'te başladı. Altı yaşında olduğu 2021 yılına gelindiğinde, Quant Fantasy'nin varlık yönetimi ölçeği 100 milyarı aşmış ve Çin'in "dört büyük kuant kralından" biri olarak selamlanmıştı.
Fantasy Square'in kurucusu Liang Wenfeng, aynı zamanda DeepSeek'nin de kurucusudur, 1980'lerde doğmuş "ana akım olmayan" bir finans lideridir: yurtdışı eğitim deneyimi yoktur, Olimpiyat yarışması kazanmamıştır ve Zhejiang Üniversitesi Elektronik Mühendisliği Bölümü'nden yapay zeka alanında uzmanlaşarak mezun olmuştur. Her gün "makale okuyarak, kod yazarak ve grup tartışmalarına katılarak" gösterişsiz bir şekilde hareket eden yerli bir teknoloji uzmanıdır.
Liang Wenfeng geleneksel bir işletme sahibinin alışkanlıklarına sahip değil, daha çok saf bir "teknoloji ineği" gibi. Sektördeki pek çok kişi ve DeepSeek araştırmacısı Liang Wenfeng'e son derece yüksek övgülerde bulundu: "Hem güçlü altyapı mühendisliği yeteneklerine hem de model araştırma yeteneklerine sahip olan ve aynı zamanda kaynakları harekete geçirebilen biri", "üst düzeyden doğru kararlar verebilen, ancak aynı zamanda ön saflardaki araştırmacılara göre ayrıntılarda üstünlük sağlayan biri" ve ayrıca "korkunç bir öğrenme yeteneğine" sahip.
DeepSeek kurulmadan çok önce, Huanfang yapay zeka sektöründe uzun vadeli planlar yapmaya başlamıştı. Mayıs 2023'te Liang Wenfeng, Darksurge ile yaptığı bir röportajda şunları söyledi: "OpenAI 2020'de GPT3'ü yayınladıktan sonra, YZ gelişiminin yönü çok netleşti ve bilgi işlem gücü kilit bir unsur haline gelecek; ancak 2021'de Firefly 2'nin yapımına yatırım yaptığımızda bile çoğu insan bunu hala anlayamadı."
Bu karara dayanarak Huanfang kendi bilgi işlem altyapısını oluşturmaya başladı. "İlk 1 karttan 2015'te 100 karta, 2019'da 1.000 karta ve ardından 10.000 karta kadar bu süreç kademeli olarak gerçekleşti. Birkaç yüz karttan önce bir IDC'de barındırılıyorduk. Ölçek büyüdüğünde, barındırma artık gereksinimleri karşılayamaz hale geldi, bu nedenle kendi bilgisayar odamızı inşa etmeye başladık."
Daha sonra, Finance Eleven, "Beşten fazla 10.000'den fazla GPU'ya sahip yerli şirketler ve birkaç büyük üreticiye ek olarak, Magic Cube adlı bir sayısal fon şirketini de içeriyor." Genel olarak 10.000 Nvidia A100 yongasının büyük modelleri eğitmek için gereken bilgi işlem gücü eşiği olduğuna inanılmaktadır.
Liang Wenfeng daha önceki bir röportajında ilginç bir noktaya da değinmişti: Pek çok kişi bunun arkasında bilinmeyen bir iş mantığı olduğunu düşünebilir, ancak aslında esas olarak meraktan kaynaklanmaktadır.
DeepSeek'in ilk karşılaşması
Mayıs 2023'te Darksurge ile yaptığı bir röportajda, sorulduğunda "Kısa bir süre önce Huanfang büyük modeller yapma kararını açıkladı, niceliksel bir fon neden böyle bir şey yapsın?"
Liang Wenfeng'in cevabı yankılandı: "Büyük bir model oluşturma kararımızın sayısallaştırma veya finans ile hiçbir ilgisi yoktur. Bunu yapmak için DeepSeek adında yeni bir şirket kurduk. Mianfang'daki ekibin kilit üyelerinin çoğu yapay zekâ ile ilgileniyor. O dönemde pek çok senaryo denedik ve sonunda yeterince karmaşık olan finans alanında karar kıldık. Genel yapay zeka, başarılması en zor şeylerden biri olabilir; dolayısıyla bizim için mesele neden değil nasıl yapılacağıdır.
Ticari çıkarlar ya da piyasa trendlerini takip etmekten ziyade, AGI teknolojisinin kendisini keşfetme arzusu ve "en önemli ve en zor şeyin" ısrarlı bir şekilde peşinde koşmak. "DeepSeek" ismi Mayıs 2023'te resmi olarak onaylandı. 17 Temmuz 2023 tarihinde "Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Co., Ltd." kurulmuştur.
Açık 2 Kasım 2023, DeepSeek ilk cevabını verdi: DeepSeek Coder, büyük bir açık kaynak kod modeli. Bu model 1B, 7B ve 33B gibi birden fazla boyut içerir. Açık kaynak içeriği Temel modeli ve komut ayarlama modelini içerir.
O dönemde, açık kaynak modeller arasında Meta'nın CodeLlama'sı sektörün ölçütüydü. Ancak DeepSeek Coder yayınlandıktan sonra CodeLlama'ya kıyasla çok yönlü bir liderlik pozisyonu sergiledi: kod üretiminde HumanEval 9,3%, MBPP 10,8% ve DS-1000 5,9% öndeydi.
DeepSeek Coder'ın 7B modeli olduğunu, CodeLlama'nın ise 34B modeli olduğunu unutmayın. Buna ek olarak, DeepSeek Coder modeli, talimatlarla ayarlandıktan sonra GPT3.5-Turbo'yu kapsamlı bir şekilde aşmıştır.
Kod üretimi etkileyici olmakla kalmıyor, DeepSeek Coder aynı zamanda matematik ve muhakeme alanındaki kaslarını da gösteriyor.
Üç gün sonra, 5 Kasım 2023'te DeepSeek, WeChat kamu hesabı aracılığıyla AGI büyük model stajyeri, veri uzmanı, veri mimarisi yeteneği, kıdemli veri toplama mühendisi, derin öğrenme araştırma ve geliştirme mühendisi gibi pozisyonlar da dahil olmak üzere büyük miktarda işe alım içeriği yayınladı ve ekibi aktif olarak genişletmeye başladı.
Liang Wenfeng'in dediği gibi, DeepSeek'nin yetenek alımı için "olmazsa olmaz gereksinimleri" "tutku ve sağlam temel beceriler"ve şunu vurguladı "İnovasyon mümkün olduğunca az müdahale ve yönetim gerektirir, böylece herkes hata yapma ve yeni şeyler deneme özgürlüğüne sahip olur. İnovasyon genellikle içeriden gelir, kasıtlı düzenlemelerden değil ve kesinlikle öğretmekten gelmez."
Modeller sık sık yayınlanır ve açık kaynak uygulanır
DeepSeek Coder bir sıçrama yaptıktan sonra, DeepSeek dikkatini ana savaş alanına çevirdi: genel dil modelleri.
Açık 29 Kasım 2023, DeepSeek ilk genel amaçlı büyük dil modeli olan DeepSeek LLM 67B'yi piyasaya sürdü. Bu model Meta'nın aynı seviyedeki LLaMA2 70B modeliyle kıyaslanmış ve Çince ve İngilizce olarak yaklaşık 20 genel değerlendirme listesinde daha iyi performans göstermiştir. Özellikle, muhakeme, matematik ve programlama yetenekleri (örneğin, HumanEval, MATH, CEval ve CMMLU) olağanüstüdür.
DeepSeek LLM 67B de açık kaynak yolunu seçmiştir ve ticari kullanımı desteklemektedir. DeepSeek, açık kaynak konusundaki samimiyetini ve kararlılığını daha da göstermek için, daha önce benzeri görülmemiş bir şekilde, farklı ölçeklerdeki iki modeli, 7B ve 67B'yi aynı anda kaynağa açmış ve hatta model eğitimi sürecinde oluşturulan dokuz kontrol noktasını araştırmacıların indirmesi ve kullanması için kamuya sunmuştur. "Her şeyi öğretmeye" benzeyen bu tür bir işlem, tüm açık kaynak topluluğunda son derece nadirdir.
DeepSeek LLM 67B'nin gerçek yeteneklerini daha kapsamlı ve objektif bir şekilde değerlendirmek için, DeepSeek araştırma ekibi ayrıca "stres testi" için bir dizi "yeni soru" tasarladı. Bu sorular, Macar lise matematik sınav soruları, değerlendirme setlerini takip eden Google komutu ve LeetCode haftalık yarışma soruları gibi üst düzey, yüksek ayrımcılık testlerini kapsamaktadır. Test sonuçları cesaret vericiydi. DeepSeek LLM 67B, örneklemin ötesine genelleme yeteneği açısından şaşırtıcı bir potansiyel gösterdi ve genel performansı o zamanki en gelişmiş GPT-4 modeline bile yakındı.
Açık 18 Aralık 2023, DeepSeek Vincent 3D modeli DreamCraft3D'nin kaynağını açtı: AIGC'de 2D düzlemlerden 3D uzaya sıçramayı başararak bir cümleden yüksek kaliteli 3D modeller üretebilir. Örneğin, eğer kullanıcı girdileri: "Ormanda koşarken, bir domuz kafası ve Maymun Kral'ın vücudundan oluşan komik bir melez görüntü", DreamCraft3D yüksek kaliteli içerik üretebilir:
Prensip olarak, model önce Venn şemasını tamamlar ve ardından 2D kavram haritasına dayalı genel geometrik yapıyı tamamlar:
Bunu takip eden öznel değerlendirmede, kullanıcıların 90%'den fazlası DreamCraft3D'nin önceki üretim yöntemlerine kıyasla üretim kalitesinde bir avantaja sahip olduğunu söyledi.
7 Ocak 2024 tarihinde DeepSeek, DeepSeek LLM 67B teknik raporunu yayınladı. Bu 40+ sayfalık rapor, DeepSeek LLM 67B'nin kendi kendine oluşturulmuş ölçeklendirme yasaları, model hizalamasının eksiksiz pratik ayrıntıları ve kapsamlı bir AGI yetenek değerlendirme sistemi dahil olmak üzere birçok ayrıntısını içerir.
Açık 11 Ocak 2024, DeepSeek, Çin'deki ilk MoE (karma uzman mimarisi) büyük modeli olan DeepSeekMoE'yi açık kaynaklı hale getirdi: Çince ve İngilizce'yi destekleyen ve ticari kullanım için ücretsiz olan yepyeni bir mimari. MoE mimarisi o dönemde genellikle OpenAI GPT-4'ün performans atılımının anahtarı olarak görülüyordu. DeepSeek'nin kendi geliştirdiği MoE mimarisi 2B, 16B ve 145B gibi çoklu ölçeklerde liderdir ve hesaplaması da çok övgüye değerdir.
25 Ocak 2024 tarihinde DeepSeek, DeepSeek Coder teknik raporunu yayınladı. Bu rapor, eğitim verilerinin, eğitim yöntemlerinin ve model performansının kapsamlı bir teknik analizini sunmaktadır. Bu raporda, ilk kez depo düzeyinde kod verileri oluşturduğunu ve dosyalar arasındaki bağımlılıkları analiz etmek için topolojik sıralama kullandığını ve uzun mesafeli çapraz dosyaları anlama yeteneğini önemli ölçüde geliştirdiğini görebiliriz. Eğitim yöntemleri açısından, kod tamamlama yeteneğini büyük ölçüde geliştiren Fill-In-Middle yöntemi eklenmiştir.
30 Ocak 2024'te DeepSeek açık platformu resmi olarak başlatıldı ve DeepSeek Büyük Model API hizmeti test edilmeye başlandı. Ücretsiz 10 milyon token almak için kaydolun. Arayüz OpenAI API arayüzü ile uyumludur ve her iki Sohbet/Kodlayıcı ikili modeli de mevcuttur. Şu anda DeepSeek, teknoloji araştırma ve geliştirmeye ek olarak bir teknoloji hizmet sağlayıcısının yolunu keşfetmeye başladı.
Açık 5 Şubat 2024, DeepSeek başka bir dikey etki alanı modeli olan DeepSeekMath'i yayınladıbir matematiksel muhakeme modelidir. Bu model sadece 7B parametreye sahiptir, ancak matematiksel muhakeme yeteneği GPT-4'ünkine yakındır. Yetkili MATH kıyaslama listesinde, kalabalığı geride bırakır ve 30B ile 70B arasında parametre boyutlarına sahip bir dizi açık kaynak modelden daha iyi performans gösterir. DeepSeekMath'in piyasaya sürülmesi, DeepSeek'nin dikey araştırma ve geliştirmedeki teknik gücünü ve ileriye dönük düzenini ve model araştırma ve geliştirmedeki ileriye dönük düzenini tam olarak göstermektedir.
Açık 28 Şubat 2024, geliştiricilerin DeepSeek açık kaynak modellerini kullanma konusundaki endişelerini daha da hafifletmek için, DeepSeek bir açık kaynak politikası SSS yayınladımodel açık kaynak lisanslama ve ticari kullanım kısıtlamaları gibi sıkça sorulan sorulara ayrıntılı yanıtlar sağlar. DeepSeek, açık kaynağı daha şeffaf ve açık bir tutumla benimser:
Açık 11 Mart 2024, DeepSeek çok modlu büyük model DeepSeek-VL'yi piyasaya sürdü. Bu, DeepSeek'nin çok modlu yapay zeka teknolojisine yönelik ilk girişimidir. Model 7B ve 1.3B boyutlarındadır ve model ile teknik belgeler eş zamanlı olarak açık kaynaklıdır.
Açık 20 Mart 2024, Huanfang AI & DeepSeek bir kez daha NVIDIA GTC 2024 konferansına katılmaya davet edildi ve kurucu Liang Wenfeng teknik bir açılış konuşması yaptı "Çeşitlilikte Uyum: Büyük Dil Modellerinin Değerlerinin Hizalanması ve Ayrıştırılması". "Tek değerli büyük bir model ile çoğulcu bir toplum ve kültür arasındaki çatışma", "büyük model değer uyumunun ayrıştırılması" ve "ayrıştırılmış değer uyumunun çok boyutlu zorlukları" gibi konular tartışıldı. Bu, DeepSeek'nin teknolojik araştırma ve geliştirmeye ek olarak yapay zeka gelişimi için insani özenini ve sosyal sorumluluğunu gösterdi.
Mart 2024'te, DeepSeek API Çin büyük model pazarındaki fiyat savaşının başlangıcını tamamen ateşleyen ücretli hizmetleri resmen başlattı: Milyon girdi jetonu başına 1 yuan ve milyon çıktı jetonu başına 2 yuan.
2024 yılında DeepSeek, Çin'deki büyük modellerin rekorunu başarıyla geçerek API hizmetlerinin tam olarak açılması için politika engellerini ortadan kaldırdı.
Mayıs 2024'te, açık kaynaklı genel MoE büyük modeli olan DeepSeek-V2 piyasaya sürüldü ve fiyat savaşı resmen başladı. DeepSeek-V2, modelin bellek ayak izini geleneksel MHA'nın 5%-13%'sine düşüren MLA'yı (çok kafalı gizli dikkat mekanizması) kullanır. Aynı zamanda, modelin hesaplama karmaşıklığını büyük ölçüde azaltan DeepSeek MoE Sparse seyrek yapısını da bağımsız olarak geliştirmiştir. Bu sayede model "1 yuan/milyon girdi ve 2 yuan/milyon çıktı" API fiyatını korumaktadır.
DeepSeek'nin büyük bir etkisi oldu. Bu bağlamda, SemiAnalysis'in baş analisti DeepSeek V2 makalesinin "bu yılın en iyilerinden biri olabileceğine" inanıyor. Benzer şekilde, eski bir OpenAI çalışanı olan Andrew Carr, makalenin "inanılmaz bilgelikle dolu" olduğuna inanıyor ve eğitim ayarlarını kendi modeline uyguladı.
Bunun GPT-4-Turbo'yu kıyaslayan bir model olduğu ve API fiyatının ikincisinin yalnızca 1/70'i olduğu unutulmamalıdır
Haziran ayında 17, 2024, DeepSeek bir kez daha büyük bir atılım yaparak DeepSeek Coder V2 kod modelini piyasaya sürdü açık kaynak kodludur ve kod yeteneklerinin o zamanın en gelişmiş kapalı kaynak modeli olan GPT-4-Turbo'yu aştığını iddia etmektedir. DeepSeek Coder V2, DeepSeek'nin tutarlı açık kaynak stratejisini sürdürmektedir; tüm modeller, kodlar ve makaleler açık kaynaklıdır ve 236B ve 16B olmak üzere iki versiyonu bulunmaktadır. DeepSeek C oder V2'nin API hizmetleri de çevrimiçi olarak mevcuttur ve fiyat "1 yuan/milyon girdi ve 2 yuan/milyon çıktı" olarak kalmaktadır.
Açık 21 Haziran 2024, DeepSeek Coder çevrimiçi kod yürütmeyi destekledi. Aynı gün, otomatik olarak kod üreten ve doğrudan tarayıcıda çalıştıran yeni Artifacts özelliği ile Claude3.5 Sonnet yayınlandı. Aynı gün, DeepSeek web sitesindeki kod asistanı da aynı özelliği başlattı: kod oluştur ve tek bir tıklamayla çalıştır.
Bu dönemin önemli olaylarını gözden geçirelim:
Dünya çapında dikkat çeken sürekli atılımlar
Mayıs 2024'te DeepSeek, MoE tabanlı açık kaynaklı bir model olan DeepSeek V2'yi piyasaya sürerek bir gecede ünlendi. GPT-4-Turbo'nun performansıyla eşleşti, ancak GPT-4-Turbo'nun 1/70'i olan sadece 1 yuan/milyon girdi fiyatıyla. O dönemde, DeepSeek sektörde iyi bilinen bir "fiyat kasabı" haline geldi ve ardından Zhicheng, ByteDance ve Alibaba gibi ana akım oyuncular ve diğer büyük oyuncular hızla aynı şeyi yaptı ve fiyatlarını düşürdü. Aynı zamanda GPT yasağının bir turu daha vardı ve çok sayıda AI uygulaması ilk kez yerli modelleri denemeye başladı.
Temmuz 2024'te, DeepSeek kurucusu Liang Wenfeng bir kez daha Dark Surge ile bir röportaj yapmayı kabul etti ve fiyat savaşına doğrudan yanıt verdi: "Çok beklenmedik. Fiyatın herkesi bu kadar hassaslaştırmasını beklemiyordum. İşleri kendi hızımızda yapıyoruz ve sonra maliyete göre fiyatlandırıyoruz. Prensibimiz para kaybetmemek ya da fahiş kârlar elde etmemek. Bu fiyat da maliyetin biraz üzerinde, biraz da kârlı."
Sübvansiyon için kendi ceplerinden ödeme yapan birçok rakibin aksine, DeepSeek'nin bu fiyatla kârlı olduğu görülebilir.
Bazı insanlar şöyle diyebilir: fiyat indirimleri kullanıcıları soymak gibidir ve internet çağındaki fiyat savaşlarında genellikle durum böyledir
Buna karşılık Liang Wenfeng de cevap verdi: "Kullanıcıları soymak ana hedefimiz değil. Fiyatı düşürdük çünkü bir yandan yeni nesil modelin yapısını keşfettikçe maliyet düşüyor, diğer yandan da hem API'nin hem de yapay zekanın herkes için uygun fiyatlı ve erişilebilir olması gerektiğini düşünüyoruz."
Hikaye Liang Wenfeng'in idealizmiyle devam ediyor.
4 Temmuz 2024'te DeepSeek API çevrimiçi oldu. 128K bağlam için fiyat değişmedi. Bir modelin çıkarım maliyeti bağlamın uzunluğu ile yakından ilişkilidir. Bu nedenle, birçok modelin bu uzunluk üzerinde katı kısıtlamaları vardır: GPT-3.5'in ilk sürümünde yalnızca 4k bağlam vardır.
Bu sırada DeepSeek, fiyatı değiştirmeden (milyon giriş jetonu başına 1 yuan ve milyon çıkış jetonu başına 2 yuan) bağlam uzunluğunu önceki 32k'dan 128k'ya yükseltti.
Açık 10 Temmuz 2024, dünyanın ilk yapay zeka olimpiyatının (AIMO) sonuçları açıklandı ve DeepSeekMath modeli en iyi takımların ortak tercihi oldu. Kazanan ilk 4 ekibin tümü, giriş modellerinin temeli olarak DeepSeekMath-7B'yi seçti ve yarışmada etkileyici sonuçlar elde etti.
Açık 18 Temmuz 2024, DeepSeek-V2, Chatbot Arena'daki açık kaynaklı modeller listesinin başında yer aldı, Llama3-70B, Qwen2-72B, Nemotron-4-340B ve Gemma2-27B gibi yıldız modellerini geride bırakarak açık kaynaklı büyük modeller için yeni bir ölçüt haline geldi.
İçinde Temmuz 2024, DeepSeek yetenekleri işe almaya devam etti Gelecekteki teknolojik yeniliklere ve ürün geliştirmeye hazırlanmak için AI algoritmaları, AI Infra, AI Tutor ve AI ürünleri de dahil olmak üzere birçok alanda dünyanın dört bir yanından en iyi yetenekleri işe aldı.
Açık 26 Temmuz 2024, DeepSeek API, üzerine yazma, FIM (Fill-in-the-Middle) tamamlama, Fonksiyon Çağırma ve JSON Çıktısı gibi bir dizi gelişmiş özelliği tam olarak destekleyen önemli bir yükseltme başlattı. FIM işlevi çok ilginçtir: kullanıcı başlangıç ve sonu verir ve büyük model ortayı doldurur, bu da programlama sürecinin tam işlev kodunu doldurması için çok uygundur. Örnek olarak Fibonacci dizisini yazmayı ele alalım:
Açık 2 Ağustos 2024, DeepSeek yenilikçi bir şekilde sabit disk önbellekleme teknolojisini tanıttı ve API fiyatlarını ayak bileklerine kadar düşürdü. Daha önce, API fiyatları milyon token başına yalnızca ¥1 idi. Ancak şimdi, bir önbellek isabeti yapıldığında, API ücreti doğrudan ¥0,1'e düşüyor.
Bu özellik, sürekli konuşmalar ve toplu işleme görevleri söz konusu olduğunda çok pratiktir.
Açık 16 Ağustos 2024, DeepSeek matematiksel teorem kanıtlama modeli DeepSeek-Prover-V1.5'i yayınladı açık kaynak olarak, lise ve üniversite matematik teorem kanıtlama testlerinde birçok iyi bilinen açık kaynak modelini geride bıraktı.
Açık 6 Eylül 2024, DeepSeek, DeepSeek-V2.5 füzyon modelini piyasaya sürdü. Daha önce DeepSeek temel olarak iki model sunmaktaydı: Sohbet modeli genel konuşma becerilerine, Kod modeli ise kod işleme becerilerine odaklanmaktaydı. Bu kez, iki model tek bir modelde birleştirildi ve insan tercihleriyle daha iyi uyum sağlayan ve ayrıca yazma görevleri, komut takibi ve diğer yönlerde önemli iyileştirmeler sağlayan DeepSeek-V2.5'e yükseltildi.
Açık 18 Eylül 2024, DeepSeek-V2.5 bir kez daha en son LMSYS listesinde yer alarak yerli modellere öncülük etti ve birden fazla bireysel yetenekte yerli modeller için yeni en iyi skorları belirledi.
Açık 20 Kasım 2024, DeepSeek, DeepSeek-R1-Lite'ı piyasaya sürdü resmi web sitesinde. Bu, o1-preview ile karşılaştırılabilir bir çıkarım modelidir ve ayrıca V3'ün eğitim sonrası için yeterli miktarda sentetik veri sağlar.
Açık 10 Aralık 2024, DeepSeek V2 serisi, DeepSeek-V2.5-1210'un son ince ayarlı sürümünün piyasaya sürülmesiyle finalini başlattı. Bu versiyon, eğitim sonrası matematik, kodlama, yazma ve rol yapma gibi çoklu yetenekleri kapsamlı bir şekilde geliştirir.
Bu sürümün gelmesiyle birlikte, DeepSeek web uygulaması ağ arama işlevini de açtı.
Açık 13 Aralık 2024, DeepSeek multimodalite alanında bir atılım daha yaptı ve açık kaynaklı multimodal büyük model DeepSeek-VL2'yi piyasaya sürdü. DeepSeek-VL2, görsel yeteneklerini önemli ölçüde geliştiren MoE mimarisini benimser. Üç boyutta mevcuttur: 3B, 16B ve 27B ve tüm ölçümlerde avantaja sahiptir.
Açık 26 Aralık 2024'te DeepSeek-V3 açık kaynak kodlu olarak piyasaya sürüldü: tahmini eğitim maliyeti sadece 5,5 milyon ABD dolarıydı. DeepSeek-V3, yurtdışındaki önde gelen kapalı kaynak modellerinin performansını tam olarak karşılaştırmış ve üretim hızını büyük ölçüde geliştirmiştir.
API hizmetlerinin fiyatlandırması ayarlandı, ancak aynı zamanda yeni model için 45 günlük tercihli bir deneme süresi belirlendi.
15 Ocak 2025'te resmi DeepSeek uygulaması resmi olarak yayınlandı ve başlıca iOS/Android uygulama marketlerinde tamamen kullanıma sunuldu.
20 Ocak 2025'te, Çin Yeni Yılı'na yakın bir tarihte, DeepSeek-R1 çıkarım modeli resmi olarak yayınlandı ve açık kaynaklı hale getirildi. DeepSeek-R1, performansını resmi OpenAI o1 sürümüyle tamamen uyumlu hale getirdi ve düşünce zinciri çıktı işlevini açtı. Aynı zamanda DeepSeek, model açık kaynak lisansının MIT lisansı olarak değiştirileceğini ve kullanıcı sözleşmesinin açıkça "model damıtmaya" izin vereceğini, açık kaynağı daha fazla kucaklayacağını ve teknoloji paylaşımını teşvik edeceğini de duyurdu.
Daha sonra bu model çok popüler oldu ve yeni bir çağ başlattı
Sonuç olarak, 27 Ocak 2025 itibariyle DeepSeek Uygulaması ChatGPT'yi başarıyla geride bırakarak ABD iOS App Store'daki ücretsiz uygulama indirme listesinin zirvesine yerleşti ve olağanüstü bir yapay zeka uygulaması haline geldi.
27 Ocak 2025'te, yılbaşı gecesi saat 1:00'de, DeepSeek Janus-Pro açık kaynak olarak yayınlandı. Bu, adını antik Roma mitolojisindeki iki yüzlü tanrı Janus'tan alan çok modlu bir modeldir: hem geçmişe hem de geleceğe bakar. Bu aynı zamanda modelin iki yeteneğini -görsel anlama ve görüntü oluşturma- ve çoklu sıralamalara hakimiyetini temsil eder.
DeepSeek'nin patlayan popülaritesi derhal küresel bir teknoloji şok dalgasını tetikledi, hatta doğrudan NVIDIA'nın hisse senedi fiyatının 18% düşmesine ve küresel teknoloji hisse senedi piyasasının piyasa değerinin yaklaşık 1 trilyon ABD doları buharlaşmasına neden oldu. Wall Street ve teknoloji medyası, DeepSeek'nin yükselişinin küresel yapay zeka endüstrisi manzarasını altüst ettiğini ve Amerikan teknoloji devlerine eşi benzeri görülmemiş bir meydan okuma oluşturduğunu haykırdı.
DeepSeek'nin başarısı, Çin'in yapay zeka teknolojik inovasyon yetenekleri hakkında yüksek uluslararası ilgiyi ve hararetli tartışmaları da tetikledi. ABD Başkanı Donald Trump, kamuoyuna yaptığı nadir bir yorumda, DeepSeek'nin yükselişini "olumlu" olarak övdü ve bunun ABD için bir "uyandırma çağrısı" olduğunu söyledi. Microsoft CEO'su Satya Nadella ve OpenAI CEO'su Sam Altman da DeepSeek'yi överek teknolojisini "çok etkileyici" olarak nitelendirdi.
Elbette bu övgülerin kısmen DeepSeek'nin gücünün tanınması, kısmen de kendi güdülerinin bir yansıması olduğunu da anlamalıyız. Örneğin, Anthropic DeepSeek'nin başarılarını kabul ederken, aynı zamanda ABD hükümetini Çin üzerindeki çip kontrollerini güçlendirmeye çağırıyor.
Antropik CEO 10.000 kelimelik bir makale yayınladı: DeepSeek'nin yükselişi Beyaz Saray'ın kontrolleri artırması gerektiği anlamına geliyor
Özet ve genel görünüm
DeepSeek'nin son iki yılına baktığımızda, gerçekten bir "Çin mucizesi" olduğunu görüyoruz: bilinmeyen bir girişimden, şu anda küresel yapay zeka sahnesinde parlayan "gizemli Doğu gücüne" dönüşen DeepSeek, gücü ve yenilikçiliğiyle birbiri ardına "imkansız" yazdı.
Bu teknolojik keşif gezisinin daha derin anlamı, ticari rekabetin kapsamını çoktan aştı. DeepSeek şu gerçekleri açıklamıştır Geleceği ilgilendiren stratejik yapay zeka alanında Çinli şirketler, çekirdek teknolojinin zirvelerine tırmanma konusunda tamamen yeteneklidir.
Trump'ın çaldığı "alarm zili" ve Antropik'in gizli korkusu, Çin'in YZ yeteneklerinin önemini tam olarak doğruluyor: sadece dalgaları yönlendirmekle kalmıyor, aynı zamanda gelgitin yönünü de yeniden şekillendiriyor
Deepseek ürün serbest bırakma kilometre taşları
- 2 Kasım 2023: DeepSeek Kodlayıcı Büyük Model
- 29 Kasım 2023: DeepSeek LLM 67B Evrensel Model
- 18 Aralık 2023: DreamCraft3D 3D model
- 11 Ocak 2024: DeepSeekMoE MoE büyük model
- 5 Şubat 2024: DeepSeekMath Matematiksel akıl yürütme modeli
- 11 Mart 2024: DeepSeek-VL Multimodal büyük model
- Mayıs 2024: DeepSeek-V2 MoE genel modeli
- 17 Haziran 2024: DeepSeek Kodlayıcı V2 kod modeli
- 6 Eylül 2024: DeepSeek-V2.5 genel ve kod yetkinlik modellerinin birleştirilmesi
- 13 Aralık 2024: DeepSeek-VL2 multimodal MoE modeli
- 26 Aralık 2024: DeepSeek-V3 yeni genel amaçlı büyük modeller serisi
- 20 Ocak 2025: DeepSeek-R1 çıkarım modeli
- 20 Ocak 2025: DeepSeek resmi uygulaması (iOS & Android)
- 27 Ocak 2025: DeepSeek Janus-Pro multimodal model