Pada masa hadapan, akan ada lebih banyak inovasi tegar. Ia mungkin tidak mudah untuk difahami sekarang, kerana keseluruhan kumpulan sosial perlu dididik dengan fakta. Apabila masyarakat ini membenarkan orang yang berinovasi tegar berjaya, pemikiran kolektif akan berubah. Kami hanya memerlukan sekumpulan fakta dan proses. — Liang Wenfeng, pengasas DeepSeek
Dalam beberapa hari kebelakangan ini, DeepSeek telah meletup di seluruh dunia, tetapi kerana syarikat itu begitu sederhana dan tidak membuat sebarang pengumuman, orang ramai mengetahui serba sedikit tentang syarikat teknologi ini yang berpotensi besar – sama ada latar belakang penubuhannya, skop perniagaannya. , atau susun atur produk.
Selepas selesai menyusun semua bahan, saya menulis artikel ini
Apakah latar belakang pemain AI semasa, apa yang mereka lakukan, dan siapa yang mereka rekrut?
dan mungkin gambaran keseluruhan sejarah DeepSeek yang paling lengkap.
Kali ini tahun lepas, seorang rakan dari Magic Cube Quant datang kepada saya dan bertanya, "Adakah anda mahu membina model besar di China?" Dan saya hanya menghabiskan waktu petang dengan minum kopi. Seperti yang dijangka, hidup masih bergantung pada pilihan.
The Magic Cube Quant yang disebut di sini ialah pelabur, atau syarikat induk, DeepSeek.
Apa yang dipanggil "kuan" adalah institusi pelaburan yang membuat keputusan bukan oleh kuasa manusia tetapi oleh algoritma. Penubuhan Quant Fantasy tidak lama, bermula pada 2015. Menjelang 2021, apabila ia berusia enam tahun, skala pengurusan aset Quant Fantasy telah melebihi 100 bilion, dan ia telah dipuji sebagai salah satu daripada "empat raja kuantum yang hebat" China.
Pengasas Fantasy Square, Liang Wenfeng, yang juga pengasas DeepSeek, ialah pemimpin kewangan "bukan arus perdana" yang dilahirkan pada 1980-an: dia tidak mempunyai pengalaman belajar di luar negara, bukan pemenang pertandingan Olimpik, dan lulus dari Jabatan Kejuruteraan Elektronik di Universiti Zhejiang, dalam pengkhususan kecerdasan buatan. Beliau ialah pakar teknologi asli yang bertindak dengan cara yang rendah, "membaca kertas kerja, menulis kod dan mengambil bahagian dalam perbincangan kumpulan" setiap hari.
Liang Wenfeng tidak mempunyai tabiat pemilik perniagaan tradisional, tetapi lebih seperti "geek teknologi" tulen. Ramai orang dalam industri dan penyelidik DeepSeek telah memberikan pujian yang sangat tinggi kepada Liang Wenfeng: "seseorang yang mempunyai kedua-dua keupayaan kejuruteraan infra yang kuat dan keupayaan penyelidikan model, dan juga boleh menggerakkan sumber," "seseorang yang boleh membuat pertimbangan yang tepat dari peringkat tinggi, tetapi juga cemerlang. pada butiran mengenai penyelidik barisan hadapan," dan juga mempunyai "keupayaan pembelajaran yang menakutkan."
Jauh sebelum DeepSeek diasaskan, Huanfang sudah mula membuat rancangan jangka panjang dalam industri AI. Pada Mei 2023, Liang Wenfeng menyebut dalam temu bual dengan Darksurge: “Selepas OpenAI mengeluarkan GPT3 pada 2020, hala tuju pembangunan AI telah menjadi sangat jelas, dan kuasa pengkomputeran akan menjadi elemen utama; tetapi walaupun pada tahun 2021, apabila kami melabur dalam pembinaan Firefly 2, kebanyakan orang masih tidak dapat memahaminya.”
Berdasarkan pertimbangan ini, Huanfang mula membina infrastruktur pengkomputeran sendiri. “Daripada 1 kad terawal, kepada 100 kad pada 2015, 1,000 kad pada 2019, dan kemudian 10,000 kad, proses ini berlaku secara beransur-ansur. Sebelum beberapa ratus kad, kami dihoskan di IDC. Apabila skala menjadi lebih besar, pengehosan tidak lagi dapat memenuhi keperluan, jadi kami mula membina bilik komputer kami sendiri.”
Kemudian, Finance Eleven melaporkan, “Tidak lebih daripada lima syarikat domestik dengan lebih daripada 10,000 GPU, dan sebagai tambahan kepada beberapa pengeluar utama, mereka juga termasuk syarikat dana kuantitatif yang dipanggil Magic Cube.” Secara amnya dipercayai bahawa 10,000 cip Nvidia A100 adalah ambang kuasa pengkomputeran untuk melatih model besar.
Dalam temu bual sebelum ini, Liang Wenfeng juga menyebut satu perkara yang menarik: ramai orang akan fikir ada logik perniagaan yang tidak diketahui di sebaliknya, tetapi sebenarnya, ia terutamanya didorong oleh rasa ingin tahu.
DeepSeekpertemuan pertama
Dalam temu bual dengan Darksurge pada Mei 2023, apabila ditanya "Tidak lama dahulu, Huanfang mengumumkan keputusannya untuk membuat model besar, mengapa dana kuantitatif melakukan perkara sedemikian?"
Jawapan Liang Wenfeng sangat kuat: “Keputusan kami untuk membina model besar tiada kaitan dengan kuantiti atau kewangan. Kami telah menubuhkan syarikat baharu yang dipanggil DeepSeek untuk melakukan ini. Ramai ahli utama pasukan di Mianfang terlibat dalam kecerdasan buatan. Pada masa itu, kami mencuba banyak senario dan akhirnya menyelesaikan masalah kewangan, yang cukup rumit. Kecerdasan buatan am mungkin salah satu perkara yang paling sukar untuk dicapai, jadi bagi kami, ini adalah persoalan bagaimana untuk melakukannya, bukan mengapa.
Tidak didorong oleh minat komersial atau mengejar trend pasaran, tetapi hanya didorong oleh keinginan untuk meneroka teknologi AGI itu sendiri dan usaha berterusan untuk "perkara yang paling penting dan sukar," nama "DeepSeek" telah disahkan secara rasmi pada Mei 2023. Pada 17 Julai 2023, "Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Co., Ltd." telah diperbadankan.
hidup 2 November 2023, DeepSeek menyampaikan jawapan pertamanya: DeepSeek Coder, model besar kod sumber terbuka. Model ini termasuk berbilang saiz seperti 1B, 7B dan 33B. Kandungan sumber terbuka termasuk model Base dan model penalaan arahan.
Pada masa itu, antara model sumber terbuka, CodeLlama Meta adalah penanda aras industri. Walau bagaimanapun, sebaik sahaja DeepSeek Coder dikeluarkan, ia menunjukkan kedudukan pendahulu berbilang muka berbanding dengan CodeLlama: dalam penjanaan kod, HumanEval berada di hadapan 9.3%, MBPP di hadapan 10.8% dan DS-1000 di hadapan 5.9%.
Perlu diingat bahawa Coder DeepSeek ialah model 7B, manakala CodeLlama ialah model 34B. Selain itu, model Coder DeepSeek, selepas ditala dengan arahan, telah mengatasi GPT3.5-Turbo secara menyeluruh.
Bukan sahaja penjanaan kod mengagumkan, malah DeepSeek Coder juga menunjukkan ototnya dalam matematik dan penaakulan.
Tiga hari kemudian, pada 5 November 2023, DeepSeek mengeluarkan sejumlah besar kandungan pengambilan melalui akaun awam WeChatnya, termasuk jawatan seperti pelatih model besar AGI, pakar data, bakat seni bina data, jurutera pengumpulan data kanan, penyelidikan dan pembangunan pembelajaran mendalam jurutera, dsb., dan mula mengembangkan pasukan secara aktif.
Seperti yang dikatakan Liang Wenfeng, “Keperluan yang mesti ada” DeepSeek untuk pengambilan bakat ialah “semangat dan kemahiran asas yang kukuh”, dan beliau menekankan bahawa “Inovasi memerlukan campur tangan dan pengurusan sesedikit mungkin, supaya setiap orang mempunyai kebebasan untuk melakukan kesilapan dan mencuba perkara baharu. Inovasi selalunya datang dari dalam, bukan dari pengaturan yang disengajakan, dan pastinya bukan dari pengajaran.”
Model sering dikeluarkan, dan sumber terbuka diamalkan
Selepas DeepSeek Coder membuat percikan, DeepSeek mengalihkan perhatiannya kepada medan perang utama: model bahasa umum.
hidup 29 November 2023, DeepSeek mengeluarkan model bahasa besar tujuan umum pertamanya, DeepSeek LLM 67B. Model ini ditanda aras dengan model LLaMA2 70B Meta pada tahap yang sama dan telah menunjukkan prestasi yang lebih baik dalam hampir 20 senarai penilaian awam dalam bahasa Cina dan Inggeris. Khususnya, kebolehan penaakulan, matematik dan pengaturcaraannya (cth, HumanEval, MATH, CEval dan CMMLU) adalah cemerlang.
DeepSeek LLM 67B juga telah memilih laluan sumber terbuka dan menyokong penggunaan komersial. Untuk terus menunjukkan keikhlasan dan keazamannya terhadap sumber terbuka, DeepSeek telah membuka sumber secara serentak dua model skala berbeza, 7B dan 67B, malah mendedahkan sembilan pusat pemeriksaan yang dijana semasa proses latihan model untuk dimuat turun dan digunakan oleh penyelidik. Operasi jenis ini, yang serupa dengan "mengajar segala-galanya", sangat jarang berlaku dalam keseluruhan komuniti sumber terbuka.
Untuk menilai dengan lebih komprehensif dan objektif keupayaan sebenar DeepSeek LLM 67B, pasukan penyelidik DeepSeek juga mereka bentuk dengan teliti satu siri "soalan baharu" untuk "ujian tekanan". Soalan ini merangkumi ujian peringkat tinggi dan diskriminasi tinggi seperti soalan peperiksaan matematik sekolah menengah Hungary, set penilaian berikut arahan Google dan soalan pertandingan mingguan LeetCode. Keputusan ujian adalah memberangsangkan. DeepSeek LLM 67B menunjukkan potensi yang menakjubkan dari segi keupayaannya untuk membuat generalisasi di luar sampel, dan prestasi keseluruhannya adalah hampir sama dengan model GPT-4 yang paling maju ketika itu.
hidup 18 Disember 2023, DeepSeek membuka sumber model 3D Vincent DreamCraft3D: ia boleh menjana model 3D berkualiti tinggi daripada ayat, mencapai lonjakan daripada satah 2D kepada ruang 3D dalam AIGC. Contohnya, jika pengguna memasukkan: "Berlari melalui hutan, imej hibrid lucu kepala babi dan badan Raja Monyet," DreamCraft3D boleh mengeluarkan kandungan berkualiti tinggi:
Pada dasarnya, model pertama melengkapkan gambar rajah Venn, dan kemudian menambah struktur geometri keseluruhan berdasarkan peta konsep 2D:
Dalam penilaian subjektif yang diikuti, lebih daripada 90% pengguna mengatakan bahawa DreamCraft3D mempunyai kelebihan dalam kualiti penjanaan berbanding kaedah generasi sebelumnya.
Pada 7 Januari 2024, DeepSeek mengeluarkan laporan teknikal DeepSeek LLM 67B. Laporan 40+ halaman ini mengandungi banyak butiran DeepSeek LLM 67B, termasuk undang-undang penskalaan yang dibina sendiri, butiran praktikal lengkap penjajaran model dan sistem penilaian keupayaan AGI yang komprehensif.
hidup 11 Januari 2024, DeepSeek menggunakan sumber terbuka model besar MoE (seni bina pakar campuran) pertama di China, DeepSeekMoE: seni bina serba baharu yang menyokong bahasa Cina dan Inggeris serta percuma untuk kegunaan komersial. Seni bina MoE pada umumnya dianggap pada masa itu sebagai kunci kepada kejayaan prestasi OpenAI GPT-4. Seni bina MoE DeepSeek yang dibangunkan sendiri mendahului dalam pelbagai skala seperti 2B, 16B dan 145B, dan pengiraannya juga sangat dipuji.
Pada 25 Januari 2024, DeepSeek mengeluarkan laporan teknikal Pengekod DeepSeek. Laporan ini menyediakan analisis teknikal yang komprehensif tentang data latihan, kaedah latihan dan prestasi modelnya. Dalam laporan ini, kita dapat melihat bahawa buat pertama kalinya, ia telah membina data kod peringkat gudang dan menggunakan pengisihan topologi untuk menganalisis kebergantungan antara fail, dengan ketara meningkatkan keupayaan untuk memahami fail silang jarak jauh. Dari segi kaedah latihan, kaedah Fill-In-Middle telah ditambah, yang sangat meningkatkan keupayaan penyiapan kod.
Pada 30 Januari 2024, platform terbuka DeepSeek telah dilancarkan secara rasmi, dan perkhidmatan API Model Besar DeepSeek mula diuji. Daftar untuk mendapatkan 10 juta token secara percuma. Antara muka adalah serasi dengan antara muka OpenAI API, dan kedua-dua model dwi Chat/Coder tersedia. Pada masa ini, DeepSeek mula meneroka laluan penyedia perkhidmatan teknologi selain penyelidikan dan pembangunan teknologi.
hidup 5 Februari 2024, DeepSeek mengeluarkan satu lagi model domain menegak, DeepSeekMath, model penaakulan matematik. Model ini hanya mempunyai parameter 7B, tetapi keupayaan penaakulan matematiknya hampir dengan GPT-4. Pada senarai penanda aras MATH yang berwibawa, ia mengatasi orang ramai dan mengatasi beberapa model sumber terbuka dengan saiz parameter antara 30B dan 70B. Keluaran DeepSeekMath menunjukkan sepenuhnya kekuatan teknikal DeepSeek dan susun atur berpandangan ke hadapan dalam penyelidikan dan pembangunan menegak serta susun aturnya yang berpandangan ke hadapan dalam penyelidikan dan pembangunan model.
hidup 28 Februari 2024, untuk mengurangkan lagi kebimbangan pembangun tentang menggunakan model sumber terbuka DeepSeek, DeepSeek mengeluarkan FAQ dasar sumber terbuka, yang memberikan jawapan terperinci kepada soalan lazim seperti model pelesenan sumber terbuka dan sekatan penggunaan komersial. DeepSeek menerima sumber terbuka dengan sikap yang lebih telus dan terbuka:
hidup 11 Mac 2024, DeepSeek mengeluarkan model besar berbilang mod DeepSeek-VL. Ini adalah percubaan awal DeepSeek pada teknologi AI berbilang modal. Model ini bersaiz 7B dan 1.3B, dan model serta kertas teknikal adalah sumber terbuka secara serentak.
hidup 20 Mac 2024, Huanfang AI & DeepSeek sekali lagi dijemput untuk menyertai persidangan NVIDIA GTC 2024, dan pengasas Liang Wenfeng menyampaikan ucaptama teknikal bertajuk “Keharmonian dalam Kepelbagaian: Menjajarkan dan Meniru Nilai-Nilai Model Bahasa Besar”. Isu seperti "konflik antara model besar nilai tunggal dan masyarakat dan budaya majmuk," "penyelesaian penjajaran nilai model besar," dan "cabaran multidimensi penjajaran nilai dipisahkan" telah dibincangkan. Ini menunjukkan penjagaan kemanusiaan dan tanggungjawab sosial DeepSeek untuk pembangunan AI, di samping penyelidikan dan pembangunan teknologinya.
Pada Mac 2024, API DeepSeek melancarkan perkhidmatan berbayar secara rasmi, yang benar-benar mencetuskan permulaan perang harga dalam pasaran model besar China: 1 yuan bagi setiap juta token input dan 2 yuan bagi setiap juta token keluaran.
Pada tahun 2024, DeepSeek berjaya melepasi rekod model besar di China, menyelesaikan halangan dasar untuk pembukaan penuh perkhidmatan APInya.
Pada Mei 2024, DeepSeek-V2, model besar MoE am sumber terbuka, telah dikeluarkan, dan perang harga bermula secara rasmi. DeepSeek-V2 menggunakan MLA (mekanisme perhatian terpendam berbilang kepala), yang mengurangkan jejak memori model kepada 5%-13% daripada MHA tradisional. Pada masa yang sama, ia juga telah membangunkan struktur jarang DeepSeek MoE MoE secara bebas, yang mengurangkan kerumitan pengiraan model. Terima kasih kepada ini, model ini mengekalkan harga API "1 yuan/juta input dan 2 yuan/juta output".
DeepSeek mempunyai impak yang besar. Dalam hal ini, penganalisis utama di SemiAnalysis percaya bahawa kertas DeepSeek V2 "mungkin antara yang terbaik tahun ini." Begitu juga, Andrew Carr, bekas pekerja OpenAI, percaya bahawa kertas itu "penuh dengan kebijaksanaan yang menakjubkan" dan telah menggunakan tetapan latihannya pada modelnya sendiri.
Perlu diingat bahawa ini adalah model yang menanda aras GPT-4-Turbo, dan harga API hanya 1/70 daripada yang terakhir
Pada bulan Jun 17, 2024, DeepSeek sekali lagi membuat dorongan besar, mengeluarkan model kod DeepSeek Coder V2 sumber terbuka dan mendakwa bahawa keupayaan kodnya mengatasi GPT-4-Turbo, model sumber tertutup paling maju pada masa itu. DeepSeek Coder V2 meneruskan strategi sumber terbuka DeepSeek yang konsisten, dengan semua model, kod dan kertas bersumber terbuka, dan dua versi, 236B dan 16B, disediakan. Perkhidmatan API DeepSeek C oder V2 juga tersedia dalam talian, dan harga kekal pada "1 yuan/juta input dan 2 yuan/juta output".
hidup 21 Jun 2024, DeepSeek Coder menyokong pelaksanaan kod dalam talian. Pada hari yang sama, Claude3.5 Sonnet telah dikeluarkan, dengan ciri Artifak baharu, yang secara automatik menjana kod dan menjalankannya terus dalam penyemak imbas. Pada hari yang sama, pembantu kod di laman web DeepSeek juga melancarkan ciri yang sama: menjana kod dan menjalankannya dengan satu klik.
Mari kita semak peristiwa utama dalam tempoh ini:
Kejayaan berterusan, menarik perhatian global
Pada Mei 2024, DeepSeek menjadi terkenal semalaman dengan mengeluarkan DeepSeek V2, model sumber terbuka berdasarkan MoE. Ia sepadan dengan prestasi GPT-4-Turbo, tetapi pada harga input 1 yuan/juta sahaja, iaitu 1/70 GPT-4-Turbo. Pada masa itu, DeepSeek menjadi "penjual daging harga" yang terkenal dalam industri, dan kemudian pemain arus perdana seperti Zhicheng, ByteDance, dan Alibaba... dan pemain utama lain dengan pantas mengikutinya dan menurunkan harga mereka. Pada masa itu juga terdapat satu lagi pusingan larangan GPT, dan sejumlah besar aplikasi AI mula mencuba model domestik buat kali pertama.
Pada Julai 2024, pengasas DeepSeek Liang Wenfeng sekali lagi menerima temu bual dengan Dark Surge dan bertindak balas terus kepada perang harga: “Sangat tidak dijangka. Saya tidak sangka harganya membuatkan semua orang begitu sensitif. Kami hanya melakukan perkara mengikut kadar kami sendiri dan kemudian harga berdasarkan kos. Prinsip kami adalah untuk tidak kehilangan wang atau mengaut keuntungan yang terlalu tinggi. Harga ini juga sedikit di atas kos dengan sedikit keuntungan.”
Dapat dilihat bahawa, tidak seperti kebanyakan pesaing yang membayar dari poket mereka sendiri untuk memberi subsidi, DeepSeek menguntungkan pada harga ini.
Sesetengah orang mungkin berkata: pemotongan harga adalah seperti merompak pengguna, dan ini biasanya berlaku dalam perang harga di era Internet
Sebagai tindak balas, Liang Wenfeng juga menjawab: “Merompak pengguna bukan matlamat utama kami. Kami menurunkan harga kerana, dalam satu pihak, kos telah berkurangan semasa kami meneroka struktur model generasi akan datang, dan sebaliknya, kami merasakan bahawa kedua-dua API dan AI sepatutnya mampu milik dan boleh diakses oleh semua orang. ”
Jadi cerita diteruskan dengan idealisme Liang Wenfeng.
Pada 4 Julai 2024, API DeepSeek telah berada dalam talian. Harga untuk konteks 128K kekal tidak berubah. Kos inferens model berkait rapat dengan panjang konteks. Oleh itu, banyak model mempunyai sekatan ketat pada panjang ini: versi awal GPT-3.5 hanya mempunyai konteks 4k.
Pada masa ini, DeepSeek meningkatkan panjang konteks daripada 32k sebelumnya kepada 128k sambil mengekalkan harga tidak berubah (1 yuan bagi setiap juta token input dan 2 yuan bagi setiap juta token output).
hidup 10 Julai 2024, keputusan Olimpik AI (AIMO) pertama di dunia telah diumumkan, dan model DeepSeekMath menjadi pilihan umum pasukan Teratas. Pasukan 4 Terbaik yang menang semuanya memilih DeepSeekMath-7B sebagai asas untuk model penyertaan mereka dan mencapai keputusan yang mengagumkan dalam pertandingan.
hidup 18 Julai 2024, DeepSeek-V2 mendahului senarai model sumber terbuka di Arena Chatbot, mengatasi model bintang seperti Llama3-70B, Qwen2-72B, Nemotron-4-340B dan Gemma2-27B, dan menjadi penanda aras baharu untuk model besar sumber terbuka.
Dalam Julai 2024, DeepSeek terus merekrut bakat dan merekrut bakat terbaik dari seluruh dunia dalam pelbagai bidang, termasuk algoritma AI, AI Infra, AI Tutor dan produk AI, untuk mempersiapkan inovasi teknologi dan pembangunan produk masa hadapan.
hidup 26 Julai 2024, API DeepSeek telah memulakan peningkatan penting, menyokong sepenuhnya siri ciri lanjutan seperti menulis ganti, penyiapan FIM (Isi-Tengah), Panggilan Fungsi dan Output JSON. Fungsi FIM sangat menarik: pengguna memberikan permulaan dan akhir, dan model besar mengisi di tengah, yang sangat sesuai untuk proses pengaturcaraan untuk mengisi kod fungsi yang tepat. Ambil menulis urutan Fibonacci sebagai contoh:
hidup 2 Ogos 2024, DeepSeek secara inovatif memperkenalkan teknologi caching cakera keras, mengurangkan harga API hingga ke buku lali. Sebelum ini, harga API hanya ¥1 setiap juta token. Walau bagaimanapun, kini, sebaik sahaja hit cache dibuat, yuran API turun terus kepada ¥0.1.
Ciri ini sangat praktikal apabila perbualan berterusan dan tugas pemprosesan kelompok terlibat.
hidup 16 Ogos 2024, DeepSeek mengeluarkan model pembuktian teorem matematiknya DeepSeek-Prover-V1.5 sebagai sumber terbuka, yang mengatasi banyak model sumber terbuka yang terkenal dalam ujian pembuktian teorem matematik sekolah menengah dan kolej.
hidup 6 September 2024, DeepSeek mengeluarkan model gabungan DeepSeek-V2.5. Sebelum ini, DeepSeek menyediakan dua model terutamanya: model Sembang memfokuskan pada kemahiran perbualan umum, dan model Kod memfokuskan pada kemahiran memproses kod. Kali ini, kedua-dua model telah digabungkan menjadi satu, dinaik taraf kepada DeepSeek-V2.5, yang lebih sejajar dengan keutamaan manusia dan juga telah mencapai peningkatan yang ketara dalam tugasan menulis, mengikuti arahan dan aspek lain.
hidup 18 September 2024, DeepSeek-V2.5 sekali lagi berada dalam senarai LMSYS terkini, menerajui model domestik dan menetapkan skor terbaik baharu untuk model domestik dalam pelbagai kebolehan individu.
hidup 20 November 2024, DeepSeek mengeluarkan DeepSeek-R1-Lite di laman web rasmi. Ini ialah model inferens yang setanding dengan pratonton o1, dan juga menyediakan jumlah data sintetik yang mencukupi untuk latihan pasca V3.
hidup 10 Disember 2024, siri DeepSeek V2 memulakan penamatnya dengan keluaran versi penalaan halus terakhir DeepSeek-V2.5-1210. Versi ini secara menyeluruh meningkatkan pelbagai kebolehan termasuk matematik, pengekodan, penulisan dan main peranan melalui latihan selepas.
Dengan ketibaan versi ini, apl web DeepSeek turut membuka fungsi carian rangkaian.
hidup 13 Disember 2024, DeepSeek membuat satu lagi kejayaan dalam bidang multimodaliti dan mengeluarkan model besar multimodal sumber terbuka DeepSeek-VL2. DeepSeek-VL2 mengguna pakai seni bina MoE, yang meningkatkan keupayaan visualnya dengan ketara. Ia tersedia dalam tiga saiz: 3B, 16B dan 27B, dan mempunyai kelebihan dalam semua metrik.
hidup 26 Disember 2024, DeepSeek-V3 dikeluarkan dengan sumber terbuka: anggaran kos latihan hanya 5.5 juta dolar AS. DeepSeek-V3 menanda aras sepenuhnya prestasi model sumber tertutup terkemuka di luar negara dan meningkatkan kelajuan penjanaan.
Harga perkhidmatan API telah diselaraskan, tetapi pada masa yang sama, tempoh percubaan keutamaan selama 45 hari telah ditetapkan untuk model baharu.
Pada 15 Januari 2025, apl rasmi DeepSeek telah dikeluarkan secara rasmi dan dilancarkan sepenuhnya pada pasaran apl iOS/Android utama.
Pada 20 Januari 2025, menjelang Tahun Baharu Cina, model inferens DeepSeek-R1 telah dikeluarkan secara rasmi dan bersumberkan terbuka. DeepSeek-R1 menyelaraskan sepenuhnya prestasinya dengan keluaran rasmi OpenAI o1 dan membuka fungsi output rantaian pemikiran. Pada masa yang sama, DeepSeek juga mengumumkan bahawa lesen sumber terbuka model akan ditukar kepada lesen MIT, dan perjanjian pengguna secara jelas akan membenarkan "penyulingan model", seterusnya menerima sumber terbuka dan mempromosikan perkongsian teknologi.
Kemudian, model ini menjadi sangat popular dan membawa kepada era baru
Hasilnya, setakat 27 Januari 2025, Apl DeepSeek berjaya mengatasi ChatGPT dan mendahului senarai muat turun apl percuma di Gedung Apl iOS AS, menjadi apl AI yang luar biasa.
Pada 27 Januari 2025, jam 1:00 pagi pada Malam Tahun Baru, DeepSeek Janus-Pro telah dikeluarkan sebagai sumber terbuka. Ini adalah model multimodal yang dinamakan sempena dewa Janus bermuka dua dalam mitologi Rom purba: ia menghadapi masa lalu dan masa depan. Ini juga mewakili dua kebolehan model—pemahaman visual dan penjanaan imej—dan penguasaannya dalam berbilang kedudukan.
Populariti letupan DeepSeek serta-merta mencetuskan gelombang kejutan teknologi global, malah secara langsung menyebabkan harga saham NVIDIA menjunam 18%, dan nilai pasaran pasaran saham teknologi global menguap sebanyak kira-kira 1 trilion dolar AS. Wall Street dan media teknologi menyatakan bahawa peningkatan DeepSeek meruntuhkan landskap industri AI global dan menimbulkan cabaran yang tidak pernah berlaku sebelum ini kepada gergasi teknologi Amerika.
Kejayaan DeepSeek juga telah mencetuskan perhatian antarabangsa yang tinggi dan perbincangan hangat tentang keupayaan inovasi teknologi AI China. Presiden AS Donald Trump, dalam ulasan umum yang jarang berlaku, memuji kebangkitan DeepSeek sebagai "positif" dan berkata ia adalah "panggilan bangun" untuk Amerika Syarikat. Ketua Pegawai Eksekutif Microsoft Satya Nadella dan Ketua Pegawai Eksekutif OpenAI Sam Altman turut memuji DeepSeek, dengan menyebut teknologinya "sangat mengagumkan."
Sudah tentu, kita juga mesti memahami bahawa pujian mereka sebahagiannya merupakan pengiktirafan terhadap kekuatan DeepSeek, dan sebahagiannya mencerminkan motif mereka sendiri. Sebagai contoh, sementara Anthropic mengiktiraf pencapaian DeepSeek, ia juga menyeru kerajaan AS untuk mengukuhkan kawalan cip di China.
Ketua Pegawai Eksekutif Anthropic menerbitkan artikel 10,000 perkataan: Kenaikan DeepSeek bermakna Rumah Putih harus meningkatkan kawalan
Ringkasan dan pandangan
Mengimbas kembali dua tahun lalu DeepSeek, ia benar-benar menjadi "keajaiban Cina": daripada permulaan yang tidak diketahui kepada "kuasa Timur misterius" yang kini bersinar di pentas AI global, DeepSeek telah menulis satu demi satu "mustahil" dengan kekuatan dan inovasi.
Makna yang lebih mendalam bagi ekspedisi teknologi ini telah lama melangkaui skop persaingan komersial. DeepSeek telah mengumumkan dengan fakta bahawa dalam bidang strategik kecerdasan buatan yang membimbangkan masa depan, syarikat China mampu sepenuhnya mendaki ke tahap teknologi teras.
"Loceng penggera" yang dibunyikan oleh Trump dan ketakutan tersembunyi terhadap Anthropic dengan tepat mengesahkan kepentingan keupayaan AI China: bukan sahaja ia boleh mengharungi ombak, tetapi ia juga membentuk semula arah air pasang.
Deepseek produk lepaskan peristiwa penting
- 2 November 2023: Model Besar Pengekod DeepSeek
- 29 November 2023: DeepSeek LLM 67B Model Universal
- 18 Disember 2023: Model 3D DreamCraft3D
- 11 Januari 2024: Model besar DeepSeekMoE MoE
- 5 Februari 2024: Model penaakulan Matematik DeepSeekMath
- 11 Mac 2024: Model besar DeepSeek-VL Multimodal
- Mei 2024: Model am DeepSeek-V2 MoE
- 17 Jun 2024: Model kod DeepSeek Coder V2
- 6 September 2024: DeepSeek-V2.5 gabungan model kecekapan umum dan kod
- 13 Disember 2024: Model MoE pelbagai mod DeepSeek-VL2
- 26 Disember 2024: DeepSeek-V3 siri baharu model besar tujuan umum
- 20 Januari 2025: Model inferens DeepSeek-R1
- 20 Januari 2025: Apl rasmi DeepSeek (iOS & Android)
- 27 Januari 2025: Model multimodal DeepSeek Janus-Pro