Di masa depan, akan ada lebih banyak lagi inovasi yang keras. Mungkin tidak mudah untuk dipahami sekarang, karena seluruh kelompok sosial perlu dididik oleh fakta. Ketika masyarakat ini mengizinkan orang-orang yang berinovasi secara hardcore untuk berhasil, pola pikir kolektif akan berubah. Kita hanya perlu banyak fakta dan proses. - Liang Wenfeng, pendiri DeepSeek

Dalam beberapa hari terakhir, DeepSeek telah meledak di seluruh dunia, tetapi karena perusahaan ini sangat tertutup dan belum membuat pengumuman apa pun, publik hanya tahu sedikit tentang perusahaan teknologi yang memiliki potensi besar ini - apakah itu latar belakang pendirian, ruang lingkup bisnis, atau tata letak produk.

Setelah selesai memilah-milah semua materi, saya menulis artikel ini

Apa latar belakang para pemain AI saat ini, apa yang mereka lakukan, dan siapa yang mereka rekrut?

dan mungkin merupakan gambaran historis yang paling lengkap mengenai DeepSeek.

Kali ini tahun lalu, seorang teman dari Magic Cube Quant mendatangi saya dan bertanya, "Apakah Anda ingin membangun model besar di Tiongkok?" Dan saya hanya menghabiskan sore itu dengan minum kopi. Seperti yang diharapkan, hidup masih bergantung pada pilihan.

The Magic Cube Quant yang disebutkan di sini adalah investoratau perusahaan induk dari DeepSeek.

Quant Fantasy adalah sebuah lembaga investasi yang membuat keputusan bukan dengan tenaga manusia, melainkan dengan algoritma. Pendirian Quant Fantasy tidak lama, dimulai pada tahun 2015. Pada tahun 2021, saat berusia enam tahun, skala manajemen aset Quant Fantasy telah melampaui 100 miliar, dan dipuji sebagai salah satu dari "empat raja quant besar" di Tiongkok.

Pendiri Fantasy Square, Liang Wenfeng, yang juga merupakan pendiri DeepSeek, adalah pemimpin keuangan "non-mainstream" yang lahir pada tahun 1980-an: ia tidak memiliki pengalaman belajar di luar negeri, bukan pemenang kompetisi Olimpiade, dan lulus dari Departemen Teknik Elektronik di Universitas Zhejiang, jurusan kecerdasan buatan. Dia adalah seorang ahli teknologi asli yang bertindak dengan cara yang sederhana, "membaca makalah, menulis kode, dan berpartisipasi dalam diskusi kelompok" setiap hari.

Liang Wenfeng tidak memiliki kebiasaan seperti pemilik bisnis tradisional, tetapi lebih seperti "penggila teknologi". Banyak orang dalam industri dan peneliti DeepSeek memberikan pujian yang sangat tinggi kepada Liang Wenfeng: "seseorang yang memiliki kemampuan teknik infra merah yang kuat dan kemampuan penelitian model, serta dapat memobilisasi sumber daya," "seseorang yang dapat membuat penilaian yang akurat dari tingkat tinggi, tetapi juga unggul dalam hal detail daripada peneliti garis depan," dan juga memiliki "kemampuan belajar yang luar biasa."

Jauh sebelum DeepSeek didirikan, Huanfang sudah mulai membuat rencana jangka panjang dalam industri AI. Pada Mei 2023, Liang Wenfeng menyebutkan dalam sebuah wawancara dengan Darksurge: "Setelah OpenAI merilis GPT3 pada tahun 2020, arah pengembangan AI menjadi sangat jelas, dan daya komputasi akan menjadi elemen kunci; tetapi bahkan pada tahun 2021, ketika kami berinvestasi dalam pembangunan Firefly 2, sebagian besar orang masih belum dapat memahaminya."

Berdasarkan penilaian ini, Huanfang mulai membangun infrastruktur komputasinya sendiri. "Dari yang paling awal 1 kartu, menjadi 100 kartu pada tahun 2015, 1.000 kartu pada tahun 2019, dan kemudian 10.000 kartu, proses ini terjadi secara bertahap. Sebelum beberapa ratus kartu, kami dihosting di IDC. Ketika skalanya menjadi lebih besar, hosting tidak lagi dapat memenuhi persyaratan, jadi kami mulai membangun ruang komputer sendiri."

Kemudian, Finance Eleven melaporkan, "Tidak lebih dari lima perusahaan domestik dengan lebih dari 10.000 GPU, dan selain beberapa produsen besar, mereka juga menyertakan perusahaan dana kuantitatif bernama Magic Cube." Secara umum diyakini bahwa 10.000 chip Nvidia A100 adalah ambang batas daya komputasi untuk melatih model besar.

Dalam wawancara sebelumnya, Liang Wenfeng juga menyebutkan hal yang menarik: banyak orang akan berpikir bahwa ada logika bisnis yang tidak diketahui di baliknya, tetapi pada kenyataannya, hal ini terutama didorong oleh rasa ingin tahu.

DeepSeekPertemuan pertama

Dalam sebuah wawancara dengan Darksurge pada bulan Mei 2023, ketika ditanya "Belum lama ini, Huanfang mengumumkan keputusannya untuk membuat model-model besar, mengapa dana kuantitatif melakukan hal seperti itu?"

Jawaban Liang Wenfeng sangat menggema: "Keputusan kami untuk membangun model yang besar tidak ada hubungannya dengan kuantifikasi atau keuangan. Kami telah mendirikan perusahaan baru bernama DeepSeek untuk melakukan hal ini. Banyak anggota kunci tim di Mianfang yang terlibat dalam kecerdasan buatan. Pada saat itu, kami mencoba banyak skenario dan akhirnya memilih bidang keuangan, yang cukup rumit. Kecerdasan buatan secara umum mungkin merupakan salah satu hal tersulit berikutnya yang harus dicapai, jadi bagi kami, ini adalah pertanyaan tentang bagaimana melakukannya, bukan mengapa.

Tidak didorong oleh kepentingan komersial atau mengejar tren pasar, tetapi hanya didorong oleh keinginan untuk mengeksplorasi teknologi AGI itu sendiri dan pengejaran yang gigih terhadap "hal yang paling penting dan sulit," nama "DeepSeek" secara resmi dikonfirmasi pada bulan Mei 2023. Pada tanggal 17 Juli 2023, "Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Co, Ltd" didirikan.

Pada 2 November 2023, DeepSeek menyampaikan jawaban pertamanya: DeepSeek Coder, sebuah model besar kode sumber terbuka. Model ini mencakup beberapa ukuran seperti 1B, 7B, dan 33B. Konten sumber terbuka mencakup model Dasar dan model penyetelan perintah.

Pada saat itu, di antara model open source, CodeLlama dari Meta adalah tolok ukur industri. Namun, begitu DeepSeek Coder dirilis, ia menunjukkan posisi terdepan dalam berbagai aspek dibandingkan dengan CodeLlama: dalam pembuatan kode, HumanEval unggul 9,3%, MBPP unggul 10,8%, dan DS-1000 unggul 5,9%.

Perlu diingat bahwa DeepSeek Coder adalah model 7B, sedangkan CodeLlama adalah model 34B. Selain itu, model DeepSeek Coder, setelah disetel dengan instruksi, telah melampaui GPT3.5-Turbo secara komprehensif.

Tidak hanya pembuatan kode yang mengesankan, tetapi DeepSeek Coder juga memamerkan otot-ototnya dalam matematika dan penalaran.

Tiga hari kemudian, pada 5 November 2023, DeepSeek merilis sejumlah besar konten rekrutmen melalui akun publik WeChat-nya, termasuk posisi seperti magang model besar AGI, pakar data, bakat arsitektur data, insinyur pengumpulan data senior, insinyur penelitian dan pengembangan pembelajaran mendalam, dll., Dan mulai secara aktif memperluas tim.

Seperti yang dikatakan Liang Wenfeng, "Persyaratan yang harus dimiliki" DeepSeek untuk perekrutan talenta adalah "semangat dan keterampilan dasar yang solid"dan ia menekankan bahwa "Inovasi membutuhkan sesedikit mungkin intervensi dan manajemen, sehingga setiap orang memiliki kebebasan untuk membuat kesalahan dan mencoba hal-hal baru. Inovasi sering kali muncul dari dalam diri, bukan dari pengaturan yang disengaja, dan tentu saja bukan dari pengajaran."

Model sering dirilis, dan sumber terbuka dipraktikkan

Setelah DeepSeek Coder membuat gebrakan, DeepSeek mengalihkan perhatiannya ke medan perang utama: model bahasa umum.

Pada 29 November 2023, DeepSeek merilis model bahasa besar tujuan umum pertamanya, DeepSeek LLM 67B. Model ini dibandingkan dengan model LLaMA2 70B Meta pada level yang sama dan telah berkinerja lebih baik di hampir 20 daftar evaluasi publik dalam bahasa Mandarin dan Inggris. Secara khusus, kemampuan penalaran, matematika, dan pemrogramannya (misalnya, HumanEval, MATH, CEval, dan CMMLU) luar biasa.

DeepSeek LLM 67B juga telah memilih jalur open source dan mendukung penggunaan komersial. Untuk lebih jauh menunjukkan ketulusan dan tekadnya untuk open source, DeepSeek telah, yang belum pernah terjadi sebelumnya, secara simultan membuka sumber dua model dengan skala yang berbeda, 7B dan 67B, dan bahkan mempublikasikan sembilan pos pemeriksaan yang dihasilkan selama proses pelatihan model bagi para peneliti untuk diunduh dan digunakan. Operasi semacam ini, yang mirip dengan "mengajarkan segalanya", sangat jarang terjadi di seluruh komunitas open source.

Untuk mengevaluasi kemampuan DeepSeek LLM 67B yang sesungguhnya secara lebih komprehensif dan objektif, tim peneliti DeepSeek juga secara hati-hati merancang serangkaian "pertanyaan baru" untuk "pengujian stres". Pertanyaan-pertanyaan ini mencakup tes tingkat tinggi, tes dengan diskriminasi tinggi seperti pertanyaan ujian matematika sekolah menengah Hungaria, set evaluasi mengikuti perintah Google, dan pertanyaan kompetisi mingguan LeetCode. Hasil pengujiannya sangat menggembirakan. DeepSeek LLM 67B menunjukkan potensi yang luar biasa dalam hal kemampuannya untuk menggeneralisasi di luar sampel, dan kinerja keseluruhannya bahkan mendekati model GPT-4 yang saat itu paling canggih.

Pada 18 Desember 2023, DeepSeek membuka sumber model Vincent 3D DreamCraft3Ddapat menghasilkan model 3D berkualitas tinggi dari sebuah kalimat, mencapai lompatan dari bidang 2D ke ruang 3D dalam AIGC. Misalnya, jika pengguna memasukkan: "Berlari melintasi hutan, gambar hibrida lucu dari kepala babi dan tubuh Raja Kera," DreamCraft3D dapat menghasilkan konten berkualitas tinggi:

Pada prinsipnya, model ini pertama-tama melengkapi diagram Venn, dan kemudian melengkapi keseluruhan struktur geometris berdasarkan peta konsep 2D:

Dalam evaluasi subjektif yang diikuti, lebih dari 90% pengguna mengatakan bahwa DreamCraft3D memiliki keunggulan dalam kualitas generasi dibandingkan dengan metode generasi sebelumnya.

Pada tanggal 7 Januari 2024, DeepSeek merilis laporan teknis DeepSeek LLM 67B. Laporan 40+ halaman ini memuat banyak rincian DeepSeek LLM 67B, termasuk hukum penskalaan yang dibuat sendiri, rincian praktis yang lengkap mengenai penyelarasan model, dan sistem evaluasi kemampuan AGI yang komprehensif.

Alamat kertas

Pada 11 Januari 2024, DeepSeek membuka sumber terbuka model besar MoE (arsitektur ahli campuran) pertama di Tiongkok, DeepSeekMoE: arsitektur baru yang mendukung bahasa Mandarin dan Inggris dan gratis untuk penggunaan komersial. Arsitektur MoE secara umum dianggap sebagai kunci terobosan kinerja OpenAI GPT-4 pada saat itu. Arsitektur MoE yang dikembangkan sendiri oleh DeepSeek memimpin dalam berbagai skala seperti 2B, 16B, dan 145B, dan komputasinya juga sangat terpuji.

Pada tanggal 25 Januari 2024, DeepSeek merilis laporan teknis Coder DeepSeek. Laporan ini memberikan analisis teknis yang komprehensif terhadap data pelatihan, metode pelatihan, dan kinerja model. Dalam laporan ini, kita dapat melihat bahwa untuk pertama kalinya, model ini telah membangun data kode tingkat gudang dan menggunakan pengurutan topologi untuk menganalisis ketergantungan antar file, yang secara signifikan meningkatkan kemampuan untuk memahami file silang jarak jauh. Dalam hal metode pelatihan, metode Fill-In-Middle telah ditambahkan, yang sangat meningkatkan kemampuan penyelesaian kode.

Alamat kertas

Pada tanggal 30 Januari 2024, platform terbuka DeepSeek secara resmi diluncurkan, dan layanan API Model Besar DeepSeek mulai diuji. Daftar untuk mendapatkan 10 juta token secara gratis. Antarmuka ini kompatibel dengan antarmuka API OpenAI, dan kedua model ganda Chat/Coder tersedia. Saat ini, DeepSeek mulai menjajaki jalur penyedia layanan teknologi selain penelitian dan pengembangan teknologi.

Pada 5 Februari 2024, DeepSeek merilis model domain vertikal lainnya, DeepSeekMathsebuah model penalaran matematis. Model ini hanya memiliki parameter 7B, tetapi kemampuan penalaran matematisnya mendekati kemampuan GPT-4. Dalam daftar tolok ukur MATH yang otoritatif, model ini melampaui kerumunan dan mengungguli sejumlah model open source dengan ukuran parameter antara 30B dan 70B. Peluncuran DeepSeekMath sepenuhnya menunjukkan kekuatan teknis dan tata letak berwawasan ke depan DeepSeek dalam penelitian dan pengembangan vertikal serta tata letak berwawasan ke depan dalam penelitian dan pengembangan model.

Pada 28 Februari 2024, untuk lebih meringankan kekhawatiran pengembang tentang penggunaan model sumber terbuka DeepSeek, DeepSeek merilis FAQ kebijakan sumber terbukayang memberikan jawaban terperinci untuk pertanyaan yang sering diajukan seperti model lisensi sumber terbuka dan pembatasan penggunaan komersial. DeepSeek merangkul open source dengan sikap yang lebih transparan dan terbuka:

Pada 11 Maret 2024, DeepSeek merilis model besar multi-modal DeepSeek-VL. Ini adalah upaya awal DeepSeek dalam teknologi AI multi-modal. Model ini berukuran 7B dan 1,3B, dan model serta makalah teknisnya bersumber terbuka secara bersamaan.

Pada 20 Maret 2024, Huanfang AI & DeepSeek sekali lagi diundang untuk berpartisipasi dalam konferensi NVIDIA GTC 2024, dan pendirinya, Liang Wenfeng, menyampaikan pidato utama teknis berjudul "Harmoni dalam Keberagaman: Menyelaraskan dan Memisahkan Nilai-Nilai Model Bahasa Besar". Isu-isu seperti "konflik antara model besar dengan nilai tunggal dan masyarakat serta budaya yang majemuk," "pemisahan penyelarasan nilai model besar," dan "tantangan multidimensi penyelarasan nilai yang terpisah" dibahas. Hal ini menunjukkan kepedulian humanis dan tanggung jawab sosial DeepSeek terhadap pengembangan AI, di samping penelitian dan pengembangan teknologinya.

Pada bulan Maret 2024, API DeepSeek secara resmi meluncurkan layanan berbayar, yang benar-benar memicu awal dari perang harga di pasar model besar Tiongkok: 1 yuan per juta token input dan 2 yuan per juta token output.

Pada tahun 2024, DeepSeek berhasil melewati rekaman model besar di Tiongkok, membersihkan hambatan kebijakan untuk pembukaan penuh layanan API-nya.

Pada bulan Mei 2024, DeepSeek-V2, model besar MoE sumber terbuka, dirilis, dan perang harga secara resmi dimulai. DeepSeek-V2 menggunakan MLA (mekanisme perhatian laten multi-kepala), yang mengurangi jejak memori model menjadi 5%-13% dari MHA tradisional. Pada saat yang sama, model ini juga secara mandiri mengembangkan struktur jarang MoE Sparse DeepSeek, yang sangat mengurangi kompleksitas komputasi model. Berkat ini, model ini mempertahankan harga API "1 yuan/juta input dan 2 yuan/juta output".

DeepSeek telah memberikan dampak yang sangat besar. Dalam hal ini, analis utama di SemiAnalysis percaya bahwa makalah DeepSeek V2 "mungkin salah satu yang terbaik tahun ini." Demikian pula, Andrew Carr, mantan karyawan OpenAI, percaya bahwa makalah ini "penuh dengan kebijaksanaan yang luar biasa" dan telah menerapkan pengaturan pelatihannya pada modelnya sendiri.

Perlu dicatat bahwa ini adalah model yang menjadi tolok ukur GPT-4-Turbo, dan harga API hanya 1/70 dari yang terakhir

Pada bulan Juni 17, 2024, DeepSeek sekali lagi membuat dorongan besar, merilis model kode DeepSeek Coder V2 open source dan mengklaim bahwa kemampuan kodenya melampaui GPT-4-Turbo, model sumber tertutup yang paling canggih pada saat itu. DeepSeek Coder V2 melanjutkan strategi sumber terbuka DeepSeek yang konsisten, dengan semua model, kode, dan makalah yang bersumber terbuka, dan dua versi, 236B dan 16B, disediakan. Layanan API DeepSeek Coder V2 juga tersedia secara online, dan harganya tetap pada "1 yuan / juta input dan 2 yuan / juta output".

Pada 21 Juni 2024, DeepSeek Coder mendukung eksekusi kode online. Pada hari yang sama, Claude3.5 Soneta dirilis, dengan fitur Artifak baru, yang secara otomatis menghasilkan kode dan menjalankannya secara langsung di browser. Pada hari yang sama, asisten kode di situs web DeepSeek juga meluncurkan fitur yang sama: menghasilkan kode dan menjalankannya dengan satu klik.

Mari kita tinjau peristiwa-peristiwa besar pada periode ini:

Terobosan yang terus menerus, menarik perhatian global

Pada bulan Mei 2024, DeepSeek menjadi terkenal dalam semalam dengan merilis DeepSeek V2, model open source berdasarkan MoE. Ini menyamai kinerja GPT-4-Turbo, tetapi dengan harga hanya 1 yuan / juta input, yang merupakan 1/70 dari GPT-4-Turbo. Pada saat itu, DeepSeek menjadi "tukang jagal harga" yang terkenal di industri ini, dan kemudian pemain utama seperti Zhicheng, ByteDance, dan Alibaba ... dan pemain besar lainnya dengan cepat mengikuti dan menurunkan harga mereka. Pada saat itu juga terjadi lagi pelarangan GPT, dan sejumlah besar aplikasi AI mulai mencoba model domestik untuk pertama kalinya.

Pada Juli 2024, pendiri DeepSeek, Liang Wenfeng, sekali lagi menerima wawancara dengan Dark Surge dan menanggapi secara langsung perang harga: "Sangat tidak terduga. Saya tidak menyangka harga membuat semua orang begitu sensitif. Kami hanya melakukan sesuatu dengan kecepatan kami sendiri dan kemudian menentukan harga berdasarkan biaya. Prinsip kami adalah tidak merugi atau menghasilkan keuntungan yang terlalu tinggi. Harga ini juga sedikit di atas biaya dengan sedikit keuntungan."

Dapat dilihat bahwa, tidak seperti banyak pesaing yang membayar dari kantong mereka sendiri untuk mensubsidi, DeepSeek menguntungkan pada harga ini.

Beberapa orang mungkin berkata: pemotongan harga seperti merampok pengguna, dan ini biasanya terjadi dalam perang harga di era Internet

Menanggapi hal tersebut, Liang Wenfeng juga memberikan tanggapannya: "Merampok pengguna bukanlah tujuan utama kami. Kami menurunkan harga karena, di satu sisi, biaya telah turun saat kami mengeksplorasi struktur model generasi berikutnya, dan di sisi lain, kami merasa bahwa API dan AI harus terjangkau dan dapat diakses oleh semua orang."

Jadi cerita berlanjut dengan idealisme Liang Wenfeng.

Pada tanggal 4 Juli 2024, API DeepSeek mulai beroperasi. Harga untuk konteks 128K tetap tidak berubah. Biaya inferensi suatu model berkaitan erat dengan panjang konteks. Oleh karena itu, banyak model yang memiliki batasan yang ketat pada panjangnya: versi awal GPT-3.5 hanya memiliki konteks 4k.

Pada saat ini, DeepSeek meningkatkan panjang konteks dari sebelumnya 32k menjadi 128k dengan tetap menjaga harga tidak berubah (1 yuan per juta token input dan 2 yuan per juta token output).

Pada 10 Juli 2024, hasil Olimpiade AI pertama di dunia (AIMO) diumumkan, dan model DeepSeekMath menjadi pilihan umum tim Top. Tim 4 besar yang menang semuanya memilih DeepSeekMath-7B sebagai dasar model entri mereka dan mencapai hasil yang mengesankan dalam kompetisi.

Pada 18 Juli 2024, DeepSeek-V2 menduduki peringkat teratas dalam daftar model open source di Chatbot Arena, melampaui model bintang seperti Llama3-70B, Qwen2-72B, Nemotron-4-340B, dan Gemma2-27B, dan menjadi tolok ukur baru untuk model-model besar open source.

Dalam Juli 2024, DeepSeek terus merekrut talenta dan merekrut talenta terbaik dari seluruh dunia di berbagai bidang, termasuk algoritme AI, AI Infra, AI Tutor, dan produk AI, untuk mempersiapkan inovasi teknologi dan pengembangan produk di masa depan.

Pada 26 Juli 2024, API DeepSeek mengantarkan pada peningkatan penting, yang sepenuhnya mendukung serangkaian fitur canggih seperti penimpaan, penyelesaian FIM (Fill-in-the-Middle), Pemanggilan Fungsi, dan Keluaran JSON. Fungsi FIM sangat menarik: pengguna memberikan awal dan akhir, dan model besar mengisi bagian tengahnya, yang sangat cocok untuk proses pemrograman untuk mengisi kode fungsi yang tepat. Ambil contoh penulisan deret Fibonacci:

Pada 2 Agustus 2024, DeepSeek secara inovatif memperkenalkan teknologi caching hard disk, memangkas harga API hingga ke mata kaki. Sebelumnya, harga API hanya ¥1 per juta token. Namun, sekarang, setelah cache hit dibuat, biaya API turun langsung menjadi ¥0,1.

Fitur ini sangat praktis apabila melibatkan percakapan berkelanjutan dan tugas pemrosesan batch.

Pada 16 Agustus 2024, DeepSeek merilis model pembuktian teorema matematis DeepSeek-Prover-V1.5 sebagai sumber terbuka, yang melampaui banyak model sumber terbuka yang terkenal dalam tes pembuktian teorema matematika di sekolah menengah dan perguruan tinggi.

Pada 6 September 2024, DeepSeek merilis model fusi DeepSeek-V2.5. Sebelumnya, DeepSeek terutama menyediakan dua model: model Chat yang berfokus pada keterampilan percakapan umum, dan model Code yang berfokus pada keterampilan pemrosesan kode. Kali ini, kedua model tersebut telah digabungkan menjadi satu, ditingkatkan menjadi DeepSeek-V2.5, yang lebih selaras dengan preferensi manusia, dan juga telah mencapai peningkatan yang signifikan dalam tugas menulis, mengikuti perintah, dan aspek lainnya.

Pada 18 September 2024, DeepSeek-V2.5 sekali lagi masuk dalam daftar LMSYS terbaru, memimpin model domestik dan menetapkan skor terbaik baru untuk model domestik dalam berbagai kemampuan individu.

Pada 20 November 2024, DeepSeek merilis DeepSeek-R1-Lite di situs web resminya. Ini adalah model inferensi yang sebanding dengan o1-preview, dan juga menyediakan data sintetis dalam jumlah yang cukup untuk pasca-pelatihan V3.

Pada 10 Desember 2024, seri DeepSeek V2 mengawali masa akhir dengan merilis versi akhir DeepSeek-V2.5-1210 yang sudah disempurnakan. Versi ini secara komprehensif meningkatkan berbagai kemampuan termasuk matematika, pengkodean, menulis, dan bermain peran melalui pasca pelatihan.

Dengan hadirnya versi ini, aplikasi web DeepSeek juga membuka fungsi pencarian jaringan.

Pada 13 Desember 2024, DeepSeek membuat terobosan lain di bidang multimodalitas dan merilis model besar multimodal open source DeepSeek-VL2. DeepSeek-VL2 mengadopsi arsitektur MoE, yang secara signifikan meningkatkan kemampuan visualnya. Ini tersedia dalam tiga ukuran: 3B, 16B, dan 27B, dan memiliki keunggulan dalam semua metrik.

Pada 26 Desember 2024, DeepSeek-V3 dirilis dengan sumber terbuka: perkiraan biaya pelatihan hanya 5,5 juta dolar AS. DeepSeek-V3 sepenuhnya menjadi tolok ukur kinerja model sumber tertutup terkemuka di luar negeri dan sangat meningkatkan kecepatan pembangkitan.

Harga layanan API disesuaikan, tetapi pada saat yang sama, periode uji coba preferensial selama 45 hari ditetapkan untuk model baru ini.

Pada tanggal 15 Januari 2025, aplikasi resmi DeepSeek secara resmi dirilis dan diluncurkan sepenuhnya di pasar aplikasi iOS/Android.

Pada tanggal 20 Januari 2025, menjelang Tahun Baru Imlek, model inferensi DeepSeek-R1 secara resmi dirilis dan bersumber terbuka. DeepSeek-R1 sepenuhnya menyelaraskan kinerjanya dengan rilis resmi OpenAI o1 dan membuka fungsi keluaran rantai pemikiran. Pada saat yang sama, DeepSeek juga mengumumkan bahwa model lisensi open source akan diubah menjadi lisensi MIT, dan perjanjian pengguna secara eksplisit akan mengizinkan "penyulingan model", yang selanjutnya merangkul open source dan mempromosikan berbagi teknologi.

Belakangan, model ini menjadi sangat populer dan mengantarkan era baru

Hasilnya, pada tanggal 27 Januari 2025, Aplikasi DeepSeek berhasil melampaui ChatGPT dan menduduki peringkat teratas dalam daftar unduhan aplikasi gratis di iOS App Store AS, menjadi aplikasi AI yang fenomenal.

Pada tanggal 27 Januari 2025, pukul 1:00 dini hari di Malam Tahun Baru, DeepSeek Janus-Pro dirilis sebagai open source. Ini adalah model multimodal yang dinamai berdasarkan dewa Janus yang bermuka dua dalam mitologi Romawi kuno: model ini menghadap ke masa lalu dan masa depan. Hal ini juga mewakili dua kemampuan model ini-pemahaman visual dan pembuatan gambar-dan dominasinya terhadap berbagai peringkat.

Popularitas DeepSeek yang meledak dengan segera memicu gelombang kejut teknologi global, bahkan secara langsung menyebabkan harga saham NVIDIA anjlok hingga 18%, dan nilai pasar pasar saham teknologi global menguap sekitar 1 triliun dolar AS. Wall Street dan media teknologi berseru bahwa kebangkitan DeepSeek menumbangkan lanskap industri AI global dan memberikan tantangan yang belum pernah terjadi sebelumnya bagi raksasa teknologi Amerika.

Keberhasilan DeepSeek juga telah memicu perhatian internasional yang tinggi dan diskusi yang hangat tentang kemampuan inovasi teknologi AI Tiongkok. Presiden AS Donald Trump, dalam sebuah komentar publik yang jarang terjadi, memuji kebangkitan DeepSeek sebagai hal yang "positif" dan mengatakan bahwa ini adalah "peringatan" bagi Amerika Serikat. CEO Microsoft Satya Nadella dan CEO OpenAI Sam Altman juga memuji DeepSeek, menyebut teknologinya "sangat mengesankan."

Tentu saja, kita juga harus memahami bahwa pujian mereka sebagian merupakan pengakuan atas kekuatan DeepSeek, dan sebagian lagi merupakan cerminan dari motif mereka sendiri. Sebagai contoh, meskipun Anthropic mengakui pencapaian DeepSeek, mereka juga meminta pemerintah AS untuk memperkuat kontrol chip di Tiongkok.

CEO Anthropic menerbitkan artikel sepanjang 10.000 kata: Bangkitnya DeepSeek berarti Gedung Putih harus meningkatkan kontrol

Ringkasan dan pandangan

Melihat kembali ke dua tahun terakhir DeepSeek, ini benar-benar merupakan "keajaiban Tiongkok": dari startup yang tidak dikenal menjadi "kekuatan Timur yang misterius" yang sekarang bersinar di panggung AI global, DeepSeek telah menulis "ketidakmungkinan" demi ketidakmungkinan dengan kekuatan dan inovasinya.

Makna yang lebih dalam dari ekspedisi teknologi ini telah lama melampaui ruang lingkup persaingan komersial. DeepSeek telah mengumumkan dengan fakta-fakta bahwa Dalam bidang strategis kecerdasan buatan yang menyangkut masa depan, perusahaan-perusahaan Tiongkok sepenuhnya mampu mendaki ke puncak teknologi inti.

"Lonceng peringatan" yang dikumandangkan oleh Trump dan ketakutan tersembunyi terhadap Anthropic secara tepat menegaskan pentingnya kemampuan AI China: tidak hanya dapat mengendarai ombak, tetapi juga membentuk kembali arah gelombang

Deepseek produk rilis tonggak sejarah

  • 2 November 2023: Model Besar Pengkode DeepSeek Model Besar
  • 29 November 2023: Model Universal DeepSeek LLM 67B
  • 18 Desember 2023: Model 3D DreamCraft3D
  • 11 Januari 2024: Model besar DeepSeekMoE MoE
  • 5 Februari 2024: DeepSeekMath Model penalaran matematika
  • 11 Maret 2024: DeepSeek-VL Model besar multimodal
  • Mei 2024: Model umum DeepSeek-V2 KLH
  • 17 Juni 2024: Model kode DeepSeek Coder V2
  • 6 September 2024: DeepSeek-V2.5 perpaduan model kompetensi umum dan kode
  • 13 Desember 2024: Model MoE multimoda DeepSeek-VL2
  • 26 Desember 2024: DeepSeek-V3 seri baru model besar serba guna
  • 20 Januari 2025: Model inferensi DeepSeek-R1
  • 20 Januari 2025: Aplikasi resmi DeepSeek (iOS & Android)
  • 27 Januari 2025: Model multimodal DeepSeek Janus-Pro

Posting serupa

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *