DeepSeek telah mengeluarkan kod sumbernya, penjelasan terperinci mengenai FlashMLA

Minggu lepas, DeepSeek mengumumkan bahawa ia akan membuka lima projek sumber minggu depan:

Netizen berkata, "Kali ini, OpenAI benar-benar di sini."

Tadi, projek sumber terbuka pertama datang, berkaitan dengan pecutan inferens, FlashMLA:

Alamat projek sumber terbuka:

DeepSeek FlashMLA

Ia telah menjadi sumber terbuka selama dua jam, dan Github sudah mempunyai 2.7k+ bintang:

Fungsi teras projek ialah:

"FlashMLA ialah kernel penyahkodan MLA yang cekap untuk GPU Hopper, dioptimumkan untuk penyajian jujukan panjang berubah-ubah."

Diterjemah, ia adalah:

"FlashMLA ialah kernel penyahkodan MLA yang cekap yang dioptimumkan untuk GPU seni bina NVIDIA Hopper, dioptimumkan khusus untuk senario perkhidmatan yang memproses urutan panjang berubah-ubah."

Secara ringkasnya:

FlashMLA ialah teras penyahkodan cekap yang direka oleh DeepInference untuk GPU seni bina Hopper (seperti H800). Dengan mengoptimumkan pengiraan perhatian berpotensi berbilang kepala bagi jujukan panjang berubah-ubah, ia mencapai prestasi muktamad lebar jalur memori 3000GB/s dan kuasa pengkomputeran 580TFLOPS dalam peringkat penyahkodan, meningkatkan kecekapan penaakulan dengan konteks yang panjang untuk model besar dengan ketara.

Beberapa netizen berkata:

Sesetengah orang sudah menggunakannya, dan mereka berkata Kejuruteraan tulen:

Projek ini tergolong dalam pengoptimuman kejuruteraan dan memerah prestasi perkakasan kepada had.

Projek sedia untuk digunakan di luar kotak.

Keperluan persekitaran:

GPU Hopper
CUDA 12.3 dan ke atas
PyTorch 2.0 dan ke atas

Pada akhir projek, pegawai itu juga menyatakan bahawa ia diilhamkan oleh projek FlashAttention 2&3 dan NVIDIA CUTLASS.

FlashAttention mampu mencapai perhatian tepat yang cepat dan cekap memori, dan digunakan dalam model besar arus perdana. Versi generasi ketiga terkini boleh meningkatkan kadar penggunaan H100 kepada 75%.

Kelajuan latihan ditingkatkan sebanyak 1.5-2 kali, dan daya pengiraan di bawah FP16 adalah setinggi 740 TFLOPs/s, mencapai 75% daripada daya pemprosesan maksimum teori dan menggunakan lebih banyak sumber pengkomputeran, yang sebelum ini hanya 35%.

FlashMLA bukan sahaja mencapai lonjakan prestasi melalui pengoptimuman peringkat perkakasan, tetapi juga menyediakan penyelesaian luar biasa untuk amalan kejuruteraan dalam inferens AI, menjadi penemuan teknologi utama dalam mempercepatkan inferens model besar.

Terdapat pendedahan yang begitu besar pada hari pertama.

Saya tidak sabar-sabar untuk bahan sumber terbuka dalam empat hari akan datang!

Bak kata netizen:

Ikan paus membuat ombak!

DeepSeek adalah hebat!

Tidak dikategorikan

Teknologi DeepSeek-R1 didedahkan: prinsip teras kertas dipecahkan dan kunci kepada prestasi model terobosan didedahkan

Olehzddeepseeker 9 Februari 20259 Februari 2025

Hari ini kami akan berkongsi DeepSeek R1, Tajuk: DeepSeek-R1: Mendorong Keupayaan Penaakulan dalam LLM melalui Pembelajaran Peneguhan: Mendorong keupayaan penaakulan LLM melalui pembelajaran peneguhan. Makalah ini memperkenalkan model penaakulan generasi pertama DeepSeek, DeepSeek-R1-Zero dan DeepSeek-R1. Model DeepSeek-R1-Zero telah dilatih melalui pembelajaran pengukuhan (RL) berskala besar tanpa penalaan halus (SFT) yang diselia sebagai langkah awal,…

Tidak dikategorikan

Bagaimanakah DeepSeek dicipta? Analisis sejarah pertumbuhan DeepSeek

Olehzddeepseeker 3 Februari 20253 Februari 2025

Pada masa hadapan, akan ada lebih banyak inovasi tegar. Ia mungkin tidak mudah untuk difahami sekarang, kerana seluruh kumpulan sosial perlu dididik dengan fakta. Apabila masyarakat ini membenarkan orang yang berinovasi tegar berjaya, pemikiran kolektif akan berubah. Kita hanya perlukan sekumpulan fakta dan proses….

Tidak dikategorikan

Artifak pengurusan Model Bahasa Besar seperti DeepSeek: Cherry Studio, Chatbox, AnythingLLM, siapakah pemecut kecekapan anda?

Olehzddeepseeker 11 Februari 202511 Februari 2025

Ramai orang telah mula menggunakan dan menggunakan Model Bahasa Besar Deepseek secara tempatan, menggunakan Kotak Sembang sebagai alat visualisasi Artikel ini akan terus memperkenalkan dua artifak pengurusan dan visualisasi Model Bahasa Besar AI yang lain, dan akan membandingkan ketiga-tiganya secara terperinci untuk membantu anda menggunakan Model Bahasa Besar AI dengan lebih cekap. Pada tahun 2025,…

Tidak dikategorikan

Rahsia di sebalik DeepSeek 1 | Butiran DeepSeekMath dan GRPO

Olehzddeepseeker 9 Februari 20259 Februari 2025

Hari ini saya ingin berkongsi artikel daripada DeepSeek, bertajuk DeepSeekMath: Menolak Had Penaakulan Matematik dalam Model Bahasa Terbuka. Artikel ini memperkenalkan DeepSeekMath 7B, yang telah dilatih pada DeepSeek-Coder-Base-v1.5 7B berdasarkan koleksi 120B token berkaitan matematik, bahasa semula jadi dan data kod. Model itu mencapai skor menakjubkan 51.7% dalam peringkat kompetitif…

Tidak dikategorikan

Apa yang boleh dicapai oleh Deepseek? Malah OpenAI tidak boleh melakukannya?

Olehzddeepseeker 10 Februari 202510 Februari 2025

Nilai sebenar DeepSeek dipandang remeh! DeepSeek-R1 sudah pasti telah membawa gelombang semangat baru ke pasaran. Bukan sahaja sasaran yang dipanggil benefisiari yang berkaitan meningkat dengan mendadak, malah sesetengah orang telah membangunkan kursus dan perisian berkaitan DeepSeek dalam usaha untuk menjana wang daripadanya. Kami percaya bahawa walaupun fenomena ini mempunyai…

Tidak dikategorikan

DeepSeek TOP17 Alternatif Terbaik: Analisis Komprehensif (2025)

Olehdeepseeker 6 Februari 20256 Februari 2025

Pengenalan Dalam landskap kecerdasan buatan yang berkembang pesat, DeepSeek telah muncul sebagai model bahasa yang berkuasa. Analisis komprehensif ini meneroka 17 alternatif teratas kepada DeepSeek, meneliti ciri unik, keupayaan dan kes penggunaannya. Penyelidikan kami memfokuskan pada platform antarabangsa dan China yang menawarkan integrasi DeepSeek atau keupayaan serupa. Analisis Alternatif Teratas 1….

Catatan Serupa

Tinggalkan Balasan Batal balasan