Minggu lalu, DeepSeek mengumumkan bahawa ia akan membuka lima projek sumber terbuka minggu depan: Netizen berkata, "Kali ini, OpenAI benar-benar di sini." Baru-baru ini, projek sumber terbuka pertama datang, berkaitan dengan pecutan inferens, FlashMLA: Alamat projek sumber terbuka: DeepSeek FlashMLA Ia telah menjadi sumber terbuka selama dua jam, dan Github sudah mempunyai 2.7k+ bintang: The…
FlashMLA telah cepat mendapat perhatian dalam dunia kecerdasan buatan, khususnya dalam bidang model bahasa besar (LLM). Alat inovatif ini, yang dibangunkan oleh DeepSeek, berfungsi sebagai kernel penyahkodan yang dioptimumkan yang direka untuk GPU Hopper—cip berprestasi tinggi yang biasa digunakan dalam pengiraan AI. FlashMLA memfokuskan pada pemprosesan cekap jujukan panjang berubah-ubah, menjadikannya sangat sesuai…
Pengenalan Hari ini, model bahasa besar (LLM) memainkan peranan yang penting. Pada awal 2025, apabila persaingan untuk AI semakin sengit, Alibaba melancarkan model AI Qwen2.5-max baharu, dan DeepSeek, sebuah syarikat dari Hangzhou, China, melancarkan model R1, yang mewakili kemuncak teknologi LLM. Deepseek R1 ialah model AI sumber terbuka yang telah menarik…
Model inferens 32B hanya menggunakan 1/8 daripada data dan diikat dengan DeepSeek-R1 dengan saiz yang sama! Baru-baru ini, institusi seperti Stanford, UC Berkeley dan University of Washington telah bersama-sama mengeluarkan model inferens peringkat SOTA, OpenThinker-32B, dan juga telah membekalkan data latihan sumber terbuka sehingga 114k. Laman utama Projek OpenThinker: Muka Berpeluk OpenThinker:…