Blog

  • DeepSeek telah merilis kode sumbernya, penjelasan rinci tentang FlashMLA
    Minggu lalu, DeepSeek mengumumkan akan membuka lima proyek sumber terbuka minggu depan: Netizen berkata, "Kali ini, OpenAI benar-benar hadir." Baru saja, proyek sumber terbuka pertama muncul, terkait dengan percepatan inferensi, FlashMLA: Alamat proyek sumber terbuka: DeepSeek FlashMLA Sudah menjadi sumber terbuka selama dua jam, dan Github sudah memiliki 2,7 ribu+ bintang: The…
  • Apa itu FlashMLA? Panduan Lengkap tentang Dampaknya pada Kernel Decoding AI
    FlashMLA dengan cepat menarik perhatian di dunia kecerdasan buatan, khususnya di bidang model bahasa besar (LLM). Alat inovatif ini, yang dikembangkan oleh DeepSeek, berfungsi sebagai kernel decoding yang dioptimalkan yang dirancang untuk GPU Hopper—chip berperforma tinggi yang umum digunakan dalam komputasi AI. FlashMLA berfokus pada pemrosesan sekuens dengan panjang variabel yang efisien, sehingga sangat cocok untuk…
  • Qwen2.5-max vs DeepSeek R1: Perbandingan mendalam antara kedua model: analisis lengkap skenario aplikasi
    Pendahuluan Saat ini, model bahasa besar (LLM) memegang peranan penting. Pada awal tahun 2025, seiring dengan semakin ketatnya persaingan untuk AI, Alibaba meluncurkan model AI Qwen2.5-max yang baru, dan DeepSeek, sebuah perusahaan dari Hangzhou, Tiongkok, meluncurkan model R1, yang merupakan puncak dari teknologi LLM. Deepseek R1 adalah model AI sumber terbuka yang telah menarik…
  • Ini mendekati DeepSeek-R1-32B dan mengalahkan s1 Fei-Fei Li! UC Berkeley dan model inferensi SOTA sumber terbuka lainnya
    Model inferensi 32B hanya menggunakan 1/8 data dan dikaitkan dengan DeepSeek-R1 dengan ukuran yang sama! Baru-baru ini, lembaga seperti Stanford, UC Berkeley, dan University of Washington telah bersama-sama merilis model inferensi tingkat SOTA, OpenThinker-32B, dan juga telah membuka sumber data pelatihan hingga 114k. Beranda OpenThinker Project: OpenThinker Hugging Face:…

Buat akun gratis Anda hari ini!