Săptămâna trecută, DeepSeek a anunțat că va deschide cinci proiecte săptămâna viitoare: Netizens a spus: „De data aceasta, OpenAI este cu adevărat aici”. Chiar acum, a venit primul proiect open source, legat de accelerarea inferenței, FlashMLA: Adresa proiectului open source: DeepSeek FlashMLA A fost open source de două ore, iar Github are deja 2.7k+ stele: The...
FlashMLA a câștigat rapid atenția în lumea inteligenței artificiale, în special în domeniul modelelor de limbaj mari (LLM). Acest instrument inovator, dezvoltat de DeepSeek, servește ca un nucleu de decodare optimizat conceput pentru GPU-uri Hopper - cipuri de înaltă performanță utilizate în mod obișnuit în calculele AI. FlashMLA se concentrează pe procesarea eficientă a secvențelor cu lungime variabilă, făcându-l deosebit de potrivit...
Introducere Astăzi, modelele lingvistice mari (LLM) joacă un rol crucial. La începutul anului 2025, pe măsură ce competiția pentru AI s-a intensificat, Alibaba a lansat noul model Qwen2.5-max AI, iar DeepSeek, o companie din Hangzhou, China, a lansat modelul R1, care reprezintă vârful tehnologiei LLM. Deepseek R1 este un model open source AI care a atras...
Modelul de inferență 32B folosește doar 1/8 din date și este legat cu DeepSeek-R1 de aceeași dimensiune! Chiar acum, instituții precum Stanford, UC Berkeley și Universitatea din Washington au lansat în comun un model de inferență la nivel SOTA, OpenThinker-32B și, de asemenea, au furnizat open source până la 114k date de antrenament. Pagina principală a proiectului OpenThinker: OpenThinker Hugging Face:...