Prošlog je tjedna DeepSeek najavio da će sljedeći tjedan otvoriti pet projekata: Netizeni su rekli: "Ovaj put, OpenAI je stvarno ovdje." Upravo se pojavio prvi projekt otvorenog koda, povezan s ubrzanjem zaključivanja, FlashMLA: Adresa projekta otvorenog koda: DeepSeek FlashMLA Otvoreni je kod dva sata, a Github već ima 2,7k+ zvjezdica: The…
FlashMLA je brzo privukao pozornost u svijetu umjetne inteligencije, posebno u području velikih jezičnih modela (LLM). Ovaj inovativni alat, koji je razvio DeepSeek, služi kao optimizirana jezgra za dekodiranje dizajnirana za Hopper GPU-ove—čipove visokih performansi koji se obično koriste u AI računanjima. FlashMLA se fokusira na učinkovitu obradu sekvenci promjenjive duljine, što ga čini posebno pogodnim za...
Uvod Danas veliki jezični modeli (LLM) igraju presudnu ulogu. Početkom 2025. godine, kako se konkurencija za AI zaoštravala, Alibaba je lansirala novi Qwen2.5-max AI model, a DeepSeek, tvrtka iz Hangzhoua u Kini, lansirala je model R1, koji predstavlja vrhunac LLM tehnologije. Deepseek R1 je AI model otvorenog koda koji je privukao…
Model zaključivanja 32B koristi samo 1/8 podataka i povezan je s DeepSeek-R1 iste veličine! Upravo su sada institucije kao što su Stanford, UC Berkeley i Sveučilište Washington zajednički objavile model zaključivanja na razini SOTA-e, OpenThinker-32B, a također su otvorile do 114k podataka o obuci. Početna stranica projekta OpenThinker: lice koje grli OpenThinker:…