DeepSeek je objavio svoj izvorni kod, detaljno objašnjenje FlashMLA

DeepSeek je objavio svoj izvorni kod, detaljno objašnjenje FlashMLA

Prošlog je tjedna DeepSeek najavio da će sljedeći tjedan otvoriti pet projekata: Netizeni su rekli: "Ovaj put, OpenAI je stvarno ovdje." Upravo se pojavio prvi projekt otvorenog koda, povezan s ubrzanjem zaključivanja, FlashMLA: Adresa projekta otvorenog koda: DeepSeek FlashMLA Otvoreni je kod dva sata, a Github već ima 2,7k+ zvjezdica: The…

Što je FlashMLA? Sveobuhvatni vodič o njegovom utjecaju na AI dekodiranje kernela

Što je FlashMLA? Sveobuhvatni vodič o njegovom utjecaju na AI dekodiranje kernela

FlashMLA je brzo privukao pozornost u svijetu umjetne inteligencije, posebno u području velikih jezičnih modela (LLM). Ovaj inovativni alat, koji je razvio DeepSeek, služi kao optimizirana jezgra za dekodiranje dizajnirana za Hopper GPU-ove—čipove visokih performansi koji se obično koriste u AI računanjima. FlashMLA se fokusira na učinkovitu obradu sekvenci promjenjive duljine, što ga čini posebno pogodnim za...

Qwen2.5-max protiv DeepSeek R1: Duboka usporedba modela: potpuna analiza scenarija primjene

Qwen2.5-max protiv DeepSeek R1: Duboka usporedba modela: potpuna analiza scenarija primjene

Uvod Danas veliki jezični modeli (LLM) igraju presudnu ulogu. Početkom 2025. godine, kako se konkurencija za AI zaoštravala, Alibaba je lansirala novi Qwen2.5-max AI model, a DeepSeek, tvrtka iz Hangzhoua u Kini, lansirala je model R1, koji predstavlja vrhunac LLM tehnologije. Deepseek R1 je AI model otvorenog koda koji je privukao…

Blizu je DeepSeek-R1-32B i uništava Fei-Fei Lijev s1! UC Berkeley i drugi novi modeli zaključivanja SOTA otvorenog koda

Model zaključivanja 32B koristi samo 1/8 podataka i povezan je s DeepSeek-R1 iste veličine! Upravo su sada institucije kao što su Stanford, UC Berkeley i Sveučilište Washington zajednički objavile model zaključivanja na razini SOTA-e, OpenThinker-32B, a također su otvorile do 114k podataka o obuci. Početna stranica projekta OpenThinker: lice koje grli OpenThinker:…

Artefakti upravljanja velikim jezičnim modelom kao što su DeepSeek: Cherry Studio, Chatbox, AnythingLLM, tko je vaš akcelerator učinkovitosti?

Artefakti upravljanja velikim jezičnim modelom kao što su DeepSeek: Cherry Studio, Chatbox, AnythingLLM, tko je vaš akcelerator učinkovitosti?

Mnogi su ljudi već počeli implementirati i koristiti Deepseek Large Language Models lokalno, koristeći Chatbox kao alat za vizualizaciju. Ovaj će članak nastaviti predstavljati dva druga artefakta za upravljanje i vizualizaciju AI Large Language Modela i detaljno će ih usporediti kako bi vam pomogao da učinkovitije koristite AI Large Language Models. Godine 2025.…

Le Chat je na vrhu ljestvice s ulaganjem od stotinu milijardi dolara. Nakon SAD-a i Kine, je li treća AI sila?

Dana 9. veljače francuski predsjednik Emmanuel Macron najavio je da će Francuska uložiti 109 milijardi eura (113 milijardi američkih dolara) u područje umjetne inteligencije u sljedećih nekoliko godina. Ovo će se ulaganje iskoristiti za izgradnju AI parka u Francuskoj, poboljšanje infrastrukture i ulaganje u lokalne novonastale tvrtke AI. U međuvremenu, Mistral, francuski startup,…

Što Deepseek može postići? Čak ni OpenAI to ne može?

Prava vrijednost DeepSeek je podcijenjena! DeepSeek-R1 je bez sumnje donio novi val entuzijazma na tržište. Ne samo da relevantni takozvani ciljevi korisnika naglo rastu, već su neki ljudi čak razvili tečajeve i softver povezane s DeepSeek u pokušaju da od toga zarade. Vjerujemo da iako ovi fenomeni imaju...

Glavni svjetski AI proizvodi usredotočeni su na analizu i sveobuhvatne smjernice za korisničko iskustvo (uključujući DeepSeek i GPT)

Glavni svjetski AI proizvodi usredotočeni su na analizu i sveobuhvatne smjernice za korisničko iskustvo (uključujući DeepSeek i GPT)

Pozicioniranje funkcija i analiza ključnih prednosti ChatGPT (OpenAI) – globalno mjerilo za svestrane ChatGPT Tehnički geni: generativni AI temeljen na GPT seriji velikih modela, s općim konverzacijskim vještinama i logičkim zaključivanjem kao temeljnim prednostima. Višejezična obrada: najbolja je na engleskom, uz kontinuirano poboljšanje na kineskom; ali preporučujemo da koristite engleski za...

Tajna iza DeepSeek 1 | DeepSeekMmatematika i GRPO detalji

Tajna iza DeepSeek 1 | DeepSeekMmatematika i GRPO detalji

Danas bih želio podijeliti članak iz DeepSeek pod naslovom DeepSeekMath: Pomicanje granica matematičkog zaključivanja u modelima otvorenog jezika. Ovaj članak predstavlja DeepSeekMath 7B, koji je unaprijed obučen na DeepSeek-Coder-Base-v1.5 7B na temelju zbirke od 120B tokena povezanih s matematikom, prirodnim jezikom i podacima koda. Model je postigao zadivljujući rezultat od 51,7% na natjecateljskoj razini…

Otkrivena tehnologija DeepSeek-R1: temeljni principi papira su raščlanjeni i otkriven je ključ revolucionarne izvedbe modela

Danas ćemo podijeliti DeepSeek R1, naslov: DeepSeek-R1: Poticanje sposobnosti rasuđivanja u LLM-u putem dodatnog učenja: Poticanje sposobnosti rasuđivanja u LLM-u putem učenja s pojačanjem. Ovaj rad predstavlja prvu generaciju modela rezoniranja DeepSeek, DeepSeek-R1-Zero i DeepSeek-R1. Model DeepSeek-R1-Zero obučen je kroz opsežno učenje pojačanja (RL) bez nadziranog finog podešavanja (SFT) kao početni korak,…