DeepSeek je izdal svojo izvorno kodo, podrobno razlago FlashMLA

DeepSeek je izdal svojo izvorno kodo, podrobno razlago FlashMLA

Prejšnji teden je DeepSeek napovedal, da bo naslednji teden odprtokodno pet projektov: uporabniki interneta so rekli: "Tokrat je OpenAI res tukaj." Pravkar je prišel prvi odprtokodni projekt, povezan s pospeševanjem sklepanja, FlashMLA: naslov odprtokodnega projekta: DeepSeek FlashMLA Odprtokodni je že dve uri, Github pa ima že 2,7k+ zvezdic: The…

Kaj je FlashMLA? Obsežen vodnik o njegovem vplivu na jedra za dekodiranje AI

Kaj je FlashMLA? Obsežen vodnik o njegovem vplivu na jedra za dekodiranje AI

FlashMLA je hitro pridobil pozornost v svetu umetne inteligence, zlasti na področju velikih jezikovnih modelov (LLM). To inovativno orodje, ki ga je razvil DeepSeek, služi kot optimizirano jedro za dekodiranje, zasnovano za Hopper GPE-je – visoko zmogljive čipe, ki se običajno uporabljajo v izračunih z umetno inteligenco. FlashMLA se osredotoča na učinkovito obdelavo zaporedij spremenljive dolžine, zaradi česar je še posebej primeren za ...

Qwen2.5-max proti DeepSeek R1: Poglobljena primerjava modelov: popolna analiza aplikacijskih scenarijev

Qwen2.5-max proti DeepSeek R1: Poglobljena primerjava modelov: popolna analiza aplikacijskih scenarijev

Uvod Danes imajo veliki jezikovni modeli (LLM) ključno vlogo. V začetku leta 2025, ko se je konkurenca za AI zaostrila, je Alibaba lansirala nov model AI Qwen2.5-max, DeepSeek, podjetje iz Hangzhouja na Kitajskem, pa model R1, ki predstavlja vrhunec tehnologije LLM. Deepseek R1 je odprtokodni model AI, ki je pritegnil ...

Je blizu DeepSeek-R1-32B in zdrobi s1 Fei-Fei Li! UC Berkeley in drugi odprtokodni novi modeli sklepanja SOTA

Inferenčni model 32B uporablja le 1/8 podatkov in je povezan z DeepSeek-R1 enake velikosti! Pravkar so ustanove, kot so Stanford, UC Berkeley in Univerza v Washingtonu, skupaj izdale model sklepanja na ravni SOTA, OpenThinker-32B, in prav tako odprle do 114k podatkov o usposabljanju. Domača stran projekta OpenThinker: OpenThinker Hugging Face:…

Artefakti upravljanja velikih jezikovnih modelov, kot je DeepSeek: Cherry Studio, Chatbox, AnythingLLM, kdo je vaš pospeševalnik učinkovitosti?

Artefakti upravljanja velikih jezikovnih modelov, kot je DeepSeek: Cherry Studio, Chatbox, AnythingLLM, kdo je vaš pospeševalnik učinkovitosti?

Številni ljudje so že začeli uvajati in uporabljati velike jezikovne modele Deepseek lokalno, pri čemer uporabljajo Chatbox kot orodje za vizualizacijo. Ta članek bo še naprej predstavljal dva druga artefakta upravljanja in vizualizacije velikih jezikovnih modelov umetne inteligence in jih bo podrobno primerjal, da boste lahko učinkoviteje uporabljali velike jezikovne modele umetne inteligence. Leta 2025 je…

Le Chat je na vrhu lestvice s sto milijardami dolarjev naložbe. Je po ZDA in Kitajski tretja sila AI?

Francoski predsednik Emmanuel Macron je 9. februarja napovedal, da bo Francija v naslednjih nekaj letih v področje umetne inteligence vložila 109 milijard evrov (113 milijard ameriških dolarjev). Ta naložba bo uporabljena za izgradnjo parka umetne inteligence v Franciji, izboljšanje infrastrukture in naložbe v lokalna zagonska podjetja z umetno inteligenco. Medtem je Mistral, francoski startup, ...

Kaj lahko doseže Deepseek? Tudi OpenAI tega ne zmore?

Prava vrednost DeepSeek je podcenjena! DeepSeek-R1 je nedvomno prinesel nov val navdušenja na trg. Ne samo, da so relevantni tako imenovani cilji upravičencev strmo naraščali, ampak so nekateri ljudje celo razvili tečaje in programsko opremo, povezane z DeepSeek, da bi z njim zaslužili. Verjamemo, da čeprav imajo ti pojavi …

Glavni izdelki umetne inteligence na svetu se osredotočajo na analizo in celovite smernice za uporabniško izkušnjo (vključno z DeepSeek in GPT)

Glavni izdelki umetne inteligence na svetu se osredotočajo na analizo in celovite smernice za uporabniško izkušnjo (vključno z DeepSeek in GPT)

Postavitev funkcij in analiza osnovnih prednosti ChatGPT (OpenAI) – globalno merilo uspešnosti za vsestranske ChatGPT Tehnični geni: generativni AI, ki temelji na seriji velikih modelov GPT, s splošnimi pogovornimi veščinami in logičnim sklepanjem kot glavnima prednostma. Večjezična obdelava: najbolje deluje v angleščini, z nenehnim izboljševanjem v kitajščini; vendar priporočamo uporabo angleščine za ...

Skrivnost za DeepSeek 1 | DeepSeekMmatematika in podrobnosti GRPO

Skrivnost za DeepSeek 1 | DeepSeekMmatematika in podrobnosti GRPO

Danes bi rad delil članek iz DeepSeek z naslovom DeepSeekMath: premikanje meja matematičnega sklepanja v modelih odprtega jezika. Ta članek predstavlja DeepSeekMath 7B, ki je vnaprej usposobljen na DeepSeek-Coder-Base-v1.5 7B, ki temelji na zbirki 120B žetonov, povezanih z matematiko, naravnega jezika in kodnih podatkov. Model je dosegel osupljivo oceno 51,7% na konkurenčni ravni…

Razkrita tehnologija DeepSeek-R1: temeljna načela papirja so razčlenjena in razkrit je ključ do prebojne zmogljivosti modela

Danes bomo delili DeepSeek R1, naslov: DeepSeek-R1: Spodbujanje zmožnosti sklepanja pri LLM s pomočjo učenja s krepitvijo: Spodbujanje zmožnosti sklepanja pri LLM s pomočjo učenja z okrepitvijo. Ta članek predstavlja prvo generacijo modelov razmišljanja DeepSeek, DeepSeek-R1-Zero in DeepSeek-R1. Model DeepSeek-R1-Zero je bil kot začetni korak usposobljen z obsežnim okrepitvenim učenjem (RL) brez nadzorovane natančne nastavitve (SFT), ...