DeepSeek го објави својот изворен код, детално објаснување за FlashMLA

Минатата недела, DeepSeek објави дека следната недела ќе отвори пет проекти со отворен код:

Нетизените рекоа: „Овој пат, OpenAI е навистина тука“.

Токму сега, дојде првиот проект со отворен код, поврзан со забрзувањето на заклучоците, FlashMLA:

Адреса на проектот со отворен код:

DeepSeek FlashMLA

Тој е со отворен код веќе два часа, а Github веќе има 2,7k+ ѕвезди:

Основната функција на проектот е:

„FlashMLA е ефикасен кернел за декодирање MLA за графички процесори на Hopper, оптимизиран за сервирање секвенци со променлива должина“.

Во превод, тоа е:

„FlashMLA е ефикасен кернел за декодирање MLA оптимизиран за графички процесори на архитектурата NVIDIA Hopper, специјално оптимизиран за сценарија за услуги што обработуваат секвенци со променлива должина“.

Накратко:

FlashMLA е ефикасно јадро за декодирање дизајнирано од DeepInference за графички процесори со архитектура Hopper (како што е H800). Со оптимизирање на пресметувањето на потенцијалното внимание на повеќе глави на секвенците со променлива должина, се постигнува крајна изведба од 3000 GB/s пропусен опсег на меморија и 580 TFLOPS компјутерска моќ во фазата на декодирање, што значително ја подобрува ефикасноста на расудувањето со долги контексти за големи модели.

Некои корисници на Интернет рекоа:

Некои луѓе веќе го користат, и велат чисто инженерство:

Овој проект припаѓа на инженерска оптимизација и ги стиска перформансите на хардверот на ограничување.

Проектот е подготвен за употреба надвор од кутијата.

Барања за животната средина:

Хопер графички процесор
CUDA 12.3 и погоре
PyTorch 2.0 и погоре

На крајот на проектот, службеникот исто така изјави дека е инспириран од проектите FlashAttention 2&3 и NVIDIA CUTLASS.

FlashAttention е способен да постигне брзо и ефикасно прецизно внимание за меморија и се користи во главните големи модели. Најновата верзија од третата генерација може да ја зголеми стапката на искористеност на H100 на 75%.

Брзината на обука е зголемена за 1,5-2 пати, а пресметковната пропусност под FP16 е висока до 740 TFLOPs/s, достигнувајќи 75% од теоретската максимална пропусност и целосно искористувајќи ги компјутерските ресурси, што претходно беше само 35%.

FlashMLA не само што постигнува скок во перформансите преку оптимизација на ниво на хардвер, туку обезбедува и надворешно решение за инженерски практики во заклучоците за вештачка интелигенција, станувајќи клучен технолошки пробив во забрзувањето на заклучоците на големите модели.

Имаше толку големо откривање на првиот ден.

Со нетрпение ги очекувам работите со отворен код во следните четири дена!

Како што рече нетизенот:

Китот прави бранови!

DeepSeek е одличен!

Некатегоризирано

Тајната зад DeepSeek 1 | Детали за DeepSeekMath и GRPO

Од страна наzddeepseeker 9 февруари 2025 година9 февруари 2025 година

Денес би сакал да споделам статија од DeepSeek, насловена како DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. Оваа статија го воведува DeepSeekMath 7B, кој е претходно обучен на DeepSeek-Coder-Base-v1.5 7B врз основа на колекција од 120B математички токени, природен јазик и податоци за кодови. Моделот постигна неверојатен резултат од 51,7% на конкурентно ниво…

Некатегоризирано

Главните светски производи со вештачка интелигенција се фокусираат на анализа и сеопфатни упатства за корисничко искуство (вклучувајќи DeepSeek и GPT)

Од страна наzddeepseeker 10 февруари 2025 година10 февруари 2025 година

Позиционирање на функции и анализа на основните предности ChatGPT (OpenAI) – глобален репер за сеопфатни ChatGPT Технички гени: генеративна вештачка интелигенција базирана на серијата големи модели на GPT, со општи вештини за разговор и логично расудување како основни предности. Повеќејазична обработка: најдобро функционира на англиски, со континуирано подобрување на кинескиот; но препорачуваме да го користиме англискиот јазик за да…

Некатегоризирано

Откриена е технологијата DeepSeek-R1: основните принципи на хартијата се расчленети и клучот за пробивните перформанси на моделот е откриен

Од страна наzddeepseeker 9 февруари 2025 година9 февруари 2025 година

Денес ќе споделиме DeepSeek R1, Наслов: DeepSeek-R1: Поттикнување на способноста за расудување кај LLM преку учење за зајакнување: Поттикнување на способноста за расудување на LLM преку учење за засилување. Овој труд ја воведува првата генерација на модели за расудување на DeepSeek, DeepSeek-R1-Zero и DeepSeek-R1. Моделот DeepSeek-R1-Zero беше обучен преку учење за засилување од големи размери (RL) без надгледувано фино подесување (SFT) како почетен чекор,…

Некатегоризирано

Ударни вести! OpenAI објави 2 нови модели за заклучување денес: o3-mini и o3-mini-high.

Од страна наzddeepseeker 1 февруари 2025 година1 февруари 2025 година

o3-mini и o3-mini (високо) ќе бидат пуштени денеска. Редовните корисници ќе добијат и o3-mini, а плус корисниците ќе можат да користат o3-mini (високо). o3-mini (високо) е околу 200 поени повисок од o1 на Codeforce, побрз од o1 и има подобри резултати во кодирањето и математиката, но цената е сè уште на ниво на o1-mini….

Некатегоризирано

Што може да постигне Deepseek? Дури и OpenAI не може да го направи тоа?

Од страна наzddeepseeker 10 февруари 2025 година10 февруари 2025 година

Вистинската вредност на DeepSeek е потценета! DeepSeek-R1 несомнено донесе нов бран на ентузијазам на пазарот. Не само што релевантните таканаречени цели на корисници нагло се зголемуваат, туку некои луѓе дури развија курсеви и софтвер поврзани со DeepSeek во обид да заработат пари од тоа. Сметаме дека иако овие појави имаат…

Некатегоризирано

Сеопфатна споредба на новообјавените o3-mini и DeepSeek R1 на OpenAI

Од страна наzddeepseeker 1 февруари 2025 година1 февруари 2025 година

OpenAI го објави својот најнов модел за заклучување, o3-mini, кој е оптимизиран за области како наука, математика и програмирање, обезбедувајќи побрз одговор, поголема прецизност и пониска цена. Во споредба со својот претходник o1-mini, o3-mini значително ги подобри своите способности за заклучување, особено во решавањето сложени проблеми. Тестерите претпочитаат одговори на o3-mini со 56%, а стапката на грешка има…

Слични објави

Напишете коментар Откажи одговор