Без категория - Deepseek R1

Тайната зад DeepSeek 1 | DeepSeekMath и GRPO подробности

Без категория

Тайната зад DeepSeek 1 | DeepSeekMath и GRPO подробности

Отzddeepseeker 9 февруари 2025 г9 февруари 2025 г

Днес бих искал да споделя статия от DeepSeek, озаглавена DeepSeekMath: Разширяване на границите на математическото разсъждение в отворени езикови модели. Тази статия представя DeepSeekMath 7B, който е предварително обучен на DeepSeek-Coder-Base-v1.5 7B, базиран на колекция от 120B свързани с математика токени, естествен език и кодови данни. Моделът постигна удивителен резултат от 51.7% на конкурентно ниво...

Без категория

Разкрита е технологията DeepSeek-R1: основните принципи на хартията са разбити и е разкрит ключът към пробивното представяне на модела

Отzddeepseeker 9 февруари 2025 г9 февруари 2025 г

Днес ще споделим DeepSeek R1, заглавие: DeepSeek-R1: Стимулиране на способността за разсъждение в LLMs чрез Reinforcement Learning: Стимулиране на способността за разсъждение на LLM чрез подсилващо обучение. Този документ представя първото поколение модели на разсъждение на DeepSeek, DeepSeek-R1-Zero и DeepSeek-R1. Моделът DeepSeek-R1-Zero беше обучен чрез широкомащабно обучение с подсилване (RL) без контролирана фина настройка (SFT) като начална стъпка,...

Без категория

DeepSeek R1 тълкуване на хартия и ключови технически точки

Отzddeepseeker 9 февруари 2025 г9 февруари 2025 г

1 История По време на Пролетния фестивал DeepSeek R1 отново привлече широко внимание и дори статията за интерпретация на DeepSeek V3, която написахме по-рано, също беше препредадена и обсъждана много. Въпреки че има много анализи и репродукции на DeepSeek R1, тук решихме да съставим някои съответни бележки за четене. Ще използваме три…

Евтиният модел на Google, серията Gemini 2.0, атакува: битката за рентабилност при големите модели се засилва

Без категория

Евтиният модел на Google, серията Gemini 2.0, атакува: битката за рентабилност при големите модели се засилва

Отzddeepseeker 8 февруари 2025 г8 февруари 2025 г

Високата цена на използването на големи AI модели е основна причина, поради която много AI приложения все още не са внедрени и популяризирани. Изборът на изключителна производителност означава огромни разходи за изчислителна мощност, което води до високи разходи за използване, които обикновените потребители не могат да приемат. Конкуренцията за големи AI модели е като война без дим. след…

Gemini 2.0 доминира в класациите, докато DeepSeek V3 плаче в цената си и се ражда нов рентабилен шампион!

Без категория

Gemini 2.0 доминира в класациите, докато DeepSeek V3 плаче в цената си и се ражда нов рентабилен шампион!

Отzddeepseeker 8 февруари 2025 г8 февруари 2025 г

Семейството Google Gemini 2.0 най-накрая е завършено! Той доминира в класациите веднага след като е пуснат. На фона на преследването и блокадите на Deepseek, Qwen и o3, Google пусна три модела наведнъж рано тази сутрин: Gemini 2.0 Pro, Gemini 2.0 Flash и Gemini 2.0 Flash-Lite. В класацията на големия модел LMSYS, Gemini...

a16z диалог с 27-годишен изпълнителен директор: AI Agent има огромен ливъридж ефект и дългосрочното ценообразуване ще бъде свързано с разходите за труд

Без категория

a16z диалог с 27-годишен изпълнителен директор: AI Agent има огромен ливъридж ефект и дългосрочното ценообразуване ще бъде свързано с разходите за труд

Отzddeepseeker 8 февруари 2025 г8 февруари 2025 г

Акценти AI Agent променя клиентското изживяване Джеси Джан: Как всъщност се изгражда агент? Нашето мнение е, че с течение на времето той ще става все повече и повече като агент, базиран на естествен език, защото така се обучават големите езикови модели (LLM). В дългосрочен план, ако имате супер интелигентен агент, който...

Без категория

Кати Ууд: DeepSeek просто ускорява процеса на намаляване на разходите; изключително концентрираната пазарна структура, сравнима с Голямата депресия, ще се промени

Отzddeepseeker 8 февруари 2025 г8 февруари 2025 г

Акценти Конкуренцията с DeepSeek е добра за САЩ Кати Ууд: Мисля, че това показва, че цената на иновациите пада драстично и че тази тенденция вече е започнала. Например, преди DeepSeek, разходите за обучение на изкуствен интелект паднаха със 75% на година, а разходите за изводи дори паднаха с 85% до...

Без категория

Google пусна три нови модела наведнъж: Gemini-2.0-Pro е безплатен, има изключителен резултат и е на първо място и е подходящ за кодиране и обработка на сложни подкани!

Отzddeepseeker 8 февруари 2025 г8 февруари 2025 г

Историята на Gemini 2.0 се ускорява. Експерименталната версия на Flash Thinking Experimental през декември донесе на разработчиците работещ модел с ниска латентност и висока производителност. По-рано тази година 2.0 Flash Thinking Experimental беше актуализиран в Google AI Studio за допълнително подобряване на производителността чрез комбиниране на скоростта на Flash с подобрени възможности за извод. Миналата седмица,…

DeepSeek ТОП17 Най-добри алтернативи: Цялостен анализ (2025)

Без категория

DeepSeek ТОП17 Най-добри алтернативи: Цялостен анализ (2025)

Отdeepseeker 6 февруари 2025 г6 февруари 2025 г

Въведение В бързо развиващия се пейзаж на изкуствения интелект DeepSeek се очертава като мощен езиков модел. Този изчерпателен анализ изследва 17-те най-добри алтернативи на DeepSeek, разглеждайки техните уникални характеристики, възможности и случаи на употреба. Нашето изследване се фокусира върху международни и китайски платформи, които предлагат DeepSeek интеграция или подобни възможности. Анализ на най-добрите алтернативи 1...

Без категория

Ali Qwen2.5-Max изпреварва DeepSeek-V3! Netizen: Китайският AI бързо намалява разликата

Отzddeepseeker 5 февруари 2025 г5 февруари 2025 г

Току-що друг местен модел беше добавен към списъка на Big Model Arena от Ali, Qwen2.5-Max, който надмина DeepSeek-V3 и се класира на седмо място в общата класация с общ резултат от 1332. Той също така надмина модели като Claude 3.5 Sonnet и Llama 3.1 405B с един замах. По-специално, той е отличен в програмирането...