Uncategorized - Deepseek R1

Секрет DeepSeek 1 | Подробности DeepSeekMath и GRPO

Без категории

Секрет DeepSeek 1 | Подробности DeepSeekMath и GRPO

Авторzddeepseeker 9 февраля 2025 г.9 февраля 2025 г.

Сегодня я хотел бы поделиться статьей из DeepSeek под названием DeepSeekMath: Расширяя границы математического обоснования в моделях открытого языка. В этой статье представлен DeepSeekMath 7B, который предварительно обучен на DeepSeek-Coder-Base-v1.5 7B на основе коллекции из 120B математических токенов, естественного языка и кодовых данных. Модель достигла поразительного результата 51.7% на соревновательном уровне…

Без категории

Раскрыта технология DeepSeek-R1: основные принципы статьи раскрыты и ключ к прорывной производительности модели раскрыт

Авторzddeepseeker 9 февраля 2025 г.9 февраля 2025 г.

Сегодня мы поделимся DeepSeek R1, Название: DeepSeek-R1: Стимулирование способности к рассуждению в LLM посредством обучения с подкреплением: Стимулирование способности к рассуждению в LLM посредством обучения с подкреплением. В этой статье представлено первое поколение моделей рассуждения DeepSeek, DeepSeek-R1-Zero и DeepSeek-R1. Модель DeepSeek-R1-Zero была обучена посредством крупномасштабного обучения с подкреплением (RL) без контролируемой тонкой настройки (SFT) в качестве начального шага,…

Без категории

Интерпретация доклада DeepSeek R1 и ключевые технические моменты

Авторzddeepseeker 9 февраля 2025 г.9 февраля 2025 г.

1 Предыстория Во время Весеннего фестиваля DeepSeek R1 снова привлекла всеобщее внимание, и даже статья-интерпретация DeepSeek V3, которую мы ранее написали, также была повторно передана и много обсуждалась. Хотя было много анализов и воспроизведений DeepSeek R1, здесь мы решили собрать некоторые соответствующие заметки для чтения. Мы будем использовать три…

Недорогая модель Google серии Gemini 2.0 наступает: борьба за экономическую эффективность в крупных моделях усиливается

Без категории

Недорогая модель Google серии Gemini 2.0 наступает: борьба за экономическую эффективность в крупных моделях усиливается

Авторzddeepseeker 8 февраля 2025 г.8 февраля 2025 г.

Высокая стоимость использования больших моделей ИИ является основной причиной, по которой многие приложения ИИ до сих пор не внедрены и не продвигаются. Выбор экстремальной производительности означает огромные затраты вычислительной мощности, что приводит к высоким расходам на использование, которые обычные пользователи не могут принять. Конкуренция за большие модели ИИ — это как война без дыма. После…

Gemini 2.0 доминирует в чартах, в то время как DeepSeek V3 плачет по своей цене, и рождается новый экономически эффективный чемпион!

Без категории

Gemini 2.0 доминирует в чартах, в то время как DeepSeek V3 плачет по своей цене, и рождается новый экономически эффективный чемпион!

Авторzddeepseeker 8 февраля 2025 г.8 февраля 2025 г.

Семейство Google Gemini 2.0 наконец-то завершено! Оно доминирует в чартах сразу после своего выпуска. Среди преследования и блокады Deepseek, Qwen и o3, Google выпустила три модели одновременно сегодня рано утром: Gemini 2.0 Pro, Gemini 2.0 Flash и Gemini 2.0 Flash-Lite. В рейтинге LMSYS по большим моделям Gemini…

Диалог a16z с 27-летним генеральным директором: AI Agent имеет огромный эффект рычага, и долгосрочное ценообразование будет связано с затратами на рабочую силу

Без категории

Диалог a16z с 27-летним генеральным директором: AI Agent имеет огромный эффект рычага, и долгосрочное ценообразование будет связано с затратами на рабочую силу

Авторzddeepseeker 8 февраля 2025 г.8 февраля 2025 г.

Основные моменты AI Agent меняет клиентский опыт Джесси Чжан: Как на самом деле устроен Агент? Мы считаем, что со временем он будет все больше походить на Агента на основе естественного языка, потому что именно так обучаются большие языковые модели (LLM). В долгосрочной перспективе, если у вас есть суперинтеллектуальный агент, который…

Без категории

Кэти Вуд: DeepSeek просто ускоряет процесс снижения затрат; экстремально концентрированная структура рынка, сопоставимая с Великой депрессией, изменится

Авторzddeepseeker 8 февраля 2025 г.8 февраля 2025 г.

Основные моменты Конкуренция с DeepSeek полезна для США Кэти Вуд: Я думаю, это показывает, что стоимость инноваций резко падает, и что эта тенденция уже началась. Например, до DeepSeek стоимость обучения искусственного интеллекта падала на 75% в год, а стоимость вывода даже упала на 85% до…

Без категории

Google выпустила сразу три новые модели: Gemini-2.0-Pro бесплатна, имеет выдающийся рейтинг и занимает первое место, а также подходит для кодирования и обработки сложных подсказок!

Авторzddeepseeker 8 февраля 2025 г.8 февраля 2025 г.

История Gemini 2.0 ускоряется. Версия Flash Thinking Experimental в декабре принесла разработчикам рабочую модель с низкой задержкой и высокой производительностью. Ранее в этом году 2.0 Flash Thinking Experimental была обновлена в Google AI Studio для дальнейшего повышения производительности за счет объединения скорости Flash с улучшенными возможностями вывода. На прошлой неделе…

DeepSeek TOP17 лучших альтернатив: комплексный анализ (2025)

Без категории

DeepSeek TOP17 лучших альтернатив: комплексный анализ (2025)

Авторdeepseeker 6 февраля 2025 г.6 февраля 2025 г.

Введение В быстро развивающемся ландшафте искусственного интеллекта DeepSeek стал мощной языковой моделью. Этот всесторонний анализ исследует 17 лучших альтернатив DeepSeek, изучая их уникальные особенности, возможности и варианты использования. Наше исследование сосредоточено как на международных, так и на китайских платформах, которые предлагают интеграцию DeepSeek или аналогичные возможности. Анализ лучших альтернатив 1….

Без категории

Ali Qwen2.5-Max обгоняет DeepSeek-V3! Пользователи сети: ИИ Китая стремительно сокращает разрыв

Авторzddeepseeker 5 февраля 2025 г.5 февраля 2025 г.

Только что в список Big Model Arena от Ali была добавлена еще одна отечественная модель — Qwen2.5-Max, которая превзошла DeepSeek-V3 и заняла седьмое место в общем рейтинге с общим счетом 1332. Она также превзошла такие модели, как Claude 3.5 Sonnet и Llama 3.1 405B одним махом. В частности, она преуспевает в программировании…