В будущем будет появляться все больше и больше хардкорных инноваций. Возможно, сейчас это нелегко понять, потому что вся социальная группа должна быть обучена фактам. Когда общество позволит людям, которые внедряют инновации в хардкорном стиле, добиться успеха, коллективное мышление изменится. Нам просто нужна куча фактов и процесс". - Лян Вэньфэн, основатель компании DeepSeek
В последние дни компания DeepSeek взорвалась по всему миру, но из-за того, что компания так малоизвестна и не делала никаких заявлений, общественность очень мало знает об этой технологической компании с большим потенциалом - будь то история ее основания, сфера деятельности или структура продукта.
Закончив разбираться со всеми материалами, я написал эту статью
Какова биография нынешних игроков ИИ, чем они занимаются и кого набирают?
и, вероятно, самый полный исторический обзор DeepSeek.
В прошлом году ко мне пришел друг из Magic Cube Quant и спросил: "Хочешь построить большую модель в Китае?". А я просто провел день, попивая кофе. Как и ожидалось, жизнь по-прежнему зависит от выбора.
Сайт Magic Cube Quant, упомянутый здесь, является инвестором, или материнская компания, DeepSeek.
Так называемые "кванты" - это инвестиционные институты, которые принимают решения не человеческой силой, а алгоритмами. Становление Quant Fantasy недолгое, началось в 2015 году. К 2021 году, когда компании исполнилось шесть лет, масштаб управления активами Quant Fantasy превысил 100 миллиардов, и ее назвали одним из "четырех великих квантовых королей" Китая.
Основатель Fantasy Square, Лян Вэньфэн, который также является основателем DeepSeek, не является финансовым лидером, родившимся в 1980-х годах: у него нет опыта обучения за рубежом, он не является победителем олимпийских соревнований и окончил факультет электронной инженерии Чжэцзянского университета по специальности "искусственный интеллект". Он - прирожденный эксперт в области технологий, который ведет себя сдержанно, ежедневно "читает статьи, пишет код и участвует в групповых обсуждениях".
Лян Вэньфэн не имеет привычек традиционного владельца бизнеса, он скорее похож на чистого "технаря".. Многие инсайдеры отрасли и исследователи DeepSeek дали Лян Вэньфэну чрезвычайно высокую оценку: "человек, который обладает как сильными возможностями в области инфраинженерии и исследования моделей, так и способен мобилизовать ресурсы", "человек, который может выносить точные суждения на высоком уровне, но при этом превосходит передовых исследователей в деталях", а также обладает "ужасающей способностью к обучению".
Задолго до основания DeepSeek компания Huanfang уже начала строить долгосрочные планы в сфере искусственного интеллекта.. В мае 2023 года Лян Вэньфэн упомянул в интервью Darksurge: "После того как OpenAI выпустила GPT3 в 2020 году, направление развития ИИ стало очень ясным, а вычислительная мощность станет ключевым элементом; но даже в 2021 году, когда мы вложили деньги в создание Firefly 2, большинство людей все еще не могли понять его".
Основываясь на этом суждении, Huanfang начала создавать собственную вычислительную инфраструктуру. "От самой первой 1 карты до 100 карт в 2015 году, 1 000 карт в 2019 году, а затем 10 000 карт - этот процесс происходил постепенно. До появления нескольких сотен карт мы размещались в IDC. Когда масштабы стали больше, хостинг перестал удовлетворять требованиям, и мы начали строить собственный компьютерный зал".
Позже "Финанс Одиннадцать" сообщил: "Есть не более пяти отечественных компаний, имеющих более 10 000 графических процессоров, и помимо нескольких крупных производителей, в их число входит компания по созданию количественных фондов под названием Magic Cube." Принято считать, что 10 000 чипов Nvidia A100 - это порог вычислительной мощности для обучения больших моделей.
В предыдущем интервью Лян Вэньфэн также упомянул интересный момент: Многие могут подумать, что за этим стоит неизвестная бизнес-логика, но на самом деле, в основном, это вызвано любопытством.
DeepSeekПервая встреча
В интервью Darksurge в мае 2023 года, когда его спросили "Не так давно Huanfang объявил о своем решении сделать большие модели, почему количественный фонд должен делать такие вещи?"
Ответ Лян Вэньфэна прозвучал очень громко: "Наше решение построить большую модель не имеет ничего общего с квантификацией или финансами. Для этого мы создали новую компанию под названием DeepSeek. Многие из ключевых членов команды Mianfang занимаются искусственным интеллектом. В то время мы перепробовали множество сценариев и в итоге остановились на финансах, которые достаточно сложны. Общий искусственный интеллект может быть одним из следующих по сложности достижений, поэтому для нас вопрос в том, как это сделать, а не зачем.
Ими движут не коммерческие интересы или погоня за рыночными тенденциями, а просто желание изучить саму технологию AGI и упорное стремление к "самому важному и сложному". Название "DeepSeek" было официально подтверждено в мае 2023 года.. 17 июля 2023 года была зарегистрирована компания "Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Co., Ltd.".
На сайте 2 ноября 2023 года компания DeepSeek представила свой первый ответ: DeepSeek Coder, большая модель открытого исходного кода. Эта модель включает в себя несколько размеров, таких как 1B, 7B и 33B. В открытый исходный код входят базовая модель и модель настройки команд.
В то время среди моделей с открытым исходным кодом CodeLlama от Meta была эталоном в отрасли. Однако после выхода DeepSeek Coder продемонстрировал многостороннее лидерство по сравнению с CodeLlama: в генерации кода HumanEval опережал на 9,3%, MBPP - на 10,8%, а DS-1000 - на 5,9%.
Не забывайте, что DeepSeek Coder - это модель 7B, а CodeLlama - 34B. Кроме того, модель DeepSeek Coder после настройки с помощью инструкций полностью превзошла GPT3.5-Turbo.
Впечатляет не только генерация кода, DeepSeek Coder также демонстрирует свои способности к математике и рассуждениям.
Через три дня, 5 ноября 2023 года, DeepSeek опубликовала через свой аккаунт в WeChat большое количество материалов о наборе персонала, включая такие позиции, как стажер по созданию большой модели AGI, эксперт по данным, талант в области архитектуры данных, старший инженер по сбору данных, инженер по исследованиям и разработкам в области глубокого обучения и т. д., и начала активно расширять команду.
Как сказал Лян Вэньфэн, Обязательными требованиями DeepSeek при подборе персонала являются "страсть и твердые базовые навыки".Он подчеркнул, что "Инновации требуют как можно меньше вмешательства и управления, чтобы у каждого была свобода совершать ошибки и пробовать новое. Инновации часто приходят изнутри, а не в результате целенаправленных действий, и уж точно не в результате обучения".
Модели часто выпускаются, и практикуется открытый исходный код.
После того как DeepSeek Coder произвел фурор, DeepSeek обратила свое внимание на главное поле битвы: общие языковые модели.
На сайте 29 ноября 2023 года компания DeepSeek выпустила свою первую модель большого языка общего назначения - DeepSeek LLM 67B. Эта модель сравнима с моделью LLaMA2 70B компании Meta того же уровня и показала лучшие результаты почти в 20 публичных списках оценок на китайском и английском языках. В частности, ее способности к рассуждениям, математике и программированию (например, HumanEval, MATH, CEval и CMMLU) являются выдающимися.
DeepSeek LLM 67B также выбрала путь открытого исходного кода и поддерживает коммерческое использование. Чтобы еще больше продемонстрировать свою искренность и стремление к открытому исходному коду, DeepSeek беспрецедентно одновременно открыла исходный код двух моделей разного масштаба, 7B и 67B, и даже обнародовала девять контрольных точек, созданных в процессе обучения модели, чтобы исследователи могли скачать и использовать их. Подобные действия, которые сродни "обучению всему", крайне редки во всем сообществе разработчиков открытого кода.
Чтобы более полно и объективно оценить истинные возможности DeepSeek LLM 67B, исследовательская команда DeepSeek также тщательно разработала серию "новых вопросов" для "стресс-тестирования". Эти вопросы охватывают тесты высокого уровня и высокой дискриминации, такие как вопросы венгерского школьного экзамена по математике, наборы оценок следующих команд Google и вопросы еженедельного конкурса LeetCode. Результаты тестирования оказались обнадеживающими. DeepSeek LLM 67B продемонстрировал удивительный потенциал в плане способности к обобщению за пределами выборки, а его общая производительность даже приблизилась к производительности самой передовой на тот момент модели GPT-4.
На сайте 18 декабря 2023 года DeepSeek открыла исходный код 3D-модели Винсента DreamCraft3D: он может генерировать высококачественные 3D-модели из предложения, совершая скачок от 2D-плоскости к 3D-пространству в AIGC. Например, если пользователь вводит: "Бегу по лесу, забавное гибридное изображение головы свиньи и тела Короля Обезьян", DreamCraft3D может выдать высококачественный контент:
В принципе, модель сначала дополняет диаграмму Венна, а затем дополняет общую геометрическую структуру на основе двухмерной концептуальной карты:
В ходе последующей субъективной оценки более 90% пользователей заявили, что DreamCraft3D имеет преимущество в качестве генерации по сравнению с предыдущими методами генерации.
7 января 2024 года компания DeepSeek выпустила технический отчет DeepSeek LLM 67B. Этот 40+-страничный отчет содержит множество подробностей о DeepSeek LLM 67B, включая самостоятельно построенные законы масштабирования, полные практические детали выравнивания моделей и комплексную систему оценки способностей AGI.
На сайте 11 января 2024 года компания DeepSeek выложила в открытый доступ первую крупную модель MoE (смешанная экспертная архитектура) в Китае, DeepSeekMoE: совершенно новая архитектура, поддерживающая китайский и английский языки и свободная для коммерческого использования. Архитектура MoE в то время считалась ключом к прорыву в производительности OpenAI GPT-4. Самостоятельно разработанная архитектура MoE компании DeepSeek лидирует во многих масштабах, таких как 2B, 16B и 145B, а ее вычислительные возможности также заслуживают высокой оценки.
25 января 2024 года компания DeepSeek выпустила технический отчет DeepSeek Coder. В этом отчете представлен всесторонний технический анализ учебных данных, методов обучения и производительности модели. В этом отчете мы видим, что впервые были созданы кодовые данные на уровне хранилища и использована топологическая сортировка для анализа зависимостей между файлами, что значительно улучшило способность понимать кросс-файлы на большом расстоянии. Что касается методов обучения, то был добавлен метод Fill-In-Middle, который значительно улучшил способность завершения кода.
30 января 2024 года открытая платформа DeepSeek была официально запущена, и началось тестирование API-сервиса DeepSeek Large Model. Зарегистрируйтесь, чтобы получить 10 миллионов токенов бесплатно. Интерфейс совместим с API-интерфейсом OpenAI, доступны обе модели Chat/Coder dual. В это время DeepSeek начала осваивать путь поставщика технологических услуг в дополнение к технологическим исследованиям и разработкам.
На сайте 5 февраля 2024 года компания DeepSeek выпустила еще одну вертикальную доменную модель, DeepSeekMathматематическая модель рассуждений. Эта модель имеет всего 7B параметров, но ее способность к математическому рассуждению близка к GPT-4. В авторитетном бенчмарке MATH она превосходит все остальные модели с открытым исходным кодом с размером параметров от 30 до 70 ББ. Выпуск DeepSeekMath в полной мере демонстрирует техническую мощь и перспективность компании DeepSeek в области исследования и разработки вертикалей, а также ее перспективность в области исследования и разработки моделей.
На сайте 28 февраля 2024 года, чтобы еще больше развеять опасения разработчиков по поводу использования моделей DeepSeek с открытым исходным кодом, компания DeepSeek выпустила FAQ по политике использования открытого исходного кода.в котором содержатся подробные ответы на часто задаваемые вопросы, такие как лицензирование моделей с открытым исходным кодом и ограничения на коммерческое использование. DeepSeek использует открытый исходный код с более прозрачным и открытым отношением:
На сайте 11 марта 2024 года компания DeepSeek выпустила мультимодальную крупногабаритную модель DeepSeek-VL. Это первая попытка DeepSeek создать мультимодальную технологию искусственного интеллекта. Модель имеет размер 7B и 1.3B, модель и технические документы одновременно находятся в открытом доступе.
На сайте 20 марта 2024 года компания Huanfang AI & DeepSeek была вновь приглашена на конференцию NVIDIA GTC 2024, а ее основатель Лян Вэньфэн выступил с техническим докладом. под названием "Гармония в разнообразии: Выравнивание и разъединение ценностей больших языковых моделей". Обсуждались такие вопросы, как "конфликт между большой моделью с одной ценностью и плюралистическим обществом и культурой", "развязка согласования ценностей большой модели" и "многомерные проблемы согласования ценностей без развязки". Это продемонстрировало гуманистическую заботу и социальную ответственность компании DeepSeek за развитие ИИ в дополнение к технологическим исследованиям и разработкам.
В марте 2024 года, API DeepSeek официально запустила платные услуги, что полностью разожгло прелюдию к ценовой войне на китайском рынке крупных моделей: 1 юань за миллион входных токенов и 2 юаня за миллион выходных токенов.
В 2024 году DeepSeek успешно прошла рекордное количество крупных моделей в Китае, устранив политические препятствия для полного открытия своих API-сервисов.
В мае 2024 года была выпущена DeepSeek-V2, большая модель MoE с открытым исходным кодом, и ценовая война официально началась. В DeepSeek-V2 используется MLA (multi-head latent attention mechanism), что позволяет сократить объем памяти модели до 5%-13% от традиционного MHA. В то же время, в модели DeepSeek MoE Sparse самостоятельно разработана разреженная структура, что значительно снижает вычислительную сложность модели. Благодаря этому модель сохраняет цену API на уровне "1 юань/миллион входов и 2 юаня/миллион выходов".
DeepSeek оказал огромное влияние. В связи с этим ведущий аналитик SemiAnalysis считает, что доклад DeepSeek V2 "может быть одним из лучших в этом году". Эндрю Карр, бывший сотрудник OpenAI, также считает, что документ "полон удивительной мудрости", и применил его настройки обучения в своей собственной модели.
Стоит отметить, что это модель, которая является бенчмарком GPT-4-Turbo, а цена API составляет всего 1/70 от последней
В июне 17, 2024, DeepSeek снова сделала большой шаг вперед, выпустив кодовую модель DeepSeek Coder V2. и утверждает, что возможности его кода превосходят GPT-4-Turbo, самую продвинутую модель с закрытым исходным кодом на тот момент. DeepSeek Coder V2 продолжает последовательную стратегию DeepSeek с открытым исходным кодом: все модели, код и документы находятся в открытом доступе, а также представлены две версии - 236B и 16B. API-сервисы DeepSeek C oder V2 также доступны онлайн, а цена остается на уровне "1 юань/миллион входных данных и 2 юаня/миллион выходных данных".
На сайте 21 июня 2024 года кодер DeepSeek поддерживал выполнение кода в режиме онлайн. В тот же день был выпущен Claude3.5 Sonnet с новой функцией Artifacts, которая автоматически генерирует код и запускает его прямо в браузере. В тот же день на сайте DeepSeek появился помощник по работе с кодом: генерировать код и запускать его одним щелчком мыши.
Давайте рассмотрим основные события этого периода:
Непрерывные прорывы, привлекающие внимание мировой общественности
В мае 2024 года компания DeepSeek в одночасье стала знаменитой, выпустив DeepSeek V2, модель с открытым исходным кодом, основанную на MoE. Она соответствовала производительности GPT-4-Turbo, но при этом стоила всего 1 юань/миллион затрат, что составляло 1/70 от GPT-4-Turbo. В то время DeepSeek стал известным "ценовым мясником" в индустрии, а затем такие основные игроки, как Zhicheng, ByteDance, Alibaba... и другие крупные игроки быстро последовали его примеру и снизили свои цены. Примерно в это же время произошел очередной раунд запрета GPT, и большое количество приложений для искусственного интеллекта начали впервые опробовать отечественные модели.
В июле 2024 года основатель DeepSeek Лян Вэньфэн снова дал интервью Dark Surge и прямо ответил на вопрос о ценовой войне: "Очень неожиданно. Я не ожидал, что цена вызовет у всех такую чувствительность. Мы просто делаем все в своем темпе и устанавливаем цену в зависимости от затрат. Наш принцип - не терять деньги и не получать непомерную прибыль. Эта цена также немного выше себестоимости с небольшой прибылью".
Видно, что, в отличие от многих конкурентов, которые платят из своего кармана за субсидии, DeepSeek выгодна при такой цене.
Кто-то может сказать: снижение цен - это грабеж пользователей, и так обычно и происходит в ценовых войнах в эпоху Интернета.
В ответ Лян Вэньфэн также ответил: "Ограбление пользователей не является нашей главной целью. Мы снизили цену, потому что, с одной стороны, стоимость снизилась по мере изучения структуры модели следующего поколения, а с другой стороны, мы считаем, что и API, и ИИ должны быть недорогими и доступными для всех".
Так продолжается история с идеализмом Лян Вэньфэна.
4 июля 2024 года API DeepSeek вышел в сеть. Цена на 128K контекст осталась неизменной. Стоимость вывода модели тесно связана с длиной контекста. Поэтому многие модели имеют строгие ограничения на эту длину: начальная версия GPT-3.5 имеет только 4k контекста.
В это время DeepSeek увеличила длину контекста с прежних 32k до 128k, сохранив при этом прежнюю цену (1 юань за миллион входных токенов и 2 юаня за миллион выходных токенов).
На сайте 10 июля 2024 года были объявлены результаты первой в мире олимпиады по искусственному интеллекту (AIMO), и модель DeepSeekMath стала общим выбором лучших команд.. Все команды, занявшие первые четыре места, выбрали в качестве основы для своих моделей DeepSeekMath-7B и добились впечатляющих результатов в соревнованиях.
На сайте 18 июля 2024 года DeepSeek-V2 возглавил список моделей с открытым исходным кодом на Chatbot Arena, Превзойдя такие звездные модели, как Llama3-70B, Qwen2-72B, Nemotron-4-340B и Gemma2-27B, и став новым эталоном для больших моделей с открытым исходным кодом.
На сайте Июль 2024 года, DeepSeek продолжает набирать таланты и наняла лучших специалистов со всего мира в различных областях, включая алгоритмы ИИ, ИИ-инфраструктуру, ИИ-репетитора и ИИ-продукты, чтобы подготовиться к будущим технологическим инновациям и разработке продуктов.
На сайте 26 июля 2024 года API DeepSeek получил важное обновление, полностью поддерживающее ряд дополнительных функций, таких как перезапись, завершение FIM (Fill-in-the-Middle), вызов функций и вывод JSON. Функция FIM очень интересна: пользователь указывает начало и конец, а большая модель заполняет середину, что очень удобно для процесса программирования, чтобы заполнить точный код функции. Возьмем для примера написание последовательности Фибоначчи:
На сайте 2 августа 2024 года DeepSeek представила инновационную технологию кэширования жестких дисков, снизив цены на API до минимума. Ранее стоимость API составляла всего ¥1 за миллион токенов. Однако теперь, когда кэш-хит достигнут, плата за API снижается до ¥0,1.
Эта функция очень удобна, когда речь идет о непрерывных разговорах и задачах пакетной обработки.
На сайте 16 августа 2024 года компания DeepSeek выпустила свою модель математического доказательства теорем DeepSeek-Prover-V1.5 с открытым исходным кодом, которая превзошла многие известные модели с открытым исходным кодом в тестах на доказательство математических теорем в старших классах и колледжах.
На сайте 6 сентября 2024 года компания DeepSeek выпустила фьюжн-модель DeepSeek-V2.5. Ранее в DeepSeek было представлено в основном две модели: модель "Чат" была нацелена на развитие общих навыков общения, а модель "Код" - на развитие навыков обработки кода. В этот раз обе модели были объединены в одну и обновлены до версии DeepSeek-V2.5, которая лучше соответствует предпочтениям человека, а также позволила добиться значительных улучшений в выполнении письменных заданий, выполнении команд и других аспектах.
На сайте 18 сентября 2024 года DeepSeek-V2.5 вновь вошел в последний список LMSYS, возглавив отечественные модели и установление новых лучших результатов для отечественных моделей в нескольких индивидуальных способностях.
На сайте 20 ноября 2024 года компания DeepSeek выпустила DeepSeek-R1-Lite на официальном сайте. Это модель вывода, сопоставимая с o1-preview, а также предоставляющая достаточное количество синтетических данных для посттренинга V3.
На сайте 10 декабря 2024 года серия DeepSeek V2 завершилась выпуском финальной доработанной версии DeepSeek-V2.5-1210. Эта версия всесторонне развивает различные способности, включая математику, кодирование, письмо и ролевые игры, благодаря посттренинговому обучению.
С появлением этой версии в веб-приложении DeepSeek также появилась функция поиска сети.
На сайте 13 декабря 2024 года компания DeepSeek совершила очередной прорыв в области мультимодальности и выпустила с открытым исходным кодом мультимодальную большую модель DeepSeek-VL2. DeepSeek-VL2 использует архитектуру MoE, что значительно улучшает его визуальные возможности. Он доступен в трех размерах: 3B, 16B и 27B, и имеет преимущество по всем показателям.
На сайте 26 декабря 2024 года DeepSeek-V3 был выпущен с открытым исходным кодом: оценочная стоимость обучения составила всего 5,5 миллиона долларов США. DeepSeek-V3 полностью сравнялся по производительности с ведущими зарубежными моделями с закрытым исходным кодом и значительно повысил скорость генерации.
Цены на услуги API были скорректированы, но в то же время для новой модели был установлен 45-дневный льготный пробный период.
15 января 2025 года официальное приложение DeepSeek было официально выпущено и полностью представлено на основных рынках приложений для iOS/Android.
20 января 2025 года, в преддверии китайского Нового года, была официально выпущена и открыта модель вывода DeepSeek-R1. DeepSeek-R1 полностью согласовала свои характеристики с официальным релизом OpenAI o1 и открыла функцию вывода цепочки мыслей. В то же время DeepSeek объявила, что лицензия на открытый исходный код модели будет изменена на лицензию MIT, а в пользовательском соглашении будет явно разрешена "дистилляция модели", что будет способствовать дальнейшему распространению открытого исходного кода и совместному использованию технологий.
Впоследствии эта модель стала очень популярной и открыла новую эру
В результате, по состоянию на 27 января 2025 года, приложение DeepSeek успешно обошло ChatGPT и возглавило список загрузок бесплатных приложений в американском магазине iOS App Store, став феноменальным AI-приложением.
27 января 2025 года, в час ночи в канун Нового года, DeepSeek Janus-Pro был выпущен с открытым исходным кодом. Это мультимодальная модель, названная в честь двуликого бога Януса из древнеримской мифологии: она обращена и в прошлое, и в будущее. Это также отражает две способности модели - визуальное понимание и создание изображений - и ее доминирование в нескольких рейтингах.
Взрывная популярность DeepSeek немедленно вызвала глобальную технологическую шоковую волну, которая даже привела к резкому падению курса акций NVIDIA на 18%, а рыночная стоимость глобального технологического рынка испарилась примерно на 1 триллион долларов США. Уолл-стрит и технологические СМИ заявили, что рост компании DeepSeek подрывает глобальный ландшафт индустрии искусственного интеллекта и бросает беспрецедентный вызов американским технологическим гигантам.
Успех DeepSeek также вызвал повышенное внимание международного сообщества и жаркие дискуссии о технологическом инновационном потенциале Китая в области ИИ. Президент США Дональд Трамп в редком публичном комментарии оценил подъем DeepSeek как "позитивный" и сказал, что это "тревожный звонок" для Соединенных Штатов. Генеральный директор Microsoft Сатья Наделла и генеральный директор OpenAI Сэм Альтман также высоко оценили DeepSeek, назвав ее технологию "очень впечатляющей".
Конечно, мы должны понимать, что их похвалы - это отчасти признание силы DeepSeek, а отчасти - отражение их собственных мотивов. Например, хотя Anthropic признает достижения DeepSeek, он также призывает правительство США усилить контроль над чипами в Китае.
Anthropic CEO публикует статью из 10 000 слов: Рост DeepSeek означает, что Белый дом должен усилить контроль
Резюме и перспективы
Оглядываясь на прошедшие два года, можно сказать, что компания DeepSeek действительно стала "китайским чудом": от никому не известного стартапа до "загадочной восточной силы", которая сегодня блистает на мировой арене ИИ, DeepSeek своей силой и инновациями записывает одно "невозможно" за другим.
Глубинный смысл этой технологической экспедиции уже давно вышел за рамки коммерческой конкуренции. DeepSeek с фактами объявила, что В стратегической области искусственного интеллекта, за которой будущее, китайские компании вполне способны подняться на вершину основных технологий.
Тревожный звонок", прозвучавший из уст Трампа, и скрытый страх перед антропогенными явлениями в точности подтверждают важность возможностей китайского ИИ: он не только может оседлать волны, но и изменить направление прилива.
Deepseek продукт выпуск вехи
- 2 ноября 2023 года: Кодер DeepSeek Большая модель
- 29 ноября 2023 года: Универсальная модель DeepSeek LLM 67B
- 18 декабря 2023 года: 3D модель DreamCraft3D
- 11 января 2024 года: DeepSeekMoE MoE большая модель
- 5 февраля 2024 года: DeepSeekMath Математическая модель рассуждений
- 11 марта 2024 года: DeepSeek-VL Мультимодальная большая модель
- Май 2024 года: Общая модель DeepSeek-V2 MoE
- 17 июня 2024 года: Модель кода DeepSeek Coder V2
- 6 сентября 2024 года: DeepSeek-V2.5 объединение общей и кодовой моделей компетенций
- 13 декабря 2024 года: Мультимодальная модель MoE DeepSeek-VL2
- 26 декабря 2024 года: DeepSeek-V3 новая серия крупногабаритных моделей общего назначения
- 20 января 2025 года: Модель вывода DeepSeek-R1
- 20 января 2025 года: Официальное приложение DeepSeek (iOS и Android)
- 27 января 2025 года: Мультимодальная модель DeepSeek Janus-Pro