Как беше създаден DeepSeek? Анализ на историята на растежа на DeepSeek

В бъдеще ще има все повече хардкор иновации. Сега може да не е лесно да се разбере, защото цялата социална група трябва да бъде образована чрез факти. Когато това общество позволи на хората, които въвеждат хардкор иновации, да успеят, колективното мислене ще се промени. Нуждаем се само от куп факти и процес. - Лианг Уенфън, основател на DeepSeek

През последните дни DeepSeek избухна в целия свят, но тъй като компанията е толкова сдържана и не е направила никакви съобщения, обществеността знае много малко за тази технологична компания с голям потенциал - независимо дали става въпрос за нейното основаване, бизнес обхват или оформление на продукта.

След като приключих с обработката на всички материали, написах тази статия

Какъв е произходът на настоящите играчи на ИИ, с какво се занимават и кого набират?

и вероятно най-пълният исторически преглед на DeepSeek.

Миналата година по това време един приятел от Magic Cube Квант дойде при мен и ме попита: "Искаш ли да построиш голям модел в Китай?" А аз просто прекарах следобеда в пиене на кафе. Както се очакваше, животът все още зависи от избора.

Сайтът Магически куб Квант Споменатият тук инвеститор еили дружеството майка на DeepSeek.

Така нареченият "квант" е инвестиционна институция, която взема решения не с помощта на човешка сила, а с помощта на алгоритми. Създаването на Quant Fantasy не е дълго, като започва през 2015 г. До 2021 г., когато е на шест години, мащабът на управление на активите на Quant Fantasy надхвърля 100 милиарда и тя е обявена за един от "четирите велики квантови крале" на Китай.

Основателят на Fantasy Square, Лианг Уенфън, който е и основател на DeepSeek, е финансов лидер, който не принадлежи към основното течение, роден през 80-те години на миналия век: няма опит в чужбина, не е победител в олимпийски състезания и е завършил факултета по електронно инженерство в университета "Джъдзян" със специалност "изкуствен интелект". Той е роден технологичен експерт, който действа по сдържан начин, като всеки ден "чете документи, пише код и участва в групови дискусии".

Лян Уенфън няма навиците на традиционен собственик на бизнес, а е по-скоро чист "технологичен маниак".. Много вътрешни хора от индустрията и изследователи на DeepSeek дадоха на Liang Wenfeng изключително висока оценка: "човек, който има както силни инфраинженерни способности, така и способности за изследване на модели, а също така може да мобилизира ресурси", "човек, който може да прави точни преценки от високо ниво, но също така превъзхожда в детайлите изследователите на първа линия", а също така има "ужасяваща способност за учене".

Много преди основаването на DeepSeek Huanfang вече е започнала да прави дългосрочни планове в индустрията на изкуствения интелект.. През май 2023 г. Лианг Уенфън споменава в интервю за Darksurge: "След като OpenAI пусна GPT3 през 2020 г., посоката на развитие на ИИ стана много ясна, а изчислителната мощ ще се превърне в ключов елемент; но дори през 2021 г., когато инвестирахме в изграждането на Firefly 2, повечето хора все още не можеха да го разберат."

Въз основа на тази преценка Huanfang започна да изгражда собствена компютърна инфраструктура. "От най-ранната 1 карта, до 100 карти през 2015 г., 1000 карти през 2019 г. и след това 10 000 карти, този процес се случи постепенно. Преди няколкостотин карти бяхме хоствани в IDC. Когато мащабите станаха по-големи, хостингът вече не можеше да отговаря на изискванията, затова започнахме да изграждаме собствена компютърна зала."

По-късно Finance Eleven съобщи: "Има не повече от пет местни компании с повече от 10 000 графични процесора, като освен няколкото големи производители те включват и компания за количествени фондове, наречена Magic Cube.." Общоприето е мнението, че 10 000 чипа Nvidia A100 са прагът за изчислителна мощност за обучение на големи модели.

В предишно интервю Лян Уенфън също споменава интересен момент: много хора биха си помислили, че зад това се крие непозната бизнес логика, но в действителност тя е продиктувана главно от любопитство.

Съдържание

DeepSeekпърва среща

В интервю за Darksurge през май 2023 г., когато го питат "Неотдавна Huanfang обяви решението си да направи големи модели, защо един количествен фонд би направил такова нещо?"

Отговорът на Лян Уенфън беше звучен: "Решението ни да създадем голям модел няма нищо общо с количествената оценка или финансите. Създадохме нова компания, наречена DeepSeek, за да направим това. Много от ключовите членове на екипа на Mianfang се занимават с изкуствен интелект. По онова време изпробвахме много сценарии и накрая се спряхме на финансите, които са достатъчно сложни. Общият изкуствен интелект може би е едно от следващите най-трудни за постигане неща, така че за нас въпросът е как да го направим, а не защо.

Не се води от търговски интереси или преследване на пазарни тенденции, а просто от желанието да се изследва самата технология AGI и от постоянния стремеж към "най-важното и най-трудното нещо". името "DeepSeek" е официално потвърдено през май 2023 г.. На 17 юли 2023 г. е регистрирана компанията "Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Co., Ltd.".

На На 2 ноември 2023 г. DeepSeek предава първия си отговор: DeepSeek Coder, голям модел на код с отворен код. Този модел включва множество размери, като 1B, 7B и 33B. Съдържанието с отворен код включва базовия модел и модела за настройка на командите.

По онова време сред моделите с отворен код CodeLlama на Meta беше еталон в индустрията. Въпреки това, след като беше пуснат DeepSeek Coder, той демонстрира многостранна водеща позиция в сравнение с CodeLlama: при генерирането на код HumanEval беше с 9,3% напред, MBPP беше с 10,8% напред, а DS-1000 беше с 5,9% напред.

Имайте предвид, че DeepSeek Coder е модел 7B, докато CodeLlama е модел 34B. Освен това моделът DeepSeek Coder, след като е бил настроен с инструкции, е надминал значително GPT3.5-Turbo.

Не само генерирането на код е впечатляващо, но DeepSeek Coder демонстрира и своите мускули в областта на математиката и разсъжденията.

Три дни по-късно, на 5 ноември 2023 г., DeepSeek пусна голямо количество съдържание за набиране на персонал чрез публичния си акаунт в WeChat, включително позиции като стажант за голям модел на AGI, експерт по данни, талант за архитектура на данни, старши инженер за събиране на данни, инженер за изследване и развитие на дълбоко обучение и т.н., и започна активно да разширява екипа.

Както казва Лян Уенфън, "Задължителните изисквания" на DeepSeek за набиране на таланти са "страст и солидни основни умения".и подчерта, че "иновациите изискват възможно най-малка намеса и управление, така че всеки да има свободата да прави грешки и да опитва нови неща. Иновациите често идват отвътре, а не от преднамерени мерки, и със сигурност не идват от преподаването."

Моделите се публикуват често, а отвореният код се практикува

След като DeepSeek Coder се наложи, DeepSeek насочи вниманието си към основното бойно поле: общите езикови модели.

На На 29 ноември 2023 г. DeepSeek пуска първия си голям езиков модел с общо предназначение - DeepSeek LLM 67B. Този модел е сравняван с модела LLaMA2 70B на Meta от същото ниво и се е представил по-добре в почти 20 публични списъка за оценка на китайски и английски език. По-специално, неговите способности за разсъждаване, математика и програмиране (напр. HumanEval, MATH, CEval и CMMLU) са изключителни.

DeepSeek LLM 67B също е избрал пътя на отворения код и поддържа комерсиална употреба. За да демонстрира още повече своята искреност и решимост за отворен код, DeepSeek по безпрецедентен начин е отворила едновременно два модела с различен мащаб - 7B и 67B, и дори е направила публично достояние деветте контролни точки, генерирани по време на процеса на обучение на модела, за да могат изследователите да ги изтеглят и използват. Подобна операция, която прилича на "преподаване на всичко", е изключително рядка в цялата общност на отворения код.

За да се оценят по-обстойно и обективно истинските възможности на DeepSeek LLM 67B, изследователският екип на DeepSeek внимателно разработи и серия от "нови въпроси" за "стрес тестове". Тези въпроси обхващат тестове на високо ниво и с висока степен на дискриминация, като например въпроси от унгарския гимназиален изпит по математика, набори за оценка на следването на команди на Google и въпроси от седмичното състезание LeetCode. Резултатите от тестовете бяха окуражаващи. DeepSeek LLM 67B показа невероятен потенциал по отношение на способността си да обобщава извън извадката, а цялостното му представяне беше дори близко до това на най-напредналия тогава модел GPT-4.

На 18 декември 2023 г., DeepSeek отвори източника на 3D модела на Винсент DreamCraft3D: той може да генерира висококачествени 3D модели от едно изречение, постигайки скок от 2D равнини към 3D пространство в AIGC. Например, ако потребителят въведе: "Бягайки през гората, смешно хибридно изображение на свинска глава и тялото на маймунския крал", DreamCraft3D може да изведе висококачествено съдържание:

По принцип моделът първо допълва диаграмата на Вен, а след това допълва цялостната геометрична структура въз основа на 2D концептуалната карта:

В последвалата субективна оценка повече от 90% от потребителите заявиха, че DreamCraft3D има предимство по отношение на качеството на генериране в сравнение с предишните методи за генериране.

На 7 януари 2024 г. DeepSeek публикува техническия доклад DeepSeek LLM 67B. Този доклад от над 40 страници съдържа много подробности за DeepSeek LLM 67B, включително самостоятелно изградени закони за мащабиране, пълни практически подробности за подравняване на моделите и цялостна система за оценка на способностите на AGI.

Адрес на хартията

На 11 януари 2024 г., DeepSeek предостави първия голям модел на MoE (смесена експертна архитектура) в Китай, DeepSeekMoE: чисто нова архитектура, която поддържа китайски и английски език и е свободна за търговска употреба. По онова време архитектурата MoE се смяташе за ключова за пробива в производителността на OpenAI GPT-4. Самостоятелно разработената архитектура MoE на DeepSeek е водеща в множество мащаби като 2B, 16B и 145B, а изчислителната ѝ ефективност също е много похвална.

На 25 януари 2024 г. DeepSeek публикува техническия доклад DeepSeek Coder. В този доклад е представен цялостен технически анализ на данните за обучение, методите за обучение и ефективността на модела. В този доклад можем да видим, че за първи път са конструирани данни за кода на ниво склад и е използвано топологично сортиране за анализ на зависимостите между файловете, което значително подобрява способността за разбиране на кръстосаните файлове на големи разстояния. По отношение на методите за обучение е добавен методът Fill-In-Middle, който значително подобрява способността за попълване на кода.

Адрес на хартията

На 30 януари 2024 г. официално стартира отворената платформа DeepSeek и започна тестването на услугата DeepSeek Large Model API. Регистрирайте се, за да получите 10 милиона жетона безплатно. Интерфейсът е съвместим с интерфейса на OpenAI API и са налични два двойни модела Chat/Coder. По това време DeepSeek започва да проучва пътя на доставчик на технологични услуги в допълнение към технологичните изследвания и разработки.

На 5 февруари 2024 г., DeepSeek пусна друг вертикален модел на домейна, DeepSeekMath, математически модел на разсъждение. Този модел има само 7В параметъра, но способността му за математическо разсъждение е близка до тази на GPT-4. В авторитетния сравнителен списък MATH той надминава тълпата и превъзхожда редица модели с отворен код с размери на параметрите между 30B и 70B. Пускането на DeepSeekMath напълно демонстрира техническата сила и перспективното разположение на DeepSeek в изследването и разработването на вертикални и перспективното разположение в изследването и разработването на модели.

На 28 февруари 2024 г., за да облекчи допълнително притесненията на разработчиците относно използването на моделите с отворен код на DeepSeek, DeepSeek публикува често задавани въпроси относно политиката за отворен код, в който се съдържат подробни отговори на често задавани въпроси, като например лицензиране на модели с отворен код и ограничения за търговска употреба. DeepSeek възприема отворения код с по-прозрачно и открито отношение:

На 11 март 2024 г., DeepSeek пусна мултимодалния голям модел DeepSeek-VL. Това е първоначалният опит на DeepSeek за мултимодална технология с изкуствен интелект. Моделът е с размер 7B и 1,3B, а моделът и техническите документи са с отворен код едновременно.

На 20 март 2024 г., Huanfang AI & DeepSeek отново беше поканен да участва в конференцията NVIDIA GTC 2024, а основателят Liang Wenfeng изнесе техническа реч озаглавен "Хармония в многообразието: Изравняване и разделяне на ценностите на големи езикови модели". Бяха обсъдени въпроси като "конфликтът между големия модел с една-единствена ценност и плуралистичното общество и култура", "отделянето на ценностите на големия модел" и "многоизмерните предизвикателства на отделеното ценностно подреждане". Това демонстрира хуманната грижа и социалната отговорност на DeepSeek за развитието на изкуствения интелект, в допълнение към технологичните изследвания и разработки.

През март 2024 г, DeepSeek API официално стартира платени услуги, което напълно разпали прелюдията към ценовата война на китайския пазар на големи модели: 1 юан на милион входни токени и 2 юана на милион изходни токени.

През 2024 г. DeepSeek успешно преминава рекорда на големите модели в Китай, изчиствайки политическите пречки за пълното отваряне на услугите на API.

През май 2024 г. беше пуснат DeepSeek-V2, общ голям модел на MoE с отворен код, и ценовата война официално започна. DeepSeek-V2 използва MLA (механизъм за латентно внимание с много глави), който намалява обема на паметта на модела до 5%-13% от този на традиционния MHA. В същото време той е разработил самостоятелно и разредената структура DeepSeek MoE Sparse, която значително намалява изчислителната сложност на модела. Благодарение на това моделът поддържа цена на API от "1 юан/милион входове и 2 юана/милион изходи".

DeepSeek оказа огромно въздействие. В тази връзка водещият анализатор в SemiAnalysis смята, че документът DeepSeek V2 "може би е един от най-добрите през тази година". По подобен начин Андрю Кар, бивш служител на OpenAI, смята, че документът е "пълен с невероятна мъдрост" и е приложил неговите настройки за обучение към собствения си модел.

Трябва да се отбележи, че това е модел, който се сравнява с GPT-4-Turbo, а цената на API е само 1/70 от последната.

На юни 17, 2024 г., DeepSeek отново направи голям тласък, като пусна модела на кода DeepSeek Coder V2 с отворен код и твърди, че възможностите на кода му надхвърлят GPT-4-Turbo, най-усъвършенствания модел със затворен код по това време. DeepSeek Coder V2 продължава последователната стратегия на DeepSeek за отворен код, като всички модели, код и документи са с отворен код и са предоставени две версии - 236B и 16B. Услугите на API на DeepSeek Coder V2 също са достъпни онлайн, а цената остава "1 юан/милион входни данни и 2 юана/милион изходни данни".

На 21 юни 2024 г., DeepSeek Кодерът поддържа онлайн изпълнение на код. В същия ден беше пусната версия Claude3.5 Sonnet с новата функция Artifacts, която автоматично генерира код и го стартира директно в браузъра. В същия ден помощникът за генериране на код на уебсайта DeepSeek също стартира същата функция: генериране на код и стартирането му с едно кликване.

Нека да разгледаме основните събития от този период:

Непрекъснати пробиви, привличащи световното внимание

През май 2024 г. DeepSeek става известен за една нощ с пускането на DeepSeek V2 - модел с отворен код, базиран на MoE. Той се равняваше по производителност на GPT-4-Turbo, но на цена от само 1 юан/милион входни ресурси, което е 1/70 от GPT-4-Turbo. По това време DeepSeek стана известен "ценови месар" в индустрията, а след това основните играчи като Zhicheng, ByteDance и Alibaba... и други големи играчи бързо последваха примера и намалиха цените си. По това време се проведе и поредният кръг на забрана на GPT и голям брой приложения за изкуствен интелект започнаха да изпробват за първи път местни модели.

През юли 2024 г. основателят на DeepSeek Лян Уенфън отново приема интервю за Dark Surge и отговаря директно на ценовата война: "Много неочаквано. Не очаквах, че цената ще направи всички толкова чувствителни. Ние просто правим нещата със собственото си темпо и след това определяме цената въз основа на разходите. Нашият принцип е да не губим пари или да правим прекомерни печалби. Тази цена също е малко над разходите с малка печалба".

Вижда се, че за разлика от много конкуренти, които плащат от собствения си джоб за субсидиране, DeepSeek е печеливш на тази цена.

Някои хора могат да кажат: намаляването на цените е като ограбване на потребителите и това обикновено се случва в ценовите войни в ерата на интернет.

В отговор Лианг Уенфън също отговори: "Ограбването на потребителите не е основната ни цел. Намалихме цената, защото, от една страна, разходите намаляха, докато проучвахме структурата на модела от следващо поколение, а от друга страна, смятаме, че както API, така и AI трябва да са достъпни за всички."

Така историята продължава с идеализма на Лян Уенфън.

На 4 юли 2024 г. API DeepSeek е пуснат онлайн. Цената за 128K контекст остава непроменена. Цената на извода на даден модел е тясно свързана с дължината на контекста. Затова много модели имат строги ограничения за тази дължина: първоначалната версия на GPT-3.5 има само 4 хил. контекста.

По това време DeepSeek увеличава дължината на контекста от предишните 32 хил. на 128 хил., като запазва цената непроменена (1 юан на милион входни токени и 2 юана на милион изходни токени).

На 10 юли 2024 г. бяха обявени резултатите от първата в света олимпиада по изкуствен интелект (AIMO), а моделът DeepSeekMath стана общият избор на най-добрите отбори. Всички отбори, които спечелиха Топ 4, избраха DeepSeekMath-7B за основа на своите входни модели и постигнаха впечатляващи резултати в състезанието.

На 18 юли 2024 г., DeepSeek-V2 оглави списъка с модели с отворен код на Chatbot Arena, надминавайки модели на звезди като Llama3-70B, Qwen2-72B, Nemotron-4-340B и Gemma2-27B и превръщайки се в нов еталон за големи модели с отворен код.

В юли 2024 г., DeepSeek продължава да набира таланти и набра най-добрите таланти от цял свят в различни области, включително алгоритми за изкуствен интелект, AI Infra, AI Tutor и продукти с изкуствен интелект, за да се подготви за бъдещи технологични иновации и разработване на продукти.

На 26 юли 2024 г., DeepSeek API въведе важен ъпгрейд, който напълно поддържа редица разширени функции, като например презаписване, попълване на FIM (Fill-in-the-Middle), извикване на функции и JSON изход. Функцията FIM е много интересна: потребителят дава началото и края, а големият модел попълва средата, което е много подходящо за процеса на програмиране, за да се попълни точният код на функцията. Да вземем за пример писането на последователността на Фибоначи:

На 2 август 2024 г., DeepSeek иновативно въведе технология за кеширане на твърдия диск, като намали цените на API до глезените. Преди това цените на API бяха само ￥1 на милион токена. Сега обаче, след като бъде постигнато попадение в кеша, таксата за API пада директно на ￥0,1.

Тази функция е много практична, когато става въпрос за непрекъснати разговори и задачи за пакетна обработка.

На 16 август 2024 г., DeepSeek пусна своя математически модел за доказване на теореми DeepSeek-Prover-V1.5 като софтуер с отворен код, който надмина много известни модели с отворен код в тестовете за доказване на математически теореми в гимназията и колежа.

На 6 септември 2024 г., DeepSeek пусна модела за сливане DeepSeek-V2.5. Преди това DeepSeek предлагаше основно два модела: моделът "Чат" беше насочен към общите умения за водене на разговор, а моделът "Код" - към уменията за обработка на кодове. Този път двата модела са обединени в един и са обновени до DeepSeek-V2.5, който по-добре съответства на човешките предпочитания и също така е постигнал значителни подобрения в задачите за писане, следването на команди и други аспекти.

На 18 септември 2024 г., DeepSeek-V2.5 отново е в последния списък на LMSYS, водещ сред националните модели и поставяне на нови най-добри резултати за националните модели в множество индивидуални способности.

На ноември 20, 2024, DeepSeek пусна DeepSeek-R1-Lite на официалния уебсайт. Това е модел за изводи, сравним с o1-preview, и също така осигурява достатъчно количество синтетични данни за последващото обучение на V3.

На На 10 декември 2024 г. серията DeepSeek V2 започна своя финал с пускането на последната прецизирана версия DeepSeek-V2.5-1210. Тази версия цялостно подобрява множество способности, включително математика, кодиране, писане и ролеви игри, чрез последващо обучение.

С появата на тази версия уеб приложението DeepSeek също така отвори функцията за търсене в мрежата.

На На 13 декември 2024 г. DeepSeek направи още един пробив в областта на мултимодалността и пусна мултимодалния голям модел с отворен код DeepSeek-VL2. DeepSeek-VL2 използва архитектурата MoE, която значително подобрява визуалните му възможности. Той се предлага в три размера: 3B, 16B и 27B и има предимство по всички показатели.

На На 26 декември 2024 г. DeepSeek-V3 е пуснат с отворен код: приблизителната цена на обучението е само 5,5 милиона щатски долара. DeepSeek-V3 напълно сравнява производителността на водещите модели със затворен код в чужбина и значително подобрява скоростта на генериране.

Цените на услугите на API бяха коригирани, но в същото време за новия модел беше определен 45-дневен преференциален пробен период.

На 15 януари 2025 г.Официалното приложение DeepSeek беше официално пуснато и напълно реализирано на основните пазари за приложения за iOS/Android.

На 20 януари 2025 г., близо до Китайската нова година, моделът за изводи DeepSeek-R1 беше официално пуснат и отворен. DeepSeek-R1 напълно съгласува представянето си с официалната версия на OpenAI o1 и отвори функцията за изход на мисловната верига. В същото време DeepSeek обяви, че лицензът за отворен код на модела ще бъде променен на лиценз MIT, а споразумението с потребителя изрично ще позволи "дестилация на модела", като по този начин ще се възприеме отвореният код и ще се насърчи споделянето на технологии.

По-късно този модел става много популярен и поставя началото на нова ера

В резултат на това от 27 януари 2025 г. приложението DeepSeek успешно надмина ChatGPT и оглави списъка с безплатни приложения за изтегляне в американския магазин за приложения за iOS, превръщайки се във феноменално приложение за изкуствен интелект.

На 27 януари 2025 г., в 1:00 ч. в навечерието на Нова година, DeepSeek Janus-Pro е пуснат като отворен код. Това е мултимодален модел, наречен на името на двуликия бог Янус от древноримската митология: той е обърнат както към миналото, така и към бъдещето. Това представлява и двете способности на модела - визуално разбиране и генериране на изображения - и неговата доминация в множество класации.

Експлозивната популярност на DeepSeek веднага предизвика глобална технологична шокова вълна, която дори директно доведе до спад на цената на акциите на NVIDIA 18%, а пазарната стойност на глобалния технологичен фондов пазар се изпари с около 1 трилион щатски долара. Уолстрийт и технологичните медии възкликнаха, че възходът на DeepSeek преобръща глобалния пейзаж на индустрията с изкуствен интелект и представлява безпрецедентно предизвикателство за американските технологични гиганти.

Успехът на DeepSeek също така предизвика голямо международно внимание и разгорещени дискусии относно технологичните иновационни възможности на Китай в областта на изкуствения интелект. Президентът на САЩ Доналд Тръмп в рядък публичен коментар похвали възхода на DeepSeek като "положителен" и заяви, че това е "сигнал за събуждане" за Съединените щати. Главният изпълнителен директор на Microsoft Сатя Надела и главният изпълнителен директор на OpenAI Сам Алтман също похвалиха DeepSeek, като нарекоха технологията му "много впечатляваща".

Разбира се, трябва да разберем, че похвалите им са отчасти признание за силата на DeepSeek и отчасти отражение на собствените им мотиви. Например, докато Anthropic признава постиженията на DeepSeek, той също така призовава правителството на САЩ да засили контрола върху чиповете в Китай.

Главният изпълнителен директор на Anthropic публикува статия с обем 10 000 думи: Възходът на DeepSeek означава, че Белият дом трябва да засили контрола

Обобщение и перспективи

Поглеждайки назад към последните две години на DeepSeek, това наистина е "китайско чудо": от неизвестен стартъп до "мистериозната източна сила", която сега блести на световната сцена на изкуствения интелект, DeepSeek написа едно "невъзможно" след друго със своята сила и иновации.

Дълбокият смисъл на тази технологична експедиция отдавна е надхвърлил рамките на търговската конкуренция. DeepSeek обяви с факти, че в стратегическата област на изкуствения интелект, която се отнася до бъдещето, китайските компании са напълно способни да се изкачат до върховете на основните технологии.

"Алармената камбана", надута от Тръмп, и скритият страх от антропията потвърждават точно значението на китайските възможности за изкуствен интелект: той не само може да се носи по вълните, но и променя посоката на течението.

Deepseek продукт освобождаване основни етапи

2 ноември 2023 г: Голям модел на DeepSeek Coder
29 ноември 2023 г: DeepSeek LLM 67B Универсален модел
18 декември 2023 г: 3D модел на DreamCraft3D
11 януари 2024 г: DeepSeekMoE MoE голям модел
5 февруари 2024 г: DeepSeekMath Математически модел на разсъждение
11 март 2024 г: DeepSeek-VL Мултимодален голям модел
Май 2024 г: DeepSeek-V2 MoE общ модел
17 юни 2024 г: DeepSeek Кодер V2 модел код
6 септември 2024 г: DeepSeek-V2.5 Обединяване на общите и кодовите модели на компетентност
13 декември 2024 г: DeepSeek-VL2 мултимодален MoE модел
26 декември 2024 г: DeepSeek-V3 нова серия големи модели с общо предназначение
20 януари 2025 г: Модел за извод DeepSeek-R1
20 януари 2025 г: Официално приложение на DeepSeek (iOS и Android)
27 януари 2025 г: DeepSeek Мултимодален модел Janus-Pro

Как беше създаден DeepSeek? Анализ на историята на растежа на DeepSeek

DeepSeekпърва среща

Моделите се публикуват често, а отвореният код се практикува

Непрекъснати пробиви, привличащи световното внимание

Обобщение и перспективи

Deepseek продукт освобождаване основни етапи

DeepSeek пусна своя изходен код, подробно обяснение на FlashMLA

OpenAI o3-mini срещу DeepSeek-R1: кой е кралят на новото поколение модели с изкуствен интелект?

Артефакти за управление на голям езиков модел като DeepSeek: Cherry Studio, Chatbox, AnythingLLM, кой е вашият ускорител на ефективността?

Първо стартиране! SiliconFlow X Huawei Cloud съвместно стартират услуги за изводи DeepSeek R1 и V3, базирани на Ascend Cloud!

Paper-DeepSeek-R1: Стимулиране на способността за разсъждаване в LLM чрез обучение с подсилване

Вашият коментар Отказ

DeepSeekпърва среща

Моделите се публикуват често, а отвореният код се практикува

Непрекъснати пробиви, привличащи световното внимание

Обобщение и перспективи

Deepseek продукт освобождаване основни етапи

Подобни публикации

Вашият коментар Отказ