Jak powstał DeepSeek? Analiza historii rozwoju DeepSeek

W przyszłości będzie coraz więcej hardkorowych innowacji. Może to nie być łatwe do zrozumienia teraz, ponieważ cała grupa społeczna musi być edukowana przez fakty. Kiedy to społeczeństwo pozwoli ludziom, którzy wprowadzają innowacje, odnieść sukces, zmieni się zbiorowy sposób myślenia. Potrzebujemy tylko kilku faktów i procesu. - Liang Wenfeng, założyciel DeepSeek

W ostatnich dniach DeepSeek eksplodowało na całym świecie, ale ponieważ firma jest tak cicha i nie wydała żadnych ogłoszeń, opinia publiczna wie bardzo niewiele o tej firmie technologicznej o ogromnym potencjale - czy to o jej założeniu, zakresie działalności, czy układzie produktu.

Po zakończeniu sortowania wszystkich materiałów napisałem ten artykuł

Jakie jest pochodzenie obecnych graczy AI, co robią i kogo rekrutują?

i prawdopodobnie najbardziej kompletny historyczny przegląd DeepSeek.

W zeszłym roku przyszedł do mnie znajomy z Magic Cube Quant i zapytał: "Chcesz zbudować duży model w Chinach?". A ja po prostu spędziłem popołudnie pijąc kawę. Zgodnie z oczekiwaniami, życie nadal zależy od wyborów.

The Wspomniany tutaj Magic Cube Quant jest inwestoremlub spółka dominująca DeepSeek.

Tak zwany "quant" to instytucja inwestycyjna, która podejmuje decyzje nie siłą ludzką, ale algorytmami. Historia powstania Quant Fantasy nie jest długa i rozpoczęła się w 2015 roku. W 2021 r., gdy firma miała sześć lat, skala zarządzania aktywami Quant Fantasy przekroczyła 100 miliardów euro i została okrzyknięta jednym z "czterech wielkich królów kwantowych" w Chinach.

Założyciel Fantasy Square, Liang Wenfeng, który jest również założycielem DeepSeek, jest "nie-mainstreamowym" liderem finansowym urodzonym w latach 80-tych: nie ma doświadczenia w studiach zagranicznych, nie jest zwycięzcą konkursu olimpijskiego i ukończył Wydział Inżynierii Elektronicznej na Uniwersytecie Zhejiang, specjalizując się w sztucznej inteligencji. Jest rodzimym ekspertem w dziedzinie technologii, który działa w sposób dyskretny, "czytając dokumenty, pisząc kod i uczestnicząc w dyskusjach grupowych" każdego dnia.

Liang Wenfeng nie ma nawyków tradycyjnego właściciela firmy, ale bardziej przypomina czystego "maniaka technologii". Wielu znawców branży i badaczy DeepSeek bardzo wysoko oceniło Liang Wenfeng: "ktoś, kto ma zarówno silne zdolności w zakresie inżynierii informacyjnej, jak i możliwości badania modeli, a także potrafi mobilizować zasoby", "ktoś, kto potrafi dokonywać trafnych osądów z wysokiego poziomu, ale także przoduje w szczegółach nad badaczami pierwszej linii", a także ma "przerażającą zdolność uczenia się".

Na długo przed założeniem firmy DeepSeek, Huanfang rozpoczął już realizację długoterminowych planów w branży sztucznej inteligencji. W maju 2023 roku Liang Wenfeng wspomniał w wywiadzie dla Darksurge: "Po tym, jak OpenAI wydało GPT3 w 2020 roku, kierunek rozwoju sztucznej inteligencji stał się bardzo jasny, a moc obliczeniowa stanie się kluczowym elementem; ale nawet w 2021 roku, kiedy zainwestowaliśmy w budowę Firefly 2, większość ludzi nadal nie mogła tego zrozumieć".

Opierając się na tej ocenie, Huanfang zaczął budować własną infrastrukturę obliczeniową. "Od najwcześniejszej 1 karty, do 100 kart w 2015 r., 1000 kart w 2019 r., a następnie 10 000 kart, proces ten przebiegał stopniowo. Przed kilkuset kartami byliśmy hostowani w IDC. Kiedy skala stała się większa, hosting nie mógł już spełniać wymagań, więc zaczęliśmy budować własny pokój komputerowy".

Później, Finance Eleven poinformowało, że "nie ma więcej niż pięć krajowych firm posiadających ponad 10 000 procesorów graficznych, a oprócz kilku głównych producentów należy do nich również firma zajmująca się funduszami ilościowymi o nazwie Magic Cube." Powszechnie uważa się, że 10 000 chipów Nvidia A100 jest progiem mocy obliczeniowej do trenowania dużych modeli.

W poprzednim wywiadzie Liang Wenfeng również wspomniał o interesującej kwestii: Wiele osób mogłoby pomyśleć, że kryje się za tym nieznana logika biznesowa, ale w rzeczywistości jest to głównie spowodowane ciekawością.

Spis treści

DeepSeekpierwsze spotkanie

W wywiadzie udzielonym Darksurge w maju 2023 roku, zapytany o to "Niedawno Huanfang ogłosił swoją decyzję o stworzeniu dużych modeli, dlaczego fundusz ilościowy miałby robić coś takiego?".

Odpowiedź Liang Wenfeng była bardzo głośna: "Nasza decyzja o zbudowaniu dużego modelu nie ma nic wspólnego z kwantyfikacją czy finansami. W tym celu założyliśmy nową firmę o nazwie DeepSeek. Wielu kluczowych członków zespołu w Mianfang zajmuje się sztuczną inteligencją. W tym czasie wypróbowaliśmy wiele scenariuszy i ostatecznie zdecydowaliśmy się na finanse, które są wystarczająco złożone. Ogólna sztuczna inteligencja może być jedną z kolejnych najtrudniejszych rzeczy do osiągnięcia, więc dla nas jest to kwestia tego, jak to zrobić, a nie dlaczego.

Nie kieruje się interesami komercyjnymi czy podążaniem za trendami rynkowymi, ale po prostu pragnieniem zbadania samej technologii AGI i wytrwałym dążeniem do "najważniejszej i najtrudniejszej rzeczy". nazwa "DeepSeek" została oficjalnie potwierdzona w maju 2023 r.. W dniu 17 lipca 2023 r. utworzono spółkę "Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Co., Ltd.".

Na 2 listopada 2023 r. DeepSeek udzielił pierwszej odpowiedzi: DeepSeek Coder, duży model kodu open source. Model ten obejmuje wiele rozmiarów, takich jak 1B, 7B i 33B. Zawartość open source obejmuje model podstawowy i model dostrajania poleceń.

W tym czasie, wśród modeli open source, CodeLlama firmy Meta była branżowym punktem odniesienia. Jednak po wydaniu DeepSeek Coder wykazał wieloaspektową pozycję lidera w porównaniu do CodeLlama: w generowaniu kodu HumanEval był o 9,3% lepszy, MBPP był o 10,8% lepszy, a DS-1000 był o 5,9% lepszy.

Należy pamiętać, że DeepSeek Coder to model 7B, podczas gdy CodeLlama to model 34B. Ponadto model DeepSeek Coder, po dostrojeniu za pomocą instrukcji, znacznie przewyższył GPT3.5-Turbo.

Nie tylko generowanie kodu jest imponujące, ale DeepSeek Coder pokazuje również swoje mięśnie w matematyce i rozumowaniu.

Trzy dni później, 5 listopada 2023 r., firma DeepSeek opublikowała dużą ilość treści rekrutacyjnych za pośrednictwem swojego publicznego konta WeChat, w tym stanowiska takie jak stażysta dużego modelu AGI, ekspert ds. danych, talent w zakresie architektury danych, starszy inżynier ds. gromadzenia danych, inżynier ds. badań i rozwoju głębokiego uczenia się itp. i zaczęła aktywnie powiększać zespół.

Jak powiedział Liang Wenfeng, "Niezbędne wymagania" DeepSeek dotyczące rekrutacji talentów to "pasja i solidne umiejętności podstawowe".i podkreślił, że "Innowacja wymaga jak najmniej interwencji i zarządzania, tak aby każdy miał swobodę popełniania błędów i próbowania nowych rzeczy. Innowacja często pochodzi z wewnątrz, a nie z celowych ustaleń, a już na pewno nie z nauczania".

Modele są często publikowane, a open source jest praktykowane

Po tym, jak DeepSeek Coder zrobił furorę, DeepSeek zwrócił uwagę na główne pole bitwy: ogólne modele językowe.

Na 29 listopada 2023 r. firma DeepSeek wydała swój pierwszy duży model językowy ogólnego przeznaczenia, DeepSeek LLM 67B. Model ten jest porównywany z modelem Meta LLaMA2 70B na tym samym poziomie i osiągnął lepsze wyniki w prawie 20 publicznych listach ewaluacyjnych w języku chińskim i angielskim. W szczególności jego zdolności rozumowania, matematyki i programowania (np. HumanEval, MATH, CEval i CMMLU) są wyjątkowe.

DeepSeek LLM 67B również wybrał drogę open source i wspiera komercyjne wykorzystanie. Aby jeszcze bardziej zademonstrować swoją szczerość i determinację w zakresie otwartego oprogramowania, DeepSeek bezprecedensowo otworzył jednocześnie dwa modele o różnych skalach, 7B i 67B, a nawet upublicznił dziewięć punktów kontrolnych wygenerowanych podczas procesu szkolenia modelu, aby naukowcy mogli je pobrać i wykorzystać. Tego rodzaju działanie, które przypomina "uczenie wszystkiego", jest niezwykle rzadkie w całej społeczności open source.

Aby bardziej kompleksowo i obiektywnie ocenić rzeczywiste możliwości DeepSeek LLM 67B, zespół badawczy DeepSeek starannie zaprojektował również serię "nowych pytań" do "testów warunków skrajnych". Pytania te obejmują wysokopoziomowe, wysoce dyskryminujące testy, takie jak węgierskie pytania egzaminacyjne z matematyki w szkole średniej, polecenia Google po zestawach ewaluacyjnych i cotygodniowe pytania konkursowe LeetCode. Wyniki testów były zachęcające. DeepSeek LLM 67B wykazał niesamowity potencjał pod względem zdolności do generalizacji poza próbką, a jego ogólna wydajność była nawet zbliżona do najbardziej zaawansowanego wówczas modelu GPT-4.

Na 18 grudnia 2023 r. DeepSeek otworzył źródło modelu Vincent 3D DreamCraft3Dmoże generować wysokiej jakości modele 3D ze zdań, osiągając skok z płaszczyzn 2D do przestrzeni 3D w AIGC. Na przykład, jeśli użytkownik wprowadzi: "Biegnący przez las, zabawny hybrydowy obraz głowy świni i ciała Małpiego Króla", DreamCraft3D może wyprowadzić wysokiej jakości zawartość:

Zasadniczo model najpierw uzupełnia diagram Venna, a następnie uzupełnia ogólną strukturę geometryczną opartą na mapie koncepcyjnej 2D:

W subiektywnej ocenie, która nastąpiła później, ponad 90% użytkowników stwierdziło, że DreamCraft3D ma przewagę w jakości generowania w porównaniu do poprzednich metod generowania.

W dniu 7 stycznia 2024 r. DeepSeek opublikował raport techniczny DeepSeek LLM 67B. Ten ponad 40-stronicowy raport zawiera wiele szczegółów dotyczących DeepSeek LLM 67B, w tym samodzielnie opracowane prawa skalowania, pełne praktyczne szczegóły dotyczące dopasowania modelu oraz kompleksowy system oceny zdolności AGI.

Adres papierowy

Na 11 stycznia 2024 r. firma DeepSeek udostępniła pierwszy duży model MoE (mieszana architektura ekspercka) w Chinach, DeepSeekMoE: zupełnie nową architekturę, która obsługuje język chiński i angielski i jest bezpłatna do użytku komercyjnego. Architektura MoE była wówczas powszechnie uważana za klucz do przełomu w wydajności OpenAI GPT-4. Opracowana przez DeepSeek architektura MoE jest liderem w wielu skalach, takich jak 2B, 16B i 145B, a jej wydajność obliczeniowa jest również bardzo godna pochwały.

W dniu 25 stycznia 2024 r. DeepSeek opublikował raport techniczny DeepSeek Coder. Niniejszy raport zawiera kompleksową analizę techniczną danych treningowych, metod treningowych i wydajności modelu. W raporcie tym możemy zobaczyć, że po raz pierwszy skonstruowano dane kodu na poziomie magazynu i wykorzystano sortowanie topologiczne do analizy zależności między plikami, znacznie zwiększając zdolność rozumienia długodystansowych plików krzyżowych. Jeśli chodzi o metody szkoleniowe, dodano metodę Fill-In-Middle, która znacznie poprawiła zdolność uzupełniania kodu.

Adres papierowy

30 stycznia 2024 r. oficjalnie uruchomiono otwartą platformę DeepSeek i rozpoczęto testowanie usługi DeepSeek Large Model API. Zarejestruj się, aby otrzymać 10 milionów tokenów za darmo. Interfejs jest kompatybilny z interfejsem API OpenAI i dostępne są oba modele Chat/Coder dual. W tym czasie firma DeepSeek zaczęła badać ścieżkę dostawcy usług technologicznych oprócz badań i rozwoju technologii.

Na 5 lutego 2024 r. DeepSeek wydał kolejny model domeny pionowej, DeepSeekMathmatematyczny model rozumowania. Model ten ma tylko 7B parametrów, ale jego zdolność rozumowania matematycznego jest zbliżona do GPT-4. Na autorytatywnej liście porównawczej MATH, model ten przewyższa wiele modeli open source o rozmiarach parametrów od 30B do 70B. Wydanie DeepSeekMath w pełni demonstruje siłę techniczną i przyszłościowy układ DeepSeek w badaniach i rozwoju pionowym oraz jego przyszłościowy układ w badaniach i rozwoju modeli.

Na 28 lutego 2024 r., aby jeszcze bardziej złagodzić obawy deweloperów dotyczące korzystania z modeli open source DeepSeek, firma DeepSeek opublikowała często zadawane pytania dotyczące polityki open source, który zawiera szczegółowe odpowiedzi na często zadawane pytania, takie jak model licencji open source i ograniczenia komercyjnego wykorzystania. DeepSeek przyjmuje open source z bardziej przejrzystym i otwartym podejściem:

Na 11 marca 2024 r. firma DeepSeek wydała multimodalny duży model DeepSeek-VL. Jest to pierwsza próba DeepSeek w zakresie technologii multimodalnej sztucznej inteligencji. Model ma rozmiar 7B i 1,3B, a model i dokumenty techniczne są jednocześnie otwarte.

Na 20 marca 2024 r. Huanfang AI & DeepSeek został ponownie zaproszony do udziału w konferencji NVIDIA GTC 2024, a założyciel Liang Wenfeng wygłosił przemówienie techniczne zatytułowany "Harmony in Diversity: Wyrównywanie i oddzielanie wartości dużych modeli językowych". Omówiono takie kwestie, jak "konflikt między dużym modelem o jednej wartości a pluralistycznym społeczeństwem i kulturą", "oddzielenie wyrównania wartości dużego modelu" oraz "wielowymiarowe wyzwania związane z oddzieleniem wyrównania wartości". Pokazało to humanistyczną troskę i społeczną odpowiedzialność DeepSeek za rozwój sztucznej inteligencji, oprócz badań i rozwoju technologicznego.

W marcu 2024 r, DeepSeek API oficjalnie uruchomiła płatne usługi, co całkowicie zapoczątkowało wojnę cenową na chińskim rynku dużych modeli: 1 juan za milion tokenów wejściowych i 2 juany za milion tokenów wyjściowych.

W 2024 r. DeepSeek pomyślnie przeszedł rekordową liczbę dużych modeli w Chinach, usuwając przeszkody polityczne dla pełnego otwarcia usług API.

W maju 2024 r. wydano DeepSeek-V2, duży model MoE o otwartym kodzie źródłowym, i oficjalnie rozpoczęła się wojna cenowa. DeepSeek-V2 wykorzystuje MLA (wielogłowicowy mechanizm ukrytej uwagi), który zmniejsza ślad pamięciowy modelu do 5%-13% w porównaniu z tradycyjnym MHA. Jednocześnie opracowano niezależnie strukturę rzadką DeepSeek MoE Sparse, która znacznie zmniejsza złożoność obliczeniową modelu. Dzięki temu model utrzymuje cenę API na poziomie "1 juan/milion wejść i 2 juany/milion wyjść".

DeepSeek wywarł ogromny wpływ. W związku z tym główny analityk SemiAnalysis uważa, że artykuł DeepSeek V2 "może być jednym z najlepszych w tym roku". Podobnie Andrew Carr, były pracownik OpenAI, uważa, że artykuł jest "pełen niesamowitej mądrości" i zastosował jego ustawienia treningowe do własnego modelu.

Należy zauważyć, że jest to model, który stanowi punkt odniesienia dla GPT-4-Turbo, a cena API to tylko 1/70 tego ostatniego

W czerwcu 17, 2024, DeepSeek po raz kolejny zrobił duży krok naprzód, wypuszczając model kodu DeepSeek Coder V2 open source i twierdząc, że jego możliwości kodowe przewyższały GPT-4-Turbo, najbardziej zaawansowany model o zamkniętym kodzie źródłowym w tamtym czasie. DeepSeek Coder V2 kontynuuje konsekwentną strategię open source DeepSeek, ze wszystkimi modelami, kodem i dokumentami open source, a dwie wersje, 236B i 16B, są dostępne. Usługi API DeepSeek C oder V2 są również dostępne online, a cena pozostaje na poziomie "1 juan / milion danych wejściowych i 2 juany / milion danych wyjściowych".

Na 21 czerwca 2024 r. DeepSeek Coder obsługiwał wykonywanie kodu online. Tego samego dnia wydano Claude3.5 Sonnet z nową funkcją Artifacts, która automatycznie generuje kod i uruchamia go bezpośrednio w przeglądarce. Tego samego dnia asystent kodu na stronie DeepSeek również uruchomił tę samą funkcję: generowanie kodu i uruchamianie go jednym kliknięciem.

Przyjrzyjmy się najważniejszym wydarzeniom z tego okresu:

Ciągłe przełomy, przyciągające uwagę całego świata

W maju 2024 roku DeepSeek stał się sławny z dnia na dzień, wydając DeepSeek V2, model open source oparty na MoE. Dorównywał on wydajnością GPT-4-Turbo, ale jego cena wynosiła zaledwie 1 juana/milion wkładu, co stanowiło 1/70 GPT-4-Turbo. W tym czasie DeepSeek stał się dobrze znanym "rzeźnikiem cen" w branży, a następnie główni gracze, tacy jak Zhicheng, ByteDance i Alibaba... oraz inni główni gracze szybko poszli w ich ślady i obniżyli ceny. Mniej więcej w tym samym czasie nastąpiła kolejna runda zakazu GPT, a duża liczba aplikacji AI zaczęła po raz pierwszy wypróbowywać modele krajowe.

W lipcu 2024 roku założyciel DeepSeek, Liang Wenfeng, ponownie udzielił wywiadu Dark Surge i bezpośrednio odniósł się do wojny cenowej: "Bardzo nieoczekiwane. Nie spodziewałem się, że cena będzie tak wrażliwa. Po prostu robimy wszystko we własnym tempie, a następnie wyceniamy na podstawie kosztów. Naszą zasadą jest nie tracić pieniędzy i nie osiągać wygórowanych zysków. Ta cena jest również nieco wyższa od kosztów z niewielkim zyskiem".

Widać, że w przeciwieństwie do wielu konkurentów, którzy dopłacają z własnej kieszeni, DeepSeek jest opłacalny w tej cenie.

Niektórzy mogą powiedzieć: obniżki cen są jak okradanie użytkowników i tak zwykle jest w przypadku wojen cenowych w erze Internetu

W odpowiedzi Liang Wenfeng również odpowiedział: "Okradanie użytkowników nie jest naszym głównym celem. Obniżyliśmy cenę, ponieważ z jednej strony koszty spadły, ponieważ badamy strukturę modelu nowej generacji, a z drugiej strony uważamy, że zarówno API, jak i sztuczna inteligencja powinny być przystępne cenowo i dostępne dla każdego".

Tak więc historia kontynuuje idealizm Liang Wenfeng.

W dniu 4 lipca 2024 r. interfejs API DeepSeek został udostępniony online. Cena kontekstu 128K pozostała niezmieniona. Koszt wnioskowania modelu jest ściśle związany z długością kontekstu. Dlatego wiele modeli ma ścisłe ograniczenia dotyczące tej długości: początkowa wersja GPT-3.5 ma tylko 4k kontekstu.

W tym czasie DeepSeek zwiększył długość kontekstu z poprzednich 32 tys. do 128 tys. przy zachowaniu niezmienionej ceny (1 juan za milion tokenów wejściowych i 2 juany za milion tokenów wyjściowych).

Na 10 lipca 2024 r. ogłoszono wyniki pierwszej na świecie Olimpiady Sztucznej Inteligencji (AIMO), a model DeepSeekMath stał się powszechnym wyborem najlepszych drużyn. Wszystkie zwycięskie zespoły Top 4 wybrały DeepSeekMath-7B jako podstawę swoich modeli zgłoszeniowych i osiągnęły imponujące wyniki w konkursie.

Na 18 lipca 2024 r. DeepSeek-V2 znalazł się na szczycie listy modeli open source na Chatbot Arena, przewyższając modele gwiezdne takie jak Llama3-70B, Qwen2-72B, Nemotron-4-340B i Gemma2-27B, stając się nowym punktem odniesienia dla dużych modeli open source.

W W lipcu 2024 r. DeepSeek kontynuował rekrutację talentów i rekrutowała największe talenty z całego świata w wielu dziedzinach, w tym algorytmów AI, AI Infra, AI Tutor i produktów AI, aby przygotować się na przyszłe innowacje technologiczne i rozwój produktów.

Na 26 lipca 2024 r. interfejs API DeepSeek wprowadził ważną aktualizację, w pełni obsługującą szereg zaawansowanych funkcji, takich jak nadpisywanie, uzupełnianie FIM (Fill-in-the-Middle), wywoływanie funkcji i dane wyjściowe JSON. Funkcja FIM jest bardzo interesująca: użytkownik podaje początek i koniec, a duży model wypełnia środek, co jest bardzo przydatne w procesie programowania, aby wypełnić dokładny kod funkcji. Weźmy jako przykład pisanie ciągu Fibonacciego:

Na 2 sierpnia 2024 r. firma DeepSeek wprowadziła innowacyjną technologię buforowania dysków twardych, obniżając ceny API do kostek. Wcześniej ceny API wynosiły tylko ￥1 za milion tokenów. Teraz jednak, po trafieniu w pamięć podręczną, opłata API spada bezpośrednio do 0,1 jena.

Funkcja ta jest bardzo praktyczna w przypadku ciągłych konwersacji i zadań przetwarzania wsadowego.

Na 16 sierpnia 2024 r. firma DeepSeek wydała swój matematyczny model dowodzenia twierdzeń DeepSeek-Prover-V1.5. jako open source, który przewyższył wiele znanych modeli open source w testach dowodzenia twierdzeń matematycznych w szkole średniej i na studiach.

Na 6 września 2024 r. firma DeepSeek wydała model fuzji DeepSeek-V2.5. Wcześniej DeepSeek oferował głównie dwa modele: model Chat koncentrował się na ogólnych umiejętnościach konwersacji, a model Code koncentrował się na umiejętnościach przetwarzania kodu. Tym razem oba modele zostały połączone w jeden, zaktualizowany do wersji DeepSeek-V2.5, która lepiej odpowiada ludzkim preferencjom, a także osiągnęła znaczną poprawę w zakresie pisania zadań, wykonywania poleceń i innych aspektów.

Na 18 września 2024 r. DeepSeek-V2.5 ponownie znalazł się na najnowszej liście LMSYS, przewodząc krajowym modelom i ustanawiając nowe najlepsze wyniki dla modeli krajowych w wielu indywidualnych umiejętnościach.

Na 20 listopada 2024 r. firma DeepSeek wydała DeepSeek-R1-Lite na oficjalnej stronie internetowej. Jest to model wnioskowania porównywalny do o1-preview, a także zapewnia wystarczającą ilość danych syntetycznych do późniejszego treningu V3.

Na 10 grudnia 2024 r. seria DeepSeek V2 rozpoczęła swój finał wraz z wydaniem ostatecznej, dopracowanej wersji DeepSeek-V2.5-1210. Ta wersja kompleksowo poprawia wiele umiejętności, w tym matematykę, kodowanie, pisanie i odgrywanie ról po treningu.

Wraz z pojawieniem się tej wersji, aplikacja internetowa DeepSeek otworzyła również funkcję wyszukiwania sieci.

Na 13 grudnia 2024 r. firma DeepSeek dokonała kolejnego przełomu w dziedzinie multimodalności i wydała duży multimodalny model open source DeepSeek-VL2. DeepSeek-VL2 wykorzystuje architekturę MoE, która znacznie poprawia jego możliwości wizualne. Jest dostępny w trzech rozmiarach: 3B, 16B i 27B, i ma przewagę we wszystkich metrykach.

Na 26 grudnia 2024 r. DeepSeek-V3 został wydany z otwartym kodem źródłowym: szacowany koszt szkolenia wyniósł tylko 5,5 miliona dolarów. DeepSeek-V3 w pełni porównał wydajność wiodących modeli zamkniętych za granicą i znacznie poprawił szybkość generowania.

Ceny usług API zostały dostosowane, ale jednocześnie ustalono 45-dniowy preferencyjny okres próbny dla nowego modelu.

15 stycznia 2025 r. oficjalna aplikacja DeepSeek została oficjalnie wydana i w pełni uruchomiona na głównych rynkach aplikacji iOS/Android.

20 stycznia 2025 r., w pobliżu chińskiego Nowego Roku, model wnioskowania DeepSeek-R1 został oficjalnie wydany i udostępniony jako open source. DeepSeek-R1 w pełni dostosował swoją wydajność do oficjalnej wersji OpenAI o1 i otworzył funkcję wyjściową łańcucha myśli. W tym samym czasie DeepSeek ogłosił również, że licencja open source modelu zostanie zmieniona na licencję MIT, a umowa użytkownika wyraźnie zezwoli na "destylację modelu", jeszcze bardziej obejmując open source i promując udostępnianie technologii.

Później model ten stał się bardzo popularny i zapoczątkował nową erę

W rezultacie od 27 stycznia 2025 r. aplikacja DeepSeek z powodzeniem przekroczyła ChatGPT i znalazła się na szczycie listy bezpłatnych aplikacji do pobrania w amerykańskim sklepie iOS App Store, stając się fenomenalną aplikacją AI.

27 stycznia 2025 roku, o godzinie 1:00 w Sylwestra, DeepSeek Janus-Pro został wydany jako open source. Jest to multimodalny model nazwany na cześć dwulicowego boga Janusa ze starożytnej mitologii rzymskiej: patrzy zarówno w przeszłość, jak i w przyszłość. Reprezentuje to również dwie zdolności modelu - rozumienie wizualne i generowanie obrazów - oraz jego dominację w wielu rankingach.

Wybuchowa popularność DeepSeek natychmiast wywołała globalną falę uderzeniową w branży technologicznej, powodując nawet bezpośredni spadek kursu akcji NVIDIA o 18%, a wartość rynkowa globalnego rynku akcji technologicznych wyparowała o około 1 bilion dolarów amerykańskich. Wall Street i media technologiczne ogłosiły, że wzrost DeepSeek wywraca globalny krajobraz branży sztucznej inteligencji i stanowi bezprecedensowe wyzwanie dla amerykańskich gigantów technologicznych.

Sukces DeepSeek wywołał również duże zainteresowanie na arenie międzynarodowej i gorące dyskusje na temat możliwości Chin w zakresie innowacji technologicznych AI. Prezydent USA Donald Trump, w rzadkim publicznym komentarzu, pochwalił rozwój DeepSeek jako "pozytywny" i powiedział, że jest to "sygnał ostrzegawczy" dla Stanów Zjednoczonych. Dyrektor generalny Microsoft Satya Nadella i dyrektor generalny OpenAI Sam Altman również pochwalili DeepSeek, nazywając jego technologię "bardzo imponującą".

Oczywiście musimy również zrozumieć, że ich pochwały są częściowo uznaniem siły DeepSeek, a częściowo odzwierciedleniem ich własnych motywów. Na przykład, podczas gdy Anthropic uznaje osiągnięcia DeepSeek, wzywa również rząd USA do wzmocnienia kontroli chipów w Chinach.

Anthropic CEO publikuje artykuł o objętości 10 000 słów: Wzrost popularności DeepSeek oznacza, że Biały Dom powinien zintensyfikować kontrole

Podsumowanie i perspektywy

Patrząc wstecz na ostatnie dwa lata DeepSeek, był to naprawdę "chiński cud": od nieznanego startupu do "tajemniczej wschodniej potęgi", która obecnie błyszczy na globalnej scenie AI, DeepSeek napisał jedno "niemożliwe" po drugim dzięki swojej sile i innowacjom.

Głębsze znaczenie tej technologicznej wyprawy już dawno wykroczyło poza zakres komercyjnej konkurencji. DeepSeek ogłosił z faktami, że W strategicznej dziedzinie sztucznej inteligencji, która dotyczy przyszłości, chińskie firmy są w pełni zdolne do wspięcia się na wyżyny podstawowej technologii.

"Dzwonek alarmowy" trąbiony przez Trumpa i ukryty strach przed antropią dokładnie potwierdzają znaczenie chińskich zdolności w zakresie sztucznej inteligencji: nie tylko mogą one podążać za falami, ale także zmieniają kierunek fali

Deepseek produkt zwolnienie kamienie milowe

2 listopada 2023 r: Koder DeepSeek Duży model
29 listopada 2023 r: DeepSeek LLM 67B Model uniwersalny
18 grudnia 2023 r: Model 3D DreamCraft3D
11 stycznia 2024 r: Duży model DeepSeekMoE MoE
5 lutego 2024 r: DeepSeekMath Model rozumowania matematycznego
11 marca 2024 r: DeepSeek-VL Multimodalny duży model
Maj 2024 r: Model ogólny DeepSeek-V2 MoE
17 czerwca 2024 roku: Model kodu DeepSeek Coder V2
6 września 2024 r: DeepSeek-V2.5 Połączenie modeli kompetencji ogólnych i kodowych
13 grudnia 2024 roku: Multimodalny model MoE DeepSeek-VL2
26 grudnia 2024 roku: DeepSeek-V3 nowa seria dużych modeli ogólnego przeznaczenia
20 stycznia 2025 r: Model wnioskowania DeepSeek-R1
20 stycznia 2025 r: Oficjalna aplikacja DeepSeek (iOS i Android)
27 stycznia 2025 r: Model multimodalny DeepSeek Janus-Pro

Jak powstał DeepSeek? Analiza historii rozwoju DeepSeek

DeepSeekpierwsze spotkanie

Modele są często publikowane, a open source jest praktykowane

Ciągłe przełomy, przyciągające uwagę całego świata

Podsumowanie i perspektywy

Deepseek produkt zwolnienie kamienie milowe

Ujawniono technologię DeepSeek-R1: podstawowe zasady artykułu zostały rozbite na czynniki pierwsze, a klucz do przełomowej wydajności modelu został ujawniony

Dialog a16z z 27-letnim CEO: Agent AI ma ogromny efekt dźwigni, a długoterminowe ceny będą powiązane z kosztami pracy

Najnowsze wiadomości! Badacz DeepSeek ujawnia online: szkolenie R1 trwało tylko dwa do trzech tygodni, a potężną ewolucję R1 zero zaobserwowano podczas chińskiego Nowego Roku

Paper-DeepSeek-R1: Motywowanie zdolności rozumowania w LLM poprzez uczenie się ze wzmocnieniem

DeepSeek udostępnił swój kod źródłowy i szczegółowe wyjaśnienie FlashMLA

Jest blisko DeepSeek-R1-32B i miażdży s1 Fei-Fei Li! UC Berkeley i inne otwarte nowe modele wnioskowania SOTA

Dodaj komentarz Anuluj pisanie odpowiedzi

DeepSeekpierwsze spotkanie

Modele są często publikowane, a open source jest praktykowane

Ciągłe przełomy, przyciągające uwagę całego świata

Podsumowanie i perspektywy

Deepseek produkt zwolnienie kamienie milowe

Podobne posty

Dodaj komentarz Anuluj pisanie odpowiedzi