În viitor, va exista din ce în ce mai multă inovație hardcore. S-ar putea să nu fie ușor de înțeles acum, deoarece întregul grup social trebuie să fie educat prin fapte. Atunci când această societate le va permite oamenilor care inovează dur să aibă succes, mentalitatea colectivă se va schimba. Avem nevoie doar de o serie de fapte și de un proces. - Liang Wenfeng, fondator al DeepSeek

În ultimele zile, DeepSeek a explodat în întreaga lume, dar deoarece compania este atât de discretă și nu a făcut niciun anunț, publicul știe foarte puține despre această companie tehnologică cu un mare potențial - fie că este vorba despre fondarea sa, domeniul de activitate sau aspectul produsului.

După ce am terminat de sortat toate materialele, am scris acest articol

Care este trecutul actualilor jucători AI, ce fac aceștia și pe cine recrutează?

și probabil cea mai completă prezentare istorică a DeepSeek.

Anul trecut pe vremea asta, un prieten de la Magic Cube Quant a venit la mine și m-a întrebat: "Vrei să construiești un model mare în China?" Iar eu pur și simplu mi-am petrecut după-amiaza bând cafea. Așa cum era de așteptat, viața încă depinde de alegeri.

The Magic Cube Quant menționat aici este investitorul, sau societatea-mamă, a DeepSeek.

Așa-numitul "quant" este o instituție de investiții care ia decizii nu prin puterea umană, ci prin algoritmi. Înființarea Quant Fantasy nu este lungă, începând în 2015. Până în 2021, când a împlinit șase ani, scara de gestionare a activelor Quant Fantasy a depășit 100 de miliarde și a fost salutată drept unul dintre "cei patru mari regi ai quant-ului" din China.

Fondatorul Fantasy Square, Liang Wenfeng, care este și fondatorul DeepSeek, este un lider financiar "non-mainstream" născut în anii 1980: nu are experiență de studiu în străinătate, nu este câștigător al unei competiții olimpice și a absolvit Departamentul de Inginerie Electronică al Universității Zhejiang, specializându-se în inteligență artificială. Este un expert nativ în tehnologie care acționează într-un mod discret, "citind lucrări, scriind cod și participând la discuții de grup" în fiecare zi.

Liang Wenfeng nu are obiceiurile unui proprietar de afaceri tradițional, ci este mai degrabă un "pasionat de tehnologie". Multe persoane din interiorul industriei și cercetători DeepSeek i-au adus lui Liang Wenfeng laude extrem de mari: "cineva care are atât capacități puternice de infrainginerie, cât și capacități de cercetare a modelelor și poate, de asemenea, să mobilizeze resurse", "cineva care poate face judecăți exacte de la un nivel înalt, dar care excelează și la detalii față de cercetătorii din prima linie" și are, de asemenea, "o capacitate de învățare terifiantă".

Cu mult înainte de înființarea DeepSeek, Huanfang începuse deja să facă planuri pe termen lung în industria IA. În mai 2023, Liang Wenfeng a menționat într-un interviu cu Darksurge: "După ce OpenAI a lansat GPT3 în 2020, direcția de dezvoltare a IA a devenit foarte clară, iar puterea de calcul va deveni un element cheie; dar chiar și în 2021, când am investit în construcția Firefly 2, majoritatea oamenilor încă nu puteau înțelege."

Pe baza acestei hotărâri, Huanfang a început să își construiască propria infrastructură de calcul. "De la primul 1 card, la 100 de carduri în 2015, 1.000 de carduri în 2019 și apoi 10.000 de carduri, acest proces a avut loc treptat. Înainte de câteva sute de carduri, am fost găzduiți într-un IDC. Când scara a devenit mai mare, găzduirea nu a mai putut satisface cerințele, așa că am început să ne construim propria sală de calculatoare."

Mai târziu, Finance Eleven a raportat: "Nu sunt mai mult de cinci companii naționale cu mai mult de 10.000 de GPU-uri și, pe lângă câțiva producători importanți, acestea includ și o companie de fonduri cantitative numită Magic Cube." În general, se consideră că 10 000 de cipuri Nvidia A100 reprezintă pragul de putere de calcul pentru formarea de modele mari.

Într-un interviu anterior, Liang Wenfeng a menționat, de asemenea, un aspect interesant: mulți oameni ar crede că există o logică de afaceri necunoscută în spatele acesteia, dar, de fapt, aceasta este determinată în principal de curiozitate.

DeepSeekprima întâlnire a lui

Într-un interviu cu Darksurge în mai 2023, când a fost întrebat "Nu cu mult timp în urmă, Huanfang și-a anunțat decizia de a face modele mari, de ce ar face un fond cantitativ un astfel de lucru?"

Răspunsul lui Liang Wenfeng a fost răsunător: "Decizia noastră de a construi un model mare nu are nimic de-a face cu cuantificarea sau finanțele. Am înființat o nouă companie numită DeepSeek pentru a face acest lucru. Mulți dintre membrii-cheie ai echipei de la Mianfang sunt implicați în inteligența artificială. La momentul respectiv, am încercat mai multe scenarii și, în cele din urmă, ne-am oprit asupra finanțelor, care sunt destul de complexe. Inteligența artificială generală poate fi unul dintre următoarele cele mai dificile lucruri de realizat, așa că, pentru noi, este o chestiune de cum să o facem, nu de ce.

Nu este condus de interese comerciale sau de urmărirea tendințelor pieței, ci pur și simplu de dorința de a explora tehnologia AGI în sine și de o căutare persistentă a "celui mai important și mai dificil lucru". numele "DeepSeek" a fost confirmat oficial în mai 2023. La 17 iulie 2023, "Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Co., Ltd." a fost încorporată.

Pe 2 noiembrie 2023, DeepSeek a livrat primul său răspuns: DeepSeek Coder, un model mare de cod cu sursă deschisă. Acest model include mai multe dimensiuni, cum ar fi 1B, 7B și 33B. Conținutul open source include modelul de bază și modelul de reglare a comenzilor.

La momentul respectiv, printre modelele open source, Meta's CodeLlama era referința industriei. Cu toate acestea, odată ce DeepSeek Coder a fost lansat, acesta a demonstrat o poziție de lider cu mai multe fațete în comparație cu CodeLlama: în generarea codului, HumanEval avea un avans de 9,3%, MBPP avea un avans de 10,8%, iar DS-1000 avea un avans de 5,9%.

Rețineți că DeepSeek Coder este un model 7B, în timp ce CodeLlama este un model 34B. În plus, modelul DeepSeek Coder, după ce a fost reglat cu instrucțiuni, a depășit în mod cuprinzător GPT3.5-Turbo.

Nu numai că generarea codului este impresionantă, dar DeepSeek Coder își arată și mușchii în matematică și raționament.

Trei zile mai târziu, pe 5 noiembrie 2023, DeepSeek a lansat o cantitate mare de conținut de recrutare prin contul său public WeChat, inclusiv poziții precum stagiar model mare AGI, expert în date, talent în arhitectura datelor, inginer senior de colectare a datelor, inginer de cercetare și dezvoltare a învățării profunde etc., și a început să extindă în mod activ echipa.

Așa cum a spus Liang Wenfeng, "Cerințele obligatorii" ale DeepSeek pentru recrutarea talentelor sunt "pasiunea și abilitățile de bază solide", și a subliniat că "inovarea necesită cât mai puține intervenții și management posibil, astfel încât toată lumea să aibă libertatea de a face greșeli și de a încerca lucruri noi. Inovația vine adesea din interior, nu din aranjamente deliberate, și cu siguranță nu vine din predare."

Modelele sunt lansate frecvent, iar sursa deschisă este practicată

După ce DeepSeek Coder a făcut senzație, DeepSeek și-a îndreptat atenția către principalul câmp de luptă: modelele de limbaj general.

Pe 29 noiembrie 2023, DeepSeek a lansat primul său model de limbaj mare cu scop general, DeepSeek LLM 67B. Acest model este comparat cu modelul Meta LLaMA2 70B de același nivel și a avut performanțe mai bune în aproape 20 de liste publice de evaluare în chineză și engleză. În special, capacitățile sale de raționament, matematică și programare (de exemplu, HumanEval, MATH, CEval și CMMLU) sunt remarcabile.

DeepSeek LLM 67B a ales, de asemenea, calea open source și sprijină utilizarea comercială. Pentru a-și demonstra și mai mult sinceritatea și determinarea față de sursele deschise, DeepSeek a deschis, fără precedent, simultan sursele a două modele de scări diferite, 7B și 67B, și chiar a făcut publice cele nouă puncte de control generate în timpul procesului de formare a modelului pentru ca cercetătorii să le poată descărca și utiliza. Acest tip de operațiune, care seamănă cu "a preda totul", este extrem de rar în întreaga comunitate open source.

Pentru a evalua mai cuprinzător și obiectiv adevăratele capacități ale DeepSeek LLM 67B, echipa de cercetare DeepSeek a conceput cu atenție o serie de "întrebări noi" pentru "testarea la stres". Aceste întrebări acoperă teste de nivel înalt, cu grad ridicat de discriminare, cum ar fi întrebări de examen de matematică din liceul maghiar, seturi de evaluare a comenzilor Google și întrebări de concurs săptămânal LeetCode. Rezultatele testelor au fost încurajatoare. DeepSeek LLM 67B a arătat un potențial uimitor în ceea ce privește capacitatea sa de a generaliza dincolo de eșantion, iar performanța sa generală a fost chiar apropiată de cea a celui mai avansat model GPT-4 de atunci.

Pe 18 decembrie 2023, DeepSeek a deschis sursa modelului Vincent 3D DreamCraft3D: poate genera modele 3D de înaltă calitate dintr-o propoziție, realizând saltul de la planurile 2D la spațiul 3D în AIGC. De exemplu, dacă utilizatorul introduce: "Alergând prin pădure, o imagine hibridă amuzantă a unui cap de porc și a corpului Regelui Maimuță", DreamCraft3D poate genera conținut de înaltă calitate:

În principiu, modelul completează mai întâi diagrama Venn și apoi completează structura geometrică generală bazată pe harta conceptuală 2D:

În evaluarea subiectivă care a urmat, mai mult de 90% dintre utilizatori au declarat că DreamCraft3D a avut un avantaj în ceea ce privește calitatea generării în comparație cu metodele de generare anterioare.

Pe 7 ianuarie 2024, DeepSeek a publicat raportul tehnic DeepSeek LLM 67B. Acest raport de peste 40 de pagini conține multe detalii despre DeepSeek LLM 67B, inclusiv legi de scalare auto-construite, detalii practice complete ale alinierii modelului și un sistem cuprinzător de evaluare a capacității AGI.

Adresa hârtiei

Pe 11 ianuarie 2024, DeepSeek a lansat primul model MoE (arhitectură mixtă de experți) de mari dimensiuni din China, DeepSeekMoE: o arhitectură nouă care acceptă limbile chineză și engleză și care este gratuită pentru utilizare comercială. Arhitectura MoE a fost considerată, în general, la momentul respectiv ca fiind cheia descoperirii de performanță a OpenAI GPT-4. Arhitectura MoE autodezvoltată de DeepSeek este lider în mai multe scale, cum ar fi 2B, 16B și 145B, iar calculul său este, de asemenea, foarte lăudabil.

La 25 ianuarie 2024, DeepSeek a publicat raportul tehnic DeepSeek Coder. Acest raport oferă o analiză tehnică cuprinzătoare a datelor sale de formare, a metodelor de formare și a performanței modelului. În acest raport, putem vedea că, pentru prima dată, a construit date de cod la nivel de depozit și a utilizat sortarea topologică pentru a analiza dependențele dintre fișiere, îmbunătățind semnificativ capacitatea de a înțelege fișierele încrucișate pe distanțe lungi. În ceea ce privește metodele de instruire, a fost adăugată metoda Fill-In-Middle, care a îmbunătățit considerabil capacitatea de completare a codului.

Adresa hârtiei

Pe 30 ianuarie 2024, platforma deschisă DeepSeek a fost lansată oficial, iar serviciul DeepSeek Large Model API a început testarea. Înregistrați-vă pentru a obține gratuit 10 milioane de jetoane. Interfața este compatibilă cu interfața API OpenAI și sunt disponibile ambele modele duale Chat/Coder. În acest moment, DeepSeek a început să exploreze calea unui furnizor de servicii tehnologice în plus față de cercetarea și dezvoltarea tehnologiei.

Pe 5 februarie 2024, DeepSeek a lansat un alt model de domeniu vertical, DeepSeekMath, un model de raționament matematic. Acest model are doar 7B parametri, dar capacitatea sa de raționament matematic este apropiată de cea a GPT-4. Pe lista de referință autoritară MATH, acesta depășește mulțimea și surclasează o serie de modele open source cu dimensiuni ale parametrilor între 30B și 70B. Lansarea DeepSeekMath demonstrează pe deplin forța tehnică a DeepSeek și orientarea sa către viitor în cercetarea și dezvoltarea verticală, precum și orientarea sa către viitor în cercetarea și dezvoltarea modelelor.

Pe 28 februarie 2024, pentru a atenua și mai mult îngrijorările dezvoltatorilor cu privire la utilizarea modelelor cu sursă deschisă DeepSeek, DeepSeek a lansat o politică privind sursa deschisă FAQ, care oferă răspunsuri detaliate la întrebări frecvente, cum ar fi modelul de licență open source și restricțiile de utilizare comercială. DeepSeek îmbrățișează sursa deschisă cu o atitudine mai transparentă și mai deschisă:

Pe 11 martie 2024, DeepSeek a lansat modelul multimodal mare DeepSeek-VL. Aceasta este încercarea inițială a DeepSeek de a utiliza tehnologia AI multimodală. Modelul are o dimensiune de 7B și 1,3B, iar modelul și documentele tehnice sunt simultan open sourced.

Pe 20 martie 2024, Huanfang AI & DeepSeek a fost din nou invitat să participe la conferința NVIDIA GTC 2024, iar fondatorul Liang Wenfeng a ținut un discurs cheie tehnic intitulat "Harmony in Diversity: Alinierea și decuplarea valorilor modelelor lingvistice mari". Au fost discutate aspecte precum "conflictul dintre un model mare cu o singură valoare și o societate și o cultură pluralistă", "decuplarea alinierii valorilor modelelor mari" și "provocările multidimensionale ale alinierii valorilor decuplate". Acest lucru a demonstrat grija umanistă și responsabilitatea socială a DeepSeek pentru dezvoltarea IA, în plus față de cercetarea și dezvoltarea sa tehnologică.

În martie 2024, DeepSeek API a lansat oficial servicii plătite, ceea ce a declanșat complet preludiul războiului prețurilor pe piața chineză a modelelor mari: 1 yuan pe milion de token-uri de intrare și 2 yuan pe milion de token-uri de ieșire.

În 2024, DeepSeek a depășit cu succes recordul de modele mari în China, eliminând obstacolele politice pentru deschiderea completă a serviciilor sale API.

În mai 2024, a fost lansat DeepSeek-V2, un model MoE general cu sursă deschisă, iar războiul prețurilor a început oficial. DeepSeek-V2 utilizează MLA (multi-head latent attention mechanism), care reduce amprenta de memorie a modelului la 5%-13% din cea a MHA tradițional. În același timp, a dezvoltat în mod independent și structura dispersată DeepSeek MoE Sparse, care reduce considerabil complexitatea de calcul a modelului. Datorită acestui fapt, modelul menține un preț API de "1 yuan/milion de intrări și 2 yuan/milion de ieșiri".

DeepSeek a avut un impact uriaș. În acest sens, analistul principal de la SemiAnalysis consideră că lucrarea DeepSeek V2 "poate fi una dintre cele mai bune din acest an". În mod similar, Andrew Carr, un fost angajat al OpenAI, consideră că lucrarea este "plină de o înțelepciune uimitoare" și a aplicat setările sale de formare la propriul său model.

Trebuie remarcat faptul că acesta este un model care evaluează GPT-4-Turbo, iar prețul API este de numai 1/70 din acesta din urmă

În iunie 17, 2024, DeepSeek a făcut încă o dată un mare pas înainte, lansând modelul de cod DeepSeek Coder V2 sursă deschisă și afirmând că capacitățile codului său depășeau GPT-4-Turbo, cel mai avansat model cu sursă închisă de la acea vreme. DeepSeek Coder V2 continuă strategia consecventă de sursă deschisă a DeepSeek, cu toate modelele, codul și documentele cu sursă deschisă, și sunt furnizate două versiuni, 236B și 16B. Serviciile API ale DeepSeek C oder V2 sunt, de asemenea, disponibile online, iar prețul rămâne la "1 yuan/milion intrări și 2 yuan/milion ieșiri".

Pe 21 iunie 2024, DeepSeek Coder a acceptat executarea online a codului. În aceeași zi, a fost lansat Claude3.5 Sonnet, cu noua funcție Artifacts, care generează automat codul și îl rulează direct în browser. În aceeași zi, asistentul de cod de pe site-ul DeepSeek a lansat, de asemenea, aceeași funcție: generează cod și îl execută cu un singur clic.

Să trecem în revistă evenimentele majore din această perioadă:

Descoperiri continue, care atrag atenția la nivel mondial

În mai 2024, DeepSeek a devenit celebru peste noapte prin lansarea DeepSeek V2, un model open source bazat pe MoE. Acesta a egalat performanța GPT-4-Turbo, dar la un preț de numai 1 yuan/milion de intrare, ceea ce a fost 1/70 din GPT-4-Turbo. În acel moment, DeepSeek a devenit un cunoscut "măcelar al prețurilor" în industrie, iar apoi jucători importanți precum Zhicheng, ByteDance și Alibaba... și alți jucători importanți i-au urmat rapid exemplul și și-au redus prețurile. Tot în acea perioadă a avut loc o altă rundă de interdicție a GPT, iar un număr mare de aplicații AI au început să încerce pentru prima dată modele interne.

În iulie 2024, fondatorul DeepSeek Liang Wenfeng a acceptat din nou un interviu cu Dark Surge și a răspuns direct la războiul prețurilor: "Foarte neașteptat. Nu mă așteptam ca prețul să îi facă pe toți atât de sensibili. Noi doar facem lucrurile în ritmul nostru și apoi stabilim prețul pe baza costurilor. Principiul nostru este să nu pierdem bani sau să facem profituri exorbitante. Acest preț este, de asemenea, ușor peste cost, cu un mic profit."

Se poate observa că, spre deosebire de mulți concurenți care plătesc din propriile buzunare pentru subvenționare, DeepSeek este profitabil la acest preț.

Unii oameni ar putea spune: reducerile de prețuri sunt ca și cum ai jefui utilizatorii, și acesta este de obicei cazul în războaiele de prețuri din era internetului

În replică, Liang Wenfeng a răspuns și el: "Jefuirea utilizatorilor nu este obiectivul nostru principal. Am redus prețul deoarece, pe de o parte, costul a scăzut pe măsură ce explorăm structura modelului de generație următoare, iar pe de altă parte, considerăm că atât API-ul, cât și AI-ul ar trebui să fie accesibile și accesibile tuturor."

Astfel, povestea continuă cu idealismul lui Liang Wenfeng.

La 4 iulie 2024, API-ul DeepSeek a devenit online. Prețul pentru contextul 128K a rămas neschimbat. Costul de inferență al unui model este strâns legat de lungimea contextului. Prin urmare, multe modele au restricții stricte cu privire la această lungime: versiunea inițială a GPT-3.5 are doar 4k contexte.

În acest moment, DeepSeek a mărit lungimea contextului de la 32k la 128k, menținând în același timp prețul neschimbat (1 yuan pe milion de token-uri de intrare și 2 yuan pe milion de token-uri de ieșire).

Pe 10 iulie 2024, au fost anunțate rezultatele primei olimpiade de inteligență artificială din lume (AIMO), iar modelul DeepSeekMath a devenit alegerea comună a echipelor de top. Toate echipele câștigătoare din Top 4 au ales DeepSeekMath-7B ca bază pentru modelele lor de intrare și au obținut rezultate impresionante în competiție.

Pe 18 iulie 2024, DeepSeek-V2 a ocupat primul loc pe lista modelelor open source de pe Chatbot Arena, depășind modele stelare precum Llama3-70B, Qwen2-72B, Nemotron-4-340B și Gemma2-27B, și devenind un nou punct de referință pentru modelele mari open source.

În Iulie 2024, DeepSeek a continuat să recruteze talente și a recrutat talente de top din întreaga lume în mai multe domenii, inclusiv algoritmi AI, AI Infra, AI Tutor și produse AI, pentru a se pregăti pentru viitoarele inovații tehnologice și dezvoltarea de produse.

Pe 26 iulie 2024, DeepSeek API a inaugurat o actualizare importantă, susținând pe deplin o serie de caracteristici avansate, cum ar fi suprascrierea, completarea FIM (Fill-in-the-Middle), apelarea funcției și ieșirea JSON. Funcția FIM este foarte interesantă: utilizatorul dă începutul și sfârșitul, iar modelul mare completează mijlocul, ceea ce este foarte potrivit pentru procesul de programare pentru a completa codul exact al funcției. Luați ca exemplu scrierea secvenței Fibonacci:

Pe 2 august 2024, DeepSeek a introdus în mod inovator tehnologia de stocare în cache pe hard disk, reducând prețurile API până la glezne. Anterior, prețurile API erau de numai ¥1 pe milion de jetoane. Acum, cu toate acestea, odată ce se face un acces la cache, taxa API scade direct la ¥0,1.

Această caracteristică este foarte practică atunci când sunt implicate conversații continue și sarcini de procesare pe loturi.

Pe 16 august 2024, DeepSeek a lansat modelul său matematic de demonstrare a teoremelor DeepSeek-Prover-V1.5 ca sursă deschisă, care a depășit multe modele cunoscute cu sursă deschisă în testele de demonstrare a teoremelor matematice din licee și facultăți.

Pe 6 septembrie 2024, DeepSeek a lansat modelul de fuziune DeepSeek-V2.5. Anterior, DeepSeek oferea în principal două modele: modelul Chat axat pe abilitățile generale de conversație, iar modelul Code axat pe abilitățile de procesare a codurilor. De data aceasta, cele două modele au fost combinate într-unul singur, actualizat la DeepSeek-V2.5, care se aliniază mai bine cu preferințele umane și a obținut, de asemenea, îmbunătățiri semnificative în sarcinile de scriere, urmărirea comenzilor și alte aspecte.

Pe 18 septembrie 2024, DeepSeek-V2.5 a fost din nou pe cea mai recentă listă LMSYS, conducând modelele interne și stabilind noi punctaje maxime pentru modelele naționale în mai multe abilități individuale.

Pe 20 noiembrie 2024, DeepSeek a lansat DeepSeek-R1-Lite pe site-ul oficial. Acesta este un model de inferență comparabil cu o1-preview și oferă, de asemenea, o cantitate suficientă de date sintetice pentru pregătirea ulterioară a V3.

Pe 10 decembrie 2024, seria DeepSeek V2 și-a încheiat activitatea cu lansarea ultimei versiuni perfecționate a DeepSeek-V2.5-1210. Această versiune îmbunătățește în mod cuprinzător mai multe abilități, inclusiv matematică, codare, scriere și joc de rol prin post-training.

Odată cu apariția acestei versiuni, aplicația web DeepSeek a deschis și funcția de căutare în rețea.

Pe 13 decembrie 2024, DeepSeek a făcut o altă descoperire în domeniul multimodalității și a lansat modelul mare multimodal open source DeepSeek-VL2. DeepSeek-VL2 adoptă arhitectura MoE, care îmbunătățește semnificativ capacitățile sale vizuale. Acesta este disponibil în trei dimensiuni: 3B, 16B și 27B, și are un avantaj în toate metricile.

Pe 26 decembrie 2024, DeepSeek-V3 a fost lansat cu sursă deschisă: costul estimat al formării a fost de numai 5,5 milioane de dolari americani. DeepSeek-V3 a comparat pe deplin performanța modelelor principale de surse închise de peste mări și a îmbunătățit considerabil viteza de generare.

Prețurile serviciilor API au fost ajustate, dar, în același timp, a fost stabilită o perioadă de probă preferențială de 45 de zile pentru noul model.

La 15 ianuarie 2025, aplicația oficială DeepSeek a fost lansată oficial și complet pe principalele piețe de aplicații iOS/Android.

Pe 20 ianuarie 2025, în apropierea Anului Nou Chinezesc, modelul de inferență DeepSeek-R1 a fost lansat oficial și a devenit open-sourced. DeepSeek-R1 și-a aliniat pe deplin performanța cu versiunea oficială OpenAI o1 și a deschis funcția de ieșire a lanțului de gândire. În același timp, DeepSeek a anunțat, de asemenea, că licența open source a modelului va fi schimbată în licența MIT, iar acordul de utilizare va permite în mod explicit "distilarea modelului", adoptând în continuare sursa deschisă și promovând partajarea tehnologiei.

Mai târziu, acest model a devenit foarte popular și a inaugurat o nouă eră

Ca urmare, începând cu 27 ianuarie 2025, aplicația DeepSeek a depășit cu succes ChatGPT și a ajuns în fruntea listei de descărcări de aplicații gratuite din App Store iOS din SUA, devenind o aplicație AI fenomenală.

Pe 27 ianuarie 2025, la ora 1:00 a.m. în ajunul Anului Nou, DeepSeek Janus-Pro a fost lansat ca sursă deschisă. Acesta este un model multimodal numit după zeul cu două fețe Janus din mitologia romană antică: acesta privește atât trecutul, cât și viitorul. Aceasta reprezintă, de asemenea, cele două abilități ale modelului - înțelegerea vizuală și generarea de imagini - și dominația sa în clasamente multiple.

Popularitatea explozivă a DeepSeek a declanșat imediat o undă de șoc tehnologic la nivel mondial, determinând chiar scăderea directă a prețului acțiunilor NVIDIA cu 18% și evaporarea valorii de piață a pieței globale de acțiuni tehnologice cu aproximativ 1 trilion de dolari americani. Wall Street și mass-media din domeniul tehnologiei au exclamat că ascensiunea DeepSeek subminează peisajul industriei globale a IA și reprezintă o provocare fără precedent pentru giganții americani din domeniul tehnologiei.

Succesul DeepSeek a declanșat, de asemenea, o atenție internațională deosebită și discuții aprinse cu privire la capacitățile de inovare tehnologică în domeniul IA ale Chinei. Președintele american Donald Trump, într-un comentariu public rar, a lăudat ascensiunea DeepSeek ca fiind "pozitivă" și a declarat că a fost un "semnal de alarmă" pentru Statele Unite. CEO-ul Microsoft Satya Nadella și CEO-ul OpenAI Sam Altman au lăudat, de asemenea, DeepSeek, numind tehnologia sa "foarte impresionantă".

Desigur, trebuie să înțelegem, de asemenea, că laudele lor sunt parțial o recunoaștere a forței DeepSeek și parțial o reflectare a propriilor motive. De exemplu, în timp ce Anthropic recunoaște realizările DeepSeek, solicită, de asemenea, guvernului SUA să consolideze controlul cipurilor asupra Chinei.

Anthropic CEO publică un articol de 10.000 de cuvinte: Creșterea DeepSeek înseamnă că Casa Albă ar trebui să intensifice controalele

Rezumat și perspective

Privind în urmă la ultimii doi ani, DeepSeek a fost cu adevărat un "miracol chinezesc": de la un start-up necunoscut la "misterioasa putere estică" care strălucește acum pe scena globală a IA, DeepSeek a scris un "imposibil" după altul cu puterea și inovația sa.

Semnificația profundă a acestei expediții tehnologice a depășit de mult domeniul de aplicare al concurenței comerciale. DeepSeek a anunțat cu fapte că în domeniul strategic al inteligenței artificiale care privește viitorul, companiile chineze sunt pe deplin capabile să se ridice la înălțimea tehnologiei de bază.

"Clopotul de alarmă" trâmbițat de Trump și teama ascunsă de Anthropic confirmă cu precizie importanța capacităților de inteligență artificială ale Chinei: nu numai că poate să se plimbe pe valuri, dar și să remodeleze direcția curentului

Deepseek produs eliberare repere

  • 2 noiembrie 2023: Codificator DeepSeek Model mare
  • 29 noiembrie 2023: DeepSeek LLM 67B Model universal
  • 18 decembrie 2023: DreamCraft3D Model 3D
  • 11 ianuarie 2024: DeepSeekMoE MoE model mare
  • 5 februarie 2024: DeepSeekMath Model de raționament matematic
  • 11 martie 2024: DeepSeek-VL Multimodal model mare
  • Mai 2024: DeepSeek-V2 Model general MoE
  • 17 iunie 2024: DeepSeek Codificator V2 model cod
  • 6 septembrie 2024: DeepSeek-V2.5 fuziunea modelelor de competențe generale și de cod
  • 13 decembrie 2024: Model MoE multimodal DeepSeek-VL2
  • 26 decembrie 2024: DeepSeek-V3 serie nouă de modele mari de uz general
  • 20 ianuarie 2025: Model de inferență DeepSeek-R1
  • 20 ianuarie 2025: Aplicația oficială DeepSeek (iOS și Android)
  • 27 ianuarie 2025: DeepSeek Janus-Pro model multimodal

Posturi similare

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *