In futuro ci saranno sempre più innovazioni radicali. Potrebbe non essere facile da capire ora, perché l'intero gruppo sociale deve essere educato dai fatti. Quando la società consentirà alle persone che innovano in modo hardcore di avere successo, la mentalità collettiva cambierà. Abbiamo solo bisogno di un po' di fatti e di un processo. - Liang Wenfeng, fondatore di DeepSeek
Negli ultimi giorni, DeepSeek è esplosa in tutto il mondo, ma poiché l'azienda è molto riservata e non ha fatto alcun annuncio, il pubblico sa ben poco di questa società tecnologica dal grande potenziale, che si tratti del suo background di fondazione, dell'ambito di attività o del layout dei prodotti.
Dopo aver finito di esaminare tutto il materiale, ho scritto questo articolo.
Qual è il background degli attuali giocatori dell'IA, cosa stanno facendo e chi stanno reclutando?
e probabilmente la panoramica storica più completa dell'DeepSeek.
L'anno scorso, di questi tempi, un amico di Magic Cube Quant è venuto da me e mi ha chiesto: "Vuoi costruire un grande modello in Cina?". E io ho semplicemente passato il pomeriggio a bere caffè. Come previsto, la vita dipende ancora dalle scelte.
Il Magic Cube Quant citato qui è l'investitoreo società madre, dell'DeepSeek.
Il cosiddetto "quant" è un istituto di investimento che prende decisioni non con il potere umano ma con algoritmi. La storia di Quant Fantasy non è lunga: è iniziata nel 2015. Nel 2021, quando aveva sei anni, la scala di gestione degli asset di Quant Fantasy aveva superato i 100 miliardi ed era stata acclamata come uno dei "quattro grandi re quant" della Cina.
Il fondatore di Fantasy Square, Liang Wenfeng, che è anche il fondatore di DeepSeek, è un leader finanziario "non mainstream" nato negli anni '80: non ha esperienze di studio all'estero, non è un vincitore di gare olimpiche e si è laureato presso il Dipartimento di Ingegneria Elettronica dell'Università di Zhejiang, specializzandosi in intelligenza artificiale. È un esperto di tecnologia nativo che agisce in modo discreto, "leggendo documenti, scrivendo codice e partecipando a discussioni di gruppo" ogni giorno.
Liang Wenfeng non ha le abitudini di un imprenditore tradizionale, ma è più un puro "smanettone tecnologico".. Molti addetti ai lavori e ricercatori dell'DeepSeek hanno espresso a Liang Wenfeng elogi altissimi: "qualcuno che ha sia forti capacità di ingegneria informatica che di ricerca di modelli, e può anche mobilitare le risorse", "qualcuno che può esprimere giudizi accurati da un livello elevato, ma anche eccellere nei dettagli rispetto ai ricercatori di prima linea", e ha anche "una capacità di apprendimento terrificante".
Molto prima della fondazione di DeepSeek, Huanfang aveva già iniziato a fare piani a lungo termine nel settore dell'intelligenza artificiale.. Nel maggio 2023, Liang Wenfeng ha dichiarato in un'intervista a Darksurge: "Dopo che OpenAI ha rilasciato GPT3 nel 2020, la direzione dello sviluppo dell'IA è diventata molto chiara e la potenza di calcolo diventerà un elemento chiave; ma anche nel 2021, quando abbiamo investito nella costruzione di Firefly 2, la maggior parte delle persone non riusciva ancora a capirlo."
Sulla base di questo giudizio, Huanfang ha iniziato a costruire la propria infrastruttura informatica. "Dalle prime 1 scheda, alle 100 schede nel 2015, alle 1.000 schede nel 2019 e poi alle 10.000 schede, questo processo è avvenuto gradualmente. Prima di qualche centinaio di schede, eravamo ospitati in un IDC. Quando la scala è diventata più grande, l'hosting non poteva più soddisfare i requisiti, quindi abbiamo iniziato a costruire la nostra sala computer".
In seguito, Finance Eleven ha riferito: "Non ci sono più di cinque aziende nazionali con più di 10.000 GPU e, oltre ad alcuni grandi produttori, includono anche una società di fondi quantitativi chiamata Magic Cube.." In genere si ritiene che 10.000 chip Nvidia A100 rappresentino la soglia di potenza di calcolo per addestrare modelli di grandi dimensioni.
In una precedente intervista, Liang Wenfeng ha anche menzionato un punto interessante: Molti pensano che dietro ci sia una logica commerciale sconosciuta, ma in realtà è soprattutto la curiosità a guidarli.
DeepSeekprimo incontro
In un'intervista rilasciata a Darksurge nel maggio 2023, alla domanda "Non molto tempo fa, Huanfang ha annunciato la sua decisione di realizzare modelli di grandi dimensioni, perché un fondo quantitativo dovrebbe fare una cosa del genere?".
La risposta di Liang Wenfeng fu clamorosa: "La nostra decisione di costruire un modello di grandi dimensioni non ha nulla a che fare con la quantificazione o la finanza. A tal fine abbiamo creato una nuova società chiamata DeepSeek. Molti dei membri chiave del team di Mianfang si occupano di intelligenza artificiale. All'epoca abbiamo provato molti scenari e alla fine ci siamo decisi per la finanza, che è già abbastanza complessa. L'intelligenza artificiale generale potrebbe essere una delle cose più difficili da realizzare, quindi per noi è una questione di come farlo, non di perché.
Non è guidata da interessi commerciali o dall'inseguimento di tendenze di mercato, ma semplicemente dal desiderio di esplorare la tecnologia AGI stessa e dalla ricerca persistente della "cosa più importante e difficile". il nome "DeepSeek" è stato ufficialmente confermato nel maggio 2023. Il 17 luglio 2023 è stata costituita la società "Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Co.
Su Il 2 novembre 2023, DeepSeek ha consegnato la sua prima risposta: DeepSeek Coder, un modello di codice open source di grandi dimensioni.. Questo modello comprende diverse dimensioni, come 1B, 7B e 33B. Il contenuto open source comprende il modello Base e il modello di regolazione dei comandi.
All'epoca, tra i modelli open source, CodeLlama di Meta era il punto di riferimento del settore. Tuttavia, una volta rilasciato, DeepSeek Coder ha dimostrato una posizione di leadership su più fronti rispetto a CodeLlama: nella generazione di codice, HumanEval era in vantaggio di 9,3%, MBPP di 10,8% e DS-1000 di 5,9%.
Si tenga presente che DeepSeek Coder è un modello 7B, mentre CodeLlama è un modello 34B. Inoltre, il modello DeepSeek Coder, dopo essere stato messo a punto con le istruzioni, ha superato completamente GPT3.5-Turbo.
Non solo la generazione di codice è impressionante, ma DeepSeek Coder mostra anche i suoi muscoli nella matematica e nel ragionamento.
Tre giorni dopo, il 5 novembre 2023, DeepSeek ha pubblicato una grande quantità di contenuti di reclutamento attraverso il suo account pubblico WeChat, tra cui posizioni come stagista di modelli AGI di grandi dimensioni, esperto di dati, talento nell'architettura dei dati, ingegnere senior per la raccolta dei dati, ingegnere per la ricerca e lo sviluppo dell'apprendimento profondo, ecc. e ha iniziato ad espandere attivamente il team.
Come ha detto Liang Wenfeng, I "requisiti indispensabili" di DeepSeek per la ricerca di talenti sono "passione e solide competenze di base".e ha sottolineato che "L'innovazione richiede il minor numero possibile di interventi e di gestione, in modo che tutti abbiano la libertà di sbagliare e di provare cose nuove. L'innovazione spesso viene dall'interno, non da disposizioni deliberate, e di certo non viene dall'insegnamento".
I modelli vengono rilasciati frequentemente e l'open source è praticato.
Dopo che DeepSeek Coder ha fatto colpo, DeepSeek ha rivolto la sua attenzione al campo di battaglia principale: i modelli linguistici generali.
Su Il 29 novembre 2023, l'DeepSeek rilascia il suo primo modello di linguaggio di grandi dimensioni per uso generale, l'DeepSeek LLM 67B. Questo modello è stato confrontato con il modello LLaMA2 70B di Meta dello stesso livello e ha ottenuto risultati migliori in quasi 20 liste di valutazione pubbliche in cinese e inglese. In particolare, le sue capacità di ragionamento, matematica e programmazione (ad esempio, HumanEval, MATH, CEval e CMMLU) sono eccezionali.
Anche l'DeepSeek LLM 67B ha scelto la strada dell'open source e supporta l'uso commerciale. Per dimostrare ulteriormente la sua sincerità e la sua determinazione verso l'open source, l'DeepSeek ha, senza precedenti, aperto contemporaneamente due modelli di scala diversa, il 7B e il 67B, e ha persino reso pubblici i nove checkpoint generati durante il processo di formazione del modello, che i ricercatori possono scaricare e utilizzare. Questo tipo di operazione, che è simile a "insegnare tutto", è estremamente rara nell'intera comunità open source.
Per valutare in modo più completo e oggettivo le reali capacità dell'DeepSeek LLM 67B, il team di ricerca dell'DeepSeek ha anche progettato attentamente una serie di "nuove domande" per lo "stress test". Queste domande riguardano test di alto livello e ad alta discriminazione, come le domande dell'esame di matematica della scuola superiore ungherese, i set di valutazione dei comandi di Google e le domande della competizione settimanale LeetCode. I risultati del test sono stati incoraggianti. DeepSeek LLM 67B ha mostrato un potenziale sorprendente in termini di capacità di generalizzazione al di là del campione, e le sue prestazioni complessive si sono avvicinate a quelle del modello GPT-4 allora più avanzato.
Su 18 dicembre 2023, DeepSeek ha aperto il modello 3D di Vincent DreamCraft3D.: è in grado di generare modelli 3D di alta qualità a partire da una frase, realizzando il salto dai piani 2D allo spazio 3D in AIGC. Ad esempio, se l'utente inserisce: "Correndo nel bosco, una buffa immagine ibrida tra la testa di un maiale e il corpo del Re Scimmia", DreamCraft3D è in grado di produrre contenuti di alta qualità:
In linea di principio, il modello completa prima il diagramma di Venn e poi integra la struttura geometrica complessiva basata sulla mappa concettuale 2D:
Nella valutazione soggettiva che ne è seguita, più di 90% degli utenti hanno affermato che DreamCraft3D aveva un vantaggio nella qualità della generazione rispetto ai metodi di generazione precedenti.
Il 7 gennaio 2024, l'DeepSeek ha pubblicato il rapporto tecnico DeepSeek LLM 67B. Questo rapporto di oltre 40 pagine contiene molti dettagli sull'DeepSeek LLM 67B, tra cui leggi di scala autocostruite, dettagli pratici completi sull'allineamento dei modelli e un sistema completo di valutazione della capacità AGI.
Su L'11 gennaio 2024, DeepSeek ha reso disponibile il primo modello MoE (mixed expert architecture) di grandi dimensioni in Cina, DeepSeekMoE: una nuovissima architettura che supporta il cinese e l'inglese ed è libera per l'uso commerciale. All'epoca, l'architettura MoE era generalmente considerata la chiave del successo di OpenAI GPT-4 in termini di prestazioni. L'architettura MoE sviluppata da DeepSeek è leader in diverse scale, come 2B, 16B e 145B, e anche la sua capacità di calcolo è molto apprezzabile.
Il 25 gennaio 2024, l'DeepSeek ha pubblicato la relazione tecnica del Codificatore DeepSeek. Questo rapporto fornisce un'analisi tecnica completa dei dati di formazione, dei metodi di formazione e delle prestazioni del modello. In questo rapporto si può notare che per la prima volta sono stati costruiti dati di codice a livello di magazzino e si è utilizzato l'ordinamento topologico per analizzare le dipendenze tra i file, migliorando in modo significativo la capacità di comprendere i file incrociati a lunga distanza. In termini di metodi di formazione, è stato aggiunto il metodo Fill-In-Middle, che ha migliorato notevolmente la capacità di completamento del codice.
Il 30 gennaio 2024, la piattaforma aperta DeepSeek è stata ufficialmente lanciata e il servizio DeepSeek Large Model API ha iniziato a essere testato. Registratevi per ottenere gratuitamente 10 milioni di token. L'interfaccia è compatibile con l'interfaccia API OpenAI e sono disponibili entrambi i modelli duali Chat/Coder. In questo periodo, DeepSeek ha iniziato a esplorare il percorso di un fornitore di servizi tecnologici oltre alla ricerca e allo sviluppo tecnologico.
Su Il 5 febbraio 2024, l'DeepSeek ha rilasciato un altro modello di dominio verticale, l'DeepSeekMath., un modello di ragionamento matematico. Questo modello ha solo 7B parametri, ma la sua capacità di ragionamento matematico si avvicina a quella di GPT-4. Nell'autorevole lista di benchmark MATH, supera la folla e le prestazioni di una serie di modelli open source con dimensioni dei parametri comprese tra 30B e 70B. Il rilascio di DeepSeekMath dimostra pienamente la forza tecnica e la lungimiranza di DeepSeek nella ricerca e nello sviluppo di modelli verticali e la sua lungimiranza nella ricerca e nello sviluppo di modelli.
Su Il 28 febbraio 2024, al fine di alleviare ulteriormente le preoccupazioni degli sviluppatori sull'utilizzo dei modelli open source DeepSeek, DeepSeek ha pubblicato una FAQ sulla politica open source.che fornisce risposte dettagliate alle domande più frequenti, come il modello di licenza open source e le restrizioni all'uso commerciale. DeepSeek abbraccia l'open source con un atteggiamento più trasparente e aperto:
Su L'11 marzo 2024, DeepSeek ha rilasciato il modello multimodale di grandi dimensioni DeepSeek-VL.. Questo è il primo tentativo di DeepSeek di utilizzare la tecnologia AI multimodale. Il modello ha una dimensione di 7B e 1,3B, e il modello e i documenti tecnici sono contemporaneamente open source.
Su Il 20 marzo 2024, Huanfang AI & DeepSeek è stata nuovamente invitata a partecipare alla conferenza NVIDIA GTC 2024 e il fondatore Liang Wenfeng ha tenuto un discorso tecnico. dal titolo "Harmony in Diversity: Allineare e disaccoppiare i valori dei grandi modelli linguistici". Sono state discusse questioni quali "il conflitto tra un modello di grandi dimensioni a valore unico e una società e una cultura pluralistiche", "il disaccoppiamento dell'allineamento dei valori dei modelli di grandi dimensioni" e "le sfide multidimensionali dell'allineamento dei valori disaccoppiati". Ciò ha dimostrato l'attenzione umanistica e la responsabilità sociale dell'DeepSeek per lo sviluppo dell'IA, oltre alla ricerca e allo sviluppo tecnologico.
Nel marzo 2024, DeepSeek API ha lanciato ufficialmente i servizi a pagamento, che hanno completamente acceso il preludio alla guerra dei prezzi nel mercato cinese dei modelli di grandi dimensioni: 1 yuan per milione di gettoni di input e 2 yuan per milione di gettoni di output.
Nel 2024, DeepSeek ha superato con successo il record di modelli di grandi dimensioni in Cina, eliminando gli ostacoli politici per la piena apertura dei suoi servizi API.
Nel maggio 2024 è stato rilasciato l'DeepSeek-V2, un modello open source generale MoE di grandi dimensioni, e la guerra dei prezzi è ufficialmente iniziata. DeepSeek-V2 utilizza il meccanismo MLA (meccanismo di attenzione latente multitesta), che riduce l'ingombro di memoria del modello a 5%-13% di quello del MHA tradizionale. Allo stesso tempo, ha sviluppato in modo indipendente la struttura sparsa DeepSeek MoE Sparse, che riduce notevolmente la complessità computazionale del modello. Grazie a ciò, il modello mantiene un prezzo API di "1 yuan/milione di input e 2 yuan/milione di output".
L'DeepSeek ha avuto un impatto enorme. A questo proposito, l'analista capo di SemiAnalysis ritiene che il documento DeepSeek V2 "potrebbe essere uno dei migliori di quest'anno". Allo stesso modo, Andrew Carr, ex dipendente di OpenAI, ritiene che il documento sia "pieno di sorprendente saggezza" e ha applicato le sue impostazioni di formazione al proprio modello.
Va notato che questo è un modello di riferimento per il GPT-4-Turbo, e il prezzo API è solo 1/70 di quest'ultimo.
Il mese di giugno 17, 2024, DeepSeek ha fatto di nuovo un grande passo avanti, rilasciando il modello di codice DeepSeek Coder V2. open source e sostenendo che le sue capacità di codice superavano quelle del GPT-4-Turbo, il modello closed-source più avanzato dell'epoca. DeepSeek Coder V2 continua la coerente strategia open source di DeepSeek: tutti i modelli, il codice e i documenti sono open source e vengono fornite due versioni, 236B e 16B. Anche i servizi API di DeepSeek C oder V2 sono disponibili online e il prezzo rimane di "1 yuan/milione di input e 2 yuan/milione di output".
Su 21 giugno 2024, il codificatore DeepSeek ha supportato l'esecuzione di codice online. Lo stesso giorno è stato rilasciato Claude3.5 Sonnet, con la nuova funzione Artifacts, che genera automaticamente codice e lo esegue direttamente nel browser. Lo stesso giorno, anche l'assistente al codice sul sito web di DeepSeek ha lanciato la stessa funzione: generare codice ed eseguirlo con un solo clic.
Ripercorriamo i principali eventi di questo periodo:
Continui passi avanti, che attirano l'attenzione del mondo intero
Nel maggio 2024, l'DeepSeek è diventato famoso grazie al rilascio dell'DeepSeek V2, un modello open source basato sul MoE. Eguagliava le prestazioni del GPT-4-Turbo, ma a un prezzo di solo 1 yuan/milione di input, pari a 1/70 del GPT-4-Turbo. In quel periodo, l'DeepSeek è diventato un noto "macellaio di prezzi" nel settore, e poi i principali operatori come Zhicheng, ByteDance e Alibaba... e altri importanti operatori hanno rapidamente seguito l'esempio e abbassato i prezzi. In quel periodo si verificò anche un'altra tornata di ban di GPT e un gran numero di applicazioni AI iniziò a provare per la prima volta i modelli nazionali.
Nel luglio 2024, il fondatore di DeepSeek Liang Wenfeng ha nuovamente accettato un'intervista con Dark Surge e ha risposto direttamente alla guerra dei prezzi: "Molto inaspettato. Non mi aspettavo che il prezzo rendesse tutti così sensibili. Noi facciamo le cose al nostro ritmo e poi fissiamo il prezzo in base al costo. Il nostro principio è quello di non perdere soldi e di non fare profitti esorbitanti. Anche questo prezzo è leggermente superiore al costo con un piccolo profitto".
Si può notare che, a differenza di molti concorrenti che pagano di tasca propria per sovvenzionare, l'DeepSeek è redditizio a questo prezzo.
Qualcuno potrebbe dire: ridurre i prezzi è come derubare gli utenti, e questo è di solito il caso delle guerre dei prezzi nell'era di Internet.
In risposta, anche Liang Wenfeng ha risposto: "Derubare gli utenti non è il nostro obiettivo principale. Abbiamo abbassato il prezzo perché, da un lato, il costo si è ridotto man mano che esploravamo la struttura del modello di prossima generazione e, dall'altro, riteniamo che sia l'API che l'AI debbano essere accessibili a tutti."
La storia continua con l'idealismo di Liang Wenfeng.
Il 4 luglio 2024, l'API DeepSeek è stata messa online. Il prezzo per il contesto da 128K è rimasto invariato. Il costo di inferenza di un modello è strettamente legato alla lunghezza del contesto. Per questo motivo, molti modelli hanno restrizioni severe su questa lunghezza: la versione iniziale di GPT-3.5 ha solo 4k contesti.
In questo periodo, l'DeepSeek ha aumentato la lunghezza del contesto dai precedenti 32k a 128k mantenendo invariato il prezzo (1 yuan per milione di token di ingresso e 2 yuan per milione di token di uscita).
Su Il 10 luglio 2024 sono stati annunciati i risultati della prima Olimpiade mondiale dell'intelligenza artificiale (AIMO) e il modello DeepSeekMath è diventato la scelta comune dei top team.. Le 4 squadre vincitrici hanno tutte scelto l'DeepSeekMath-7B come base per i loro modelli di ingresso e hanno ottenuto risultati impressionanti nella competizione.
Su 18 luglio 2024, DeepSeek-V2 è in cima alla lista dei modelli open source della Chatbot Arena, superando modelli stellari come Llama3-70B, Qwen2-72B, Nemotron-4-340B e Gemma2-27B, e diventando un nuovo punto di riferimento per i modelli open source di grandi dimensioni.
In Luglio 2024, DeepSeek ha continuato a reclutare talenti e ha reclutato i migliori talenti di tutto il mondo in diversi settori, tra cui algoritmi AI, AI Infra, AI Tutor e prodotti AI, per prepararsi all'innovazione tecnologica e allo sviluppo di prodotti futuri.
Su Il 26 luglio 2024, l'API DeepSeek ha introdotto un importante aggiornamento, supportando pienamente una serie di funzionalità avanzate come la sovrascrittura, il completamento FIM (Fill-in-the-Middle), la chiamata di funzioni e l'output JSON. La funzione FIM è molto interessante: l'utente fornisce l'inizio e la fine e il grande modello riempie la parte centrale, il che è molto adatto al processo di programmazione per compilare il codice esatto della funzione. Prendiamo come esempio la scrittura della sequenza di Fibonacci:
Su Il 2 agosto 2024, DeepSeek introduce in modo innovativo la tecnologia di caching del disco rigido, riducendo i prezzi delle API alle caviglie. In precedenza, i prezzi delle API erano di solo ¥1 per milione di token. Ora, invece, una volta effettuato un accesso alla cache, il prezzo dell'API scende direttamente a ¥0,1.
Questa funzione è molto pratica quando sono coinvolte conversazioni continue e attività di elaborazione batch.
Su Il 16 agosto 2024, DeepSeek ha rilasciato il suo modello di dimostrazione di teoremi matematici DeepSeek-Prover-V1.5. come open source, che ha superato molti noti modelli open source nei test di dimostrazione di teoremi matematici delle scuole superiori e delle università.
Su Il 6 settembre 2024, l'DeepSeek ha rilasciato il modello di fusione DeepSeek-V2.5. In precedenza, DeepSeek forniva principalmente due modelli: il modello Chat, incentrato sulle abilità generali di conversazione, e il modello Code, incentrato sulle abilità di elaborazione del codice. Questa volta, i due modelli sono stati combinati in uno solo, aggiornato a DeepSeek-V2.5, che si allinea meglio alle preferenze umane e ha ottenuto miglioramenti significativi nei compiti di scrittura, nel seguire i comandi e in altri aspetti.
Su 18 settembre 2024, DeepSeek-V2.5 è stato nuovamente inserito nell'ultimo elenco LMSYS, in testa ai modelli nazionali. e stabilendo nuovi punteggi migliori per i modelli nazionali in diverse abilità individuali.
Su 20 novembre 2024, DeepSeek ha rilasciato DeepSeek-R1-Lite sul sito web ufficiale. Si tratta di un modello di inferenza paragonabile a o1-preview, che fornisce anche una quantità sufficiente di dati sintetici per il post-training di V3.
Su Il 10 dicembre 2024, la serie DeepSeek V2 si è conclusa con il rilascio dell'ultima versione perfezionata DeepSeek-V2.5-1210. Questa versione migliora in modo completo diverse abilità, tra cui la matematica, il coding, la scrittura e il gioco di ruolo attraverso il post-training.
Con l'arrivo di questa versione, l'applicazione web DeepSeek ha aperto anche la funzione di ricerca della rete.
Su Il 13 dicembre 2024, DeepSeek ha fatto un altro passo avanti nel campo della multimodalità e ha rilasciato il modello open source multimodale di grandi dimensioni DeepSeek-VL2. L'DeepSeek-VL2 adotta l'architettura MoE, che ne migliora notevolmente le capacità visive. È disponibile in tre dimensioni: 3B, 16B e 27B, e presenta un vantaggio in tutte le metriche.
Su Il 26 dicembre 2024, l'DeepSeek-V3 è stato rilasciato in open source: il costo di formazione stimato era di soli 5,5 milioni di dollari USA. L'DeepSeek-V3 ha pienamente confrontato le prestazioni dei principali modelli closed source d'oltreoceano e ha migliorato notevolmente la velocità di generazione.
I prezzi dei servizi API sono stati adeguati, ma allo stesso tempo è stato fissato un periodo di prova preferenziale di 45 giorni per il nuovo modello.
Il 15 gennaio 2025, l'applicazione ufficiale DeepSeek è stata ufficialmente rilasciata e completamente lanciata sui principali mercati di applicazioni iOS/Android.
Il 20 gennaio 2025, in prossimità del Capodanno cinese, il modello di inferenza DeepSeek-R1 è stato ufficialmente rilasciato e reso open source. DeepSeek-R1 ha allineato completamente le sue prestazioni alla release ufficiale di OpenAI o1 e ha aperto la funzione di output della catena di pensiero. Allo stesso tempo, DeepSeek ha anche annunciato che la licenza open source del modello sarebbe stata cambiata in licenza MIT e che l'accordo con l'utente avrebbe permesso esplicitamente la "distillazione del modello", abbracciando ulteriormente l'open source e promuovendo la condivisione della tecnologia.
In seguito, questo modello è diventato molto popolare e ha inaugurato una nuova era.
Di conseguenza, a partire dal 27 gennaio 2025, l'app DeepSeek ha superato ChatGPT e si è piazzata in cima alla classifica dei download di app gratuite sull'App Store iOS degli Stati Uniti, diventando un'app AI fenomenale.
Il 27 gennaio 2025, all'una di notte di Capodanno, DeepSeek Janus-Pro è stato rilasciato come open source. Si tratta di un modello multimodale che prende il nome dal dio Giano bifronte dell'antica mitologia romana: è rivolto sia verso il passato che verso il futuro. Questo rappresenta anche le due abilità del modello - comprensione visiva e generazione di immagini - e il suo dominio su più classifiche.
La popolarità esplosiva di DeepSeek ha immediatamente innescato un'onda d'urto tecnologica globale, causando persino un crollo del prezzo delle azioni di NVIDIA di 18% e l'evaporazione del valore di mercato del mercato azionario tecnologico globale di circa 1 trilione di dollari USA. Wall Street e i media tecnologici hanno affermato che l'ascesa di DeepSeek sta sovvertendo il panorama globale dell'industria dell'intelligenza artificiale, ponendo una sfida senza precedenti ai giganti tecnologici americani.
Il successo dell'DeepSeek ha suscitato grande attenzione a livello internazionale e accese discussioni sulle capacità di innovazione tecnologica dell'IA cinese. Il Presidente degli Stati Uniti Donald Trump, in un raro commento pubblico, ha elogiato l'ascesa di DeepSeek come "positiva" e ha affermato che si tratta di un "campanello d'allarme" per gli Stati Uniti. Anche il CEO di Microsoft Satya Nadella e il CEO di OpenAI Sam Altman hanno elogiato DeepSeek, definendo la sua tecnologia "molto impressionante".
Naturalmente, dobbiamo anche capire che le loro lodi sono in parte un riconoscimento della forza dell'DeepSeek e in parte un riflesso delle loro motivazioni. Ad esempio, pur riconoscendo i risultati ottenuti da DeepSeek, Anthropic chiede al governo statunitense di rafforzare i controlli sui chip in Cina.
Il CEO di Anthropic pubblica un articolo di 10.000 parole: L'ascesa dell'DeepSeek significa che la Casa Bianca dovrebbe intensificare i controlli
Sintesi e prospettive
Guardando agli ultimi due anni di DeepSeek, è stato davvero un "miracolo cinese": da startup sconosciuta a "misteriosa potenza orientale" che ora brilla sul palcoscenico globale dell'intelligenza artificiale, DeepSeek ha scritto un "impossibile" dopo l'altro con la sua forza e innovazione.
Il significato più profondo di questa spedizione tecnologica ha superato da tempo l'ambito della competizione commerciale. DeepSeek ha annunciato con i fatti che nel campo strategico dell'intelligenza artificiale che riguarda il futuro, le aziende cinesi sono pienamente in grado di scalare le vette della tecnologia di base.
Il "campanello d'allarme" suonato da Trump e la paura nascosta dell'Antropica confermano proprio l'importanza delle capacità dell'IA cinese: non solo è in grado di cavalcare le onde, ma sta anche ridisegnando la direzione della marea.
Deepseek prodotto rilascio pietre miliari
- 2 novembre 2023: Codificatore DeepSeek Modello grande
- 29 novembre 2023: DeepSeek LLM 67B Modello universale
- 18 dicembre 2023: Modello 3D di DreamCraft3D
- 11 gennaio 2024: DeepSeekMoE MoE modello grande
- 5 febbraio 2024: DeepSeekMath Modello di ragionamento matematico
- 11 marzo 2024: DeepSeek-VL Modello grande multimodale
- Maggio 2024: DeepSeek-V2 Modello generale MoE
- 17 giugno 2024: Modello di codice DeepSeek Coder V2
- 6 settembre 2024: DeepSeek-V2.5 fusione dei modelli di competenza generali e di codice
- 13 dicembre 2024: Modello MoE multimodale DeepSeek-VL2
- 26 dicembre 2024: DeepSeek-V3 nuova serie di modelli generici di grandi dimensioni
- 20 gennaio 2025: Modello di inferenza DeepSeek-R1
- 20 gennaio 2025: App ufficiale DeepSeek (iOS e Android)
- 27 gennaio 2025: DeepSeek Modello multimodale Janus-Pro