Il Modello DeepSeek R1 ha subito un aggiornamento minore, la versione attuale è DeepSeek-R1-0528. Quando accedi alla pagina web o all'app DeepSeek, abilita la funzione "Deep Thinking" nell'interfaccia di dialogo per provare la versione più recente.
I pesi del modello DeepSeek-R1-0528 sono stati caricati su HuggingFace

Negli ultimi quattro mesi, DeepSeek-R1 ha subito una super-evoluzione, raggiungendo capacità di codifica fuori scala e tempi di elaborazione significativamente più lunghi. Anche se potrebbe non essere il Modello DeepSeek-R2 Come tutti si aspettavano, i miglioramenti del modello DeepSeek-R1-0528 sono sostanziali.
Secondo quanto riportato, il nuovo modello è stato addestrato su DeepSeek-V3-0324 (con parametri 660B).
Diamo prima un'occhiata veloce agli aggiornamenti chiave di questa versione tramite una tabella
Dimensione della capacità | deepseek-R1 | Deepseek-R1-0528 |
Contesto massimo | 64k (API) | 128K(API)ancora di più |
Generazione di codice | liveCodeBench chiudi openai O1 | Vicino a O3 |
Profondità del ragionamento | Le domande complesse richiedono prompt segmentati. | Supporta 30-60 minuti di riflessione profonda |
Naturalezza del linguaggio | piuttosto lungo | Struttura compatta, scrittura simile a O3 |
Costo di utilizzo | Open source o API$0.5/M | Open source o API$0.5/M |
Capacità di pensiero profondo migliorate
DeepSeek-R1-0528 utilizza ancora come base il modello DeepSeek V3 Base rilasciato nel dicembre 2024, ma durante la fase di post-addestramento è stata investita maggiore potenza di calcolo, migliorando significativamente la profondità di pensiero e le capacità di ragionamento del modello.
Il modello R1 aggiornato ha raggiunto prestazioni di altissimo livello tra tutti i modelli nazionali in molteplici valutazioni di benchmark, tra cui matematica, programmazione e logica generale, e le sue prestazioni complessive sono ora alla pari con altri modelli internazionali di alto livello come o3 e Gemini-2.5-Pro.
- Capacità matematiche e di programmazione: nella competizione di matematica AIME 2025, la precisione è migliorata da 70% nella versione precedente a 87,5%; le capacità di generazione del codice nel test di benchmark LiveCodeBench sono quasi alla pari con il modello o3-high di OpenAI, con un punteggio di pass@1 di 73,3%.
I test utente dimostrano che il nuovo DeepSeek-R1 è semplicemente sorprendente nella programmazione!
L'esperto di intelligenza artificiale "karminski-dentist" ha testato DeepSeek-R1-0528 e Claude 4 Sonnet utilizzando lo stesso prompt e ha scoperto che:

Che si tratti del riflesso diffuso della luce su una parete, della direzione del movimento di una palla dopo l'impatto o dell'aspetto estetico di un pannello di controllo, R1 supera nettamente la concorrenza.
L'utente Haider ha chiesto al modello di costruire un sistema di punteggio per le parole. R1 ha brevemente considerato il compito e ha immediatamente prodotto due file, uno per il codice e un altro per il test del lavoro, che hanno funzionato perfettamente al primo tentativo.

In precedenza, o3 era l'unico modello in grado di completare questo compito. Ora, R1 è senza dubbio il modello migliore per questo compito.
Si noti che le prestazioni di R1 sono così notevoli perché i due file che restituisce vengono eseguiti senza problemi al primo tentativo, senza alcuna modifica o nuovo tentativo, il che è estremamente raro.
In precedenza, la maggior parte dei modelli si interrompeva in casi limite, complicava eccessivamente la soluzione o non offriva un'adeguata copertura di test.
- Profondità di inferenza: tempo di riflessione su un singolo compito esteso a 30-60 minuti, con capacità di risoluzione dei problemi significativamente migliorate per questioni complesse (ad esempio, simulazioni fisiche, puzzle logici in più fasi).
Il tempo di riflessione più lungo è diventato la caratteristica più discussa online. Alcuni utenti hanno segnalato che il tempo di riflessione di R1 ha superato i 25 minuti nei test reali.

Inoltre, questo sembra essere l'unico modello in grado di rispondere sempre correttamente alla domanda "Quanto fa 9,9 meno 9,11?"


DeepSeek-R1-0528 ha ottenuto prestazioni eccellenti su tutti i set di dati di valutazione
Rispetto alla versione precedente di R1, il nuovo modello mostra miglioramenti significativi nei compiti di ragionamento complesso. Ad esempio, nel test AIME 2025, il tasso di accuratezza del nuovo modello è aumentato da 70% a 87,5%.
Questo miglioramento è dovuto alla maggiore profondità di ragionamento nel modello: nel set di test AIME 2025, il vecchio modello utilizzava una media di 12.000 token per domanda, mentre il nuovo modello utilizzava una media di 23.000 token per domanda, il che indica un pensiero più dettagliato e approfondito nel processo di risoluzione dei problemi.
Inoltre, il team deepseek ha distillato la catena di ragionamento da DeepSeek-R1-0528 e ha perfezionato la base Qwen3-8B, ottenendo DeepSeek-R1-0528-Qwen3-8B.
Questo modello 8B si è classificato secondo solo a DeepSeek-R1-0528 nel test di matematica AIME 2024, superando Qwen3-8B (+10,0%) e eguagliando Qwen3-235B.
Le catene di ragionamento di DeepSeek-R1-0528 avranno implicazioni significative per la ricerca accademica sui modelli di ragionamento e per lo sviluppo industriale di modelli su piccola scala.
Alcuni internauti hanno elogiato DeepSeek-R1 per la sua capacità di correggere catene di ragionamento come o3 e di costruire mondi in modo creativo come Claude.

È importante notare che DeepSeek è un modello open source, il che rappresenta una grande vittoria per i modelli open source.

Risultati del confronto AIME 2024 per modelli open source come DeepSeek-R1-0528-Qwen3-8B
Altri aggiornamenti delle funzionalità
- Miglioramento delle allucinazioni: la nuova versione di DeepSeek R1 ha ottimizzato le prestazioni per i problemi di "allucinazioni". Rispetto alla versione precedente, il modello aggiornato raggiunge una riduzione del 45-50% dei tassi di allucinazioni in attività come la riscrittura e la rifinitura, la sintesi e la comprensione del testo, fornendo risultati più accurati e affidabili.
- Scrittura creativa: basato sulla precedente versione R1, il modello R1 aggiornato è stato ulteriormente ottimizzato per gli stili di scrittura di saggi, romanzi e prosa, consentendogli di generare opere più lunghe e strutturalmente più complete, presentando al contempo uno stile di scrittura più in linea con le preferenze umane.
- Invocazione di strumenti: DeepSeek-R1-0528 supporta l'invocazione di strumenti (l'invocazione di strumenti non è supportata in Thinking). I punteggi di valutazione Tau-Bench del modello attuale sono 53,5% per il settore aereo e 63,9% per il settore retail, paragonabili a OpenAI o1-high, ma comunque inferiori a o3-High e Claude 4 Sonnet.
L'esempio mostra un riepilogo di un articolo web generato utilizzando la funzionalità di invocazione dello strumento DeepSeek-R1-0528 tramite LobeChat. Inoltre, DeepSeek-R1-0528 è stato aggiornato e migliorato in aree come la generazione di codice front-end e il gioco di ruolo.

L'esempio mostra un'applicazione moderna e minimalista con schede di parole, sviluppata utilizzando HTML/CSS/JavaScript richiamando DeepSeek-R1-0528 su una pagina web.

Punti salienti dell'aggiornamento DeepSeek-R1-0528
- Capacità di ragionamento profondo paragonabili ai modelli di Google
- Ottimizzazione della generazione del testo: più naturale e meglio formattato
- Stile di ragionamento unico: non solo più veloce ma anche più rigoroso
- Supporto per il pensiero a lungo termine: il tempo di elaborazione di un singolo compito può raggiungere i 30-60 minuti

Abbiamo testato le capacità della nuova versione di DeepSeek-R1. Sebbene si tratti di un aggiornamento di "versione minore", le sue prestazioni sono state migliorate in modo "epico".
Soprattutto in termini di capacità di programmazione, sembra aver superato o essere alla pari con Claude 4 e Gemini 2.5 Pro. Tutti i prompt sono "one-shot", ovvero non richiedono modifiche! E può essere eseguito direttamente in un browser web per dimostrarne le capacità.
Si può chiaramente percepire che il processo di pensiero della nuova versione DeepSeek-R1 è più stabile.
Puoi porre a deepseek-R1 qualsiasi domanda a cui desideri conoscere la risposta, anche se la tua domanda è un po' insensata: il sistema la rifletterà attentamente e ne organizzerà la logica. Ti consigliamo vivamente di provare l'ultimo modello di deepseek-R1.
Informazioni sull'aggiornamento dell'API
L'API è stata aggiornata, ma l'interfaccia e i metodi di chiamata rimangono invariati. La nuova API R1 supporta ancora la visualizzazione del processo di pensiero del modello e ora supporta anche le chiamate di funzione e JsonOutput.
Il team deepseek ha modificato il significato del parametro max_tokens nella nuova API R1: max_tokens ora limita la lunghezza totale del singolo output del modello (incluso il processo di elaborazione), con un valore predefinito di 32K e un massimo di 64K. Si consiglia agli utenti dell'API di modificare tempestivamente il parametro max_tokens per evitare che l'output venga troncato prematuramente.
Per istruzioni dettagliate sull'utilizzo del modello R1, fare riferimento a Guida API deepseek R1:
Dopo questo aggiornamento R1, la lunghezza del contesto del modello sul sito web ufficiale, sul mini programma, sull'app e sull'API rimarrà di 64K. Se gli utenti necessitano di una lunghezza maggiore, possono richiamare la versione open source del modello R1-0528 con una lunghezza di contesto di 128K tramite altre piattaforme di terze parti.
Fonte aperta
DeepSeek-R1-0528 utilizza lo stesso modello base del precedente DeepSeek-R1, con miglioramenti apportati solo ai metodi di post-addestramento.
In caso di distribuzione privata, è necessario aggiornare solo il checkpoint e il file tokenizer_config.json (modifiche relative alle chiamate degli strumenti). I parametri del modello sono 685B (di cui 14B per il livello MTP) e la versione open source ha una lunghezza del contesto di 128K (la lunghezza del contesto è di 64K per web, app e API).