Paper-DeepSeek-R1: Κίνητρα για την ικανότητα συλλογισμού σε LLMs μέσω ενισχυτικής μάθησης

Πίνακας περιεχομένων

Περίληψη

Το παρόν έγγραφο παρουσιάζει τα μοντέλα συλλογιστικής πρώτης γενιάς του DeepSeek: DeepSeek-R1-Zero και DeepSeek-R1. Το DeepSeek-R1-Zero, εκπαιδευμένο μέσω ενισχυτικής μάθησης (RL) μεγάλης κλίμακας χωρίς επιτηρούμενη λεπτομερή ρύθμιση (SFT), επιδεικνύει αξιοσημείωτες ικανότητες συλλογιστικής. Μέσω της RL, αναπτύσσει με φυσικό τρόπο ισχυρές συμπεριφορές συλλογισμού. Ωστόσο, αντιμετωπίζει προκλήσεις όπως η κακή αναγνωσιμότητα και η ανάμειξη της γλώσσας. Για την αντιμετώπιση αυτών των ζητημάτων και την ενίσχυση της απόδοσης συλλογισμού, αναπτύχθηκε το DeepSeek-R1, ενσωματώνοντας εκπαίδευση πολλαπλών σταδίων και δεδομένα ψυχρής εκκίνησης πριν από την RL. Το DeepSeek-R1 επιτυγχάνει επιδόσεις συγκρίσιμες με το OpenAI-o1-1217 σε εργασίες συλλογιστικής. Για την υποστήριξη της έρευνας, το DeepSeek διαθέτει ανοικτή πηγή και για τα δύο μοντέλα και για έξι πυκνά μοντέλα (1.5B, 7B, 8B, 14B, 32B, 70B) που αποστάχθηκαν από το DeepSeek-R1 με βάση το Qwen και το Llama.

Βασικές συνεισφορές

Μετά την κατάρτιση: Ενισχυτική μάθηση μεγάλης κλίμακας

Επιτυχής εφαρμογή RL απευθείας στο βασικό μοντέλο χωρίς SFT
Ανάπτυξη του DeepSeek-R1-Zero, επιδεικνύοντας δυνατότητες όπως η αυτοεπαλήθευση και η αντανάκλαση
Πρώτη ανοιχτή έρευνα που επικυρώνει ότι οι ικανότητες συλλογισμού μπορούν να δοθούν κίνητρα αποκλειστικά μέσω της RL
Εισήγαγε αγωγό για το DeepSeek-R1 με δύο στάδια RL και δύο στάδια SFT

Απόσταξη: Ενδυνάμωση μικρότερων μοντέλων

Απέδειξε ότι μοτίβα συλλογισμού από μεγαλύτερα μοντέλα μπορούν να αποσταχθούν αποτελεσματικά σε μικρότερα.
Ανοικτή διάθεση του DeepSeek-R1 και του API του προς όφελος της ερευνητικής κοινότητας
Λεπτομερής ρύθμιση αρκετών πυκνών μοντέλων με εξαιρετικές επιδόσεις συγκριτικής αξιολόγησης
Τα αποσταγμένα μοντέλα υπερτερούν σημαντικά έναντι των προηγούμενων μοντέλων ανοικτού κώδικα

Αποτελέσματα αξιολόγησης

Εργασίες συλλογισμού

Το DeepSeek-R1 επιτυγχάνει 79,8% Pass@1 στο AIME 2024, ξεπερνώντας το OpenAI-o1-1217
97,3% σκορ στο MATH-500, επίδοση στο ίδιο επίπεδο με το OpenAI-o1-1217
Επίδοση σε επίπεδο εμπειρογνωμόνων σε εργασίες διαγωνισμού κώδικα με βαθμολογία Elo 2.029 στο Codeforces

Εργασίες γνώσης

Εξαιρετικά αποτελέσματα στα MMLU (90,8%), MMLU-Pro (84,0%) και GPQA Diamond (71,5%)
Ξεπερνά άλλα μοντέλα κλειστού κώδικα σε εκπαιδευτικά καθήκοντα
Ισχυρές επιδόσεις σε πραγματικούς δείκτες αναφοράς όπως το SimpleQA

Γενικές δυνατότητες

Αριστεύει στη δημιουργική γραφή, στην απάντηση ερωτήσεων, στην επεξεργασία και στη σύνοψη.
87.6% ποσοστό νίκης στο AlpacaEval 2.0 και 92.3% στο ArenaHard
Ισχυρές επιδόσεις σε εργασίες κατανόησης μακροχρόνιων συμφραζομένων

Μελλοντικές εργασίες

Η ομάδα σκοπεύει να επικεντρωθεί σε:

Βελτίωση των γενικών ικανοτήτων σε τομείς όπως η κλήση λειτουργιών και το σύνθετο παιχνίδι ρόλων
Αντιμετώπιση ζητημάτων ανάμειξης γλωσσών
Βελτίωση της μηχανικής προτροπής
Βελτίωση των επιδόσεων σε εργασίες μηχανικής λογισμικού

Συμπέρασμα

Το DeepSeek-R1 αντιπροσωπεύει μια σημαντική πρόοδο στις δυνατότητες συλλογιστικής ΤΝ μέσω ενισχυτικής μάθησης. Η επιτυχία τόσο του κύριου μοντέλου όσο και των αποσταγμένων εκδόσεών του καταδεικνύει τις δυνατότητες αυτής της προσέγγισης για την ανάπτυξη πιο ικανών συστημάτων ΤΝ. Η έκδοση των μοντέλων αυτών με ανοικτό κώδικα θα συμβάλει στην περαιτέρω έρευνα και ανάπτυξη στον τομέα αυτό.

DeepSeek_R1 Λήψη

Uncategorized

Το Le Chat βρίσκεται στην κορυφή των charts, με επένδυση εκατό δισεκατομμυρίων δολαρίων. Μετά τις ΗΠΑ και την Κίνα, είναι η τρίτη δύναμη AI;

Μεzddeepseeker Φεβρουάριος 11, 2025Φεβρουάριος 11, 2025

Στις 9 Φεβρουαρίου, ο Γάλλος πρόεδρος Εμανουέλ Μακρόν ανακοίνωσε ότι η Γαλλία θα επενδύσει 109 δισεκατομμύρια ευρώ (113 δισεκατομμύρια δολάρια ΗΠΑ) στον τομέα της τεχνητής νοημοσύνης τα επόμενα χρόνια. Αυτή η επένδυση θα χρησιμοποιηθεί για την κατασκευή ενός πάρκου τεχνητής νοημοσύνης στη Γαλλία, τη βελτίωση της υποδομής και την επένδυση σε τοπικές νεοφυείς επιχειρήσεις τεχνητής νοημοσύνης. Εν τω μεταξύ, η Mistral, μια γαλλική startup,…

Uncategorized

Ερμηνεία χαρτιού DeepSeek R1 & βασικά τεχνικά σημεία

Μεzddeepseeker Φεβρουάριος 9, 2025Φεβρουάριος 9, 2025

1 Ιστορικό Κατά τη διάρκεια του Εαρινό Φεστιβάλ, το DeepSeek R1 τράβηξε για άλλη μια φορά την ευρεία προσοχή, και ακόμη και το άρθρο ερμηνείας του DeepSeek V3 που γράψαμε προηγουμένως μεταδόθηκε επίσης και συζητήθηκε πολύ. Αν και έχουν γίνει πολλές αναλύσεις και αναπαραγωγές του DeepSeek R1, εδώ αποφασίσαμε να συγκεντρώσουμε κάποιες αντίστοιχες αναγνωστικές σημειώσεις. Θα χρησιμοποιήσουμε τρία…

Uncategorized

Ο Ali Qwen2.5-Max προσπερνά το DeepSeek-V3! Netizen: Η τεχνητή νοημοσύνη της Κίνας κλείνει γρήγορα το χάσμα

Μεzddeepseeker Φεβρουάριος 5, 2025Φεβρουάριος 5, 2025

Μόλις τώρα, ένα άλλο εγχώριο μοντέλο προστέθηκε στη λίστα του Big Model Arena από την Ali, το Qwen2.5-Max, το οποίο ξεπέρασε το DeepSeek-V3 και κατέλαβε την έβδομη θέση στη γενική κατάταξη με συνολική βαθμολογία 1332. Ξεπέρασε επίσης μοντέλα όπως το Claude 3.5 Sonnet και το Llama 3.1 σε 40 fee. Ειδικότερα, διαπρέπει στον προγραμματισμό…

Uncategorized

Διάλογος a16z με 27χρονο CEO: Η AI Agent έχει τεράστιο αποτέλεσμα μόχλευσης και η μακροπρόθεσμη τιμολόγηση θα συνδέεται με το κόστος εργασίας

Μεzddeepseeker Φεβρουάριος 8, 2025Φεβρουάριος 8, 2025

Σημαντικά σημεία Η AI Agent αναδιαμορφώνει την εμπειρία του πελάτη Jesse Zhang: Πώς κατασκευάζεται πραγματικά ένας Agent; Η άποψή μας είναι ότι με την πάροδο του χρόνου, θα γίνεται όλο και περισσότερο σαν ένας Πράκτορας που βασίζεται σε φυσική γλώσσα, επειδή έτσι εκπαιδεύονται τα μεγάλα γλωσσικά μοντέλα (LLM). Μακροπρόθεσμα, εάν έχετε έναν εξαιρετικά έξυπνο πράκτορα που…

Uncategorized

Το DeepSeek τα κατάφερε! Το OpenAI παραδέχεται το λάθος του κλειστού κώδικα, το πλεονέκτημα της πρωτοπορίας γίνεται μικρότερο

Μεzddeepseeker Φεβρουάριος 2, 2025Φεβρουάριος 2, 2025

Αφού το OpenAI κυκλοφόρησε το μοντέλο o3-mini, ο CEO Sam Altman, ο Chief Research Officer Mark Chen, ο Chief Product Officer Kevin Weil, ο Vice President of Engineering Srinivas Narayanan, η Head of API Research Michelle Pokrass, και ο Head of Research Hongyu Ren, διεξήγαγαν ένα online τεχνικό Q&A στο reddit, ένα από τα μεγαλύτερα ολοκληρωμένα φόρουμ στον κόσμο. Τα κύρια θέματα...

Uncategorized

Το DeepSeek κυκλοφόρησε τον πηγαίο κώδικα του, λεπτομερή εξήγηση του FlashMLA

Μεzddeepseeker Φεβρουάριος 24, 2025Φεβρουάριος 24, 2025

Την περασμένη εβδομάδα, το DeepSeek ανακοίνωσε ότι θα επρόκειτο για πέντε έργα ανοιχτού κώδικα την επόμενη εβδομάδα: Οι χρήστες του Διαδικτύου είπαν, «Αυτή τη φορά, το OpenAI είναι πραγματικά εδώ». Μόλις τώρα, ήρθε το πρώτο έργο ανοιχτού κώδικα, που σχετίζεται με την επιτάχυνση συμπερασμάτων, FlashMLA: Διεύθυνση έργου ανοιχτού κώδικα: DeepSeek FlashMLA Είναι ανοιχτού κώδικα για δύο ώρες και το Github έχει ήδη 2,7k+ αστέρια: Το…

Περίληψη

Βασικές συνεισφορές

Μετά την κατάρτιση: Ενισχυτική μάθηση μεγάλης κλίμακας

Απόσταξη: Ενδυνάμωση μικρότερων μοντέλων

Αποτελέσματα αξιολόγησης

Εργασίες συλλογισμού

Εργασίες γνώσης

Γενικές δυνατότητες

Μελλοντικές εργασίες

Συμπέρασμα

Παρόμοιες θέσεις

Αφήστε μια απάντηση Ακύρωση απάντησης