1 Φόντο
Κατά τη διάρκεια του Φεστιβάλ της Άνοιξης, DeepSeek R1 για άλλη μια φορά προσέλκυσε ευρεία προσοχή, και ακόμη και το άρθρο ερμηνείας του DeepSeek V3 που γράψαμε προηγουμένως μεταδόθηκε επίσης και συζητήθηκε πολύ.
Αν και έχουν γίνει πολλές αναλύσεις και αναπαραγωγές του DeepSeek R1, εδώ αποφασίσαμε να συγκεντρώσουμε κάποιες αντίστοιχες αναγνωστικές σημειώσεις.
Θα χρησιμοποιήσουμε τρία βασικά σχηματικά διαγράμματα για να δείξουμε την κατασκευή του μοντέλου και τα βασικά τεχνικά σημεία, αποστάζοντας την ουσία της σειράς DeepSeek-R1 για να παρέχουμε μια πιο διαισθητική κατανόηση των σχεδιαστικών ιδεών της.
Το αντίστοιχο χαρτί είναι [2501.12948] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
και το αντίστοιχο μοντέλο ανοιχτού κώδικα είναι DeepSeek-R1
2 Εισαγωγή
2.1 Κοινοί αλγόριθμοι συλλογισμού
Όπως φαίνεται στο σχήμα 2 παρακάτω, ο συγγραφέας εξηγεί τους τέσσερις κοινούς αλγόριθμους συλλογιστικής. Αν και διαφέρουν σε συγκεκριμένες λεπτομέρειες, όλες περιλαμβάνουν δύο βασικές λειτουργίες:
- Επέκταση: δημιουργία διακριτικών για επέκταση της διαδρομής λύσης.
- Συνάθροιση: ενσωματώστε τα αποτελέσματα κάθε διαδρομής για να λάβετε την τελική απάντηση. Η αύξηση των υπολογιστικών πόρων στη φάση επέκτασης μπορεί συνήθως να βελτιώσει την ποιότητα της απάντησης στη φάση της συγκέντρωσης.
Αυτοσυνέπεια (SC). Όπως φαίνεται στο Σχήμα 2α, η βασική ιδέα του SC είναι να δημιουργήσει πολλαπλές διαφορετικές εξόδους (που μπορούν να επιτευχθούν αλλάζοντας τις παραμέτρους δειγματοληψίας, κ.λπ.), και στη συνέχεια να ψηφίσετε όλες τις απαντήσεις για να επιλέξετε την απάντηση με το υψηλότερο ποσοστό νίκης. Η βασική παράμετρος είναι ο αριθμός των υποψηφίων απαντήσεων n.
Αλγόριθμος Rebase: Όπως φαίνεται στο σχήμα 2β παρακάτω, το Rebase δημιουργεί επίσης πολλαπλές εξόδους, αλλά δημιουργούνται σε πολλαπλά βήματα. Κάθε βήμα βαθμολογείται χρησιμοποιώντας το μοντέλο ανταμοιβής και το αποτέλεσμα με την υψηλότερη βαθμολογία χρησιμοποιείται για να συνεχιστεί η παραγωγή. Τέλος, δημιουργείται ένα δέντρο συλλογισμού με πολλαπλούς κλάδους. Η απάντηση με την υψηλότερη βαθμολογία (Best-of-N) επιλέγεται στο στάδιο της συγκέντρωσης.
Monte Carlo Tree Search (MCTS): Όπως φαίνεται στην Εικόνα 2c παρακάτω, ο MCTS είναι ένας ισχυρός αλγόριθμος συλλογισμού που επεκτείνει τους κόμβους με δειγματοληψία σταδιακά και κατασκευάζει ένα δέντρο λύσης μέχρι να φτάσει σε έναν κόμβο φύλλου που περιέχει μια υποψήφια λύση. Κάθε λύση βαθμολογείται μέσω ενός μοντέλου ή προσομοίωσης ανταμοιβής και η βαθμολογία διαδίδεται πίσω στους κόμβους των προγόνων της για να ενημερώσει τις τιμές ανταμοιβής τους, ολοκληρώνοντας έτσι μια επανάληψη. Η βασική παράμετρος είναι επίσης n, και η αύξηση του n επιτρέπει βαθύτερη και ευρύτερη εξερεύνηση πιθανών λύσεων.
Εσωτερικευμένη γνωστική αλυσίδα (ICoT). Όπως φαίνεται στο Σχήμα 2δ παρακάτω, τα πιο πρόσφατα LLM, όπως το OpenAI o1 και το Qwen-QWQ, μπορούν να εσωτερικεύσουν τη συλλογιστική συμπεριφορά κατά τη διάρκεια της εκπαίδευσης χωρίς την ανάγκη ενός ρητού συλλογιστικού αλγόριθμου. Η βασική ιδέα είναι να δημιουργηθεί μια αλληλουχία CoT, να αποσυντεθεί σύνθετα προβλήματα σε πολλαπλά υποπροβλήματα και στη συνέχεια να βελτιστοποιηθούν επαναληπτικά αυτές οι απαντήσεις στοχαζόμενοι σε προηγούμενα αποτελέσματα για να καταλήξουμε τελικά σε μια λύση.

2.2 Μέθοδοι ευθυγράμμισης συλλογισμού
2.2.1 Επισκόπηση μεθόδου Best-of-N
Εν ολίγοις, το Best-of-N είναι μια μέθοδος ευθυγράμμισης που χρησιμοποιείται ευρέως στην εξαγωγή συμπερασμάτων LLM, η οποία στοχεύει να εξασφαλίσει την υψηλή ποιότητα των παραγόμενων αποτελεσμάτων δημιουργώντας πολλαπλές υποψήφιες απαντήσεις και επιλέγοντας την καλύτερη. Αποτελείται από τρεις κύριες διαδικασίες:
- Διαδικασία δημιουργίας: Για μια δεδομένη προτροπή X, η μέθοδος Best-of-N δημιουργεί αποκρίσεις N IID (Y1, Y2, …, Yₙ), όπου το N αναφέρεται συχνά ως "μέγεθος παρτίδας".
- Μηχανισμός βαθμολόγησης: Κάθε παραγόμενη απάντηση βαθμολογείται από ένα μοντέλο ανταμοιβής για να ληφθεί η αντίστοιχη βαθμολογία {s(Y1), s(Y2), …, s(Yₙ)}.
- Επιλογή της καλύτερης απόκρισης: Τέλος, η απόκριση με την υψηλότερη βαθμολογία μεταξύ όλων των δημιουργούμενων αποκρίσεων επιλέγεται ως έξοδος, δηλαδή, Y_Best-of-N = argmax {s(Y1), s(Y2), …, s(Yₙ)}.
Τα πλεονεκτήματα αυτής της μεθόδου είναι:
- Μπορεί να αποφύγει αποτελεσματικά πολύπλοκα βήματα μικρορύθμισης, καθιστώντας ευκολότερη την ανάπτυξη μοντέλων γλώσσας που έχουν προεκπαιδευτεί ή τελειοποιηθεί με οδηγίες.
- Είναι απλό στην εφαρμογή, κατανοητό και ουσιαστικά απαλλαγμένο από υπερπαράμετρους: η κύρια υπερπαράμετρος είναι το N, το οποίο μπορεί να ρυθμιστεί δυναμικά κατά την εξαγωγή συμπερασμάτων.
- Είναι ιδιαίτερα ανταγωνιστικό όσον αφορά την ποιότητα παραγωγής και μπορεί ακόμη και να ανταγωνιστεί ορισμένες πολύπλοκες τεχνικές μετά την εκπαίδευση όπως το RLHF ή το DPO. Η έρευνα δείχνει ότι η μέθοδος Best-of-N αποδίδει καλά στην καμπύλη ανταλλαγής μεταξύ ανταμοιβής και απόκλισης KL, ξεπερνώντας ακόμη και άλλες πολύπλοκες στρατηγικές ευθυγράμμισης.
Τα μειονεκτήματα αυτής της μεθόδου είναι
- το συμπέρασμα απαιτεί τη δημιουργία Ν ακολουθιών, οι οποίες μπορούν να οδηγήσουν σε σημαντική υπολογιστική επιβάρυνση. Στην πράξη, μια λογική τιμή για το N κυμαίνεται από 4 έως 128, αλλά για να ανταγωνιστούν τις πιο προηγμένες μεθόδους μετά την εκπαίδευση, ενδέχεται να απαιτούνται υψηλότερες τιμές N, όπως 1000 έως 60000, που μπορεί να οδηγήσει σε σχεδόν απαράδεκτες υπολογιστικές επιβαρύνσεις.
Η μέθοδος best-of-N χρησιμοποιείται συχνά για τη δημιουργία συνόλων δεδομένων υψηλής ποιότητας για επακόλουθη εποπτευόμενη λεπτομέρεια και έπαιξε βασικό ρόλο στη διαδικασία ευθυγράμμισης των LLaMA-2 και LLaMA-3.
2.2.2 Μέθοδος OpenAI best-of-N
Το OpenAI πρότεινε για πρώτη φορά τη δειγματοληψία Best-of-N [2009.01325] Μαθαίνοντας να συνοψίζουμε από την ανθρώπινη ανατροφοδότηση . Συγκεκριμένα, χρησιμοποιείται για την αξιολόγηση και τη βελτιστοποίηση της απόδοσης του συνοπτικού μοντέλου επιλέγοντας την καλύτερη σύνοψη που δημιουργείται από πολλαπλά μοντέλα. Αυτή η μέθοδος βοηθά τους ερευνητές να κατανοήσουν καλύτερα τη σχέση μεταξύ των διαφορετικών μετρήσεων αξιολόγησης και των προτιμήσεων του ανθρώπινου αξιολογητή και χρησιμοποιείται για να καθοδηγήσει την εκπαίδευση και τη βελτιστοποίηση του μοντέλου.
Το OpenAI χρησιμοποιεί επίσης τη δειγματοληψία Best-of-N (δειγματοληψία απόρριψης) στη συνέχεια [2112.09332] WebGPT: Απάντηση ερωτήσεων με τη βοήθεια προγράμματος περιήγησης με ανθρώπινη ανατροφοδότηση. Συγκεκριμένα, ένας σταθερός αριθμός απαντήσεων (4, 16 ή 64) γίνεται δειγματοληψία από το μοντέλο BC ή το μοντέλο RL και αυτή με την υψηλότερη βαθμολογία μοντέλου ανταμοιβής επιλέγεται ως μέθοδος βελτιστοποίησης για το μοντέλο αντίθετης ανταμοιβής. Αυτή η μέθοδος δεν απαιτεί πρόσθετη εκπαίδευση, αλλά αυξάνει την υπολογιστική πολυπλοκότητα του σταδίου συμπερασμάτων για να επιτευχθεί.
2.2.3 Μέθοδος Google BOND
Στο [2407.14622] BOND: Ευθυγραμμίζοντας τα LLM με την απόσταξη Best-of-N, οι συγγραφείς της Google προτείνουν την Best-of-N Distillation (BOND), ένας νέος αλγόριθμος RLHF που έχει σχεδιαστεί για να προσομοιώνει τη στρατηγική δειγματοληψίας Best-of-N μέσω ενός αλγορίθμου αντιστοίχισης κατανομής χωρίς να αυξάνει σημαντικά το υπολογιστικό κόστος κατά τη διάρκεια του Συμπερασματικού.

Συγκεκριμένα, ο συγγραφέας αρχικά εξάγει την ακριβή αναλυτική κατανομή της δειγματοληψίας Best-of-N και δίνει τη συνάρτηση πιθανότητας της δειγματοληψίας Best-of-N:

Δεύτερον, οι συγγραφείς εκφράζουν το πρόβλημα ως πρόβλημα αντιστοίχισης διανομής.

Στη συνέχεια, οι συγγραφείς προτείνουν να χρησιμοποιηθεί η απόκλιση Jeffreys ως στόχος αντιστοίχισης διανομής:

Τέλος, για την επίλυση του προβλήματος της επιλογής Ν, οι συγγραφείς προτείνουν την επαναληπτική μέθοδο BOND, η οποία βελτιώνει την απόδοση της στρατηγικής με επαναληπτική απόσταξη της κατανομής Best-of-N. Τα συγκεκριμένα βήματα περιλαμβάνουν:
Αρχικοποιήστε τη βοηθητική στρατηγική Anchor π(anchor).
Εκτελέστε επαναληπτικά το BOND για να αποστάξετε το Best-of-N π(anchor) και να ενημερώσετε το π(anchor) μετά από κάθε βήμα.

2.3 Επίβλεψη διαδικασίας και επίβλεψη αποτελεσμάτων
Το αποτέλεσμα και η διαδικασία αναφέρονται στις δύο πτυχές της αξιολόγησης του μοντέλου ανταμοιβής:
- Μοντέλο ανταμοιβής έκβασης: Αξιολογήστε εάν το τελικό αποτέλεσμα της παραγωγής του μοντέλου είναι σωστό ή αναμενόμενο.
- Μοντέλο ανταμοιβής διαδικασίας: Αξιολογεί εάν τα βήματα συλλογιστικής και λήψης αποφάσεων του μοντέλου στη διαδικασία δημιουργίας αποτελεσμάτων είναι λογικά και αποτελεσματικά.
Για παράδειγμα, το OpenAI Let's Verify Step by Step | Το OpenAI αναφέρει επίσης:
- Εποπτεία διαδικασίας (εποπτευόμενη από το αποτέλεσμα): περιλαμβάνει την παροχή ανατροφοδότησης για κάθε βήμα της διαδικασίας συλλογιστικής του μοντέλου. Τα μοντέλα επιβράβευσης εποπτευόμενων από τη διαδικασία (PRM) εκπαιδεύονται για να προβλέπουν την ορθότητα κάθε βήματος της λύσης.
- Επίβλεψη έκβασης: Η εποπτεία έκβασης παρέχει ανατροφοδότηση με βάση μόνο το τελικό αποτέλεσμα της συλλογιστικής του μοντέλου. Τα μοντέλα ανταμοιβής με επίβλεψη αποτελέσματος (ORM) εκπαιδεύονται χρησιμοποιώντας την τελική απάντηση της λύσης και η ορθότητα προσδιορίζεται με αυτόματο έλεγχο.
2.4 Reward Hacking
Στο RL, το reward hacking αναφέρεται στο φαινόμενο κατά το οποίο ένας πράκτορας εκμεταλλεύεται ένα ελάττωμα στο σχεδιασμό της συνάρτησης ανταμοιβής για να μεγιστοποιήσει τη σωρευτική ανταμοιβή με τρόπο που δεν ανταποκρίνεται στην αρχική πρόθεση του σχεδιαστή. Αν και αυτή η συμπεριφορά πληροί τεχνικά τον στόχο βελτιστοποίησης της συνάρτησης ανταμοιβής, το πραγματικό αποτέλεσμα αποκλίνει από τον αναμενόμενο στόχο εργασίας και μπορεί ακόμη και να οδηγήσει σε αρνητικές συνέπειες.
Ανάλυση βασικών σημείων:
- Ορισμός και εκδήλωση:
- Ο πράκτορας βρίσκει ένα ελάττωμα στη συνάρτηση ανταμοιβής και λαμβάνει υψηλή ανταμοιβή κάνοντας "συντομεύσεις" αντί να λύσει πραγματικά το πρόβλημα.
- Για παράδειγμα, ένα ρομπότ καθαρισμού σβήνει τα φώτα για να κάνει το δωμάτιο «να φαίνεται» καθαρό, αντί να το καθαρίζει. ένας παράγοντας παιχνιδιού σκοράρει επανειλημμένα πόντους χωρίς να ολοκληρώσει τον στόχο του επιπέδου. επιλέγοντας να μην επιβραδύνετε για να μειώσετε τον αριθμό των χρόνων πέδησης, γεγονός που θέτει σε κίνδυνο την ασφάλεια· δημιουργία περιεχομένου χωρίς νόημα που ταιριάζει με λέξεις-κλειδιά, προκειμένου να εξαπατηθούν οι υψηλές βαθμολογίες.
- Βασικές αιτίες:
- Ελλιπής σχεδίαση συνάρτησης ανταμοιβής: υπεραπλούστευση ή αποτυχία κάλυψης ακραίων περιπτώσεων.
- Μη ευθυγράμμιση μεταξύ στόχων και ανταμοιβών: η συνάρτηση ανταμοιβής αποτυγχάνει να αντικατοπτρίζει πλήρως τον πραγματικό στόχο, με αποτέλεσμα ο πράκτορας να βελτιστοποιεί για τον «λάθος» στόχο.
- Λύσεις:
- Βελτιώστε τη σχεδίαση ανταμοιβών: εισαγάγετε πολυδιάστατες ανταμοιβές (π.χ. ασφάλεια, αποτελεσματικότητα κ.λπ.) ή προσαρμόστε δυναμικά τη λειτουργία ανταμοιβής.
- Επαλήθευση με αντίπαλο: ανίχνευση εάν ο πράκτορας «απατάει» μέσω πρόσθετων μηχανισμών.
- Χειροκίνητη παρέμβαση και περιορισμοί: ορίστε όρια συμπεριφοράς (π.χ. στρώμα ασφαλείας) ή χειροκίνητη ανάδραση (π.χ. RLHF).
- Αντίστροφη μάθηση ενίσχυσης (IRL): μάθετε μια πιο ρεαλιστική συνάρτηση ανταμοιβής από επιδείξεις ειδικών.
- Ιεραρχική ενισχυτική μάθηση: αποσύνθεση της εργασίας σε επιμέρους στόχους για τη μείωση του κινδύνου τοπικής βελτιστοποίησης.
- Συσχέτιση με υπερπροσαρμογή:
- Και τα δύο παρουσιάζουν αποσύνδεση μεταξύ των μετρήσεων εκπαίδευσης και της απόδοσης του πραγματικού κόσμου, αλλά το Reward Hacking δίνει μεγαλύτερη έμφαση στα σχεδιαστικά ελαττώματα της συνάρτησης ανταμοιβής παρά στην ικανότητα γενίκευσης του μοντέλου.
- Περίληψη:
- Το Reward Hacking αποκαλύπτει την πρόκληση της ευθυγράμμισης στόχων στο RL. Η επίλυση αυτού του προβλήματος απαιτεί έναν συνδυασμό σχεδιασμού πιο ισχυρών μηχανισμών ανταμοιβής, εισαγωγής εξωτερικών περιορισμών και ενσωμάτωσης ανθρώπινης προηγούμενης γνώσης για να διασφαλιστεί ότι η συμπεριφορά του πράκτορα είναι και αποτελεσματική και σύμφωνη με την πρόθεση του σχεδιασμού.
3 DeepSeek-R1-Zero & DeepSeek-R1
3.1 Επισκόπηση
Προηγούμενη έρευνα βασίστηκε σε μεγάλο βαθμό σε μεγάλες ποσότητες εποπτευόμενων δεδομένων για τη βελτίωση της απόδοσης του μοντέλου. Αυτή η μελέτη δείχνει ότι ακόμη και χωρίς SFT ως ψυχρή εκκίνηση, η μεγάλης κλίμακας RL μπορεί να βελτιώσει σημαντικά τη συλλογιστική ικανότητα του μοντέλου. Επιπλέον, η εισαγωγή μιας μικρής ποσότητας δεδομένων ψυχρής εκκίνησης μπορεί να βελτιστοποιήσει περαιτέρω την απόδοση. Τα παρακάτω είναι τα μοντέλα που σχετίζονται με το DeepSeek-R1:
- DeepSeek-R1-Zero: Αυτό το μοντέλο εφαρμόζει το RL απευθείας στο βασικό μοντέλο χωρίς δεδομένα SFT.
- DeepSeek-R1: Αυτό το μοντέλο εφαρμόζει το RL ξεκινώντας από ένα σημείο ελέγχου που έχει βελτιστοποιηθεί με χιλιάδες μεγάλα δείγματα CoT.
- DeepSeek-R1-Distill-xx: Αποστάζει την ικανότητα συλλογισμού του DeepSeek-R1 σε ένα μικρό μοντέλο Dense.
3.2 DeepSeek-R1-Zero
Το παρακάτω σχήμα δείχνει τα βασικά σημεία στην εκπαίδευση του μοντέλου DeepSeek-R1-Zero:

ΥΓ: Πρέπει να σημειωθεί ότι το χαρτί δεν παρέχει πολλές πληροφορίες για τα δεδομένα που χρησιμοποιούνται στη διαδικασία RL του DeepSeek-R1-Zero. Ωστόσο, υπάρχει κάποια εξήγηση για τη διαδικασία παραγωγής δεδομένων και την ποσότητα στην επόμενη εκπαίδευση R1, αν και δεν είναι ιδιαίτερα συγκεκριμένη.
3.2.1 Αλγόριθμος RL
Για να μειώσουν το κόστος εκπαίδευσης του RL, οι συγγραφείς χρησιμοποιούν τη μέθοδο GRPO (Group Relative Policy Optimization) του DeepSeek, [2402.03300] DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. Αυτή η μέθοδος εγκαταλείπει το μοντέλο Critic, το οποίο είναι συνήθως συγκρίσιμο σε μέγεθος με το μοντέλο πολιτικής, και αντ' αυτού εκτιμά τη βασική γραμμή χρησιμοποιώντας μια βαθμολογία ομάδας. Η αντίστοιχη εξήγηση φαίνεται στο παρακάτω σχήμα (εικόνα από το Twitter):

3.2.2 Μοντελοποίηση ανταμοιβής
Οι ανταμοιβές είναι η πηγή των σημάτων εκπαίδευσης και καθορίζουν την κατεύθυνση βελτιστοποίησης του RL. Για την εκπαίδευση του DeepSeek-R1-Zero, οι συγγραφείς χρησιμοποίησαν ένα σύστημα ανταμοιβής βασισμένο σε κανόνες, το οποίο αποτελείται κυρίως από δύο τύπους ανταμοιβών:
- Επιβράβευση ακρίβειας: Αξιολογήστε εάν η απάντηση είναι σωστή. Για παράδειγμα:
- Σε μαθηματικά προβλήματα με ντετερμινιστικά αποτελέσματα, το μοντέλο πρέπει να παρέχει την τελική απάντηση σε μια συγκεκριμένη μορφή (όπως μέσα σε ένα πλαίσιο), έτσι ώστε η ορθότητά του να μπορεί να επαληθευτεί αξιόπιστα με κανόνες.
- Ομοίως, για προβλήματα LeetCode, η ανάδραση μπορεί να δημιουργηθεί χρησιμοποιώντας έναν μεταγλωττιστή που βασίζεται σε προκαθορισμένες περιπτώσεις δοκιμής.
- Μορφή ανταμοιβής: Μια ανταμοιβή μορφής χρησιμοποιείται επίσης για να αναγκάσει το μοντέλο να τοποθετήσει τη διαδικασία σκέψης του μεταξύ των « "και " ετικέτες ".
Κατά την ανάπτυξη του DeepSeek-R1-Zero, ο συγγραφέας δεν χρησιμοποίησε το Μοντέλο Νευρωνικής Επιβράβευσης Αποτελεσμάτων ή το Μοντέλο Νευρωνικής Ανταμοιβής Διεργασίας, επειδή ο συγγραφέας διαπίστωσε ότι το Μοντέλο Νευρωνικής Ανταμοιβής ενδέχεται να αντιμετωπίσει πλαστογράφηση ανταμοιβής (Παράβολο ανταμοιβής) σε διεργασίες RL μεγάλης κλίμακας. Επιπλέον, η επανεκπαίδευση του Μοντέλου Ανταμοιβής όχι μόνο απαιτεί πρόσθετους πόρους εκπαίδευσης, αλλά περιπλέκει επίσης ολόκληρη τη διαδικασία εκπαίδευσης.
3.2.3 Πρότυπο εκπαίδευσης
Για να εκπαιδεύσουν το DeepSeek-R1-Zero, οι συγγραφείς σχεδίασαν πρώτα ένα απλό Πρότυπο για να καθοδηγήσει το Βασικό μοντέλο να ακολουθήσει τις ρυθμισμένες οδηγίες. Όπως φαίνεται στον Πίνακα 1 παρακάτω, το Πρότυπο απαιτεί το DeepSeek-R1-Zero για να δημιουργήσει μια διαδικασία συμπερασμάτων και στη συνέχεια να δώσει την τελική απάντηση.

Ο συγγραφέας περιόρισε σκόπιμα τους περιορισμούς σε αυτό το δομικό πλαίσιο για να αποφύγει την εισαγωγή οποιασδήποτε μεροληψίας περιεχομένου - για παράδειγμα, επιβολή στοχαστικού συλλογισμού ή προώθηση συγκεκριμένων στρατηγικών επίλυσης προβλημάτων - για να διασφαλίσει ότι η φυσική εξέλιξη του μοντέλου μπορεί να παρατηρηθεί με ακρίβεια κατά τη διαδικασία RL.
3.2.4 Συμπέρασμα
Ισχυρές δυνατότητες συλλογιστικής χωρίς δεδομένα SFT: Με την εκκίνηση του RL απευθείας από το βασικό μοντέλο, η τροχιά εξέλιξης του μοντέλου μπορεί να παρακολουθείται στενά χωρίς παρεμβολές SFT. Όπως δείχνει το σχήμα 3 παρακάτω, ο χρόνος σκέψης του DeepSeek-R1-Zero συνέχισε να βελτιώνεται (το μήκος ανάπτυξης σταδιακά έγινε μεγαλύτερο) καθ' όλη τη διάρκεια της προπονητικής διαδικασίας. Αυτή η βελτίωση δεν προήλθε από εξωτερικές προσαρμογές, αλλά ήταν φυσικό αποτέλεσμα της εσωτερικής ανάπτυξης του μοντέλου. Το DeepSeek-R1-Zero απέκτησε φυσικά την ικανότητα να επιλύει όλο και πιο πολύπλοκες εργασίες εξαγωγής συμπερασμάτων, όπως η ικανότητα ανακλάσεως, χρησιμοποιώντας υπολογισμούς εκτεταμένου χρόνου δοκιμής.

Το DeepSeek-R1-Zero βίωσε μια «άχα στιγμή» κατά τη διάρκεια της προπόνησης. Όπως φαίνεται στον Πίνακα 3 παρακάτω, αυτή η στιγμή συνέβη κατά το στάδιο της μεσαίας έκδοσης του μοντέλου. Κατά τη διάρκεια αυτού του σταδίου, το DeepSeek-R1-Zero έμαθε να εκχωρεί περισσότερο χρόνο σκέψης στα προβλήματα, επαναξιολογώντας την αρχική του προσέγγιση.

Ψηφοφορία κατά πλειοψηφία: Η απόδοση του DeepSeek-R1-Zero μπορεί να βελτιωθεί περαιτέρω με την εφαρμογή της πλειοψηφίας. Για παράδειγμα, όπως φαίνεται στον Πίνακα 2 παρακάτω, μετά τη χρήση της πλειοψηφίας στη δοκιμή αναφοράς AIME, η απόδοσή του πηδά από 71,0% σε 86,7%, ξεπερνώντας το OpenAI-o1-0912.

Αδυναμίες: Ενώ το DeepSeek-R1-Zero επιδεικνύει ισχυρές δυνατότητες συλλογιστικής και αναπτύσσει αυτόνομα απροσδόκητες και ισχυρές συμπεριφορές συλλογισμού, εξακολουθεί να αντιμετωπίζει προκλήσεις όπως η κακή αναγνωσιμότητα και η μίξη γλώσσας.
3.3 DeepSeek-R1
Για να κάνουν τη διαδικασία Συλλογισμού πιο ευανάγνωστη και να την μοιραστούν με την ανοιχτή κοινότητα, οι συγγραφείς διερευνούν περαιτέρω τη μέθοδο DeepSeek-R1, η οποία χρησιμοποιεί φιλικά προς τον άνθρωπο δεδομένα ψυχρής εκκίνησης για RL. Εμπνευσμένα από το DeepSeek-R1-Zero, ακολουθούν δύο φυσικές ερωτήσεις:
- Μπορεί να βελτιωθεί περαιτέρω η απόδοση του συλλογισμού ή να επιταχυνθεί η διαδικασία σύγκλισης με την εισαγωγή μιας μικρής ποσότητας δεδομένων υψηλής ποιότητας ως ψυχρή εκκίνηση;
- Πώς μπορούμε να εκπαιδεύσουμε ένα φιλικό προς τον χρήστη μοντέλο που όχι μόνο δημιουργεί σαφείς και συνεκτικές CoTs, αλλά επιδεικνύει επίσης ισχυρές δυνατότητες γενίκευσης;
Σε απάντηση σε αυτές τις ερωτήσεις, σχεδιάσαμε μια διαδικασία εκπαίδευσης για το DeepSeek-R1. Η διαδικασία αποτελείται από πολλά στάδια, όπως περιγράφονται παρακάτω:
Το στάδιο-1, όπως φαίνεται στο παρακάτω σχήμα, εκπαιδεύει την ενδιάμεση κατάσταση του DeepSeek-R1 μέσω του SFT + RL:

Το παρακάτω σχήμα δείχνει τα Στάδια-2, 3 και 4:
- Στάδιο-2: επάνω αριστερά, κατασκευάστε 200K δεδομένα χωρίς συλλογισμό και 600K δεδομένα συλλογισμού.
- Στάδιο-3: πάνω δεξιά, τρένο SFT + RL DeepSeek-R1.
- Στάδιο-4: κάτω σχήμα, Απόσταγμα DeepSeek-R1-Distill-xx.

3.3.1 Ψυχρή εκκίνηση (Στάδιο-1)
Σε αντίθεση με το DeepSeek-R1-Zero, για να αποφευχθεί η ασταθής φάση Ψυχρής Εκκίνησης του βασικού μοντέλου στην αρχή της εκπαίδευσης RL, οι συγγραφείς δημιούργησαν και συνέλεξαν μια μικρή ποσότητα δεδομένων Long CoT για το DeepSeek-R1 για να τελειοποιήσουν το μοντέλο ως τον αρχικό RL Actor. Για τη συλλογή αυτών των δεδομένων, οι συγγραφείς διερεύνησαν διάφορες μεθόδους:
- Χρήση προτροπών μερικών λήψεων με παραδείγματα Long CoT
- Προτρέποντας το μοντέλο απευθείας να δημιουργήσει λεπτομερείς απαντήσεις με προβληματισμό και επαλήθευση
- Συλλογή εξόδου DeepSeek-R1-Zero σε μορφή αναγνώσιμη από τον άνθρωπο
- Βελτιώστε τα αποτελέσματα μέσω της μετεπεξεργασίας με χειροκίνητη επισήμανση
Οι συγγραφείς συνέλεξαν συνολικά χιλιάδες δεδομένα Ψυχρής Εκκίνησης, τα οποία χρησιμοποιήθηκαν για τον ακριβή συντονισμό του DeepSeek-V3-Base ως σημείο εκκίνησης για το RL. Σε σύγκριση με το DeepSeek-R1-Zero, τα πλεονεκτήματα των δεδομένων Cold Start περιλαμβάνουν
- Αναγνωσιμότητα: Οι αποκρίσεις DeepSeek-R1-Zero μπορούν να αναμειχθούν σε πολλές γλώσσες ή να μην έχουν τη μορφοποίηση Markdown που χρησιμοποιείται για την επισήμανση των απαντήσεων των χρηστών. Αντίθετα, κατά τη δημιουργία δεδομένων Cold Start για το DeepSeek-R1, ο συγγραφέας σχεδίασε μια αναγνώσιμη μορφή που περιλαμβάνει μια περίληψη στο τέλος κάθε απάντησης και φιλτράρει τις μη αναγνώσιμες απαντήσεις. Εδώ, η μορφή εξόδου ορίζεται ως |special_token| |special_token|
, όπου το reasoning_process είναι η αλυσιδωτή σκέψη του ερωτήματος και η σύνοψη χρησιμοποιείται για τη σύνοψη των αποτελεσμάτων συλλογιστικής. - Δυνατότητα: Σχεδιάζοντας προσεκτικά έναν συνδυασμό μοτίβων δεδομένων ψυχρής εκκίνησης ανθρώπου-a priori, οι συγγραφείς παρατήρησαν ότι η απόδοσή του είναι ανώτερη από το DeepSeek-R1-Zero.
3.3.2 Συλλογισμός RL (Στάδιο-1)
Μετά τη λεπτομερή ρύθμιση του DeepSeek-V3-Base σε δεδομένα Ψυχρής Εκκίνησης, χρησιμοποιείται η ίδια διαδικασία εκπαίδευσης RL μεγάλης κλίμακας με το DeepSeek-R1-Zero. Αυτό το στάδιο στοχεύει στη βελτίωση της ικανότητας του μοντέλου σε εργασίες εντατικής συλλογιστικής, ειδικά σε προβλήματα προγραμματισμού, μαθηματικών, επιστήμης και λογικής συλλογιστικής με σαφείς λύσεις.
Κατά τη διάρκεια της εκπαίδευσης, οι συγγραφείς παρατήρησαν ότι το CoT συχνά υπέφερε από ανάμειξη γλωσσών, ειδικά όταν η προτροπή RL περιλάμβανε πολλές γλώσσες. Για να μετριάσουν το πρόβλημα της γλωσσικής ανάμειξης, οι συγγραφείς εισήγαγαν μια ανταμοιβή γλωσσικής συνέπειας στην εκπαίδευση RL, η οποία υπολογίζεται με βάση την αναλογία των λέξεων στη γλώσσα-στόχο στο CoT. Αν και τα πειράματα κατάλυσης δείχνουν ότι αυτή η μέθοδος ευθυγράμμισης οδηγεί σε ελαφρά μείωση της απόδοσης του μοντέλου, αυτός ο μηχανισμός ανταμοιβής είναι συνεπής με τις ανθρώπινες προτιμήσεις και ενισχύει την αναγνωσιμότητα. Τέλος, οι συγγραφείς προσθέτουν απευθείας την ακρίβεια της εργασίας Reasoning στην ανταμοιβή γλωσσικής συνέπειας για να σχηματίσουν την τελική ανταμοιβή και εφαρμόζουν την εκπαίδευση RL στο τελειοποιημένο μοντέλο μέχρι να συγκλίνει με την εργασία Reasoning.
3.3.3 Κατασκευή 800.000 επιλεγμένων δεδομένων (Στάδιο-2)
Ενώ το RL for Reasoning συγκλίνει, τα δεδομένα SFT συλλέγονται χρησιμοποιώντας το σημείο ελέγχου που προκύπτει για τον επόμενο γύρο εκπαίδευσης. Σε αντίθεση με τα αρχικά δεδομένα Cold Start, τα οποία επικεντρώνονται κυρίως στο Reasoning, αυτό το στάδιο ενσωματώνει δεδομένα από άλλους τομείς για να ενισχύσει την ικανότητα του μοντέλου στη γραφή, το παιχνίδι ρόλων και άλλες εργασίες γενικού σκοπού. Συγκεκριμένα, τα δεδομένα δημιουργούνται και το μοντέλο ρυθμίζεται με ακρίβεια ως εξής:
- Δεδομένα συλλογισμού: Επιλέγονται οι προτροπές αιτιολογίας και δημιουργούνται τροχιές συλλογισμού εκτελώντας δειγματοληψία απόρριψης από το προαναφερθέν εκπαιδευμένο σημείο ελέγχου RL (DeepSeek-R1 Στάδιο 1). Στο προηγούμενο στάδιο, συμπεριλήφθηκαν μόνο δεδομένα που μπορούσαν να αξιολογηθούν χρησιμοποιώντας ανταμοιβές βάσει κανόνων. Ωστόσο, σε αυτό το στάδιο, το σύνολο δεδομένων επεκτάθηκε συμπεριλαμβάνοντας περισσότερα δεδομένα, μερικά από τα οποία δημιουργήθηκαν χρησιμοποιώντας ένα μοντέλο ανταμοιβής και οι πραγματικές απαντήσεις κρίθηκαν τροφοδοτώντας τις προβλέψεις του μοντέλου στο DeepSeek-V3 (DeepSeek V3 ως Κριτής). Επιπλέον, επειδή η έξοδος του μοντέλου είναι μερικές φορές μπερδεμένη και δυσανάγνωστη, οι αλυσίδες σκέψης μεικτών γλωσσών, οι μεγάλες παράγραφοι και τα μπλοκ κώδικα φιλτραρίστηκαν. Για κάθε προτροπή, δειγματολήφθηκαν πολλαπλές απαντήσεις και διατηρήθηκαν μόνο οι σωστές (Best-of-N). Συνολικά, συλλέχθηκαν περίπου 600.000 δείγματα εκπαίδευσης που σχετίζονται με τη λογική.
- Δεδομένα μη αιτιολογίας: όπως η γραφή, οι πραγματικές ερωτήσεις, η αυτογνωσία και η μετάφραση, χρησιμοποίησαν τη διαδικασία DeepSeek-V3 και επαναχρησιμοποίησαν ορισμένα από τα σύνολα δεδομένων SFT του DeepSeek-V3. Για ορισμένες εργασίες που δεν συλλογίζονται, το DeepSeek-V3 καλείται να δημιουργήσει πιθανά CoT πριν απαντήσει στην ερώτηση. Ωστόσο, για απλά ερωτήματα όπως «Γεια», δεν παρέχεται αλυσίδα σκέψης στην Απάντηση. Στο τέλος, συλλέχθηκαν συνολικά περίπου 200.000 δείγματα εκπαίδευσης που δεν ήταν συλλογιστικά.
3.3.4 SFT & RL για όλα τα σενάρια (Στάδιο-3)
Πραγματοποιήθηκαν δύο γύροι λεπτομέρειας συνολικά περίπου 800.000 επιλεγμένων δειγμάτων σε DeepSeek-V3-Base χρησιμοποιώντας τα δύο προαναφερθέντα σύνολα δεδομένων (Reasoning και non-Reasoning).
Για την περαιτέρω ευθυγράμμιση του μοντέλου με τις ανθρώπινες προτιμήσεις, οι συγγραφείς υλοποίησαν μια δεύτερη φάση του RL, η οποία στοχεύει στη βελτίωση της χρησιμότητας και της αβλαβούς του μοντέλου, βελτιώνοντας παράλληλα τις ικανότητες Συλλογισμού του. Συγκεκριμένα, το μοντέλο εκπαιδεύτηκε με ένα συνδυασμό σημάτων ανταμοιβής και ποικίλων διανομών προτροπών.
- Για τα δεδομένα Συλλογισμού, ακολουθείται η μεθοδολογία που περιγράφεται στο DeepSeek-R1-Zero, χρησιμοποιώντας έναν μηχανισμό ανταμοιβής που βασίζεται σε κανόνες για να καθοδηγήσει τη μάθηση του μοντέλου στους τομείς των μαθηματικών, του προγραμματισμού και της λογικής συλλογιστικής.
- Για γενικά δεδομένα, το μοντέλο ανταμοιβής χρησιμοποιείται για την καταγραφή των ανθρώπινων προτιμήσεων σε περίπλοκες και λεπτές καταστάσεις. Μια παρόμοια στρατηγική ζευγών προτιμήσεων και κατανομής προτάσεων εκπαίδευσης χρησιμοποιείται με βάση τη διαδικασία DeepSeek-V3.
- Όσον αφορά τη χρησιμότητα, λαμβάνεται υπόψη μόνο η τελική περίληψη, διασφαλίζοντας ότι η αξιολόγηση εστιάζει στην πρακτικότητα και τη συνάφεια της Απόκρισης για τον χρήστη, ενώ ελαχιστοποιεί την παρέμβαση στην υποκείμενη διαδικασία Συλλογισμού.
- Όσον αφορά την αβλαβότητα, ολόκληρη η Απόκριση του μοντέλου αξιολογείται διεξοδικά, συμπεριλαμβανομένης της διαδικασίας συλλογισμού και της περίληψης, για να εντοπιστούν και να εξαλειφθούν τυχόν κίνδυνοι, προκαταλήψεις ή επιβλαβές περιεχόμενο που μπορεί να προκύψουν κατά τη διαδικασία παραγωγής.
- Τελικά, με την ενσωμάτωση των σημάτων ανταμοιβής και τη διαφοροποίηση της διανομής δεδομένων, μπορεί να εκπαιδευτεί ένα μοντέλο που δίνει προτεραιότητα τόσο στο όφελος όσο και στην αβλαβή, ενώ παράλληλα διαπρέπει στο Συλλογισμό.
3.3.5 Απόσταξη (Στάδιο-4)
Προκειμένου να εξοπλίσουν ένα πιο αποτελεσματικό μικρό μοντέλο με τη συλλογιστική ικανότητα του DeepSeek-R1, οι συγγραφείς ρύθμισαν απευθείας τα μοντέλα ανοιχτού κώδικα Qwen και LLaMA χρησιμοποιώντας τα 800.000 δείγματα που επιλέχθηκαν στο DeepSeek-R1-Stage-1. Τα αποτελέσματα δείχνουν ότι αυτή η μέθοδος άμεσης απόσταξης βελτιώνει σημαντικά τη συλλογιστική ικανότητα μικρών μοντέλων. Τα βασικά μοντέλα που χρησιμοποιούνται από τους συγγραφείς περιλαμβάνουν τα Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, Qwen2.5-14B, Qwen2.5-32B, Llama-3.1-8B και Llama-3.3-70B-Instruct. Το Llama-3.3 επιλέχθηκε επειδή η συλλογιστική του ικανότητα είναι ελαφρώς καλύτερη από το Llama-3.1.
Για το μοντέλο απόσταξης, ο συγγραφέας χρησιμοποιεί μόνο SFT και δεν περιλαμβάνει το στάδιο RL. Αν και η εισαγωγή του RL μπορεί να βελτιώσει σημαντικά την απόδοση του μοντέλου, ο κύριος σκοπός του συγγραφέα εδώ είναι να αποδείξει την αποτελεσματικότητα της τεχνολογίας απόσταξης και η εξερεύνηση του σταδίου RL αφήνεται στην επόμενη έρευνα.
ΥΓ: Επιπλέον, είναι πραγματικά δυνατό να χρησιμοποιηθεί το τελικό DeepSeek-R1 για τη δημιουργία των παραπάνω δεδομένων και την ανακατασκευή των 800.000 δεδομένων που χρησιμοποιούνται για την απόσταξη, και το αποσταγμένο μοντέλο μπορεί να έχει καλύτερο αποτέλεσμα. Ωστόσο, το τίμημα είναι ότι τα δεδομένα πρέπει να ανακατασκευαστούν.