Σήμερα θα μοιραστούμε DeepSeek R1, Τίτλος: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning: Ενθάρρυνση της συλλογιστικής ικανότητας του LLM μέσω ενισχυτικής μάθησης.

Αυτό το άρθρο παρουσιάζει την πρώτη γενιά μοντέλων συλλογισμού του DeepSeek, DeepSeek-R1-Zero και DeepSeek-R1. Το μοντέλο DeepSeek-R1-Zero εκπαιδεύτηκε μέσω μεγάλης κλίμακας ενισχυτική μάθηση (RL) χωρίς εποπτευόμενη λεπτομέρεια (SFT) ως αρχικό βήμα, καταδεικνύοντας τις δυνατότητες του RL και τις ανώτερες ικανότητες συλλογισμού φέρνει. Μέσω της ενισχυτικής μάθησης, Το DeepSeek-R1-Zero προέκυψε φυσικά με πολλές ισχυρές και ενδιαφέρουσες συλλογιστικές συμπεριφορές. Για να βελτιστοποιήσουν περαιτέρω ορισμένα από τα ζητήματα με το R1-Zero (γλωσσικές σύγχυση, βελτιωμένη ικανότητα γενίκευσης), κυκλοφόρησαν DeepSeek-R1, το οποίο συνδυάζει εκπαίδευση πολλαπλών σταδίων και λεπτομέρεια δεδομένων ψυχρής εκκίνησης πριν από την ενίσχυση της εκμάθησης. Το DeepSeek-R1 πέτυχε συγκρίσιμες επιδόσεις σχετικά με την εργασία συλλογισμού με το OpenAI-01-1217. Για να υποστηρίξουν την ερευνητική κοινότητα, έχουν ανοιχτού κώδικα DeepSeek-R1-Zero, DeepSeek-R1 και έξι πυκνά μοντέλα (1.5B, 7B, 8B, 14B, 32B, 70B) αποσταγμένα από DeepSeek-R1, τα οποία βασίζονται σε Qwen και Llama.

Τα χαρακτηριστικά της μεθόδου συνοψίζονται ως εξής:

  1. Η ενισχυτική μάθηση εφαρμόζεται απευθείας στο βασικό μοντέλο, χωρίς να βασίζεστε στην εποπτευόμενη μικρορύθμιση (SFT) ως αρχικό βήμα.
  2. Εισάγεται η διαδικασία ανάπτυξης DeepSeek-R1, η οποία συνδυάζει δύο φάσεις ενισχυτικής μάθησης και δύο εποπτευόμενες φάσεις λεπτομέρειας για να θέσει τα θεμέλια για τις ικανότητες συλλογιστικής και μη συλλογιστικής του μοντέλου.
  3. Η απόδοση των μικρών μοντέλων σε εργασίες συλλογισμού βελτιώνεται με τη μεταφορά των μοτίβων συλλογιστικής μεγάλων μοντέλων σε μικρά μοντέλα μέσω τεχνικές απόσταξης.

Επισκόπηση

Κίνητρο

  • Τα τρέχοντα μεγάλα γλωσσικά μοντέλα (LLM) έχουν σημειώσει σημαντική πρόοδο στις εργασίες εξαγωγής συμπερασμάτων, αλλά εξακολουθούν να αντιμετωπίζουν προκλήσεις.
  • Οι δυνατότητες του καθαρού η ενισχυτική μάθηση (RL) για τη βελτίωση της συλλογιστικής ικανότητας των LLMs δεν έχει διερευνηθεί πλήρως, ειδικά χωρίς να βασίζεστε σε εποπτευόμενα δεδομένα.
  • Μοντέλα που εκπαιδεύονται μέσω RL, όπως π.χ DeepSeek-R1-Zero, έχουν προβλήματα με την αναγνωσιμότητα και τη μίξη γλώσσας (π.χ. μιλώντας μεικτά κινέζικα και αγγλικά) και χρειάζονται περαιτέρω βελτίωση για τη βελτίωση της φιλικότητας προς τον χρήστη.

Μέθοδοι

DeepSeek-R1-Zero: Χρησιμοποιεί το DeepSeek-V3-Base ως βασικό μοντέλο και Το GRPO (Group Relative Policy Optimization) ως ενισχυτική μάθηση σκελετός, χωρίς εποπτευόμενα δεδομένα για τη βελτίωση της απόδοσης του μοντέλου στο συμπέρασμα.

DeepSeek-R1:

  • Ψυχρή εκκίνηση: Συλλέγει μια μικρή ποσότητα μακρών δεδομένων CoT (Chain-of-Thought) υψηλής ποιότητας και ρυθμίζει με ακρίβεια το Μοντέλο DeepSeek-V3-Base ως αρχικός παράγοντας για την ενισχυτική μάθηση.
  • Ενισχυτική μάθηση προσανατολισμένη στη λογική: Το ίδιο Εφαρμόζεται η εκπαιδευτική διαδικασία ενισχυτικής μάθησης ως DeepSeek-R1-Zero, αλλά με έμφαση στην ενίσχυση των συλλογιστικών ικανοτήτων του μοντέλου σε τομείς όπως η κωδικοποίηση, τα μαθηματικά, η επιστήμη και ο λογικός συλλογισμός. Οι ανταμοιβές γλωσσικής συνέπειας εισάγονται για να μετριαστεί το πρόβλημα της γλωσσικής ανάμειξης που εμφανίζεται στην CoT.
  • Δειγματοληψία απόρριψης και εποπτευόμενη λεπτομέρεια: Χρησιμοποιεί το συγκλίνον σημείο ελέγχου της ενίσχυσης εκμάθησης για να συλλέγουν δεδομένα εποπτευόμενης λεπτομέρειας (SFT). για μετέπειτα εκπαίδευση.
  • Ενισχυτική μάθηση για όλα τα σενάρια: Υλοποιεί μια φάση ενισχυτικής μάθησης δεύτερου επιπέδου, η οποία στοχεύει στη βελτίωση της τη χρησιμότητα και την αβλαβή του μοντέλου, βελτιστοποιώντας παράλληλα την ικανότητα συλλογισμού του.
  • Απόσταξη γνώσης: Ρυθμίζει με ακρίβεια τα μοντέλα ανοιχτού κώδικα Qwen και Llama απευθείας χρησιμοποιώντας τα 800.000 δείγματα που επιμελήθηκαν το DeepSeek-R1.

Αναλυτικές μέθοδοι και διαδικασίες:

DeepSeek-R1-Zero: Ενισχυτική εκμάθηση για βασικά μοντέλα

  • Αλγόριθμος ενίσχυσης μάθησης: Χρησιμοποιεί τον αλγόριθμο Group Relative Policy Optimization (GRPO), ο οποίος δεν απαιτεί α κριτικός μοντέλο, εκτιμά τη βασική γραμμή κατά ομαδικές βαθμολογίες και μειώνει το κόστος εκπαίδευσης.
  • Μοντελοποίηση ανταμοιβής: Χρήσεις α σύστημα ανταμοιβής που βασίζεται σε κανόνες, συμπεριλαμβανομένων
  • ανταμοιβή ακρίβειας: Αξιολογεί εάν η απάντηση είναι σωστή, όπως η ορθότητα του τελικού αποτελέσματος του απάντηση μαθηματικού προβλήματος, η ανατροφοδότηση από τον μεταγλωττιστή για προβλήματα κώδικα.
  • Μορφή ανταμοιβής: Ενθαρρύνει το μοντέλο να τοποθετήστε τη διαδικασία σκέψης μεταξύ και ετικέτες.

Πρότυπο εκπαίδευσης: Ένα πρότυπο που περιέχει και ετικέτες έχει σχεδιαστεί για να καθοδηγήστε το μοντέλο ώστε να βγει πρώτα η διαδικασία σκέψης και μετά η τελική απάντηση.

  • Διαδικασία αυτοεξέλιξης: Το DeepSeek-R1-Zero αποδείχθηκε αυτο-εξελικτικά χαρακτηριστικά κατά τη διάρκεια της εκπαίδευσης και ήταν σε θέση να μάθει αυτόνομα πιο πολύπλοκες στρατηγικές συλλογιστικής, όπως ο προβληματισμός και η εξερεύνηση πολλαπλών μονοπατιών επίλυσης προβλημάτων.

DeepSeek-R1: Ενισχυτική εκμάθηση σε συνδυασμό με ψυχρή εκκίνηση

  • Ψυχρή εκκίνηση: Για να λύσετε DeepSeek-R1-Zero's πρόβλημα αναγνωσιμότητας, το DeepSeek-R1 συλλέγει πρώτα μια μικρή ποσότητα υψηλής ποιότητας δεδομένα CoT και προσαρμόζει το μοντέλο DeepSeek-V3-Base χρησιμεύουν ως ο αρχικός παράγοντας για την ενισχυτική μάθηση. Τα δεδομένα ψυχρής εκκίνησης περιέχει ετικέτες σύνοψης και μη φιλικές απαντήσεις φιλτράρονται.
    • Μέθοδος: 1) Επιλέξτε υψηλής ποιότητας δεδομένα Long COT. 2) Προσθήκη και ετικέτες.
    • Πλεονεκτήματα: 1) Βελτιστοποιημένη αναγνωσιμότητα (λύση του πολυγλωσσικού προβλήματος του R1-Zero ή του προβλήματος της μορφής σήμανσης). 2) Τα προσεκτικά επιλεγμένα δεδομένα που προτιμούν οι άνθρωποι μπορούν να συνεχίσουν να βελτιώνουν την απόδοση στο R1-Zero.
    • Ερώτηση: Γιατί να λύσετε το πρόβλημα αναγνωσιμότητας; Δεν είναι δυνατόν να κάνουμε καλύτερα χωρίς να το λύσουμε (π.χ. να μειώσουμε το μήκος της εξόδου και να συμπεράνουμε πιο αποτελεσματικά);
  • Συλλογισμός προσανατολισμένος RL: Με βάση το μοντέλο ψυχρής εκκίνησης, μια διαδικασία ενίσχυσης μάθησης παρόμοια με Εφαρμόζεται το DeepSeek-R1-Zero, εστιάζοντας στη βελτίωση της ικανότητας του μοντέλου σε εργασίες όπως η κωδικοποίηση, τα μαθηματικά, η επιστημονική και λογική συλλογιστική. Για να λύσουμε το πρόβλημα των μικτών γλωσσών (πολυγλωσσικός συλλογισμός), ανταμοιβές γλωσσικής συνέπειας εισάγονται.
    • Ερώτηση: Πώς εκπαιδεύονται οι εργασίες και τα σύνολα δεδομένων επιστημονικής και λογικής συλλογιστικής;
  • Δειγματοληψία απόρριψης και SFT: Αφού συγκλίνει η καθοδηγούμενη από συμπεράσματα ενισχυτική μάθηση, το ληφθέν σημείο ελέγχου χρησιμοποιείται για δειγματοληψία απόρριψης για τη δημιουργία νέων δεδομένων SFT, τα οποία συνδυάζονται με τα δεδομένα από το DeepSeek-V3 για τη βελτίωση των δυνατοτήτων του μοντέλου στη γραφή, το παιχνίδι ρόλων και γενικές εργασίες.
    • Σκοπός:
      • Αυτή η φάση ξεκινά μετά την Η διαδικασία ενισχυτικής μάθησης (RL) με γνώμονα τα συμπεράσματα συγκλίνει.
      • Ο κύριος στόχος είναι να συλλογή δεδομένων εποπτευόμενης μικρορύθμισης (SFT). για χρήση σε επόμενους προπονητικούς γύρους.
      • Σε αντίθεση με τα αρχικά δεδομένα ψυχρής εκκίνησης, τα οποία επικεντρώνονται μόνο στο συμπέρασμα, αυτή η φάση στοχεύει επεκτείνει τις δυνατότητες του μοντέλου για να καλύψει τη γραφή, το παιχνίδι ρόλων και άλλες εργασίες γενικού σκοπού, όχι μόνο την εξαγωγή συμπερασμάτων.
    • Συλλογή δεδομένων – Δεδομένα συμπερασμάτων:
      • Μέθοδος: Χρησιμοποιήστε σημεία ελέγχου που λαμβάνονται από τη φάση RL προσανατολισμένη στο συμπέρασμα για να δημιουργήσετε τροχιές συμπερασμάτων με δειγματοληψία απόρριψης.
      • Επέκταση συνόλου δεδομένων: Σε αντίθεση με την προηγούμενη φάση RL, η οποία χρησιμοποιούσε μόνο δεδομένα ανταμοιβής βάσει κανόνων, εδώ εισάγονται δεδομένα ανταμοιβής που δεν βασίζονται σε κανόνες. Σε ορισμένες περιπτώσεις, χρησιμοποιείται ένα μοντέλο παραγωγής ανταμοιβής (DeepSeek-V3) για τον προσδιορισμό της απόκρισης.
      • Φιλτράρισμα δεδομένων: Για να διασφαλιστεί η ποιότητα και η αναγνωσιμότητα, η έξοδος φιλτράρεται για να αφαιρεθούν:
        • αλυσίδες σκέψης που περιέχουν μικτές γλώσσες
        • μεγάλες παραγράφους
        • μπλοκ κωδικών
      • Δειγματοληψία και επιλογή: Για κάθε προτροπή, δημιουργήθηκαν πολλαπλές απαντήσεις. Μόνο η "σωστή" απάντηση διατηρήθηκε για το σύνολο δεδομένων.
      • Μέγεθος συνόλου δεδομένων: Περίπου 600.000 δείγματα εκπαίδευσης που σχετίζονται με συμπεράσματα συλλέχθηκαν με αυτόν τον τρόπο.
    • Συλλογή δεδομένων – δεδομένα μη συμπερασμάτων:
      • Κάλυψη: Συγγραφή, απάντηση σε πραγματολογικές ερωτήσεις (QA), αυτογνωσία και μετάφραση.
      • Το έγγραφο αναφέρει τη χρήση του Η διαδικασία του DeepSeek-V3 και επαναχρησιμοποιεί μέρος του συνόλου δεδομένων DeepSeek-V3 SFT για να χειριστεί αυτές τις εργασίες μη συμπερασμάτων. Για 200.000 δείγματα ανεξάρτητα από συμπεράσματα συγκεντρώθηκαν. (Σημείωση: Οι λεπτομέρειες της συλλογής δεδομένων χωρίς συμπεράσματα περιγράφονται περαιτέρω στην Ενότητα 2.3.4)
    • Χρήση των συλλεγόμενων δεδομένων:
      • Τα συλλεχθέντα συλλογιστικά και μη συλλογιστικά δεδομένα (συνολικά περίπου 800.000 δείγματα – 600.000 συλλογιστικά δείγματα + 200.000 μη συλλογιστικά δείγματα) χρησιμοποιήθηκαν στη συνέχεια για βελτιστοποιήστε το μοντέλο DeepSeek-V3-Base για δύο εποχές. Αυτό το βελτιωμένο μοντέλο χρησιμοποιήθηκε στη συνέχεια στην τελική φάση RL που περιγράφεται στην Ενότητα 2.3.4.
    • Περίληψη Αυτό το βήμα χρησιμοποιεί τις δυνατότητες συμπερασμάτων έμαθε μέσω του RL να δημιουργεί ένα ποικίλο και υψηλής ποιότητας σύνολο δεδομένων SFT. Αυτό το σύνολο δεδομένων ενισχύει τις δυνατότητες συμπερασμάτων και επίσης επεκτείνει τις γενικές δυνατότητες του το μοντέλο εκπαίδευσης στην τελική φάση ευθυγράμμισης και βελτίωσης.
  • Ενισχυτική μάθηση για όλα τα σενάρια: Για την περαιτέρω ευθυγράμμιση των ανθρώπινων προτιμήσεων, εφαρμόζεται μια δεύτερη φάση ενισχυτικής μάθησης για τη βελτίωση της εξυπηρετικότητας και της αβλαβούς του μοντέλου.
    • Δεδομένα συμπερασμάτων: π.χ. μαθηματικά, κώδικας, λογικά συμπεράσματα ή εποπτευόμενα με μεθόδους βάσης κανόνων.
    • Γενικά δεδομένα: Τα μοντέλα ανταμοιβής εξακολουθούν να χρησιμοποιούνται για την παροχή πληροφοριών προτιμήσεων για πολύπλοκα και διακριτικά σενάρια. Εκτιμώνται επίσης μοντέλα που έχουν εκπαιδευτεί με δεδομένα σε ζεύγη.
    • Χρησιμότητα: εστίαση μόνο στα τελικά αποτελέσματα σύνοψης, μειώνοντας τις παρεμβολές στη διαδικασία εξαγωγής συμπερασμάτων.
    • Αβλαβές: επιβλέπετε ολόκληρη την απόκριση για να μειώσετε τυχόν κινδύνους.

Μοντέλο απόσταξης (Απόσταξη):

  • Προκειμένου να ληφθεί ένα πιο αποτελεσματικό μικρό μοντέλο συμπερασμάτων, το χαρτί αποστάζει την ικανότητα συμπερασμάτων του DeepSeek-R1 στα μοντέλα ανοιχτού κώδικα της σειράς Qwen και Llama. Η διαδικασία της απόσταξης χρησιμοποιεί μόνο εποπτευόμενη λεπτομέρεια (SFT) και δεν χρησιμοποιεί το στάδιο της ενισχυτικής μάθησης.

Συμπέρασμα

DeepSeek-R1-Zero: Επιδεικνύει τις δυνατότητες του καθαρή ενισχυτική μάθηση στην παρακίνηση της ικανότητας συμπερασμάτων LLM και μπορεί να επιτύχει ισχυρή απόδοση χωρίς να βασίζεται σε εποπτευόμενα δεδομένα.

  • Αχα-στιγμή: Η ομορφιά της ενισχυτικής μάθησης (η στιγμή της φώτισης του μοντέλου, όπου αφιερώνει περισσότερο χρόνο σκέψης για ένα πρόβλημα μαθαίνοντας να επαναξιολογεί η αρχική προσέγγιση)
  • Το μήκος εξόδου συνεχίζει να αυξάνεται (ο χρόνος σκέψης συνεχίζει να αυξάνεται)
  • Η ακρίβεια συνεχίζει να βελτιώνεται (δειγματοληψία 16 απαντήσεων για τον υπολογισμό της ακρίβειας)
  • DeepSeek-R1: Βελτιώνει περαιτέρω την απόδοση του μοντέλου συνδυάζοντας δεδομένα ψυχρής εκκίνησης και επαναληπτική ενισχυτική βελτιστοποίηση εκμάθησης, επιτυγχάνοντας επίπεδο συγκρίσιμο με το OpenAI-01-1217 σε διάφορες εργασίες.
  • Απόσταξη γνώσης: Χρησιμοποιώντας το DeepSeek-R1 ως μοντέλο δασκάλου, δημιουργήθηκαν 800.000 δείγματα εκπαίδευσης και αρκετά μικρά, πυκνά μοντέλα βελτιστοποιήθηκαν. Τα αποτελέσματα δείχνουν ότι αυτό μέθοδος απόσταξης μπορεί να βελτιώσει σημαντικά την ικανότητα συμπερασμάτων του μικρά μοντέλα.

Περιορισμός

  • Περιορισμός 1: Η γενική ικανότητα του DeepSeek-R1 πρέπει να βελτιωθεί. Το DeepSeek-R1 εξακολουθεί να είναι κατώτερο από το DeepSeek-V3 σε εργασίες όπως κλήσεις λειτουργιών, διάλογος πολλαπλών στροφών, σύνθετη αναπαραγωγή ρόλων και έξοδος JSON.
  • Περιορισμός 2: Πρόβλημα ανάμειξης γλωσσών. Το DeepSeek-R1 μπορεί να αντιμετωπίσει πρόβλημα ανάμειξης γλώσσας κατά την επεξεργασία ερωτημάτων μη κινεζικών και μη αγγλικών, για παράδειγμα, συλλογιστική και απάντηση στα Αγγλικά.
  • Περιορισμός 3: Άμεση ευαισθησία. Το DeepSeek-R1 είναι ευαίσθητο στις προτρεπτικές λέξεις και η προτροπή για λίγες λήψεις θα μειώσει την απόδοσή του.
  • Περιορισμός 4: Περιορισμένη εφαρμογή σε εργασίες μηχανικής λογισμικού. Λόγω του μεγάλου χρόνου αξιολόγησης, η μεγάλης κλίμακας ενισχυτική μάθηση δεν έχει εφαρμοστεί πλήρως σε εργασίες μηχανικής λογισμικού και το DeepSeek-R1 έχει περιορισμένη βελτίωση σε σχέση με το DeepSeek-V3 στα σημεία αναφοράς μηχανικής λογισμικού.

Παρόμοιες θέσεις

Αφήστε μια απάντηση

Η ηλ. διεύθυνση σας δεν δημοσιεύεται. Τα υποχρεωτικά πεδία σημειώνονται με *