Σήμερα θα ήθελα να μοιραστώ ένα άρθρο από το DeepSeek, με τίτλο DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models.

Αυτό το άρθρο παρουσιάζει το DeepSeekMath 7B, το οποίο είναι προεκπαιδευμένο σε DeepSeek-Coder-Base-v1.5 7B με βάση μια συλλογή από 120 Β μάρκες που σχετίζονται με μαθηματικά, φυσική γλώσσα και δεδομένα κώδικα.

Το μοντέλο πέτυχε μια εκπληκτική βαθμολογία 51,7% σε μαθηματικά κριτήρια αναφοράς ανταγωνιστικού επιπέδου χωρίς να βασίζεται σε εξωτερικές εργαλειοθήκες και τεχνικές ψηφοφορίας, πλησιάζοντας το επίπεδο απόδοσης των Gemini-Ultra και GPT-4.

Η ικανότητα μαθηματικού συλλογισμού του DeepSeekMath 7B αποδίδεται σε δύο βασικούς παράγοντες: Πρώτον, μέσω ενός προσεκτικά σχεδιασμένο αγωγό επιλογής δεδομένων, τα υψηλής ποιότητας δεδομένα που σχετίζονται με τα μαθηματικά εξορύσσονται επαναληπτικά από δημόσια διαθέσιμα δεδομένα ιστού.

Δεύτερον, η βελτιστοποίηση σχετικής πολιτικής ομάδας (GRPO) είναι εισήχθη, η οποία είναι μια παραλλαγή της εγγύς βελτιστοποίησης πολιτικής (PPO) που μπορεί να βελτιώσει τη μαθηματική ικανότητα συλλογισμού ενώ βελτιστοποιεί τη χρήση μνήμης του PPO.

  1. Τα χαρακτηριστικά της μεθόδου συνοψίζονται ως εξής:Ένα υψηλής ποιότητας μαθηματικό προεκπαιδευτικό σώμα κατασκευάστηκε και χρησιμοποιήθηκε ένας προσεκτικά σχεδιασμένος αγωγός για την εξόρυξη μαθηματικών δεδομένων υψηλής ποιότητας από το Common Crawl.
  2. Ο αλγόριθμος GRPO προτάθηκε, το οποίο μειώνει τους πόρους που απαιτούνται για την εκπαίδευση και βελτιώνει τη μαθηματική συλλογιστική ικανότητα του μοντέλου. 3) Υπερσύγχρονη παράσταση ήταν επιτυγχάνεται σε πολλαπλά τεστ αναφοράς μαθηματικού συλλογισμού.

Επισκόπηση

Τίτλος: DeepSeekMath: Σπρώχνοντας τα όρια του μαθηματικού συλλογισμού σε μοντέλα ανοιχτής γλώσσας

URL: κάντε κλικ εδώ

Συγγραφείς: Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Xiao Bi, Haowei Zhang, Mingchuan Zhang, YK Li, Y. Wu, Daya Guo

Κώδικας: κάντε κλικ εδώ

Κίνητρο

Ο μαθηματικός συλλογισμός αποτελεί σημαντική πρόκληση για τα γλωσσικά μοντέλα λόγω της πολυπλοκότητας και της δομημένης φύσης των μαθηματικών. Τα πιο προηγμένα μοντέλα, όπως το GPT-4 και το Gemini-Ultra, είναι ισχυρά αλλά δεν είναι διαθέσιμα στο κοινό. Επομένως, υπάρχει σημαντικό περιθώριο βελτίωσης στην απόδοση του μοντέλα ανοιχτού κώδικα.

Πολυπλοκότητα και δομή: Ο μαθηματικός συλλογισμός αποτελεί σημαντική πρόκληση για τα γλωσσικά μοντέλα λόγω της πολυπλοκότητας και της δομημένης φύσης των μαθηματικών.

Δυνατότητα δημόσιων δεδομένων: Τα δημόσια διαθέσιμα δεδομένα ιστού ενδέχεται να περιέχουν πλούσιες μαθηματικές πληροφορίες που δεν έχουν ακόμη εξορυχθεί και αξιοποιηθεί.

Μέθοδοι

Συλλογή δεδομένων: Κατασκευάστηκε ένα σώμα DeepSeekMath με 120B διακριτικά συλλέγοντας υψηλής ποιότητας δεδομένα ιστού σχετικά με τα μαθηματικά από το Common Crawl μέσω ενός επαναληπτικού αγωγού.

Μοντέλο εκπαίδευσης: Το σώμα χρησιμοποιήθηκε για προ-εκπαίδευση πάνω από το DeepSeek-Coder-Base-v1.5 7B και εφαρμόστηκε ο αλγόριθμος βελτιστοποίησης μαθηματικών οδηγιών και βελτιστοποίησης σχετικής πολιτικής ομάδας (GRPO).

Αλγόριθμος GRPO: Το GRPO είναι ένας βελτιωμένος αλγόριθμος μάθησης ενίσχυσης που αφαιρεί το μοντέλο Critic στο PPO και εκτιμά τη βασική γραμμή από τη βαθμολογία της ομάδας, μειώνοντας έτσι σημαντικά τους πόρους εκπαίδευσης.

Αναλυτικές μέθοδοι και διαδικασίες:

Συλλογή και επεξεργασία δεδομένων:

Κατασκευάστε το DeepSeekMath Corpus: Χρησιμοποιώντας έναν ταξινομητή που βασίζεται σε fastText, εξάγετε 120Β μάρκες που σχετίζονται με μαθηματικά από το Common Crawl για να δημιουργήσετε ένα προεκπαιδευμένο σώμα μεγάλης κλίμακας, υψηλής ποιότητας, το DeepSeekMath Corpus.

Επαναληπτικό φιλτράρισμα δεδομένων: Χρησιμοποιείται επαναληπτική στρατηγική, χρησιμοποιώντας το OpenWebMath ως βασικά δεδομένα για την εκπαίδευση ενός αρχικού ταξινομητή και, στη συνέχεια, χρησιμοποιώντας αυτόν τον ταξινομητή για εξόρυξη πιο θετικών παραδειγμάτων από την Common Crawl, τα οποία σχολιάζονται χειροκίνητα για τη συνεχή βελτιστοποίηση της απόδοσης του ταξινομητή.

Πολυγλωσσικά χαρακτηριστικά: Το DeepSeekMath Corpus περιέχει πολύγλωσσα δεδομένα, το οποίο βελτιώνει την απόδοση του μοντέλου σε κινεζικά μαθηματικά σημεία αναφοράς.

Επεξεργασία απορρύπανσης: De-Η επεξεργασία της ρύπανσης πραγματοποιείται στα δεδομένα εκπαίδευσης για να αποφευχθεί η επικάλυψη με το σημείο αναφοράς δοκιμής.

Προεκπαίδευση:

Αρχικοποίηση μοντέλου βάσει κώδικα: Αρχικοποίηση με χρήση του DeepSeek-Coder-Base-v1.5 7B Το μοντέλο βρέθηκε να είναι πιο αποτελεσματικό από την αρχικοποίηση από ένα γενικό LLM.

Σύνθεση δεδομένων προεκπαίδευσης: 56% DeepSeekMath Corpus, 4% AlgebraicStack, 10% arXiv, 20% κωδικός Github, 10% Common Crawl δεδομένα φυσικής γλώσσας.

Παράμετροι προπόνησης: Χρησιμοποιείται ο βελτιστοποιητής AdamW, με ρυθμό εκμάθησης 4,2e-4, μέγεθος παρτίδας 10 εκατομμυρίων μάρκες και εκπαίδευση 500 Β.

Βελτιστοποίηση οδηγιών:

Κατασκευάστε ένα σύνολο δεδομένων λεπτομερούς ρύθμισης οδηγιών: Κατασκευάστε ένα σύνολο δεδομένων λεπτομερούς ρύθμισης μαθηματικών οδηγιών που περιέχει 776.000 δείγματα, καλύπτοντας μια ποικιλία μαθηματικών πεδίων και επιπέδων δυσκολίας, συμπεριλαμβανομένων των CoT, PoT και μορφών συμπερασμάτων ενσωματωμένων σε εργαλεία για την επίλυση βημάτων.

Παράμετροι προπόνησης: Μέγεθος παρτίδας 256, ρυθμός εκμάθησης 5e-5, προπόνηση για 500 βήματα.

Ενισχυτική μάθηση – Βελτιστοποίηση σχετικής πολιτικής ομάδας (GRPO):

Προτείνετε αλγόριθμο GRPO: Προτείνετε α Αλγόριθμος παραλλαγής PPO GRPO, ο οποίος αποφεύγει την ανάγκη για ένα μοντέλο Critic χρησιμοποιώντας βαθμολογίες κατά ομάδες για την εκτίμηση της βασικής γραμμής, μειώνοντας έτσι τους πόρους εκπαίδευσης.

Αντικειμενική λειτουργία: Το GRPO βελτιστοποιεί το μοντέλο πολιτικής μεγιστοποιώντας μια αντικειμενική συνάρτηση που λαμβάνει υπόψη το σχετικό πλεονέκτημα των εξόδων εντός της ομάδας και προσθέτει απευθείας την απόκλιση KL ως όρο τακτοποίησης.

Υπολογισμός πλεονεκτημάτων: Το GRPO υπολογίζει το πλεονέκτημα μέσω σχετικές ανταμοιβές εντός ομάδας, αποφεύγοντας τις συγκρίσεις μεταξύ ομάδων και καλύτερη συμμόρφωση με τη συγκριτική φύση του μοντέλου ανταμοιβής.

Υποστηρίζει τόσο το αποτέλεσμα όσο και την παρακολούθηση της διαδικασίας: GRPO μπορεί να υποστηρίξει τόσο τα αποτελέσματα όσο και την παρακολούθηση της διαδικασίας και να παρακολουθεί αποτελεσματικότερα την πολιτική παρέχοντας ανταμοιβές στο τέλος κάθε βήματος συμπερασμάτων.

Επαναληπτικό RL: Χρησιμοποιεί ένα επαναληπτική στρατηγική RL για να δημιουργήσετε ένα νέο σύνολο εκπαίδευσης με βάση τα αποτελέσματα δειγματοληψίας του μοντέλου πολιτικής, εκπαιδεύστε συνεχώς το παλιό μοντέλο ανταμοιβής και χρησιμοποιήστε το νέο μοντέλο ανταμοιβής για να ενημερώσετε το μοντέλο πολιτικής.

Στοιχεία προπόνησης: Χρησιμοποιεί τα προβλήματα μορφής CoT που σχετίζονται με το GSM8K και το MATH στα δεδομένα SFT, περίπου 144K προβλήματα.

Παράμετροι προπόνησης: Ο ρυθμός εκμάθησης του μοντέλου πολιτικής είναι 1e-6, ο συντελεστής KL είναι 0,04, δειγματοληπτούνται 64 έξοδοι για κάθε πρόβλημα, το μέγιστο μήκος είναι 1024 και το μέγεθος παρτίδας εκπαίδευσης είναι 1024.

Συμπέρασμα

Συμπέρασμα 1:Το DeepSeekMath 7B υπερτερεί όλων των μοντέλων ανοιχτού κώδικα όσον αφορά την ικανότητα μαθηματικών συλλογισμών. Στην ανταγωνιστική δοκιμή αναφοράς MATH, το DeepSeekMath 7B πέτυχε ακρίβεια 51,7%, η οποία είναι κοντά στο επίπεδο απόδοσης των Gemini-Ultra και GPT-4.

Συμπέρασμα 2:Τα καλά σχεδιασμένα δεδομένα προεκπαίδευσης και οι αλγόριθμοι GRPO είναι το κλειδί για την επιτυχία του μοντέλου. Ο συνδυασμός ενός υψηλής ποιότητας μαθηματικού σώματος και αλγορίθμων GRPO επιτρέπει στο μοντέλο να επιτύχει σημαντικά κέρδη απόδοσης σε εργασίες μαθηματικού συλλογισμού.

Συμπέρασμα 3:Η εκπαίδευση κώδικα βοηθά στη βελτίωση της ικανότητας μαθηματικού συλλογισμού. Η προσθήκη δεδομένων κώδικα στο στάδιο της προεκπαίδευσης μπορεί να βελτιώσει την ικανότητα του μοντέλου να επιλύει μαθηματικά προβλήματα, τόσο με όσο και χωρίς εργαλεία.

Συμπέρασμα 4: Περιορισμένη χρησιμότητα των δεδομένων arXiv: Σε αντίθεση με προηγούμενες πεποιθήσεις, τα δεδομένα του arXiv βρέθηκαν να βοηθούν περιορισμένα στη βελτίωση της μαθηματικής συλλογιστικής.

Περιορισμός

Οι δυνατότητες γεωμετρίας και απόδειξης είναι σχετικά αδύναμες: Αν και το DeepSeekMath υπερέχει στην ποσοτική συλλογιστική, οι δυνατότητές του στη γεωμετρία και την απόδειξη εξακολουθούν να είναι κατώτερες από τα μοντέλα κλειστού κώδικα. Αυτό μπορεί να οφείλεται στην προκατειλημμένη επιλογή δεδομένων στα στάδια προεκπαίδευσης και τελειοποίησης.

Αδυναμία σε μικρή χωρητικότητα δείγματος: Το DeepSeekMath είναι κατώτερο από το GPT-4 όσον αφορά την εκμάθηση μικρών δειγμάτων, κάτι που μπορεί να οφείλεται στον περιορισμό του μεγέθους του μοντέλου.

Απαιτούνται πιο αποτελεσματικές μέθοδοι ενισχυτικής μάθησης: Αν και οι μέθοδοι ενισχυτικής μάθησης που προτείνονται στο έγγραφο είναι αποτελεσματικές, υπάρχει ακόμα περιθώριο βελτίωσης, για παράδειγμα, πώς να χρησιμοποιήσετε πιο αποτελεσματικά την ανάδραση από το μοντέλο ανταμοιβής και πώς να αντιμετωπίσετε τα θορυβώδη σήματα ανταμοιβής.

Καθέκαστα

Ενισχυτική Εκμάθηση Εξερεύνηση και Ανάλυση

Επισκόπηση:

Εισαγωγή της βελτιστοποίησης σχετικής πολιτικής ομάδας (GRPO): Η εργασία προτείνει έναν νέο αλγόριθμο ενίσχυσης μάθησης, τον GRPO, ως παραλλαγή του Proximal Policy Optimization (PPO). Το κύριο χαρακτηριστικό του GRPO είναι ότι εγκαταλείπει το μοντέλο Critic που χρησιμοποιείται συνήθως στο PPO και εκτιμά τη βασική γραμμή μέσω των βαθμολογιών της ομάδας, μειώνοντας έτσι σημαντικά τους υπολογιστικούς πόρους που απαιτούνται για την εκπαίδευση.

Επίδειξη αποτελεσματικότητας GRPO: Η εργασία καταδεικνύει πειραματικά ότι το GRPO μπορεί βελτιώνει αποτελεσματικά την απόδοση των μοντέλων μικρορύθμισης εντολών, συμπεριλαμβανομένων μαθηματικών εργασιών εντός και εκτός τομέα.

Ενιαίο πλαίσιο για μεθόδους ενισχυτικής μάθησης: Η εργασία προτείνει ένα ενιαίο πλαίσιο για την κατανόηση διαφορετικών μεθόδων ενισχυτικής μάθησης, όπως π.χ Βελτιστοποίηση δειγματοληψίας απόρριψης (RFT), Βελτιστοποίηση άμεσης προτίμησης (DPO), PPO και GRPO. Το πλαίσιο αντιμετωπίζει αυτές τις μεθόδους ως άμεσες ή απλουστευμένες τεχνικές ενισχυτικής μάθησης.

Σε βάθος διερεύνηση των στοιχείων της ενισχυτικής μάθησης: Η εργασία διερευνά σε βάθος βασικά στοιχεία της ενισχυτικής μάθησης, όπως η διαδικτυακή εκπαίδευση και η εκπαίδευση εκτός σύνδεσης, η επίβλεψη αποτελεσμάτων και η επίβλεψη διαδικασιών, η ενιαία ενισχυτική μάθηση και η επαναληπτική ενισχυτική μάθηση, μέσα από λεπτομερή πειράματα, και συνοψίζει πιθανές κατευθύνσεις για τη βελτίωση της αποτελεσματικότητας της ενισχυτικής μάθησης.

Αλγόριθμος GRPO (Group Relative Policy Optimization).

Περιορισμοί του ΔΤΠ: Το PPO είναι ένας ευρέως χρησιμοποιούμενος αλγόριθμος ενίσχυσης εκμάθησης, αλλά απαιτεί εκπαίδευση και πρόσθετο μοντέλο κριτικής για την εκτίμηση της συνάρτησης αξίας, που επιβάλλει πρόσθετη υπολογιστική και μνήμη. Επιπλέον, στο σενάριο LLM, Η εκπαίδευση κριτικών μοντέλων μπορεί να είναι περίπλοκη γιατί απαιτεί αξιολόγηση την έξοδο κάθε διακριτικού.

Βασική ιδέα του GRPO: Η βασική ιδέα του GRPO είναι να εγκαταλείψτε το μοντέλο Critic και αντ' αυτού χρησιμοποιήστε τη μέση βαθμολογία ενός συνόλου εξόδων για το ίδιο πρόβλημα ως γραμμή βάσης. Αυτή η γραμμή βάσης μπορεί να χρησιμοποιηθεί για την εκτίμηση της συνάρτησης πλεονεκτήματος και για τη βελτιστοποίηση της πολιτικής. Αυτή η προσέγγιση μειώνει σημαντικά την πολυπλοκότητα της εκπαίδευσης.

Υπολογισμός συνάρτησης πλεονεκτήματος: Το GRPO υπολογίζει τη συνάρτηση πλεονεκτήματος κατά υπολογισμός της σχετικής κατάταξης κάθε εξόδου στο ίδιο σύνολο εξόδων, αντί να βασίζεται σε μια ξεχωριστή συνάρτηση τιμής όπως στο PPO.

Ποινή απόκλισης KL: GRPO δεν προσθέτει ποινή απόκλισης KL στην ανταμοιβή όπως το PPO, αλλά προσθέτει την απόκλιση KL μεταξύ του μοντέλου πολιτικής και του μοντέλου αναφοράς απευθείας στη συνάρτηση απώλειας. Αυτό αποφεύγει τον υπολογισμό της συνάρτησης σύνθετου πλεονεκτήματος.

Η βασική ιδέα του GRPO

δεν απαιτεί Critic (συνάρτηση τιμής): Το GRPO αποφεύγει την ανάγκη για συνάρτηση τιμής και χρησιμοποιεί τη βαθμολογία εντός της ομάδας για να εκτιμήσει τη βασική γραμμή, μειώνοντας έτσι τους πόρους κατάρτισης.

Ενδοομιλικό σχετικό πλεονέκτημα: Για κάθε πρόβλημα q, το GRPO λαμβάνει δείγματα από ένα σύνολο εξόδων {o(1), o(2), …, o(G)} από την παλιά πολιτική π(θold) και στη συνέχεια βελτιστοποιεί το μοντέλο πολιτικής μεγιστοποιώντας την ακόλουθη εξίσωση ως αντικειμενική συνάρτηση.

Ειδικά:

Το κλειδί εδώ είναι το Â(i,t), το οποίο αντιπροσωπεύει το πλεονέκτημα και υπολογίζεται από το σχετική ανταμοιβή της παραγωγής εντός της ομάδας, αντί να βασίζεστε σε μια ξεχωριστή συνάρτηση τιμής όπως στο PPO.

Η αντικειμενική συνάρτηση προσθέτει επίσης άμεσα Η απόκλιση KL ως όρος τακτοποίησης για τον έλεγχο του μεγέθους του ενημερώσεις πολιτικής

και ευθυγραμμίζονται με τη φύση σύγκρισης του μοντέλου ανταμοιβής: Το GRPO χρησιμοποιεί τη σχετική ενδοομαδική ανταμοιβή για να υπολογίσει το πλεονέκτημα, το οποίο είναι πιο συνεπές με τη φύση του μοντέλου ανταμοιβής, το οποίο συνήθως εκπαιδεύεται με βάση τη σύγκριση κατά ζεύγη.

Πώς μπορεί να σχεδιαστεί το μοντέλο επιβράβευσης του GRPO (ανατρέξτε στο DeepSeek R1);

Χαρακτηριστικά:

μορφή ανταμοιβής: αναγκάζει τη γενιά των μακρών κρεβατάκι αποτελέσματα, τα οποία μπορούν να ωθήσουν το μοντέλο να δημιουργήσει διαδικασίες συμπερασμάτων και να βελτιώσει το αποτέλεσμα συμπερασμάτων του μοντέλου.

ανταμοιβή ακρίβειας: Τα μαθηματικά μπορούν να χρησιμοποιήσουν το τελικό αποτέλεσμα και ο κώδικας μπορεί να χρησιμοποιήσει ανατροφοδότηση μεταγλωττιστή.

Πλεονεκτήματα του GRPO

Λιγότερο αποτύπωμα μνήμης: δεν απαιτείται μοντέλο Critic, μειώνοντας τις απαιτήσεις μνήμης.

Πιο αποτελεσματική εκπαίδευση: Ο υπολογισμός με χρήση ενδο-ομαδικού σχετικού πλεονεκτήματος απλοποιεί τη διαδικασία εκπαίδευσης.

Πιο συμβατό με τη φύση των μοντέλων ανταμοιβής: βελτιώνει τη σταθερότητα και την αποτελεσματικότητα της προπόνησης.

RL Περίληψη Ενοποιημένου Παραδείγματος

Προτεινόμενο Ενιαίο Παράδειγμα

Οι συγγραφείς προτείνουν ένα ενιαίο παράδειγμα για την κατανόηση διαφορετικών μεθόδων εκπαίδευσης όπως SFT (Supervised Fine-tuning), RFT (Rejection Sampling Fine-tuning), DPO (Direct Preference Optimization), PPO, GRPO κ.λπ. Βασικά στοιχεία RL: Τα βασικά στοιχεία του ενοποιημένου πλαισίου περιλαμβάνουν: πηγές δεδομένων, συναρτήσεις ανταμοιβής και αλγόριθμους.

  • Πηγή δεδομένων: Αυτό αναφέρεται στα δεδομένα που χρησιμοποιούνται για την εκπαίδευση, τα οποία μπορούν να προέρχονται από χειροκίνητη επισήμανση, μοντέλα SFT ή μοντέλα πολιτικής σε πραγματικό χρόνο.
  • Λειτουργία επιβράβευσης: Αυτό αναφέρεται στη συνάρτηση που χρησιμοποιείται για την αξιολόγηση της ποιότητας της παραγωγής, η οποία μπορεί να είναι ένας κανόνας ή ένα μοντέλο.
  • Αλγόριθμος: Αυτό αναφέρεται στη μέθοδο που χρησιμοποιείται για την επεξεργασία των δεδομένων και του σήματος ανταμοιβής και την ενημέρωση των παραμέτρων του μοντέλου.

Ανάλυση διαφορετικών μεθόδων με βάση ένα ενιαίο παράδειγμα

Ο Πίνακας 10 συνοψίζει τις ομοιότητες και τις διαφορές μεταξύ SFT, RFT, DPO, Online RFT, PPO και GRPO όσον αφορά τις πηγές δεδομένων, τις συναρτήσεις ανταμοιβής και τους συντελεστές κλίσης.

ΜέθοδοςΔεδομένα προπόνησηςΛειτουργία επιβράβευσηςΣυντελεστής κλίσηςΜέθοδος εκπαίδευσηςΠλεονεκτήματα/χαρακτηριστικάΙσχύοντα σενάρια
SFTΔεδομένα SFT με μη αυτόματο τρόποΜη αυτόματη επιλογή (σιωπηρή ανταμοιβή)Διορθώθηκε στο 1Επίβλεψη μάθησηςΑπλό και σταθερό, εξαρτώμενο από δεδομένα υψηλής ποιότητας με ετικέταΕκπαίδευση βασικού μοντέλου, εργασία αρχικής ευθυγράμμισης
RFTΠρόβλημα συνόλου δεδομένων SFT + Έξοδος δείγματος μοντέλου SFTΜε βάση την ορθότητα της απάντησης (κρίση κανόνα)0 (λάθος) ή 1 (σωστό)Βελτιστοποίηση πολιτικής εκτός σύνδεσηςΑποτελεσματικός υπολογισμός, άμεση χρήση ανατροφοδότησης κανόνωνΜαθηματικές/λογικές εργασίες με σαφείς κανόνες
DPOΠρόβλημα συνόλου δεδομένων SFT + μοντέλο εξόδου σεΕπισήμανση ανθρώπινων προτιμήσεων ή σύγκριση κανόνωνΜε βάση τον υπολογισμό της πιθανότητας προτίμησης (π.χ. μοντέλο Bradley-Terry)Συγκριτική μάθησηΑποφεύγει τη ρητή μοντελοποίηση ανταμοιβής, βελτιστοποιώντας άμεσα τις προτιμήσειςΕργασίες ευθυγράμμισης ανθρώπινων προτιμήσεων (π.χ. δημιουργία διαλόγου)
Online RFTΔειγματοληψία μοντέλων πολιτικής σε πραγματικό χρόνο ζεύγη προβλήματος-εξόδουΜε βάση την ορθότητα της απάντησης (κρίση κανόνα)0 (λάθος) ή 1 (σωστό)Διαδικτυακή βελτιστοποίηση πολιτικήςΕνημερώνει δυναμικά τις πολιτικές με βελτιστοποίηση ανάδρασης σε πραγματικό χρόνοΣενάρια που απαιτούν διαδικτυακή αλληλεπίδραση (π.χ. παιχνίδι AI)
ΔΤΠΠρόβλημα συνόλου δεδομένων SFT + δειγματοληψία μοντέλου πολιτικήςΕκπαιδεύτηκε το μοντέλο ανταμοιβής (RM).Συνάρτηση κυριαρχίας (με βάση την εκτίμηση ανταμοιβής)Μέθοδος κλίσης πολιτικήςΑποτελεσματικό και σταθερό, υποστηρίζει βελτιστοποίηση πολλαπλών βημάτωνΠολύπλοκες εργασίες (π.χ. δημιουργία κειμένου, έλεγχος ρομπότ)
GRPOΠρόβλημα δεδομένων SFT + Έξοδος δειγματοληψίας μοντέλου πολιτικήςΕκπαιδεύτηκε το μοντέλο ανταμοιβής (RM).Σχετική ανταμοιβή εντός της ομάδας (κανονικοποιημένη σύγκριση)Βελτιστοποίηση πολιτικής ομάδαςΜειώστε τη διακύμανση ανταμοιβής και βελτιώστε τη σύγκριση εντός της ομάδαςΕργασίες με υψηλή διακύμανση (π.χ. δημιουργία μεγάλου κειμένου)

Παρατηρήσεις σε πηγές δεδομένων

Online εναντίον offline εκπαίδευση: Η διαδικτυακή εκπαίδευση αναφέρεται στη χρήση της εξόδου του μοντέλου πολιτικής σε πραγματικό χρόνο ως δεδομένων εκπαίδευσης, ενώ η εκπαίδευση εκτός σύνδεσης αναφέρεται στη χρήση της εξόδου ενός σταθερού μοντέλου (όπως το μοντέλο SFT) ως δεδομένων εκπαίδευσης. Τα πειραματικά αποτελέσματα δείχνουν ότι Η online εκπαίδευση είναι γενικά καλύτερη από την εκπαίδευση εκτός σύνδεσης.

Επίβλεψη αποτελέσματος έναντι εποπτείας διαδικασίας: Η εποπτεία του αποτελέσματος αναφέρεται μόνο στην επιβράβευση του τελευταίου σταδίου του αποτελέσματος, ενώ η εποπτεία της διαδικασίας αναφέρεται στην επιβράβευση κάθε σταδίου της διαδικασίας συλλογιστικής. Τα πειραματικά αποτελέσματα δείχνουν ότι Η εποπτεία της διαδικασίας είναι πιο αποτελεσματική σε πολύπλοκες εργασίες.

Μονό επεισόδιο έναντι επαναληπτικής ενισχυτικής μάθησης: Η μάθηση ενίσχυσης ενός επεισοδίου αναφέρεται σε μια ενιαία βελτιστοποίηση στρατηγικής, ενώ η επαναληπτική μάθηση ενίσχυσης αναφέρεται στη συνεχή ενημέρωση του μοντέλου ανταμοιβής μετά από πολλαπλές βελτιστοποιήσεις στρατηγικής. Τα πειραματικά αποτελέσματα δείχνουν ότι Η επαναληπτική ενισχυτική μάθηση μπορεί να βελτιώσει σημαντικά την απόδοση, ειδικά στην πρώτη επανάληψη.

Παρατήρηση συντελεστών κλίσης

Βάσει κανόνων έναντι μοντέλου: Ο κανόνας αναφέρεται στον καθορισμό της ανταμοιβής με βάση την ορθότητα της απάντησης και το μοντέλο αναφέρεται στην εκπαίδευση ενός μοντέλου ανταμοιβής για να βαθμολογηθεί.

Διαφορά στους συντελεστές κλίσης: Η βασική διαφορά μεταξύ GRPO και Το διαδικτυακό RFT είναι ότι το GRPO προσαρμόζει τους συντελεστές κλίσης με βάση τις τιμές ανταμοιβής που παρέχονται από το μοντέλο ανταμοιβής, ενώ το Online RFT όχι.

Πλεονεκτήματα GRPO: Τα πειράματα το δείχνουν Το GRPO είναι ανώτερο από το Online RFT, αποδεικνύοντας την αποτελεσματικότητα της αλλαγής του πρόσημου των συντελεστών κλίσης. Το GRPO+PS είναι ανώτερο από το GRPO+OS, αποδεικνύοντας τα πλεονεκτήματα της χρήσης λεπτών συντελεστών κλίσης.

Αποτελεσματικότητα RL και οδηγίες για βελτίωση

Γιατί είναι αποτελεσματικό το RL;

Πειραματικά αποτελέσματα: Το RL βελτιώνει την απόδοση Maj@K αλλά όχι το Pass@K.

Εξήγηση: Το RL βελτιώνει τη συνολική απόδοση του μοντέλου κάνοντας την κατανομή εξόδου πιο εύρωστη, δηλαδή, βελτιώνει την πιθανότητα σωστών απαντήσεων στο TopK, αντί να ενισχύει την υποκείμενη ικανότητα του μοντέλου.

Πώς μπορεί να επιτευχθεί πιο αποτελεσματική RL;

Με βάση το ενοποιημένο παράδειγμα, οι συγγραφείς προτείνουν μελλοντικές κατευθύνσεις για τη βελτίωση της RL σε τρεις πτυχές: πηγές δεδομένων, αλγόριθμοι και συναρτήσεις ανταμοιβής.

  • Πηγές δεδομένων:
    • Εξερευνήστε ζητήματα πέρα από το στάδιο SFT.
    • Χρησιμοποιήστε πιο προηγμένες στρατηγικές δειγματοληψίας (αποκωδικοποίησης), όπως μεθόδους που βασίζονται σε δενδρική αναζήτηση.
    • Χρησιμοποιήστε αποτελεσματικές τεχνικές συμπερασμάτων για να βελτιώσετε την αποτελεσματικότητα εξερεύνησης του μοντέλου πολιτικής.
  • Αλγόριθμος:
    • Εξερευνήστε αλγόριθμους ενίσχυσης εκμάθησης που είναι πιο ανθεκτικοί σε θορυβώδη σήματα ανταμοιβής.
    • Μελετήστε μεθόδους ευθυγράμμισης τύπου ΑΔΥΝΑΤΟ-ΠΡΟΣ ΔΥΝΑΤΟ.
  • Λειτουργία επιβράβευσης:
    • Βελτιώστε την ικανότητα γενίκευσης του μοντέλου ανταμοιβής για τη διαχείριση προβλημάτων εκτός διανομής και προηγμένων αποκωδικοποιημένων εξόδων.
    • Αντικατοπτρίστε την αβεβαιότητα του μοντέλου ανταμοιβής και χρησιμοποιήστε το ως γέφυρα για να συνδέσετε αδύναμα μοντέλα ανταμοιβής και αλγόριθμους μάθησης ΑΔΥΝΑΜΕΝΑ ΕΩΣ ΔΥΝΑΤΟ.
    • Κατασκευάστε αποτελεσματικά μοντέλα επιβράβευσης διεργασιών υψηλής ποιότητας για την παροχή λεπτομερών σημάτων εκπαίδευσης για τη διαδικασία συμπερασμάτων.

Περίληψη

Το DeepSeekMath έχει βελτιώσει σημαντικά την ικανότητα των μοντέλων γλώσσας ανοιχτού κώδικα στη μαθηματική συλλογιστική, κατασκευάζοντας ένα μαθηματικό σώμα μεγάλης κλίμακας και προτείνοντας έναν νέο αλγόριθμο ενισχυτικής μάθησης. Τα κυριότερα σημεία αυτής της εργασίας είναι

  • την κατασκευή και την επικύρωση του DeepSeekMath Corpus, ενός μεγάλης κλίμακας, υψηλής ποιότητας, πολύγλωσσου μαθηματικού σώματος.
  • Ένας αποτελεσματικός αλγόριθμος μάθησης ενίσχυσης, ο GRPO, προτείνεται για τη μείωση της χρήσης μνήμης βελτιώνοντας παράλληλα τη μαθηματική ικανότητα συλλογισμού του μοντέλου.
  • Ο αντίκτυπος της εκπαίδευσης κώδικα στην ικανότητα μαθηματικού συλλογισμού συζητείται σε βάθος και διαπιστώθηκε ότι τα δεδομένα arXiv έχουν περιορισμένη επίδραση. Η τιμή του DeepSeekMath:
  • Παρέχει στην κοινότητα ανοιχτού κώδικα ένα ισχυρό μοντέλο μαθηματικού συλλογισμού και προωθεί την ανάπτυξη μαθηματικού AI.
  • Παρέχει πολύτιμη εμπειρία και μεθόδους για τη δημιουργία μαθηματικών σωμάτων και την εκπαίδευση μαθηματικών μοντέλων συλλογισμού.
  • Ο προτεινόμενος αλγόριθμος GRPO παρέχει νέες ιδέες για εκπαίδευση ενισχυτικής μάθησης σε άλλους τομείς.

Παρόμοιες θέσεις

Αφήστε μια απάντηση

Η ηλ. διεύθυνση σας δεν δημοσιεύεται. Τα υποχρεωτικά πεδία σημειώνονται με *