Περίληψη
Το παρόν έγγραφο παρουσιάζει τα μοντέλα συλλογιστικής πρώτης γενιάς του DeepSeek: DeepSeek-R1-Zero και DeepSeek-R1. Το DeepSeek-R1-Zero, εκπαιδευμένο μέσω ενισχυτικής μάθησης (RL) μεγάλης κλίμακας χωρίς επιτηρούμενη λεπτομερή ρύθμιση (SFT), επιδεικνύει αξιοσημείωτες ικανότητες συλλογιστικής. Μέσω της RL, αναπτύσσει με φυσικό τρόπο ισχυρές συμπεριφορές συλλογισμού. Ωστόσο, αντιμετωπίζει προκλήσεις όπως η κακή αναγνωσιμότητα και η ανάμειξη της γλώσσας. Για την αντιμετώπιση αυτών των ζητημάτων και την ενίσχυση της απόδοσης συλλογισμού, αναπτύχθηκε το DeepSeek-R1, ενσωματώνοντας εκπαίδευση πολλαπλών σταδίων και δεδομένα ψυχρής εκκίνησης πριν από την RL. Το DeepSeek-R1 επιτυγχάνει επιδόσεις συγκρίσιμες με το OpenAI-o1-1217 σε εργασίες συλλογιστικής. Για την υποστήριξη της έρευνας, το DeepSeek διαθέτει ανοικτή πηγή και για τα δύο μοντέλα και για έξι πυκνά μοντέλα (1.5B, 7B, 8B, 14B, 32B, 70B) που αποστάχθηκαν από το DeepSeek-R1 με βάση το Qwen και το Llama.
Βασικές συνεισφορές
Μετά την κατάρτιση: Ενισχυτική μάθηση μεγάλης κλίμακας
- Επιτυχής εφαρμογή RL απευθείας στο βασικό μοντέλο χωρίς SFT
- Ανάπτυξη του DeepSeek-R1-Zero, επιδεικνύοντας δυνατότητες όπως η αυτοεπαλήθευση και η αντανάκλαση
- Πρώτη ανοιχτή έρευνα που επικυρώνει ότι οι ικανότητες συλλογισμού μπορούν να δοθούν κίνητρα αποκλειστικά μέσω της RL
- Εισήγαγε αγωγό για το DeepSeek-R1 με δύο στάδια RL και δύο στάδια SFT
Απόσταξη: Ενδυνάμωση μικρότερων μοντέλων
- Απέδειξε ότι μοτίβα συλλογισμού από μεγαλύτερα μοντέλα μπορούν να αποσταχθούν αποτελεσματικά σε μικρότερα.
- Ανοικτή διάθεση του DeepSeek-R1 και του API του προς όφελος της ερευνητικής κοινότητας
- Λεπτομερής ρύθμιση αρκετών πυκνών μοντέλων με εξαιρετικές επιδόσεις συγκριτικής αξιολόγησης
- Τα αποσταγμένα μοντέλα υπερτερούν σημαντικά έναντι των προηγούμενων μοντέλων ανοικτού κώδικα
Αποτελέσματα αξιολόγησης
Εργασίες συλλογισμού
- Το DeepSeek-R1 επιτυγχάνει 79,8% Pass@1 στο AIME 2024, ξεπερνώντας το OpenAI-o1-1217
- 97,3% σκορ στο MATH-500, επίδοση στο ίδιο επίπεδο με το OpenAI-o1-1217
- Επίδοση σε επίπεδο εμπειρογνωμόνων σε εργασίες διαγωνισμού κώδικα με βαθμολογία Elo 2.029 στο Codeforces
Εργασίες γνώσης
- Εξαιρετικά αποτελέσματα στα MMLU (90,8%), MMLU-Pro (84,0%) και GPQA Diamond (71,5%)
- Ξεπερνά άλλα μοντέλα κλειστού κώδικα σε εκπαιδευτικά καθήκοντα
- Ισχυρές επιδόσεις σε πραγματικούς δείκτες αναφοράς όπως το SimpleQA
Γενικές δυνατότητες
- Αριστεύει στη δημιουργική γραφή, στην απάντηση ερωτήσεων, στην επεξεργασία και στη σύνοψη.
- 87.6% ποσοστό νίκης στο AlpacaEval 2.0 και 92.3% στο ArenaHard
- Ισχυρές επιδόσεις σε εργασίες κατανόησης μακροχρόνιων συμφραζομένων
Μελλοντικές εργασίες
Η ομάδα σκοπεύει να επικεντρωθεί σε:
- Βελτίωση των γενικών ικανοτήτων σε τομείς όπως η κλήση λειτουργιών και το σύνθετο παιχνίδι ρόλων
- Αντιμετώπιση ζητημάτων ανάμειξης γλωσσών
- Βελτίωση της μηχανικής προτροπής
- Βελτίωση των επιδόσεων σε εργασίες μηχανικής λογισμικού
Συμπέρασμα
Το DeepSeek-R1 αντιπροσωπεύει μια σημαντική πρόοδο στις δυνατότητες συλλογιστικής ΤΝ μέσω ενισχυτικής μάθησης. Η επιτυχία τόσο του κύριου μοντέλου όσο και των αποσταγμένων εκδόσεών του καταδεικνύει τις δυνατότητες αυτής της προσέγγισης για την ανάπτυξη πιο ικανών συστημάτων ΤΝ. Η έκδοση των μοντέλων αυτών με ανοικτό κώδικα θα συμβάλει στην περαιτέρω έρευνα και ανάπτυξη στον τομέα αυτό.