Το μοντέλο συμπερασμάτων 32B χρησιμοποιεί μόνο το 1/8 των δεδομένων και συνδέεται με DeepSeek-R1 ίδιου μεγέθους!
Μόλις τώρα, ιδρύματα όπως το Stanford, το UC Berkeley και το Πανεπιστήμιο της Ουάσιγκτον κυκλοφόρησαν από κοινού ένα μοντέλο συμπερασμάτων σε επίπεδο SOTA. OpenThinker-32B, και έχουν επίσης δεδομένα εκπαίδευσης ανοιχτού κώδικα έως 114k.

Αρχική σελίδα του OpenThinker Project:
OpenThinker Αγκαλιασμένο Πρόσωπο:
Ανοιχτό σύνολο δεδομένων σκέψεων:
Ανακάλυψη ομάδας: Χρησιμοποιώντας ένα σύνολο δεδομένων μεγάλης κλίμακας υψηλής ποιότητας με επαληθευμένους σχολιασμούς DeepSeek-R1 (με βάση την απόσταξη R1), μπορεί να εκπαιδευτεί ένα μοντέλο συμπερασμάτων SOTA.
Η συγκεκριμένη μέθοδος είναι η κλιμάκωση των δεδομένων, η επαλήθευση της διαδικασίας συμπερασμάτων και η κλίμακα του μοντέλου.
Το OpenThinker-32B που προέκυψε ξεπέρασε τα μοντέλα s1 και s1.1 του Li Fei-Fei σε πολλαπλές δοκιμές αναφοράς στα μαθηματικά, την κωδικοποίηση και την επιστήμη και ήταν κοντά στο R1-Distill-32B.
Αξίζει να αναφερθεί ότι σε σύγκριση με το R1-Distill-32B, το οποίο χρησιμοποίησε 800k δεδομένα (συμπεριλαμβανομένων 600k δειγμάτων συμπερασμάτων), το OpenThinker-32B χρησιμοποίησε μόνο 114k δεδομένα για να επιτύχει σχεδόν τα ίδια εξαιρετικά αποτελέσματα.

Επιπλέον, το OpenThinker-32 δημοσιοποίησε επίσης όλα τα βάρη μοντέλων, τα σύνολα δεδομένων, τον κώδικα δημιουργίας δεδομένων και τον κώδικα εκπαίδευσης!

Επιμέλεια δεδομένων
Οι ερευνητές εκπαίδευσαν το OpenThinker-32B χρησιμοποιώντας το ίδιο σύνολο δεδομένων OpenThoughts-114k όπως είχαν εκπαιδεύσει στο παρελθόν το OpenThinker-7B.
Χρησιμοποίησαν το μοντέλο DeepSeek-R1 για να συλλέξουν τις συλλογιστικές διαδικασίες και να απαντήσουν σε προσπάθειες για ένα προσεκτικά επιλεγμένο σύνολο 173.000 ερωτήσεων. Αυτά τα ακατέργαστα δεδομένα δημοσιεύτηκαν στη συνέχεια ως το σύνολο δεδομένων OpenThoughts-Unverified-173k.
Το τελευταίο βήμα στη διαδικασία είναι να φιλτράρετε τα αντίστοιχα δείγματα δεδομένων εάν η διαδικασία συλλογιστικής αποτύχει να περάσει την επαλήθευση.
Το παρακάτω σχήμα δείχνει οπτικά όλη τη διαδικασία.
Η ερευνητική ομάδα εισάγει πρώτα δεδομένα πηγής ή προτροπές ερωτήσεων, που μπορεί να προέρχονται από διαφορετικά πεδία και πλατφόρμες, όπως υποβολές BAAI/TACO, DeepMind, Python κ.λπ., καλύπτοντας διάφορες πτυχές όπως κώδικας, παζλ, επιστήμη και μαθηματικά.
Αυτές οι διαφορετικές είσοδοι μεταβιβάζονται στη συνέχεια στην κεντρική μονάδα επεξεργασίας, DeepSeek-R1, όπου τα δεδομένα αναλύονται και υποβάλλονται σε επεξεργασία. Οι ερωτήσεις χωρίζονται σε τρεις κατηγορίες: ερωτήσεις επιστήμης, μαθηματικά και παζλ και κώδικας.
Ορισμένα αποτελέσματα δεν απαιτούν επαλήθευση και μπορεί να είναι απλές αναλύσεις ή άμεσες εκροές. Για κάποιο περιεχόμενο που απαιτεί επαλήθευση σε βάθος, χρησιμοποιείται ένα μοντέλο μεγάλης γλώσσας (LLM) για να το κρίνουμε με τρόπο συγκρίσιμο με το GT (Ground Truth). Εάν είναι κώδικας, ο κώδικας εκτελείται και εκτελούνται δοκιμές μονάδας για να διασφαλιστεί η ορθότητα και η αποτελεσματικότητά του.
Τέλος, τα αποτελέσματα από διαφορετικές κατευθύνσεις μπορούν να συνδυαστούν για να δημιουργήσουν ανοιχτόμυαλη σκέψη και πιο ολοκληρωμένες λύσεις.

Η ερευνητική ομάδα έχει ενημερώσει το τελικό σύνολο δεδομένων OpenThoughts-114k με μια διαμόρφωση που ονομάζεται "μεταδεδομένα" που περιέχει ορισμένες πρόσθετες στήλες που χρησιμοποιούνται για τη δημιουργία του συνόλου δεδομένων:
- πρόβλημα
- επίγεια_αλήθεια_λύση
- test_cases (μόνο κωδικός)
- starter_code (μόνο κωδικός)
- DeepSeek_συλλογισμός
- DeepSeek_λύση
- πεδίο ορισμού
- πηγή
Αυτά τα πρόσθετα μεταδεδομένα θα διευκολύνουν τη χρήση αυτού του συνόλου δεδομένων σε νέα σενάρια, όπως φιλτράρισμα δεδομένων, εναλλαγή τομέα, έλεγχοι επαλήθευσης και αλλαγή του προτύπου της διαδικασίας συμπερασμάτων.
Αυτά τα πρόσθετα μεταδεδομένα θα διευκολύνουν τη χρήση αυτού του συνόλου δεδομένων και μπορεί να γίνει με μία μόνο γραμμή κώδικα, όπως φιλτράρισμα, αλλαγή τομέα, έλεγχος επαλήθευσης και αλλαγή του προτύπου παρακολούθησης συμπερασμάτων.
load_dataset("open-thoughts/OpenThoughts-114k", "metadata", split="train")
Η ερευνητική ομάδα λέει ότι ανυπομονεί να δει την κοινότητα να αξιοποιεί αυτές τις ερωτήσεις και τις τυπικές απαντήσεις για έρευνα σχετικά με την ενισχυτική μάθηση (RL) στο μοντέλο OpenThinker. Το DeepScaleR έχει ήδη αποδείξει ότι αυτή η προσέγγιση λειτουργεί ιδιαίτερα καλά σε μικρότερες κλίμακες.
Επαλήθευση
Για να φτάσει στο τελικό σύνολο δεδομένων OpenThoughts-114k, η ερευνητική ομάδα επαλήθευσε τις απαντήσεις και εξάλειψε τις εσφαλμένες απαντήσεις.
Όπως φαίνεται στον παρακάτω πίνακα, η διατήρηση συμπερασμάτων που δεν περνούν την επαλήθευση μπορεί να βλάψει την απόδοση, αν και το μη επαληθευμένο μοντέλο εξακολουθεί να έχει καλή απόδοση σε σύγκριση με τα άλλα μοντέλα συμπερασμάτων 32Β.
Ο ρόλος της επαλήθευσης είναι να διατηρεί την ποιότητα των σχολιασμών R1 διευρύνοντας παράλληλα την ποικιλομορφία και το μέγεθος του συνόλου προειδοποιήσεων εκπαίδευσης. Από την άλλη πλευρά, τα μη επαληθευμένα δεδομένα μπορούν να επεκταθούν πιο εύκολα και επομένως αξίζει να διερευνηθούν περαιτέρω.

Για προβλήματα κώδικα, ολοκληρώνουμε την επαλήθευση της διαδικασίας συμπερασμάτων επαληθεύοντας τις προσπάθειες απάντησης σε σχέση με υπάρχουσες περιπτώσεις δοκιμής.
Εμπνευσμένοι από τις προκλήσεις που αντιμετωπίζουμε κατά την εκτέλεση του κώδικα, εφαρμόσαμε ένα πλαίσιο εκτέλεσης κώδικα στο Curator που επιτρέπει στους χρήστες να εκτελούν κώδικα σε κλίμακα, με ασφάλεια και να τον επαληθεύουν με βάση την αναμενόμενη έξοδο.
Για μαθηματικά προβλήματα, η ερευνητική ομάδα χρησιμοποίησε έναν κριτή LLM (Large Language Model) για επαλήθευση, ο οποίος λαμβάνει τόσο την τυπική απάντηση όσο και την προσπάθεια λύσης DeepSeek-R1.
Διαπιστώθηκε ότι η χρήση του αξιολογητή LLM για τη δημιουργία δεδομένων αντί της πιο αυστηρής μηχανής ανάλυσης (Math-Verify) είχε ως αποτέλεσμα υψηλότερο αποτελεσματικό ρυθμό δεδομένων και επέτρεψε την εκπαίδευση μεταγενέστερων μοντέλων με καλύτερη απόδοση.

Εκπαίδευση
Η ερευνητική ομάδα χρησιμοποίησε το LLaMa-Factory για να τελειοποιήσει το Qwen2.5-32B-Instruct τρεις φορές στο σύνολο δεδομένων OpenThoughts-114k με μήκος περιβάλλοντος 16k. Μπορείτε να βρείτε την πλήρη διαμόρφωση εκπαίδευσης στο GitHub.
Το OpenThinker-32B εκπαιδεύτηκε για 90 ώρες χρησιμοποιώντας τέσσερις κόμβους 8xH100 P5 σε ένα σύμπλεγμα AWS SageMaker, για συνολικά 2.880 H100 ώρες.
Εν τω μεταξύ, το OpenThinker-32B-Unverified εκπαιδεύτηκε για 30 ώρες στον υπερυπολογιστή Leonardo χρησιμοποιώντας 96 κόμβους 4xA100 (64 GB ανά GPU), συγκεντρώνοντας 11.520 ώρες A100.
Εκτίμηση
Η ερευνητική ομάδα χρησιμοποίησε τη βιβλιοθήκη αξιολόγησης ανοιχτού κώδικα Evalchemy για να αξιολογήσει όλα τα μοντέλα.
Για τα AIME24 και AIME25, υπολόγισαν την ακρίβεια υπολογίζοντας τον μέσο όρο των αποτελεσμάτων πέντε εκτελέσεων. Η διαμόρφωση αξιολόγησης χρησιμοποίησε μια παράμετρο θερμοκρασίας 0,7, περιόρισε την απόκριση του μοντέλου σε 32.768 διακριτικά, δεν πρόσθεσε κανένα πρόσθετο σύστημα ή λέξεις προτροπής χρήστη και δεν χρησιμοποίησε ειδικές στρατηγικές αποκωδικοποίησης (όπως επιβολή προϋπολογισμού).
Όταν ξεκίνησε το έργο OpenThoughts, έθεσαν ως στόχο τη δημιουργία ενός μοντέλου ανοιχτών δεδομένων με απόδοση που θα μπορούσε να ταιριάζει με το DeepSeek-R1-Distill-Qwen-32B.
Τώρα αυτό το κενό έχει σχεδόν εξαλειφθεί.
Τέλος, η ερευνητική ομάδα είναι ενθουσιασμένη από την ταχεία πρόοδο που έχει σημειώσει η κοινότητα στη δημιουργία μοντέλων συμπερασμάτων ανοιχτών δεδομένων τις τελευταίες εβδομάδες και ανυπομονεί να συνεχίσει να προχωρά με βάση τις ιδέες του άλλου.
Η έκδοση ανοιχτού κώδικα του OpenThinker-32B καταδεικνύει ότι οι συνέργειες μεταξύ δεδομένων, επικύρωσης και μεγέθους μοντέλου είναι το κλειδί για τη βελτίωση των δυνατοτήτων εξαγωγής συμπερασμάτων.
Αυτό το αποτέλεσμα όχι μόνο προωθεί την ανάπτυξη μοντέλων συμπερασμάτων ανοιχτού κώδικα, αλλά παρέχει επίσης πολύτιμους πόρους και έμπνευση για ολόκληρη την κοινότητα της τεχνητής νοημοσύνης.