Έκτακτα νέα! Ο ερευνητής του DeepSeek αποκαλύπτει διαδικτυακά: Η προπόνηση R1 διήρκεσε μόνο δύο έως τρεις εβδομάδες και μια ισχυρή εξέλιξη του μηδενικού R1 παρατηρήθηκε κατά τη διάρκεια των διακοπών της Κινεζικής Πρωτοχρονιάς
Μόλις τώρα, παρατηρήσαμε αυτόν τον ερευνητή DeepSeek Daya Guo απάντησε σε ερωτήσεις χρηστών του Διαδικτύου σχετικά με το DeepSeek R1 και τα μελλοντικά σχέδια της εταιρείας. Μπορούμε μόνο να πούμε ότι το DeepSeek R1 είναι μόνο η αρχή και η εσωτερική έρευνα εξακολουθεί να προχωρά με ταχείς ρυθμούς. Οι ερευνητές του DeepSeek δεν έκαναν ούτε ένα διάλειμμα κατά τη διάρκεια των διακοπών της Κινεζικής Πρωτοχρονιάς και εργάζονται ακούραστα για να προωθήσουν την έρευνα. Το DeepSeek έχει κάποιες μεγάλες κινήσεις που έρχονται
Ιδού το θέμα: Την 1η Φεβρουαρίου, ο Daya Guo δημοσίευσε ένα tweet αποκαλύπτοντας το πράγμα που τον ενθουσίασε περισσότερο κατά τη διάρκεια των διακοπών της Κινεζικής Πρωτοχρονιάς: μάρτυρας «Συνεχής ανάπτυξη» της καμπύλης απόδοσης του R1-μηδέν μοντέλο, και νιώθοντας το ισχυρή δύναμη του ενισχυτική μάθηση (RL)!
Η ερευνήτρια τεχνητής νοημοσύνης του Deepseek, Daya Guo, μιλά με χρήστες του Διαδικτύου
Θα σας βοηθήσω τώρα να αναπαράγετε τη συνομιλία του Daya Guo με χρήστες του Διαδικτύου:
Netizen A @PseudoProphet: «Μεγάλη βολή, θέλω να ρωτήσω πόσο θα διαρκέσει αυτή η συνεχής βελτίωση στην απόδοση. Είναι αυτό ακόμα στα αρχικά στάδια; Αισθάνεστε ότι το μοντέλο RL του DeepSeek μόλις ξεκινά, όπως το GPT-2 στα γλωσσικά μοντέλα; Ή μήπως έχει φτάσει σε ένα πιο ώριμο στάδιο όπως το GPT-3.5, και πρόκειται να χτυπήσει ένα σημείο συμφόρησης;».
Αυτή είναι μια πολύ έντονη ερώτηση, η οποία σχετίζεται άμεσα με τις δυνατότητες της τεχνολογίας RL του DeepSeek! Η απάντηση του Daya Guo είναι επίσης πολύ ειλικρινής:
Daya Guo: «Νομίζω ότι είμαστε ακόμα σε πολύ πρώιμο στάδιο, και υπάρχει ακόμη πολύς δρόμος στον τομέα του RL. Αλλά πιστεύω ότι θα δούμε σημαντική πρόοδο φέτος».
Επισημάνετε τα βασικά σημεία! “Πολύ νωρίς”, “Μακρύς δρόμος για εξερεύνηση”, «Σημαντική πρόοδος φέτος»! Αυτές οι λέξεις-κλειδιά είναι γεμάτες πληροφορίες. Αυτό σημαίνει ότι η DeepSeek πιστεύει ότι έχουν ακόμη πολλά περιθώρια βελτίωσης στον τομέα του RL και τα τρέχοντα αποτελέσματα του R1 μπορεί να είναι απλώς η κορυφή του παγόβουνου, οπότε το μέλλον είναι πολλά υποσχόμενο!
Αμέσως μετά, ένας άλλος διαδικτυακός χρήστης @kaush_trip (Cheeku Tripathi) έκανε μια πιο επαγγελματική ερώτηση που πηγαίνει κατευθείαν στην καρδιά των δυνατοτήτων του μοντέλου:
Χρήστης Β @kaush_trip: «Με βάση την απόδοση του R1-Zero, πώς αξιολογείτε εάν το μοντέλο έχει πραγματικά ικανότητα γενίκευσης, ή αν είναι απλώς απομνημονεύει τις μεταβάσεις και τις ανταμοιβές καταστάσεων;"
Αυτή η ερώτηση είναι πολύ επίκαιρη! Σε τελική ανάλυση, πολλά μοντέλα φαίνονται πολύ ισχυρά, αλλά στην πραγματικότητα απλώς «εκπαιδεύονται κατά λέξη» από τα δεδομένα εκπαίδευσης και θα αποτύχουν σε ένα διαφορετικό περιβάλλον. Είναι το DeepSeek R1 πραγματικά έτοιμο;
Daya Guo: «Χρησιμοποιούμε ένα σημείο αναφοράς για τομείς που δεν καλύπτονται από την προτροπή RL για να αξιολογήσουμε την ικανότητα γενίκευσης. Προς το παρόν, φαίνεται να έχει ικανότητα γενίκευσης».
Η φράση "περιοχές που δεν καλύπτονται από την προτροπή RL" είναι το κλειδί! Αυτό σημαίνει ότι το DeepSeek δεν «απατάει» την αξιολόγηση με δεδομένα εκπαίδευσης, αλλά δοκιμάζεται με νέα σενάρια ότι το μοντέλο δεν έχει δει ποτέ πριν, το οποίο μπορεί πραγματικά να αντικατοπτρίζει το επίπεδο γενίκευσης του μοντέλου. Η χρήση της αυστηρής διατύπωσης «φαίνεται να έχει» από τον Daya Guo το καθιστά επίσης πιο ρεαλιστικό και αξιόπιστο
Στη συνέχεια, ένας δικτυακός χρήστης με το ID @teortaxesTex, μεγάλος θαυμαστής του DeepSeek (το σχόλιό του περιελάμβανε ακόμη και τις λέξεις "DeepSeek whale Cheerleading team"), ξεκίνησε με την τεχνική έκθεση DeepSeek V3 και έκανε μια ερώτηση σχετικά με μοντέλο χρόνου εκπαίδευσης:
Χρήστης C @teortaxesTex: «Αν δεν είναι μυστικό: πόσο καιρό κράτησε η εκπαίδευση του RL αυτή τη φορά; Φαίνεται ότι είχατε ήδη το R1 ή τουλάχιστον το R1-Zero ήδη από τις 10 Δεκεμβρίου, επειδή η τεχνική αναφορά του V3 αναφέρει ότι το μοντέλο V2.5 χρησιμοποιούσε απόσταξη γνώσεων R1 και η βαθμολογία V2.5-1210 είναι η ίδια με την τρέχον μοντέλο. Είναι αυτή η συνέχεια αυτής της εκπαίδευσης;»
Αυτός ο διαδικτυακός χρήστης έχει εκπληκτικές δυνάμεις παρατήρησης! Μπόρεσε να αποσπάσει τόσες πολλές λεπτομέρειες από την τεχνική έκθεση. Η Daya Guo εξήγησε επίσης υπομονετικά την επαναληπτική διαδικασία του μοντέλου:
Daya Guo: «Οι παράμετροι R1-Zero και R1 του 660B άρχισαν να τρέχουν μόνο μετά την κυκλοφορία του V3 και η εκπαίδευση διήρκεσε περίπου 2-3 εβδομάδες. Το μοντέλο R1 που αναφέραμε προηγουμένως (όπως στην τεχνική αναφορά του V3) είναι στην πραγματικότητα R1-Lite ή R1-Lite-Zero."
Αυτό είναι λοιπόν! Τα R1-Zero και R1 που βλέπουμε τώρα είναι "νέες και αναβαθμισμένες εκδόσεις" και οι προηγούμενες σειρές R1-Lite είναι δευτερεύουσες εκδόσεις. Φαίνεται ότι το DeepSeek έχει επαναλάβει και αναβαθμίσει αθόρυβα πολλές εκδόσεις στα παρασκήνια
Όσον αφορά την ταχύτητα προπόνησης, οι χρήστες του Διαδικτύου @jiayi_pirate (Jiayi Pan) και ο διαδικτυακός χρήστης B @kaush_trip έχουν μεταδώσει μια «ανάκριση ψυχής»:
Χρήστης D @jiayi_pirate: "10.000 βήματα RL σε 3 εβδομάδες, κάθε βήμα διάδοσης κλίσης (grpo) διαρκεί ~3 λεπτά 🤔"
Χρήστης Β @kaush_trip: «Αν κάθε βήμα διάδοσης με κλίση (grpo) διαρκεί ~3 λεπτά, αυτό είναι περίπου 5 βήματα την ώρα, 120 βήματα την ημέρα, πράγμα που είναι πράγματι πολύ αργό».
Αυτός είναι ένας πραγματικά σχολαστικός υπολογισμός! Σύμφωνα με τον υπολογισμό του netizen, η ταχύτητα εκπαίδευσης του DeepSeek R1 δεν είναι πράγματι γρήγορη. Αυτό δείχνει επίσης ότι το κόστος εκπαίδευσης και η επένδυση χρόνου ενός τέτοιου μοντέλου RL υψηλής απόδοσης είναι τεράστια. «Η αργή εργασία παράγει καλή δουλειά» φαίνεται να είναι ένας αρκετά κατάλληλος τρόπος για να περιγράψουμε την εκπαίδευση μοντέλων AI
Τέλος, ένας διαδικτυακός χρήστης με το όνομα @davikrehalt (Andy Jiang) έκανε μια ερώτηση από μια πιο προηγμένη οπτική γωνία εφαρμογής:
Χρήστης E @davikrehalt: «Δοκιμάσατε να χρησιμοποιήσετε το RL για να το κάνετε επίσημη απόδειξη του περιβάλλοντος, αντί να απαντάτε απλώς σε ερωτήσεις; Θα ήταν υπέροχο αν ένα μοντέλο ανοιχτού κώδικα μπορούσε να κερδίσει ένα χρυσό μετάλλιο στην IMO (Διεθνής Μαθηματική Ολυμπιάδα) φέτος! (Και περισσότερες ελπίδες!)»
Επίσημη απόδειξη! Χρυσό μετάλλιο του ΙΜΟ! Αυτός ο διαδικτυακός χρήστης είναι αρκετά φιλόδοξος! Ωστόσο, η εφαρμογή της τεχνητής νοημοσύνης στο σκληροπυρηνικό πεδίο της μαθηματικής απόδειξης είναι πράγματι η μελλοντική τάση. Η απάντηση του Daya Guo εκπλήσσει για άλλη μια φορά:
Daya Guo: «Προσπαθούμε επίσης να εφαρμόσουμε το R1 σε επίσημα περιβάλλοντα απόδειξης όπως το Lean. Ελπίζουμε να κυκλοφορήσουμε καλύτερα μοντέλα στην κοινότητα σύντομα.”
Από τα λόγια του Daya Guo φαίνεται ότι έχουν ήδη κάνει πρόοδο σε αυτόν τον τομέα και ίσως να κυκλοφορήσουν ακόμα πιο εντυπωσιακά μοντέλα στο μέλλον!
Κλείνοντας
Τρία βασικά σήματα μπορούν να αποσταχθούν από την απάντηση του Daya Guo:
Τεχνική τοποθέτηση: Το RL βρίσκεται ακόμη στα αρχικά του στάδια και οι βελτιώσεις απόδοσης απέχουν πολύ από το να φτάσουν τα όριά τους.
Λογική επαλήθευσης: ικανότητα γενίκευσης για δοκιμές μεταξύ τομέων, απόρριψη «εικασιών μνήμης
Όρια εφαρμογών: από τα γλωσσικά μοντέλα έως τις μαθηματικές αποδείξεις, το RL κινείται προς συλλογισμό υψηλής τάξης