Paper-DeepSeek-R1: Κίνητρα για την ικανότητα συλλογισμού σε LLMs μέσω ενισχυτικής μάθησης
Περίληψη Το παρόν έγγραφο παρουσιάζει τα μοντέλα συλλογιστικής πρώτης γενιάς του DeepSeek: DeepSeek-R1-Zero και DeepSeek-R1. Το DeepSeek-R1-Zero, εκπαιδευμένο μέσω ενισχυτικής μάθησης (RL) μεγάλης κλίμακας χωρίς επιτηρούμενη λεπτομερή ρύθμιση (SFT), επιδεικνύει αξιοσημείωτες ικανότητες συλλογιστικής. Μέσω της RL, αναπτύσσει φυσικά ισχυρές συμπεριφορές συλλογισμού. Ωστόσο, αντιμετωπίζει προκλήσεις όπως η κακή αναγνωσιμότητα και η ανάμειξη της γλώσσας. Για την αντιμετώπιση αυτών των ζητημάτων και την ενίσχυση των επιδόσεων συλλογιστικής, αναπτύχθηκε το DeepSeek-R1,...