Paper-DeepSeek-R1: Insentif Keupayaan Penaakulan dalam LLM melalui Pembelajaran Pengukuhan
Abstrak Kertas kerja ini memperkenalkan model penaakulan generasi pertama DeepSeek: DeepSeek-R1-Zero dan DeepSeek-R1. DeepSeek-R1-Zero, dilatih melalui pembelajaran tetulang berskala besar (RL) tanpa penyeliaan penalaan halus (SFT), menunjukkan keupayaan penaakulan yang luar biasa. Melalui RL, ia secara semula jadi membangunkan tingkah laku penaakulan yang kuat. Walau bagaimanapun, ia menghadapi cabaran seperti kebolehbacaan yang lemah dan percampuran bahasa. Untuk menangani isu ini dan meningkatkan prestasi penaakulan, DeepSeek-R1 telah dibangunkan,…