Paper-DeepSeek-R1: Стимулирование способности к рассуждению в LLM с помощью обучения с подкреплением

Аннотация В данной статье представлены модели рассуждений DeepSeek первого поколения: DeepSeek-R1-Zero и DeepSeek-R1. DeepSeek-R1-Zero, обученная с помощью крупномасштабного обучения с подкреплением (RL) без контролируемой тонкой настройки (SFT), демонстрирует замечательные способности к рассуждениям. Благодаря RL он естественным образом развивает мощное поведение рассуждения. Однако он сталкивается с такими проблемами, как плохая читаемость и смешение языков. Чтобы решить эти проблемы и повысить эффективность рассуждений, был разработан DeepSeek-R1,...