Paper-DeepSeek-R1: Стимулиране на способността за разсъждаване в LLM чрез обучение с подсилване

Резюме Този документ представя първото поколение модели за разсъждение на DeepSeek: DeepSeek-R1-Zero и DeepSeek-R1. DeepSeek-R1-Zero, обучен чрез широкомащабно усилено обучение (RL) без контролирана фина настройка (SFT), демонстрира забележителни възможности за разсъждение. Чрез RL той естествено развива мощно поведение на разсъждаване. Въпреки това той е изправен пред предизвикателства като слаба четимост и смесване на езици. За да се решат тези проблеми и да се подобри ефективността на разсъжденията, беше разработен DeepSeek-R1,...