Некатегоризирано

Paper-DeepSeek-R1: Поттикнување на способноста за расудување кај LLM преку учење за зајакнување

Од страна на1TP7 Тер 29 јануари 2025 година29 јануари 2025 година

Апстракт Овој труд ги воведува моделите за расудување од првата генерација на DeepSeek: DeepSeek-R1-Zero и DeepSeek-R1. DeepSeek-R1-Zero, обучен преку учење за засилување од големи размери (RL) без надгледувано фино подесување (SFT), покажува извонредни способности за расудување. Преку RL, природно развива моќни однесувања за расудување. Сепак, се соочува со предизвици како што се слаба читливост и мешање јазици. За да се решат овие проблеми и да се подобрат перформансите на расудувањето, развиен е DeepSeek-R1,…