Nincs kategorizálva - Deepseek R1

Paper-DeepSeek-R1: Az érvelési képesség ösztönzése az LLM-ekben megerősítő tanulás segítségével

A általdeepseeker január 29, 2025január 29, 2025

Összefoglaló Ez a cikk bemutatja az DeepSeek első generációs érvelési modelljeit: DeepSeek-R1-Zero és DeepSeek-R1. Az DeepSeek-R1-Zero, amelyet nagyméretű megerősítő tanulással (RL), felügyelt finomhangolás (SFT) nélkül képeztek ki, figyelemre méltó következtetési képességeket mutat. Az RL révén természetesen erőteljes következtetési viselkedést fejleszt ki. Ugyanakkor olyan kihívásokkal kell szembenéznie, mint a gyenge olvashatóság és a nyelvi keveredés. Ezen problémák megoldására és a következtetési teljesítmény fokozására fejlesztették ki az DeepSeek-R1-et,...