Paper-DeepSeek-R1: Spodbujanje zmožnosti sklepanja v LLM-jih s krepitvenim učenjem
Povzetek Ta članek predstavlja modele sklepanja prve generacije DeepSeek: DeepSeek-R1-Zero in DeepSeek-R1. DeepSeek-R1-Zero, usposobljen z obsežnim okrepitvenim učenjem (RL) brez nadzorovane natančne nastavitve (SFT), dokazuje izjemne zmožnosti sklepanja. Skozi RL naravno razvija močna razmišljanja. Vendar pa se sooča z izzivi, kot sta slaba berljivost in mešanje jezikov. Za reševanje teh težav in izboljšanje zmogljivosti razmišljanja je bil razvit DeepSeek-R1,…