論文-DeepSeek-R1:透過強化學習激勵法學碩士中的推理能力

摘要 本文介紹了DeepSeek的第一代推理模型:DeepSeek-R1-Zero和DeepSeek-R1。 DeepSeek-R1-Zero 透過大規模強化學習(RL)訓練,無需監督微調(SFT),展現出卓越的推理能力。透過 RL,它自然而然地發展出強大的推理行為。但它面臨可讀性差、語言混合等挑戰。為了解決這些問題並提高推理性能,我們開發了DeepSeek-R1,…