Тајната зад DeepSeek 1 | Детали за DeepSeekMath и GRPO
Денес би сакал да споделам статија од DeepSeek, насловена како DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. Оваа статија го воведува DeepSeekMath 7B, кој е претходно обучен на DeepSeek-Coder-Base-v1.5 7B врз основа на колекција од 120B математички токени, природен јазик и податоци за кодови. Моделот постигна неверојатен резултат од 51,7% на конкурентно ниво…