Siri ya DeepSeek 1 | DeepSeekMath na maelezo ya GRPO
Leo ningependa kushiriki makala kutoka DeepSeek, yenye mada DeepSeekMath: Kusukuma Mipaka ya Kutoa Sababu za Hisabati katika Miundo ya Lugha Huria. Makala haya yanatanguliza DeepSeekMath 7B, ambayo imefunzwa awali kuhusu DeepSeek-Coder-Base-v1.5 7B kulingana na mkusanyiko wa tokeni 120B zinazohusiana na hesabu, lugha asilia na data ya msimbo. Muundo huu ulipata alama ya kushangaza ya 51.7% katika kiwango cha ushindani…