Streszczenie
Niniejszy dokument przedstawia modele rozumowania DeepSeek pierwszej generacji: DeepSeek-R1-Zero i DeepSeek-R1. DeepSeek-R1-Zero, wyszkolony poprzez wielkoskalowe uczenie ze wzmocnieniem (RL) bez nadzorowanego dostrajania (SFT), wykazuje niezwykłe możliwości rozumowania. Dzięki RL naturalnie rozwija potężne zachowania rozumowania. Napotyka jednak wyzwania, takie jak słaba czytelność i mieszanie języków. Aby rozwiązać te problemy i zwiększyć wydajność rozumowania, opracowano DeepSeek-R1, obejmujący wieloetapowe szkolenie i dane zimnego startu przed RL. DeepSeek-R1 osiąga wydajność porównywalną z OpenAI-o1-1217 w zadaniach rozumowania. Aby wesprzeć badania, DeepSeek udostępnia oba modele i sześć gęstych modeli (1.5B, 7B, 8B, 14B, 32B, 70B) wydestylowanych z DeepSeek-R1 w oparciu o Qwen i Llama.
Kluczowy wkład
Po treningu: Uczenie ze wzmocnieniem na dużą skalę
- Pomyślne zastosowanie RL bezpośrednio do modelu bazowego bez SFT
- Opracowano DeepSeek-R1-Zero, demonstrując możliwości takie jak autoweryfikacja i refleksja.
- Pierwsze otwarte badanie potwierdzające, że zdolności rozumowania mogą być motywowane wyłącznie przez RL
- Wprowadzono potok dla DeepSeek-R1 z dwoma stopniami RL i dwoma stopniami SFT
Destylacja: Wzmacnianie pozycji mniejszych modeli
- Wykazał, że wzorce rozumowania z większych modeli mogą być skutecznie destylowane do mniejszych.
- Open-sourcing DeepSeek-R1 i jego API z korzyścią dla społeczności badawczej
- Dopracowano kilka gęstych modeli wykazujących wyjątkową wydajność w testach porównawczych.
- Wyodrębnione modele znacznie przewyższają poprzednie modele open-source
Wyniki oceny
Zadania rozumowania
- DeepSeek-R1 osiąga 79,8% Pass@1 na AIME 2024, przewyższając OpenAI-o1-1217
- Wynik 97,3% w teście MATH-500, na równi z OpenAI-o1-1217
- Wydajność na poziomie eksperta w zadaniach konkursowych z oceną 2,029 Elo na Codeforces
Zadania związane z wiedzą
- Znakomite wyniki w testach MMLU (90,8%), MMLU-Pro (84,0%) i GPQA Diamond (71,5%).
- Przewyższa inne modele o zamkniętym kodzie źródłowym w zadaniach edukacyjnych
- Wysoka wydajność w testach porównawczych, takich jak SimpleQA
Ogólne możliwości
- Doskonale radzi sobie z kreatywnym pisaniem, odpowiadaniem na pytania, edytowaniem i podsumowywaniem.
- Współczynnik wygranych 87,6% w AlpacaEval 2.0 i 92,3% w ArenaHard.
- Wysoka wydajność w zadaniach wymagających rozumienia długiego kontekstu
Przyszłe prace
Zespół planuje skupić się na:
- Zwiększenie ogólnych możliwości w obszarach takich jak wywoływanie funkcji i złożone odgrywanie ról.
- Rozwiązywanie problemów związanych z mieszaniem języków
- Poprawa inżynierii podpowiedzi
- Zwiększanie wydajności w zadaniach inżynierii oprogramowania
Wnioski
DeepSeek-R1 stanowi znaczący postęp w możliwościach rozumowania AI poprzez uczenie ze wzmocnieniem. Sukces zarówno głównego modelu, jak i jego wydestylowanych wersji pokazuje potencjał tego podejścia do tworzenia bardziej wydajnych systemów sztucznej inteligencji. Udostępnienie tych modeli na zasadach open source przyczyni się do dalszych badań i rozwoju w tej dziedzinie.