Streszczenie

Niniejszy dokument przedstawia modele rozumowania DeepSeek pierwszej generacji: DeepSeek-R1-Zero i DeepSeek-R1. DeepSeek-R1-Zero, wyszkolony poprzez wielkoskalowe uczenie ze wzmocnieniem (RL) bez nadzorowanego dostrajania (SFT), wykazuje niezwykłe możliwości rozumowania. Dzięki RL naturalnie rozwija potężne zachowania rozumowania. Napotyka jednak wyzwania, takie jak słaba czytelność i mieszanie języków. Aby rozwiązać te problemy i zwiększyć wydajność rozumowania, opracowano DeepSeek-R1, obejmujący wieloetapowe szkolenie i dane zimnego startu przed RL. DeepSeek-R1 osiąga wydajność porównywalną z OpenAI-o1-1217 w zadaniach rozumowania. Aby wesprzeć badania, DeepSeek udostępnia oba modele i sześć gęstych modeli (1.5B, 7B, 8B, 14B, 32B, 70B) wydestylowanych z DeepSeek-R1 w oparciu o Qwen i Llama.

Kluczowy wkład

Po treningu: Uczenie ze wzmocnieniem na dużą skalę

  • Pomyślne zastosowanie RL bezpośrednio do modelu bazowego bez SFT
  • Opracowano DeepSeek-R1-Zero, demonstrując możliwości takie jak autoweryfikacja i refleksja.
  • Pierwsze otwarte badanie potwierdzające, że zdolności rozumowania mogą być motywowane wyłącznie przez RL
  • Wprowadzono potok dla DeepSeek-R1 z dwoma stopniami RL i dwoma stopniami SFT

Destylacja: Wzmacnianie pozycji mniejszych modeli

  • Wykazał, że wzorce rozumowania z większych modeli mogą być skutecznie destylowane do mniejszych.
  • Open-sourcing DeepSeek-R1 i jego API z korzyścią dla społeczności badawczej
  • Dopracowano kilka gęstych modeli wykazujących wyjątkową wydajność w testach porównawczych.
  • Wyodrębnione modele znacznie przewyższają poprzednie modele open-source

Wyniki oceny

Zadania rozumowania

  • DeepSeek-R1 osiąga 79,8% Pass@1 na AIME 2024, przewyższając OpenAI-o1-1217
  • Wynik 97,3% w teście MATH-500, na równi z OpenAI-o1-1217
  • Wydajność na poziomie eksperta w zadaniach konkursowych z oceną 2,029 Elo na Codeforces

Zadania związane z wiedzą

  • Znakomite wyniki w testach MMLU (90,8%), MMLU-Pro (84,0%) i GPQA Diamond (71,5%).
  • Przewyższa inne modele o zamkniętym kodzie źródłowym w zadaniach edukacyjnych
  • Wysoka wydajność w testach porównawczych, takich jak SimpleQA

Ogólne możliwości

  • Doskonale radzi sobie z kreatywnym pisaniem, odpowiadaniem na pytania, edytowaniem i podsumowywaniem.
  • Współczynnik wygranych 87,6% w AlpacaEval 2.0 i 92,3% w ArenaHard.
  • Wysoka wydajność w zadaniach wymagających rozumienia długiego kontekstu

Przyszłe prace

Zespół planuje skupić się na:

  1. Zwiększenie ogólnych możliwości w obszarach takich jak wywoływanie funkcji i złożone odgrywanie ról.
  2. Rozwiązywanie problemów związanych z mieszaniem języków
  3. Poprawa inżynierii podpowiedzi
  4. Zwiększanie wydajności w zadaniach inżynierii oprogramowania

Wnioski

DeepSeek-R1 stanowi znaczący postęp w możliwościach rozumowania AI poprzez uczenie ze wzmocnieniem. Sukces zarówno głównego modelu, jak i jego wydestylowanych wersji pokazuje potencjał tego podejścia do tworzenia bardziej wydajnych systemów sztucznej inteligencji. Udostępnienie tych modeli na zasadach open source przyczyni się do dalszych badań i rozwoju w tej dziedzinie.

Podobne posty

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *