Dzisiaj podzielimy się DeepSeek R1, Tytuł: DeepSeek-R1: Stymulowanie rozwoju zdolności rozumowania na studiach LLM poprzez uczenie się przez wzmacnianie: Stymulowanie rozwoju zdolności rozumowania na studiach LLM poprzez uczenie się przez wzmacnianie.

W artykule przedstawiono pierwszą generację modeli wnioskowania DeepSeek, DeepSeek-R1-Zero oraz DeepSeek-R1Model DeepSeek-R1-Zero został wytrenowany poprzez uczenie się przez wzmacnianie na dużą skalę (RL) bez nadzorowanego dostrajania (SFT) jako początkowy krok, co pokazuje potencjał RL i lepsze możliwości rozumowania przynosi. Poprzez uczenie się wzmacniające, DeepSeek-R1-Zero naturalnie wyłonił się z wieloma potężnymi i interesującymi zachowaniami rozumowaniaAby jeszcze bardziej zoptymalizować niektóre problemy z R1-Zero (niejasności językowe, ulepszona zdolność generalizacji), wydali DeepSeek-R1, który łączy w sobie wieloetapowe szkolenie i dostrajanie danych z zimnego startu przed nauką wzmacniania. DeepSeek-R1 osiągnął porównywalną wydajność w zadaniu rozumowania z OpenAI-01-1217. Aby wesprzeć społeczność badawczą, mają otwarte źródło DeepSeek-R1-Zero, DeepSeek-R1 i sześć gęstych modeli (1,5B, 7B, 8B, 14B, 32B, 70B) wydestylowanych z DeepSeek-R1, które są oparte na Qwen i Llama.

Charakterystykę tej metody można podsumować następująco:

  1. Uczenie przez wzmacnianie jest stosowane bezpośrednio do modelu bazowego, bez konieczności stosowania nadzorowanego dostrajania (SFT) jako kroku początkowego.
  2. Przedstawiono proces rozwoju DeepSeek-R1, który łączy dwie fazy uczenia się przez wzmacnianie i dwie fazy nadzorowanego dostrajania, aby stworzyć podwaliny pod możliwości rozumowania i nierozumowania modelu.
  3. Wydajność małych modeli w zadaniach rozumowania ulega poprawie poprzez przeniesienie wzorców rozumowania dużych modeli do małych modeli za pomocą techniki destylacji.

Przegląd

Motywacja

  • Obecne duże modele językowe (LLM) poczyniły znaczne postępy w zakresie zadań wnioskowania, lecz nadal stoją przed wyzwaniami.
  • Potencjał czystego nie zbadano w pełni roli uczenia się przez wzmacnianie (RL) w poprawie zdolności rozumowania osób z tytułem magistra prawa, zwłaszcza bez polegania na nadzorowanych danych.
  • Modele trenowane za pomocą RL, takie jak DeepSeek-R1-Zero ma problemy z czytelnością i mieszaniem języków (np. mówienie po chińsku i angielsku) i wymaga dalszych udoskonaleń w celu zwiększenia przyjazności dla użytkownika.

Metody

DeepSeek-R1-Zero: Używa DeepSeek-V3-Base jako modelu bazowego i GRPO (Group Relative Policy Optimization) jako uczenie przez wzmacnianie struktura, bez nadzorowanych danych w celu poprawy wydajności modelu w zakresie wnioskowania.

DeepSeek-R1:

  • Zimny start: Gromadzi niewielką ilość wysokiej jakości danych CoT (Chain-of-Thought) i dostraja je DeepSeek-V3-Model podstawowy jako początkowy aktor w uczeniu się przez wzmacnianie.
  • Uczenie się przez wzmacnianie zorientowane na rozumowanie: Ten sam zastosowano proces uczenia się przez wzmacnianie, taki jak w przypadku DeepSeek-R1-Zero, ale z naciskiem na poprawę zdolności rozumowania modelu w takich obszarach jak kodowanie, matematyka, nauka i rozumowanie logiczne. Wprowadzono nagrody za spójność językową, aby złagodzić problem mieszania się języków, który występuje w CoT.
  • Próbkowanie odrzutu i nadzorowane dostrajanie: Wykorzystuje zbieżny punkt kontrolny uczenia się przez wzmacnianie, aby zbieraj dane z nadzorowanego dostrajania (SFT) do dalszego szkolenia.
  • Uczenie się przez wzmacnianie dla wszystkich scenariuszy: wdraża fazę uczenia się przez wzmacnianie drugiego poziomu, której celem jest poprawa pomocność i nieszkodliwość modelu, przy jednoczesnej optymalizacji jego zdolności rozumowania.
  • Destylacja wiedzy: Dostraja modele open source Qwen i Llama bezpośrednio przy użyciu 800 tys. próbek wybranych przez DeepSeek-R1.

Szczegółowe metody i procedury:

DeepSeek-R1-Zero: Uczenie przez wzmacnianie dla modeli bazowych

  • Algorytm uczenia się przez wzmacnianie: Wykorzystuje algorytm optymalizacji względnej polityki grupy (GRPO), który nie wymaga krytyk model, szacuje linię bazową na podstawie wyników grupowych i obniża koszty szkolenia.
  • Modelowanie nagród: Używa system nagród oparty na zasadach, w tym
  • nagroda za dokładność: Ocenia, czy odpowiedź jest poprawna, np. poprawność wyniku końcowego odpowiedź na zadanie matematyczne, informacja zwrotna od kompilatora dotycząca problemów z kodem.
  • Format nagrody: Zachęca model do umieść proces myślenia pomiędzy oraz Tagi.

Szablon szkolenia: Szablon zawierający oraz Tagi są zaprojektowane do pokieruj modelem tak, aby najpierw wyprowadził proces myślenia, a następnie ostateczną odpowiedź.

  • Proces samoewolucyjny: Zaprezentowano DeepSeek-R1-Zero samorozwojową charakterystykę podczas szkolenia i był w stanie samodzielnie uczyć się bardziej złożonych strategii rozumowania, takich jak refleksja i eksploracja wielu ścieżek rozwiązywania problemów.

DeepSeek-R1: Uczenie przez wzmacnianie połączone z zimnym startem

  • Zimny start: Aby rozwiązać DeepSeek-R1-Zero problem czytelności, DeepSeek-R1 najpierw zbiera niewielką ilość wysokiej jakości dane CoT i dostraja model DeepSeek-V3-Base do pełnić rolę początkowego aktora w uczeniu się przez wzmacnianieDane zimnego startu zawiera tagi podsumowujące i nieprzyjazne odpowiedzi są filtrowane.
    • Metoda: 1) Wybierz wysokiej jakości dane Long COT. 2) Dodaj tagi.
    • Zalety: 1) Zoptymalizowana czytelność (rozwiązanie problemu wielojęzyczności w R1-Zero lub problemu formatu Markdown). 2) Starannie dobrane dane preferowane przez użytkownika mogą w dalszym ciągu zwiększać wydajność w R1-Zero.
    • Pytanie: Dlaczego rozwiązywać problem czytelności? Czy nie można zrobić tego lepiej bez jego rozwiązywania (np. skracając długość wyjścia i wnioskowanie bardziej efektywnie)?
  • RL zorientowany na rozumowanie: Na podstawie modelu zimnego startu, proces uczenia się przez wzmacnianie podobny do Zastosowano DeepSeek-R1-Zero, skupiając się na poprawie zdolności modelu w takich zadaniach jak kodowanie, matematyka, rozumowanie naukowe i logiczneAby rozwiązać problem języków mieszanych (rozumowanie wielojęzyczne), nagrody za spójność językową są wprowadzane.
    • Pytanie: W jaki sposób trenuje się zadania i zbiory danych wymagające rozumowania naukowego i logicznego?
  • Próbkowanie odrzutów i SFT: Po zbieżności wzmacniającego uczenia się kierowanego wnioskowaniem uzyskany punkt kontrolny jest wykorzystywany do próbkowanie odrzucenia w celu wygenerowania nowych danych SFT, które są łączone z danymi z DeepSeek-V3 w celu rozszerzenia możliwości modelu w zakresie pisania, odgrywania ról i zadań ogólnych.
    • Zamiar:
      • Faza ta rozpoczyna się po proces uczenia się wzmacniającego zorientowanego na wnioskowanie (RL) zbiega się.
      • Głównym celem jest zbieraj dane z nadzorowanego dostrajania (SFT) do wykorzystania w kolejnych rundach szkoleniowych.
      • W przeciwieństwie do początkowych danych z zimnego startu, które skupiają się wyłącznie na wnioskowaniu, ta faza ma na celu rozszerzyć możliwości modelu obejmujące pisanie, odgrywanie ról i inne zadania ogólnego przeznaczenia, a nie tylko wnioskowanie.
    • Zbieranie danych – dane wnioskowania:
      • Metoda: Użyj punktów kontrolnych uzyskanych w fazie RL zorientowanej na wnioskowanie, aby wygenerować trajektorie wnioskowania poprzez próbkowanie odrzucenia.
      • Rozszerzenie zbioru danych: W przeciwieństwie do poprzedniej fazy RL, która wykorzystywała wyłącznie dane o nagrodach oparte na regułach, tutaj wprowadzono dane o nagrodach nieoparte na regułach. W niektórych przypadkach do określenia odpowiedzi używany jest generatywny model nagrody (DeepSeek-V3).
      • Filtrowanie danych: Aby zapewnić jakość i czytelność, dane wyjściowe są filtrowane w celu usunięcia:
        • łańcuchy myślowe zawierające mieszane języki
        • długie akapity
        • bloki kodu
      • Pobieranie próbek i selekcja: Dla każdego monitu wygenerowano wiele odpowiedzi. Tylko „poprawna” odpowiedź została zachowana dla zestawu danych.
      • Rozmiar zbioru danych: Około 600 000 próbek szkoleniowych związanych z wnioskowaniem zostały zebrane w ten sposób.
    • Zbieranie danych – dane niewnioskowe:
      • Zakres: pisanie, odpowiadanie na pytania oparte na faktach (QA), samoświadomość i tłumaczenie.
      • W artykule wspomniano o wykorzystaniu Proces DeepSeek-V3 i ponowne wykorzystanie części zestawu danych SFT DeepSeek-V3 aby poradzić sobie z tymi zadaniami niebędącymi wnioskowaniem. O 200 000 niezależnych od wnioskowania próbek zostały zebrane. (Uwaga: Szczegóły dotyczące gromadzenia danych niebędących danymi wnioskowymi opisano szczegółowo w rozdziale 2.3.4)
    • Wykorzystanie zebranych danych:
      • Zebrane dane dotyczące rozumowania i nierozumowania (łącznie około 800 000 próbek – 600 000 próbek rozumowania + 200 000 próbek nierozumowania) zostały następnie wykorzystane do dostroić model DeepSeek-V3-Base dla dwóch epokTen dostrojony model został następnie wykorzystany w końcowej fazie RL opisanej w rozdziale 2.3.4.
    • Podsumowanie Ten krok wykorzystuje możliwości wnioskowania nauczyłem się poprzez RL, aby wygenerować zróżnicowany i wysokiej jakości zbiór danych SFT. Ten zbiór danych wzmacnia możliwości wnioskowania, a także rozszerza ogólne możliwości model szkolenia w fazie ostatecznego dopasowania i doskonalenia.
  • Uczenie się przez wzmacnianie dla wszystkich scenariuszy: Aby jeszcze bardziej dostosować ludzkie preferencje, wdrożono drugą fazę uczenia się przez wzmacnianie, która ma na celu zwiększenie przydatności i nieszkodliwości modelu.
    • Dane wnioskowania: np. matematyka, kod, wnioskowanie logiczne lub nadzorowane metodami bazy reguł.
    • Dane ogólne: modele nagród są nadal używane do dostarczania informacji o preferencjach dla złożonych i subtelnych scenariuszy. Modele trenowane z danymi parami są również szacowane.
    • Przydatność: koncentracja wyłącznie na końcowych wynikach podsumowujących, co ogranicza zakłócenia w procesie wnioskowania.
    • Nieszkodliwość: nadzoruj całą reakcję, aby zminimalizować ryzyko.

Destylacja modelowa (Destylacja):

  • Aby uzyskać bardziej wydajny model małej inferencji, artykuł destyluje zdolność inferencji DeepSeek-R1 do modeli open source serii Qwen i Llama. Proces destylacji używa wyłącznie nadzorowanego dostrajania (SFT) i nie wykorzystuje etapu uczenia się przez wzmacnianie.

Wnioski

DeepSeek-R1-Zero:Pokazuje potencjał czyste uczenie się wzmacniające w motywowaniu zdolności wnioskowania LLM i może osiągnąć wysoką wydajność bez polegania na nadzorowanych danych.

  • Moment „aha”: Piękno uczenia się przez wzmacnianie (moment oświecenia modelu, w którym przeznacza więcej czasu na myślenie o problemie, ucząc się ponownej oceny (podejście początkowe)
  • Długość wyjściowa nadal rośnie (czas myślenia nadal rośnie)
  • Dokładność stale się poprawia (obliczenie dokładności na podstawie próby 16 odpowiedzi)
  • DeepSeek-R1:Dalsze zwiększenie wydajności modelu poprzez połączenie danych z zimnego startu i iteracyjnego dostrajania uczenia się przez wzmacnianie, osiągnięcie poziomu porównywalnego z OpenAI-01-1217 w przypadku różnych zadań.
  • Destylacja wiedzy:Używając DeepSeek-R1 jako modelu nauczyciela, wygenerowano 800 tys. próbek szkoleniowych i dopracowano kilka małych, gęstych modeli. Wyniki pokazują, że to metoda destylacji może znacznie poprawić zdolność wnioskowania małe modele.

Ograniczenie

  • Ograniczenie 1: Ogólna zdolność DeepSeek-R1 wymaga poprawy. Układ DeepSeek-R1 nadal ustępuje układowi DeepSeek-V3 w takich zadaniach, jak wywoływanie funkcji, dialogi wieloetapowe, złożone odgrywanie ról i generowanie danych w formacie JSON.
  • Ograniczenie 2: Problem mieszania języków. W urządzeniu DeepSeek-R1 może wystąpić problem mieszania języków podczas przetwarzania zapytań w językach innych niż chiński i angielski, na przykład podczas rozumowania i odpowiadania w języku angielskim.
  • Ograniczenie 3: Szybka reakcja. DeepSeek-R1 jest wrażliwy na słowa podpowiedzi, a mała liczba podpowiedzi zmniejszy jego wydajność.
  • Ograniczenie 4: Ograniczone zastosowanie w zadaniach inżynierii oprogramowania. Ze względu na długi czas oceny, uczenie maszynowe na dużą skalę nie zostało w pełni zastosowane w zadaniach inżynierii oprogramowania, a DeepSeek-R1 wykazał się ograniczoną poprawą w stosunku do DeepSeek-V3 w testach porównawczych inżynierii oprogramowania.

Podobne posty

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *