Dzisiaj chciałbym podzielić się artykułem z DeepSeek zatytułowanym DeepSeekMath: Przesuwanie granic rozumowania matematycznego w otwartych modelach językowych.

W tym artykule przedstawiono wstępnie wyszkolony układ DeepSeekMath 7B na DeepSeek-Coder-Base-v1.5 7B na podstawie zbiór 120B tokenów matematycznych, języka naturalnego i danych kodowych.

Model osiągnął niesamowity wynik 51,7% w testach porównawczych MATH na poziomie konkurencyjnym bez korzystania z zewnętrznych zestawów narzędzi i technik głosowania, zbliżając się do poziomu wydajności Gemini-Ultra i GPT-4.

Zdolność DeepSeekMath 7B do rozumowania matematycznego przypisuje się dwóm kluczowym czynnikom: Po pierwsze, poprzez starannie zaprojektowany proces selekcji danych, wysokiej jakości dane matematyczne są iteracyjnie wydobywane z publicznie dostępnych danych internetowych.

Po drugie, optymalizacja polityki względnej grupy (GRPO) to wprowadzono odmianę optymalizacji polityki proksymalnej (PPO), która może poprawić zdolność rozumowania matematycznego, optymalizując jednocześnie wykorzystanie pamięci przez PPO.

  1. Cechy metody można podsumować następująco:Wysokiej jakości korpus wstępnego treningu matematycznego został skonstruowany i wykorzystano starannie zaprojektowany proces do wydobywania wysokiej jakości danych matematycznych z Common Crawl.
  2. Algorytm GRPO zaproponowano rozwiązanie, które zmniejsza zasoby wymagane do szkolenia i poprawia zdolność modelu do rozumowania matematycznego. 3) Najnowocześniejsza wydajność był osiągnięty w licznych testach porównawczych rozumowania matematycznego.

Przegląd

Tytuł: DeepSeekMath: Przesuwanie granic rozumowania matematycznego w otwartych modelach językowych

Adres URL: Kliknij tutaj

Autorski: Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Xiao Bi, Haowei Zhang, Mingchuan Zhang, YK Li, Y. Wu, Daya Guo

Kod: Kliknij tutaj

Motywacja

Rozumowanie matematyczne stanowi poważne wyzwanie dla modeli językowych ze względu na złożoność i ustrukturyzowaną naturę matematyki. Najbardziej zaawansowane modele, takie jak GPT-4 i Gemini-Ultra, są potężne, ale niedostępne publicznie. Dlatego istnieje znaczny obszar do poprawy wydajności modele open source.

Złożoność i struktura: Rozumowanie matematyczne stanowi poważne wyzwanie dla modeli językowych ze względu na złożoność i ustrukturyzowaną naturę matematyki.

Potencjał danych publicznych: Publicznie dostępne dane w sieci mogą zawierać bogate informacje matematyczne, które nie zostały jeszcze wydobyte i wykorzystane.

Metody

Zbieranie danych: Korpus DeepSeekMath składający się ze 120 miliardów tokenów został skonstruowany poprzez zebranie wysokiej jakości danych internetowych związanych z matematyką z bazy Common Crawl za pomocą iteracyjnego procesu.

Szkolenie modelowe: Korpus wykorzystano do wstępnego treningu na bazie DeepSeek-Coder-Base-v1.5 7B, a następnie zastosowano algorytm dostrajania instrukcji matematycznych i optymalizacji polityki względnej grup (GRPO).

Algorytm GRPO: GRPO to udoskonalony algorytm uczenia się przez wzmacnianie, który usuwa model Critic z PPO i szacuje punkt bazowy na podstawie wyniku grupy, co znacznie zmniejsza zasoby szkoleniowe.

Szczegółowe metody i procedury:

Gromadzenie i przetwarzanie danych:

Zbuduj korpus DeepSeekMath: Korzystając z klasyfikatora opartego na fastText, wyodrębnij 120B tokenów związanych z matematyką z Common Crawl do zbudowania obszernego, wysokiej jakości, wstępnie wytrenowanego korpusu DeepSeekMath Corpus.

Iteracyjne filtrowanie danych: Stosowana jest strategia iteracyjna, używając OpenWebMath jako danych źródłowych do trenowania początkowego klasyfikatora, a następnie używając tego klasyfikatora do wydobywania bardziej pozytywnych przykładów z Common Crawl, które są ręcznie adnotowane w celu ciągłej optymalizacji wydajności klasyfikatora.

Funkcje wielojęzyczne: Korpus DeepSeekMath zawiera dane wielojęzyczne, co poprawia wydajność modelu w chińskich testach matematycznych.

Przetwarzanie oczyszczające: De-przetwarzanie zanieczyszczeń jest wykonywane na danych treningowych w celu uniknięcia nakładania się z testem porównawczym.

Przedtrening:

Inicjalizacja modelu oparta na kodzie: Inicjalizacja za pomocą DeepSeek-Coder-Baza-v1.5 7B Stwierdzono, że model ten jest skuteczniejszy niż inicjalizacja z ogólnego LLM.

Skład danych przedtreningowych: 56% DeepSeekMath Corpus, 4% AlgebraicStack, 10% arXiv, 20% Kod Github, 10% Common Crawl dane w języku naturalnym.

Parametry wstępnego treningu: Użyto optymalizatora AdamW ze współczynnikiem uczenia wynoszącym 4,2e-4, rozmiarem partii wynoszącym 10 milionów tokenów i szkoleniem 500 miliardów tokenów.

Dostrajanie instrukcji:

Utwórz zbiór danych do precyzyjnego dostrajania instrukcji: Zbuduj zbiór danych do precyzyjnego dostrajania instrukcji matematycznych zawierający 776 tys. próbek, obejmujące różnorodne pola matematyki i poziomy trudności, w tym CoT, PoT i formaty wnioskowania zintegrowanego z narzędziami do rozwiązywania kroków.

Parametry treningu: Wielkość partii 256, szybkość uczenia się 5e-5, szkolenie dla 500 kroków.

Uczenie się przez wzmacnianie – optymalizacja polityki względnej grupy (GRPO):

Zaproponuj algorytm GRPO: Zaproponuj Wariant algorytmu PPO GRPO, który eliminuje potrzebę stosowania modelu Critic, wykorzystując wyniki grupowe do oszacowania wartości bazowej, co pozwala na zmniejszenie zasobów szkoleniowych.

Funkcja obiektywna: GRPO optymalizuje model polityki poprzez maksymalizację funkcji celu, która bierze pod uwagę względną przewagę wyników wewnątrzgrupowych i bezpośrednio dodaje rozbieżność KL jako termin regularyzacji.

Obliczanie korzyści: GRPO oblicza przewagę poprzez względne nagrody wewnątrzgrupowe, unikanie porównań międzygrupowych i lepsze dostosowanie się do porównawczej natury modelu nagród.

Wspomaga monitorowanie wyników i procesów: GRPO może wspierać monitorowanie wyników i procesów oraz skuteczniej monitorować politykę zapewniając nagrody na końcu każdego etapu wnioskowania.

Iteracyjne RL: Używa iteracyjna strategia RL Aby wygenerować nowy zestaw treningowy na podstawie wyników próbkowania modelu polityki, stale trenować stary model nagród i używać nowego modelu nagród do aktualizacji modelu polityki.

Dane treningowe: Wykorzystuje problemy formatu CoT związane z GSM8K i MATH w danych SFT, około 144 tys. problemów.

Parametry treningu: Współczynnik uczenia się modelu polityki wynosi 1e-6, współczynnik KL wynosi 0,04, dla każdego problemu próbkuje się 64 wyniki, maksymalna długość wynosi 1024, a rozmiar partii szkoleniowej wynosi 1024.

Wnioski

Wniosek 1:DeepSeekMath 7B przewyższa wszystkie modele open source pod względem zdolności rozumowania matematycznego. W konkurencyjnym teście porównawczym MATH, DeepSeekMath 7B osiągnął dokładność na poziomie 51,7%, co jest wartością zbliżoną do poziomu wydajności układów Gemini-Ultra i GPT-4.

Wniosek 2:Dobrze zaprojektowane dane wstępnego treningu i algorytmy GRPO są kluczem do sukcesu modelu. Połączenie wysokiej jakości korpusu matematycznego i algorytmów GRPO pozwala modelowi osiągnąć znaczący wzrost wydajności w zadaniach wymagających rozumowania matematycznego.

Wniosek 3:Szkolenie z zakresu kodowania pomaga poprawić umiejętność rozumowania matematycznego. Dodanie danych kodowych do etapu wstępnego treningu może poprawić zdolność modelu do rozwiązywania problemów matematycznych, zarówno z użyciem narzędzi, jak i bez nich.

Wniosek 4: Ograniczona przydatność danych arXiv: Wbrew wcześniejszym poglądom dane arXiv okazały się mało przydatne w doskonaleniu rozumowania matematycznego.

Ograniczenie

Możliwości geometrii i dowodzenia są stosunkowo słabe: Chociaż DeepSeekMath wyróżnia się w rozumowaniu ilościowym, jego możliwości w geometrii i dowodzie są nadal gorsze od modeli o zamkniętym źródle. Może to być spowodowane stronniczym wyborem danych na etapie wstępnego treningu i dostrajania.

Słabość w zakresie małej pojemności próby: DeepSeekMath jest gorszy od GPT-4 pod względem uczenia się na małej próbie, co może wynikać z ograniczeń rozmiaru modelu.

Potrzebne są skuteczniejsze metody uczenia się przez wzmacnianie: Chociaż metody uczenia się przez wzmacnianie zaproponowane w artykule są skuteczne, nadal istnieje pole do udoskonalenia, na przykład w zakresie skuteczniejszego wykorzystywania informacji zwrotnej z modelu nagrody oraz radzenia sobie z zakłóconymi sygnałami nagrody.

Bliższe dane

Eksploracja i analiza uczenia się przez wzmacnianie

Przegląd:

Wprowadzenie do optymalizacji polityki względnej grupy (GRPO): W artykule zaproponowano nowy algorytm uczenia się przez wzmacnianie, GRPO, jako wariant Proximal Policy Optimization (PPO). Główną cechą GRPO jest to, że porzuca powszechnie stosowany w PPO model Critic i szacuje linię bazową na podstawie wyników grupowych, co znacznie zmniejsza zasoby obliczeniowe niezbędne do szkolenia.

Demonstracja skuteczności GRPO: W artykule eksperymentalnie wykazano, że GRPO może skutecznie poprawić wydajność modeli dostrajania poleceń, obejmujących zarówno zadania matematyczne w obrębie domeny, jak i poza nią.

Zunifikowana struktura dla metod uczenia się przez wzmacnianie: W artykule zaproponowano ujednolicone ramy umożliwiające zrozumienie różnych metod uczenia się przez wzmacnianie, takich jak: Dokładne dostrajanie próbkowania odrzuceń (RFT), bezpośrednia optymalizacja preferencji (DPO), PPO i GRPOW ramach tej struktury metody te są traktowane jako bezpośrednie lub uproszczone techniki uczenia się przez wzmacnianie.

Dogłębna analiza elementów uczenia się przez wzmacnianie: W artykule szczegółowo omówiono kluczowe elementy uczenia się przez wzmacnianie, takie jak szkolenia online i offline, nadzór nad wynikami i procesami, uczenie się przez wzmacnianie w pojedynczej rundzie i iteracyjne uczenie się przez wzmacnianie, poprzez szczegółowe eksperymenty, i podsumowuje potencjalne kierunki poprawy skuteczności uczenia się przez wzmacnianie.

Algorytm GRPO (Group Relative Policy Optimization)

Ograniczenia PPO: PPO to powszechnie stosowany algorytm uczenia się przez wzmacnianie, ale wymaga on trenowania dodatkowy model Krytyka oszacować funkcję wartości, która narzuca dodatkowe obciążenie obliczeniowe i pamięciowe. Ponadto w scenariuszu LLM, Szkolenie modelu krytycznego może być skomplikowane, ponieważ wymaga oceny wynik każdego tokena.

Główna idea GRPO: Główną ideą GRPO jest porzuć model Critic i zamiast tego użyj średniej punktacji zestawu wyników dla tego samego problemu jako punktu odniesienia. Punkt odniesienia może być użyty do oszacowania funkcji przewagi i optymalizacji politykiTakie podejście znacznie zmniejsza złożoność szkolenia.

Obliczanie funkcji przewagi: GRPO oblicza funkcję przewagi za pomocą obliczanie względnego rankingu każdego wyniku w tym samym zestawie wyników, zamiast polegać na oddzielnej funkcji wartości jak w PPO.

Kara za rozbieżność KL: GRPO nie dodaje kary za dywergencję KL do nagrody jak PPO, ale zamiast tego dodaje dywergencję KL między modelem polityki a modelem odniesienia bezpośrednio do funkcji straty. To unika złożonego obliczenia funkcji przewagi.

Główna idea GRPO

nie wymaga Krytyka (funkcja wartości): GRPO eliminuje potrzebę funkcji wartości i wykorzystuje wynik wewnątrzgrupowy do oszacowania wartości bazowejzmniejszając w ten sposób zasoby szkoleniowe.

Przewaga względna wewnątrz grupy: Dla każdego problemu q GRPO pobiera próbkę zestawu wyników {o(1), o(2), …, o(G)} ze starej polityki π(θold), a następnie optymalizuje model polityki, maksymalizując następujące równanie jako funkcję celu.

Swoiście:

Kluczem jest tutaj Â(i,t), które przedstawia przewagę i jest obliczane przez względna nagroda za wyniki wewnątrzgrupowe, zamiast polegać na oddzielnej funkcji wartości, jak w PPO.

Funkcja celu dodaje również bezpośrednio Dywergencja KL jako termin regularyzacji kontrolujący wielkość aktualizacje polityki

i są zgodne z porównawczą naturą modelu nagród: GRPO wykorzystuje względną nagrodę wewnątrzgrupową do obliczenia przewagi, co jest bardziej zgodne z naturą modelu nagrody, który zwykle jest trenowany w oparciu o porównanie parami.

W jaki sposób można zaprojektować model nagradzania GRPO (patrz DeepSeek R1)?

Cechy:

format nagrody: wymusza generowanie długich łóżko składane wyniki, które mogą stanowić podstawę dla modelu w celu generowania procesów wnioskowania i poprawy efektu wnioskowania modelu.

nagroda za dokładność: Matematyka może wykorzystać wynik końcowy, a kod może wykorzystać informacje zwrotne kompilatora.

Zalety GRPO

Mniejsze zużycie pamięci: model Critic nie jest wymagany, co zmniejsza zapotrzebowanie na pamięć.

Bardziej efektywne szkolenie: obliczenia wykorzystujące względną przewagę wewnątrzgrupową upraszczają proces szkolenia.

Bardziej zgodne z naturą modeli nagród: poprawia stabilność i efektywność treningu.

Podsumowanie RL Unified Paradigm

Zaproponowano jednolity paradygmat

Autorzy proponują ujednolicony paradygmat umożliwiający zrozumienie różnych metod szkoleniowych, takich jak SFT (Supervised Fine-tuning), RFT (Rejection Sampling Fine-tuning), DPO (Direct Preference Optimization), PPO, GRPO itp. Kluczowe elementy RL: Kluczowe elementy zunifikowanej struktury obejmują: źródła danych, funkcje nagradzania i algorytmy.

  • Źródło danych: Odnosi się to do danych użytych do szkolenia, które mogą pochodzić z ręcznego etykietowania, modeli SFT lub modeli polityki w czasie rzeczywistym.
  • Funkcja nagrody: Odnosi się do funkcji wykorzystywanej do oceny jakości wyników, która może być regułą lub modelem.
  • Algorytm: Odnosi się to do metody wykorzystywanej do przetwarzania danych i sygnału nagrody oraz aktualizowania parametrów modelu.

Analiza różnych metod w oparciu o jednolity paradygmat

W tabeli 10 podsumowano podobieństwa i różnice między SFT, RFT, DPO, Online RFT, PPO i GRPO pod względem źródeł danych, funkcji nagrody i współczynników gradientu.

MetodaDane treningoweFunkcja nagrodyWspółczynnik gradientuMetoda szkoleniaZalety/cechyScenariusze zastosowania
SFTRęcznie oznaczone dane SFTWybrano ręcznie (nagroda dorozumiana)Naprawiono na 1Uczenie nadzorowaneProsty i stabilny, oparty na wysokiej jakości etykietowanych danychPodstawowe szkolenie modelu, zadanie początkowego dopasowania
Zaproszenie do składania ofertProblem zbioru danych SFT + Przykładowy wynik modelu SFTNa podstawie poprawności odpowiedzi (osąd reguły)0 (błędnie) lub 1 (poprawnie)Optymalizacja polityki offlineEfektywne obliczenia, bezpośrednie wykorzystanie informacji zwrotnych z regułZadania matematyczno-logiczne z jasnymi zasadami
Inspektor ochrony danychProblem zbioru danych SFT + wyjście modelu doEtykietowanie preferencji człowieka lub porównywanie regułNa podstawie obliczeń prawdopodobieństwa preferencji (np. model Bradleya-Terry'ego)Uczenie się przez porównywanieUnika jawnego modelowania nagród, bezpośrednio optymalizując preferencjeZadania związane z dopasowaniem preferencji człowieka (np. generowanie dialogów)
Zapytanie ofertowe onlinePróbkowanie modelu polityki w czasie rzeczywistym pary problem-wyjścieNa podstawie poprawności odpowiedzi (osąd reguły)0 (błędnie) lub 1 (poprawnie)Optymalizacja polityki onlineDynamicznie aktualizuje zasady z optymalizacją informacji zwrotnych w czasie rzeczywistymScenariusze wymagające interakcji online (np. sztuczna inteligencja w grach)
PPOProblem zbioru danych SFT + próbkowanie wyników modelu politykiWytrenowany model nagradzania (RM)Funkcja dominacji (oparta na oszacowaniu nagrody)Metoda gradientu politykiWydajny i stabilny, obsługuje optymalizację wieloetapowąZadania złożone (np. generowanie tekstu, sterowanie robotem)
GRPOProblem zbioru danych SFT + wynik próbkowania modelu politykiWytrenowany model nagradzania (RM)Względna nagroda wewnątrz grupy (znormalizowane porównanie)Optymalizacja zasad grupyZmniejsz wariancję nagród i popraw porównania wewnątrzgrupoweZadania o dużej wariancji (np. generowanie długiego tekstu)

Obserwacje dotyczące źródeł danych

Szkolenia online i offline: Szkolenie online odnosi się do wykorzystania wyników modelu polityki w czasie rzeczywistym jako danych treningowych, podczas gdy szkolenie offline odnosi się do wykorzystania wyników stałego modelu (takiego jak model SFT) jako danych treningowych. Wyniki eksperymentów pokazują, że szkolenia online są generalnie lepsze niż szkolenia offline.

Nadzór nad wynikami a nadzór nad procesem: Nadzór nad wynikami odnosi się do nagradzania wyłącznie ostatniego kroku wyjścia, podczas gdy nadzór nad procesem odnosi się do nagradzania każdego kroku procesu rozumowania. Wyniki eksperymentów pokazują, że nadzór nad procesami jest skuteczniejszy w przypadku zadań złożonych.

Uczenie się na podstawie pojedynczego epizodu a uczenie się iteracyjne ze wzmacnianiem: Uczenie się wzmacniające w jednym odcinku odnosi się do optymalizacji pojedynczej strategii, podczas gdy iteracyjne uczenie się wzmacniające odnosi się do ciągłej aktualizacji modelu nagrody po wielu optymalizacjach strategii. Wyniki eksperymentów pokazują, że iteracyjne uczenie się przez wzmacnianie może znacząco poprawić wydajność, zwłaszcza w pierwszej iteracji.

Obserwacja współczynników gradientu

Oparte na regułach a oparte na modelach: Reguła odnosi się do określania nagrody na podstawie poprawności odpowiedzi, a model odnosi się do trenowania modelu nagród w celu zdobywania punktów.

Różnica współczynników gradientu: Kluczowa różnica między GRPO a W przypadku Online RFT GRPO dostosowuje współczynniki gradientu na podstawie wartości nagród dostarczanych przez model nagród, podczas gdy Online RFT tego nie robi.

Zalety GRPO: Eksperymenty pokazują, że GRPO jest lepsze od Online RFT, co pokazuje skuteczność zmiany znaku współczynników gradientu. GRPO+PS jest lepsze od GRPO+OS, co pokazuje korzyści z używania drobnoziarnistych, krokowych współczynników gradientu.

Skuteczność RL i kierunki udoskonaleń

Dlaczego RL jest skuteczne?

Wyniki eksperymentów: RL poprawia wydajność Maj@K, ale nie Pass@K.

Wyjaśnienie: RL poprawia ogólną wydajność modelu, czyniąc rozkład wyjściowy bardziej niezawodnym, tj. zwiększa prawdopodobieństwo poprawnych odpowiedzi w TopK, zamiast zwiększać podstawowe możliwości modelu.

Jak można osiągnąć skuteczniejszy RL?

Opierając się na jednolitym paradygmacie, autorzy proponują przyszłe kierunki udoskonalania RL w trzech aspektach: źródeł danych, algorytmów i funkcji nagrody.

  • Źródła danych:
    • Eksploruj problemy wykraczające poza etap SFT.
    • Stosuj bardziej zaawansowane strategie próbkowania (dekodowania), np. metody oparte na przeszukiwaniu drzewa.
    • Stosuj efektywne techniki wnioskowania w celu zwiększenia efektywności eksploracji modelu polityki.
  • Algorytm:
    • Poznaj algorytmy uczenia przez wzmacnianie, które są bardziej odporne na zakłócone sygnały nagrody.
    • Zapoznaj się z metodami dopasowania typu SŁABY-SILNY.
  • Funkcja nagrody:
    • Poprawa zdolności generalizacji modelu nagrody, aby poradzić sobie z problemami wynikającymi z braku dystrybucji i zaawansowanymi zdekodowanymi wynikami.
    • Odzwierciedla niepewność modelu nagrody i wykorzystuje ją jako pomost łączący słabe modele nagrody i algorytmy uczenia się od SŁABYCH do SILNYCH.
    • Efektywne tworzenie wysokiej jakości modeli nagradzania procesów w celu zapewnienia precyzyjnych sygnałów szkoleniowych dla procesu wnioskowania.

Podsumowanie

DeepSeekMath znacząco poprawił zdolność modeli języka open source w rozumowaniu matematycznym poprzez skonstruowanie korpusu matematycznego na dużą skalę i zaproponowanie nowego algorytmu uczenia się przez wzmacnianie. Najważniejsze punkty tego artykułu to:

  • konstrukcja i walidacja korpusu DeepSeekMath, obszernego, wysokiej jakości, wielojęzycznego korpusu matematycznego.
  • Zaproponowano efektywny algorytm uczenia się przez wzmacnianie, GRPO, który pozwala na zmniejszenie wykorzystania pamięci, a jednocześnie zwiększa zdolność modelu do rozumowania matematycznego.
  • Wpływ treningu kodowania na zdolność rozumowania matematycznego jest szczegółowo omawiany i stwierdzono, że dane arXiv mają ograniczony wpływ. Wartość DeepSeekMath:
  • Udostępnia społeczności open source potężny model rozumowania matematycznego i promuje rozwój matematycznej sztucznej inteligencji.
  • Dostarcza cennego doświadczenia i metod budowania korpusów matematycznych oraz trenowania modeli rozumowania matematycznego.
  • Proponowany algorytm GRPO dostarcza nowych pomysłów na trening uczenia się przez wzmacnianie w innych dziedzinach.

Podobne posty

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *