Model wnioskowania 32B wykorzystuje tylko 1/8 danych i jest na równi z modelem DeepSeek-R1 tej samej wielkości!

Właśnie teraz instytucje takie jak Stanford, UC Berkeley i Uniwersytet Waszyngtoński wspólnie opublikowały model wnioskowania na poziomie SOTA, OpenThinker-32Bi udostępnili na zasadzie open source aż 114 tys. danych szkoleniowych.

Strona główna projektu OpenThinker:

Przytulanie twarzy OpenThinker:

Otwarte myśli Zestaw danych:

Odkrycia zespołowe: Używając dużego zbioru danych wysokiej jakości ze zweryfikowanymi adnotacjami DeepSeek-R1 (na podstawie destylacji R1), można trenować model wnioskowania SOTA.

Konkretna metoda polega na skalowaniu danych, weryfikacji procesu wnioskowania i skalowaniu modelu.

W rezultacie powstał OpenThinker-32B, który uzyskał lepsze wyniki niż modele s1 i s1.1 firmy Li Fei-Fei w licznych testach porównawczych z zakresu matematyki, kodowania i nauk ścisłych, a także zbliżony do R1-Distill-32B.

Warto wspomnieć, że w porównaniu do R1-Distill-32B, który wykorzystał 800 tys. danych (w tym 600 tys. próbek wnioskowania), OpenThinker-32B wykorzystał jedynie 114 tys. danych, by osiągnąć niemal tak samo doskonałe wyniki.

Ponadto OpenThinker-32 upublicznił wszystkie wagi modeli, zestawy danych, kod generowania danych i kod treningowy!

Gromadzenie danych

Naukowcy trenowali OpenThinker-32B, korzystając z tego samego zestawu danych OpenThoughts-114k, którego wcześniej używali do trenowania OpenThinker-7B.

Użyli modelu DeepSeek-R1 do zebrania procesów rozumowania i prób odpowiedzi na starannie wybrany zestaw 173 000 pytań. Te surowe dane zostały następnie opublikowane jako zbiór danych OpenThoughts-Unverified-173k.

Ostatnim krokiem procesu jest odfiltrowanie odpowiednich próbek danych, jeśli proces wnioskowania nie przejdzie weryfikacji.

Poniższy rysunek ilustruje wizualnie cały proces.

Zespół badawczy najpierw wprowadza dane źródłowe lub pytania, które mogą pochodzić z różnych dziedzin i platform, takich jak BAAI/TACO, DeepMind, zgłoszenia w języku Python itp., i obejmować różne aspekty, takie jak kod, łamigłówki, nauka i matematyka.

Te różnorodne dane wejściowe są następnie przekazywane do głównego modułu przetwarzania, DeepSeek-R1, gdzie dane są analizowane i przetwarzane. Pytania są podzielone na trzy kategorie: pytania naukowe, matematyka i łamigłówki oraz kod.

Niektóre wyniki nie wymagają weryfikacji i mogą być prostymi analizami lub bezpośrednimi wynikami. W przypadku niektórych treści wymagających dogłębnej weryfikacji, do ich oceny w sposób porównywalny z GT (Ground Truth) używany jest model dużego języka (LLM). Jeśli jest to kod, kod jest wykonywany, a testy jednostkowe są przeprowadzane w celu zapewnienia jego poprawności i skuteczności.

Wreszcie wyniki uzyskane z różnych kierunków można połączyć, aby wygenerować otwarte myślenie i bardziej kompleksowe rozwiązania.

Zespół badawczy zaktualizował ostateczny zestaw danych OpenThoughts-114k, dodając konfigurację zwaną „metadane”, która zawiera dodatkowe kolumny służące do skonstruowania zestawu danych:

  • problem
  • rozwiązanie_prawdy_podstawowej
  • test_cases (tylko kod)
  • starter_code (tylko kod)
  • DeepSeek_rozumowanie
  • DeepSeek_rozwiązanie
  • domena
  • źródło

Dodatkowe metadane ułatwią korzystanie z tego zestawu danych w nowych scenariuszach, takich jak filtrowanie danych, przełączanie domen, kontrole weryfikacyjne i zmiana szablonu procesu wnioskowania.

Te dodatkowe metadane ułatwią korzystanie z tego zestawu danych. Można to zrobić przy użyciu zaledwie jednej linijki kodu, np. filtrując, zmieniając domenę, sprawdzając weryfikację lub zmieniając szablon śledzenia wnioskowania.

załaduj_zestaw_danych("open-thoughts/OpenThoughts-114k", "metadane", split="pociąg")

Zespół badawczy twierdzi, że nie może się doczekać, aż społeczność wykorzysta te pytania i standardowe odpowiedzi do badań nad uczeniem się przez wzmacnianie (RL) w modelu OpenThinker. DeepScaleR już wykazał, że to podejście działa szczególnie dobrze w mniejszych skalach.

Weryfikacja

Aby uzyskać ostateczny zestaw danych OpenThoughts-114k, zespół badawczy zweryfikował odpowiedzi i wyeliminował nieprawidłowe odpowiedzi.

Jak pokazano w poniższej tabeli, utrzymywanie wniosków, które nie przejdą weryfikacji, może mieć negatywny wpływ na wydajność, chociaż niezweryfikowany model nadal działa dobrze w porównaniu z innymi modelami wnioskowania 32B.

Rolą weryfikacji jest utrzymanie jakości adnotacji R1 przy jednoczesnym zwiększeniu różnorodności i rozmiaru zestawu poleceń szkoleniowych. Z drugiej strony niezweryfikowane dane można łatwiej rozszerzyć, dlatego też warto je zbadać dalej.

W przypadku problemów z kodem weryfikację procesu wnioskowania kończymy weryfikacją prób odpowiedzi na podstawie istniejących przypadków testowych.

Zainspirowani wyzwaniami, z jakimi spotykamy się podczas wykonywania kodu, wdrożyliśmy w Curatorze strukturę wykonywania kodu, która umożliwia użytkownikom wykonywanie kodu na dużą skalę, w bezpieczny sposób i weryfikowanie go pod kątem oczekiwanych wyników.

W przypadku problemów matematycznych zespół badawczy wykorzystał do weryfikacji sędziego LLM (Large Language Model), który odbiera zarówno standardową odpowiedź, jak i próbę rozwiązania DeepSeek-R1.

Stwierdzono, że wykorzystanie narzędzia LLM do generowania danych zamiast bardziej rygorystycznego modułu parsującego (Math-Verify) skutkowało wyższą efektywną szybkością transmisji danych i pozwoliło na trenowanie modeli niższego rzędu z lepszą wydajnością.

Szkolenie

Zespół badawczy użył LLaMa-Factory do dostrojenia Qwen2.5-32B-Instruct trzy razy na zestawie danych OpenThoughts-114k z długością kontekstu 16k. Całkowitą konfigurację szkolenia można znaleźć w serwisie GitHub.

Szkolenie OpenThinker-32B trwało 90 godzin, przy użyciu czterech węzłów 8xH100 P5 w klastrze AWS SageMaker, łącznie 2880 godzin H100.

W międzyczasie OpenThinker-32B-Unverified trenował przez 30 godzin na superkomputerze Leonardo, wykorzystując 96 węzłów 4xA100 (64 GB na procesor GPU), co dało łącznie 11 520 godzin A100.

Ocena

Do oceny wszystkich modeli zespół badawczy wykorzystał bibliotekę ewaluacyjną typu open source Evalchemy.

W przypadku AIME24 i AIME25 obliczyli dokładność, uśredniając wyniki pięciu przebiegów. Konfiguracja oceny używała parametru temperatury 0,7, ograniczała odpowiedź modelu do 32 768 tokenów, nie dodawała żadnych dodatkowych słów zachęty systemowej lub użytkownika i nie używała żadnych specjalnych strategii dekodowania (takich jak wymuszanie budżetu).

Gdy ruszył projekt OpenThoughts, jego celem było stworzenie otwartego modelu danych o wydajności dorównującej DeepSeek-R1-Distill-Qwen-32B.

Teraz ta luka została niemal całkowicie wyeliminowana.

Na koniec, zespół badawczy jest podekscytowany szybkimi postępami, jakie społeczność poczyniła w budowaniu otwartych modeli wnioskowania danych w ciągu ostatnich kilku tygodni, i z niecierpliwością oczekuje dalszych postępów w oparciu o spostrzeżenia poszczególnych członków.

Udostępnienie oprogramowania OpenThinker-32B w formie otwartego kodu źródłowego pokazuje, że synergia między danymi, walidacją i rozmiarem modelu ma kluczowe znaczenie dla poprawy możliwości wnioskowania.

Wynik ten nie tylko promuje rozwój modeli wnioskowania opartych na otwartym kodzie źródłowym, ale także stanowi cenne zasoby i inspirację dla całej społeczności zajmującej się sztuczną inteligencją.

Podobne posty

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *