32B-päättelymalli käyttää vain 1/8 tiedosta ja on sidottu samankokoiseen DeepSeek-R1:een!

Juuri nyt laitokset, kuten Stanford, UC Berkeley ja Washingtonin yliopisto ovat yhdessä julkaisseet SOTA-tason päättelymallin, OpenThinker-32Bja ovat myös avoimen lähdekoodin jopa 114 000 harjoitusdataa.

OpenThinker Projectin kotisivu:

OpenThinker halaavat kasvot:

Avoin ajatustietojoukko:

Ryhmän löytö: SOTA-päätelmämalli voidaan kouluttaa käyttämällä laajamittaista korkealaatuista tietojoukkoa, jossa on DeepSeek-R1-varmennettuja huomautuksia (perustuu R1-tislaukseen).

Erityinen menetelmä on skaalata data, todentaa päättelyprosessi ja skaalata malli.

Tuloksena saatu OpenThinker-32B ylitti Li Fei-Fein s1- ja s1.1-mallit useissa matematiikan, koodauksen ja luonnontieteiden vertailutesteissä ja oli lähellä R1-Distill-32B:tä.

On syytä mainita, että verrattuna R1-Distill-32B:hen, joka käytti 800 000 dataa (mukaan lukien 600 000 johtopäätösnäyte), OpenThinker-32B käytti vain 114 000 dataa saavuttaakseen lähes samat erinomaiset tulokset.

Lisäksi OpenThinker-32 julkisti myös kaikki mallien painot, tietojoukot, tiedon generointikoodit ja harjoituskoodit!

Tietojen kuratointi

Tutkijat kouluttivat OpenThinker-32B:tä käyttämällä samaa OpenThoughts-114k-tietoaineistoa kuin he olivat aiemmin kouluttaneet OpenThinker-7B:tä.

He käyttivät mallia DeepSeek-R1 kerätäkseen päättelyprosessit ja vastatakseen huolellisesti valittuun 173 000 kysymyksen joukkoon. Nämä raakatiedot julkaistiin sitten OpenThoughts-Unverified-173k-tietojoukona.

Prosessin viimeinen vaihe on suodattaa pois vastaavat datanäytteet, jos päättelyprosessi ei läpäise varmennusta.

Seuraava kuva näyttää visuaalisesti koko prosessin.

Tutkimusryhmä syöttää ensin lähdetiedot tai kysymyskehotteet, jotka voivat tulla eri aloilta ja alustoilta, kuten BAAI/TACO, DeepMind, Python-lähetykset jne., kattaen eri näkökohtia, kuten koodin, palapelit, tieteen ja matematiikan.

Nämä erilaiset syötteet siirretään sitten ydinkäsittelymoduuliin DeepSeek-R1, jossa tiedot analysoidaan ja käsitellään. Kysymykset on jaettu kolmeen luokkaan: tiedekysymykset, matematiikka ja palapelit sekä koodi.

Jotkut tulokset eivät vaadi todentamista, ja ne voivat olla yksinkertaisia analyyseja tai suoria tuloksia. Joillekin sisällöille, jotka vaativat perusteellisen todentamisen, käytetään laajaa kielimallia (LLM) arvioimaan sitä tavalla, joka on verrattavissa GT:hen (Ground Truth). Jos kyseessä on koodi, koodi suoritetaan ja yksikkötestejä suoritetaan sen oikeellisuuden ja tehokkuuden varmistamiseksi.

Lopuksi eri suunnista saatuja tuloksia voidaan yhdistää ennakkoluulotonta ajattelua ja kokonaisvaltaisempia ratkaisuja varten.

Tutkimusryhmä on päivittänyt lopullisen OpenThoughts-114k-tietojoukon "metadata"-nimisellä konfiguraatiolla, joka sisältää joitain lisäsarakkeita, joita käytetään tietojoukon rakentamiseen:

  • ongelma
  • ground_truth_solution
  • testitapaukset (vain koodi)
  • aloituskoodi (vain koodi)
  • DeepSeek_reasoning
  • DeepSeek_ratkaisu
  • verkkotunnus
  • lähde

Nämä lisämetatiedot helpottavat tämän tietojoukon käyttöä uusissa skenaarioissa, kuten tietojen suodatuksessa, toimialueen vaihtamisessa, vahvistustarkistuksissa ja päättelyprosessimallin muuttamisessa.

Nämä lisämetatiedot helpottavat tämän tietojoukon käyttöä, ja se voidaan tehdä yhdellä koodirivillä, kuten suodatuksella, verkkotunnuksen vaihtamisella, vahvistuksen tarkistamisella ja päätelmien seurantamallin muuttamisella.

load_dataset("open-thoughts/OpenThoughts-114k", "metadata", split="train")

Tutkimusryhmä sanoo odottavansa innolla näkevänsä yhteisön hyödyntävän näitä kysymyksiä ja tavanomaisia vastauksia OpenThinker-mallin vahvistusoppimisen (RL) tutkimukseen. DeepScaleR on jo osoittanut, että tämä lähestymistapa toimii erityisen hyvin pienemmässä mittakaavassa.

Vahvistus

Päästäkseen lopulliseen OpenThoughts-114k-tietosarjaan tutkimusryhmä vahvisti vastaukset ja eliminoi virheelliset vastaukset.

Kuten alla olevasta taulukosta näkyy, varmennusta läpäisemättömien päätelmien säilyttäminen voi heikentää suorituskykyä, vaikka vahvistamaton malli toimii silti hyvin muihin 32B-päätelmämalleihin verrattuna.

Todentamisen tehtävänä on ylläpitää R1-merkintöjen laatua ja samalla laajentaa koulutuskehotejoukon monimuotoisuutta ja kokoa. Toisaalta todentamaton data on helpommin laajennettavissa ja siksi myös tutkimisen arvoinen.

Koodiongelmissa viimeistelemme päättelyprosessin tarkistamisen tarkistamalla vastausyritykset olemassa oleviin testitapauksiin.

Koodin suorittamisen aikana kohtaamien haasteiden innoittamana otimme Curatorissa käyttöön koodin suorituskehyksen, jonka avulla käyttäjät voivat suorittaa koodia mittakaavassa, turvallisesti ja varmistaa sen odotetun tuloksen perusteella.

Matemaattisten ongelmien varmentamiseen tutkimusryhmä käytti LLM-tuomaria (Large Language Model), joka saa sekä vakiovastauksen että DeepSeek-R1-ratkaisuyrityksen.

Havaittiin, että LLM-evaluaattorin käyttäminen tiedon luomiseen tiukemman jäsennysmoottorin (Math-Verify) sijasta johti korkeampaan tehokkaaseen datanopeuteen ja mahdollisti paremman suorituskyvyn omaavien loppupään mallien koulutuksen.

Koulutus

Tutkimusryhmä käytti LLaMa-Factorya Qwen2.5-32B-Instructin hienosäätämiseen kolme kertaa OpenThoughts-114k-tietojoukossa, jonka kontekstin pituus oli 16 kt. Täydelliset koulutusasetukset löytyvät GitHubista.

OpenThinker-32B:tä koulutettiin 90 tuntia käyttämällä neljää 8xH100 P5-solmua AWS SageMaker -klusterissa, yhteensä 2 880 H100 tuntia.

Sillä välin OpenThinker-32B-Unverified harjoitteli 30 tuntia Leonardo-supertietokoneella käyttäen 96 4xA100-solmua (64 Gt GPU:ta kohden), mikä keräsi 11 520 A100 tuntia.

Arviointi

Tutkimusryhmä käytti avoimen lähdekoodin arviointikirjastoa Evalchemyä kaikkien mallien arvioimiseen.

AIME24:lle ja AIME25:lle he laskivat tarkkuuden laskemalla viiden ajon tulosten keskiarvon. Arviointikonfiguraatiossa käytettiin lämpötilaparametria 0,7, mallin vaste rajoitettiin 32 768 merkkiin, ei lisätty järjestelmä- tai käyttäjäkehotteita eikä käytetty mitään erityisiä dekoodausstrategioita (kuten budjetin pakottamista).

Kun OpenThoughts-projekti käynnistettiin, he asettivat tavoitteeksi luoda avoimen datan malli, jonka suorituskyky vastaa DeepSeek-R1-Distill-Qwen-32B:tä.

Nyt tämä aukko on melkein poistettu.

Lopuksi tutkimusryhmä on innoissaan yhteisön nopeasta edistymisestä avoimen datan päättelymallien rakentamisessa viime viikkojen aikana ja odottaa innolla etenemistä eteenpäin toistensa näkemysten pohjalta.

OpenThinker-32B:n avoimen lähdekoodin julkaisu osoittaa, että tiedon, validoinnin ja mallin koon välinen synergia on avainasemassa päättelykykyjen parantamisessa.

Tämä tulos ei ainoastaan edistä avoimen lähdekoodin johtopäätösmallien kehittämistä, vaan tarjoaa myös arvokkaita resursseja ja inspiraatiota koko tekoälyyhteisölle.

Samankaltaisia viestejä

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *