Die 32B-afleidingsmodel gebruik slegs 1/8 van die data en is gekoppel aan DeepSeek-R1 van dieselfde grootte!

Sopas het instellings soos Stanford, UC Berkeley en die Universiteit van Washington gesamentlik 'n SOTA-vlak afleidingsmodel vrygestel, OpenThinker-32B, en het ook oopbron tot 114k opleidingsdata.

OpenThinker Project tuisblad:

OpenThinker knuffel gesig:

Oop gedagtes Datastel:

Spanontdekking: Deur 'n grootskaalse hoëgehalte-datastel met DeepSeek-R1-geverifieerde aantekeninge (gebaseer op R1-distillasie) te gebruik, kan 'n SOTA-afleidingsmodel opgelei word.

Die spesifieke metode is om die data te skaal, die afleidingsproses te verifieer en die model te skaal.

Die gevolglike OpenThinker-32B het beter gevaar as Li Fei-Fei se s1- en s1.1-modelle in verskeie maatstaftoetse in wiskunde, kodering en wetenskap, en was naby aan R1-Distill-32B.

Dit is die moeite werd om te noem dat in vergelyking met R1-Distill-32B, wat 800 000 data gebruik het (insluitend 600 000 afleidingsmonsters), OpenThinker-32B slegs 114 000 data gebruik het om byna dieselfde uitstekende resultate te behaal.

Boonop het OpenThinker-32 ook al die modelgewigte, datastelle, datagenereringskode en opleidingskode openbaar gemaak!

Datakurasie

Die navorsers het OpenThinker-32B opgelei met dieselfde OpenThinker-114k-datastel as wat hulle voorheen OpenThinker-7B opgelei het.

Hulle het die DeepSeek-R1-model gebruik om die redenasieprosesse te versamel en pogings vir 'n noukeurig geselekteerde stel van 173 000 vrae te beantwoord. Hierdie rou data is toe gepubliseer as die OpenThoughts-Unverified-173k datastel.

Die laaste stap in die proses is om die ooreenstemmende datamonsters uit te filter as die redenasieproses nie die verifikasie slaag nie.

Die volgende figuur vertoon die hele proses visueel.

Die navorsingspan voer eers brondata of vraagvrae in, wat van verskillende velde en platforms kan kom, soos BAAI/TACO, DeepMind, Python-voorleggings, ens., wat verskeie aspekte dek soos kode, raaisels, wetenskap en wiskunde.

Hierdie diverse insette word dan deurgegee na die kernverwerkingsmodule, DeepSeek-R1, waar die data ontleed en verwerk word. Die vrae word in drie kategorieë verdeel: wetenskapvrae, wiskunde en raaisels, en kode.

Sommige resultate vereis nie verifikasie nie en kan eenvoudige ontledings of direkte uitsette wees. Vir sommige inhoud wat in-diepte verifikasie vereis, word 'n groot taalmodel (LLM) gebruik om dit te beoordeel op 'n manier wat vergelykbaar is met GT (Ground Truth). As dit kode is, word die kode uitgevoer en eenheidstoetse word uitgevoer om die korrektheid en doeltreffendheid daarvan te verseker.

Laastens kan die resultate uit verskillende rigtings gekombineer word om oopkop denke en meer omvattende oplossings te genereer.

Die navorsingspan het die finale OpenThoughts-114k-datastel opgedateer met 'n konfigurasie genaamd "metadata" wat 'n paar bykomende kolomme bevat wat gebruik word om die datastel op te stel:

  • probleem
  • grond_waarheid_oplossing
  • toetsgevalle (slegs kode)
  • beginner_kode (slegs kode)
  • DeepSeek_redenasie
  • DeepSeek_oplossing
  • domein
  • bron

Hierdie bykomende metadata sal dit makliker maak om hierdie datastel in nuwe scenario's te gebruik, soos datafiltrering, domeinwisseling, verifikasiekontroles en die verandering van die afleidingsprosessjabloon.

Hierdie bykomende metadata sal dit makliker maak om hierdie datastel te gebruik, en dit kan gedoen word met net een reël kode, soos filtering, die verandering van die domein, die kontrolering van die verifikasie en die verandering van die afleidingsopsporingssjabloon.

load_dataset("open-thoughts/OpenThoughts-114k", "metadata", split="train")

Die navorsingspan sê hulle sien daarna uit om te sien dat die gemeenskap hierdie vrae en standaardantwoorde gebruik vir navorsing oor versterkingsleer (RL) op die OpenThinker-model. DeepScaleR het reeds getoon dat hierdie benadering besonder goed op kleiner skale werk.

Verifikasie

Om by die finale OpenThoughts-114k-datastel uit te kom, het die navorsingspan die antwoorde geverifieer en verkeerde antwoorde uitgeskakel.

Soos in die tabel hieronder getoon, kan die behoud van afleidings wat nie verifikasie slaag nie prestasie benadeel, hoewel die ongeverifieerde model steeds goed presteer in vergelyking met die ander 32B-afleidingsmodelle.

Die rol van verifikasie is om die kwaliteit van R1-aantekeninge te handhaaf, terwyl die diversiteit en grootte van die opleidingsaanwysingsstel uitgebrei word. Aan die ander kant kan ongeverifieerde data makliker uitgebrei word en is dit dus ook die moeite werd om verder te ondersoek.

Vir kodeprobleme voltooi ons die verifikasie van die afleidingsproses deur antwoordpogings teen bestaande toetsgevalle te verifieer.

Geïnspireer deur die uitdagings wat tydens kode-uitvoering in die gesig gestaar word, het ons 'n kode-uitvoeringsraamwerk in Curator geïmplementeer wat gebruikers in staat stel om kode op skaal, veilig uit te voer en dit teen die verwagte uitvoer te verifieer.

Vir wiskundige probleme het die navorsingspan 'n LLM (Large Language Model)-beoordelaar vir verifikasie gebruik, wat beide die standaardantwoord en die DeepSeek-R1-oplossingspoging ontvang.

Daar is gevind dat die gebruik van die LLM-evalueerder vir datagenerering in plaas van die strenger ontleedenjin (Math-Verify) 'n hoër effektiewe datatempo tot gevolg gehad het en die opleiding van stroomaf-modelle met beter werkverrigting moontlik gemaak het.

Opleiding

Die navorsingspan het LLaMa-Factory gebruik om Qwen2.5-32B-Instruct drie keer op die OpenThoughts-114k-datastel met 'n kontekslengte van 16k te verfyn. Die volledige opleidingkonfigurasie kan op GitHub gevind word.

OpenThinker-32B is vir 90 uur opgelei met behulp van vier 8xH100 P5 nodusse op 'n AWS SageMaker-groepering, vir 'n totaal van 2,880 H100-ure.

Intussen het OpenThinker-32B-Unverified vir 30 uur op die Leonardo-superrekenaar opgelei met 96 4xA100-nodusse (64GB per GPU), wat 11 520 A100-ure opgehoop het.

Evaluering

Die navorsingspan het die oopbron-evalueringsbiblioteek Evalchemy gebruik om alle modelle te evalueer.

Vir AIME24 en AIME25 het hulle die akkuraatheid bereken deur die gemiddelde resultate van vyf lopies te bereken. Die evalueringskonfigurasie het 'n temperatuurparameter van 0.7 gebruik, die modelreaksie tot 32 768 tekens beperk, geen addisionele stelsel- of gebruiker-spoedwoorde bygevoeg nie, en geen spesiale dekoderingstrategieë (soos begrotingsdwinging) gebruik nie.

Toe die OpenThoughts-projek van stapel gestuur is, het hulle 'n doelwit gestel om 'n oop datamodel te skep met werkverrigting wat kan ooreenstem met DeepSeek-R1-Distill-Qwen-32B.

Nou is daardie gaping amper uitgeskakel.

Ten slotte, die navorsingspan is opgewonde oor die vinnige vordering wat die gemeenskap gemaak het met die bou van oop data-afleidingsmodelle oor die afgelope paar weke, en sien daarna uit om voort te gaan om vorentoe te beweeg op grond van mekaar se insigte.

Die oopbronvrystelling van OpenThinker-32B demonstreer dat sinergieë tussen data, validering en modelgrootte die sleutel is tot die verbetering van afleidingsvermoëns.

Hierdie resultaat bevorder nie net die ontwikkeling van oopbron-afleidingsmodelle nie, maar bied ook waardevolle hulpbronne en inspirasie vir die hele KI-gemeenskap.

Soortgelyke plasings

Maak 'n opvolg-bydrae

Jou e-posadres sal nie gepubliseer word nie. Verpligte velde word met * aangedui