Jis yra artimas DeepSeek-R1-32B ir sutraiško Fei-Fei Li s1! UC Berkeley ir kiti atvirojo kodo nauji SOTA išvadų modeliai

32B išvados modelis naudoja tik 1/8 duomenų ir yra susietas su tokio paties dydžio DeepSeek-R1!

Kaip tik dabar tokios institucijos kaip Stanfordas, UC Berkeley ir Vašingtono universitetas kartu išleido SOTA lygio išvadų modelį, OpenThinker-32B, taip pat turi atvirojo kodo iki 114 000 treniruočių duomenų.

„OpenThinker Project“ pagrindinis puslapis:

„OpenThinker“ apsikabinęs veidas:

Atidarykite minčių duomenų rinkinį:

Komandos atradimas: naudojant didelio masto aukštos kokybės duomenų rinkinį su DeepSeek-R1 patvirtintomis anotacijomis (remiantis R1 distiliavimu), galima išmokyti SOTA išvadų modelį.

Konkretus metodas yra duomenų mastelis, išvadų proceso patikrinimas ir modelio mastelis.

Gautas OpenThinker-32B pranoko Li Fei-Fei s1 ir s1.1 modelius atliekant kelis etaloninius matematikos, kodavimo ir gamtos mokslų testus ir buvo artimas R1-Distill-32B.

Verta paminėti, kad, palyginti su R1-Distill-32B, kuris naudojo 800 000 duomenų (įskaitant 600 000 išvadų pavyzdžius), OpenThinker-32B naudojo tik 114 000 duomenų, kad pasiektų beveik tokius pat puikius rezultatus.

Be to, OpenThinker-32 taip pat paskelbė visus modelio svorius, duomenų rinkinius, duomenų generavimo kodą ir mokymo kodą!

Turinys

Duomenų tvarkymas

Tyrėjai apmokė OpenThinker-32B naudodami tą patį OpenThoughts-114k duomenų rinkinį, kaip ir anksčiau mokė OpenThinker-7B.

Jie naudojo DeepSeek-R1 modelį, kad surinktų samprotavimo procesus ir atsakytų į kruopščiai atrinktą 173 000 klausimų rinkinį. Tada šie neapdoroti duomenys buvo paskelbti kaip OpenThoughts-Unverified-173k duomenų rinkinys.

Paskutinis proceso žingsnis yra išfiltruoti atitinkamus duomenų pavyzdžius, jei samprotavimo procesas nepraeina patikrinimo.

Toliau pateiktame paveikslėlyje vizualiai parodytas visas procesas.

Tyrėjų komanda pirmiausia įveda šaltinio duomenis arba klausimų raginimus, kurie gali būti gaunami iš skirtingų sričių ir platformų, pvz., BAAI / TACO, DeepMind, Python pateikimo ir kt., apimantys įvairius aspektus, tokius kaip kodas, galvosūkiai, mokslas ir matematika.

Tada šie įvairūs įvesties duomenys perduodami pagrindiniam apdorojimo moduliui DeepSeek-R1, kur duomenys analizuojami ir apdorojami. Klausimai skirstomi į tris kategorijas: gamtos mokslų klausimai, matematika ir galvosūkiai bei kodas.

Kai kurių rezultatų tikrinti nereikia ir jie gali būti paprastos analizės arba tiesioginiai rezultatai. Tam tikro turinio, kurį reikia nuodugniai patikrinti, atveju naudojamas didelės kalbos modelis (LLM), kad jį būtų galima įvertinti panašiai kaip GT (Ground Truth). Jei tai kodas, kodas vykdomas ir atliekami vienetų testai, siekiant užtikrinti jo teisingumą ir efektyvumą.

Galiausiai skirtingų krypčių rezultatus galima derinti, kad būtų sukurtas atviras mąstymas ir visapusiškesni sprendimai.

Tyrimo grupė atnaujino galutinį OpenThoughts-114k duomenų rinkinį su konfigūracija, vadinama „metaduomenimis“, kurioje yra keletas papildomų stulpelių, naudojamų duomenų rinkiniui sudaryti:

problema
žemės_tiesos_sprendimas
testo_atvejai (tik kodas)
starter_code (tik kodas)
DeepSeek_samprotavimas
DeepSeek_sprendimas
domenas
šaltinis

Šie papildomi metaduomenys palengvins šio duomenų rinkinio naudojimą pagal naujus scenarijus, pvz., duomenų filtravimą, domenų perjungimą, patvirtinimo patikras ir išvados proceso šablono keitimą.

Šie papildomi metaduomenys palengvins šio duomenų rinkinio naudojimą, o tai galima padaryti naudojant tik vieną kodo eilutę, pvz., filtruojant, keičiant domeną, tikrinant patvirtinimą ir keičiant išvadų stebėjimo šabloną.

load_dataset("open-thoughts/OpenThoughts-114k", "metadata", split="traukinys")

Tyrėjų komanda teigia, kad tikisi, kad bendruomenė pasinaudos šiais klausimais ir įprastų atsakymų tyrimams, susijusiems su mokymosi pastiprinimu (RL), naudojant OpenThinker modelį. „DeepScaleR“ jau įrodė, kad šis metodas ypač gerai veikia mažesnėse skalėse.

Patikrinimas

Kad pasiektų galutinį OpenThoughts-114k duomenų rinkinį, tyrimo grupė patikrino atsakymus ir pašalino neteisingus atsakymus.

Kaip parodyta toliau pateiktoje lentelėje, nepatvirtintų išvadų išlaikymas gali pabloginti našumą, nors nepatvirtintas modelis vis tiek veikia gerai, palyginti su kitais 32B išvadų modeliais.

Patikrinimo vaidmuo yra išlaikyti R1 komentarų kokybę, kartu plečiant mokymo raginimo rinkinio įvairovę ir dydį. Kita vertus, nepatikrintus duomenis galima lengviau išplėsti, todėl juos taip pat verta tyrinėti toliau.

Dėl kodo problemų užbaigiame išvados proceso patikrinimą, patikrindami bandymus atsakyti pagal esamus bandomuosius atvejus.

Įkvėpti iššūkių, su kuriais susiduriama vykdant kodą, „Curator“ įdiegėme kodo vykdymo sistemą, kuri leidžia vartotojams vykdyti kodą dideliu mastu, saugiai ir patikrinti, ar jis atitinka laukiamą išvestį.

Spręsdama matematines problemas, tyrimo grupė patikrinimui naudojo LLM (didelės kalbos modelio) teisėją, kuris gauna ir standartinį atsakymą, ir DeepSeek-R1 sprendimo bandymą.

Buvo nustatyta, kad naudojant LLM vertintoją duomenims generuoti, o ne griežtesnį analizavimo variklį (Math-Verify), buvo pasiektas didesnis efektyvus duomenų perdavimo greitis ir leido parengti geresnius našumo modelius.

Treniruotės

Tyrimo grupė naudojo LLaMa-Factory, kad tris kartus tiksliai sureguliuotų Qwen2.5-32B-Instruct OpenThoughts-114k duomenų rinkinyje, kurio konteksto ilgis yra 16 000. Visą mokymo konfigūraciją galite rasti „GitHub“.

OpenThinker-32B buvo mokomas 90 valandų, naudojant keturis 8xH100 P5 mazgus AWS SageMaker klasteryje, iš viso 2880 H100 valandų.

Tuo tarpu „OpenThinker-32B-Unverified“ 30 valandų mokėsi „Leonardo“ superkompiuteryje, naudodamas 96 4xA100 mazgus (64 GB vienam GPU), sukaupdamas 11 520 A100 valandų.

Įvertinimas

Tyrimo grupė naudojo atvirojo kodo vertinimo biblioteką Evalchemy, kad įvertintų visus modelius.

AIME24 ir AIME25 tikslumą jie apskaičiavo apskaičiuodami penkių paleidimų rezultatų vidurkį. Vertinimo konfigūracija naudojo 0,7 temperatūros parametrą, modelio atsaką apribojo iki 32 768 žetonų, nepridėjo jokių papildomų sistemos ar vartotojo raginimo žodžių ir nenaudojo jokių specialių dekodavimo strategijų (pvz., biudžeto privertimo).

Kai buvo pradėtas OpenThoughts projektas, jie užsibrėžė tikslą sukurti atvirų duomenų modelį, kurio našumas atitiktų DeepSeek-R1-Distill-Qwen-32B.

Dabar ta spraga beveik panaikinta.

Galiausiai, mokslininkų komanda džiaugiasi sparčia bendruomenės pažanga kuriant atvirų duomenų išvadų modelius per pastarąsias kelias savaites ir tikisi toliau judėti pirmyn, remdamasi vieni kitų įžvalgomis.

OpenThinker-32B atvirojo kodo leidimas parodo, kad duomenų, patvirtinimo ir modelio dydžio sinergija yra labai svarbi siekiant pagerinti išvadų galimybes.

Šis rezultatas ne tik skatina atvirojo kodo išvadų modelių kūrimą, bet ir suteikia vertingų išteklių bei įkvėpimo visai AI bendruomenei.

Jis yra artimas DeepSeek-R1-32B ir sutraiško Fei-Fei Li s1! UC Berkeley ir kiti atvirojo kodo nauji SOTA išvadų modeliai

Duomenų tvarkymas

Patikrinimas

Treniruotės

Įvertinimas

DeepSeek R1 užėmė pirmąją vietą kūrybinio rašymo teste, o o3 mini buvo dar prastesnis nei o1 mini!

a16z dialogas su 27 metų generaliniu direktoriumi: AI agentas turi didžiulį sverto efektą, o ilgalaikė kainodara bus susieta su darbo sąnaudomis

DeepSeek R1 popieriaus interpretacija ir pagrindiniai techniniai punktai

DeepSeek 1 paslaptis | DeepSeekMath ir GRPO informacija

Karščiausios naujienos! DeepSeek tyrėjas internete atskleidžia: R1 mokymas truko tik dvi ar tris savaites, o per kinų Naujųjų metų šventę buvo pastebėta galinga R1 nulio raida.

Paper-DeepSeek-R1: Motyvavimo gebėjimų skatinimas LLM naudojant mokymąsi su pastiprinimu

Parašykite komentarą Atšaukti atsakymą

Duomenų tvarkymas

Patikrinimas

Treniruotės

Įvertinimas

Panašios žinutės

Parašykite komentarą Atšaukti atsakymą