Paper-DeepSeek-R1: Motywowanie zdolności rozumowania w LLM poprzez uczenie ze wzmocnieniem

Spis treści

Streszczenie

Niniejszy dokument przedstawia modele rozumowania DeepSeek pierwszej generacji: DeepSeek-R1-Zero i DeepSeek-R1. DeepSeek-R1-Zero, wyszkolony poprzez wielkoskalowe uczenie ze wzmocnieniem (RL) bez nadzorowanego dostrajania (SFT), wykazuje niezwykłe możliwości rozumowania. Dzięki RL naturalnie rozwija potężne zachowania rozumowania. Napotyka jednak wyzwania, takie jak słaba czytelność i mieszanie języków. Aby rozwiązać te problemy i zwiększyć wydajność rozumowania, opracowano DeepSeek-R1, obejmujący wieloetapowe szkolenie i dane zimnego startu przed RL. DeepSeek-R1 osiąga wydajność porównywalną z OpenAI-o1-1217 w zadaniach rozumowania. Aby wesprzeć badania, DeepSeek udostępnia oba modele i sześć gęstych modeli (1.5B, 7B, 8B, 14B, 32B, 70B) wydestylowanych z DeepSeek-R1 w oparciu o Qwen i Llama.

Kluczowy wkład

Po treningu: Uczenie ze wzmocnieniem na dużą skalę

Pomyślne zastosowanie RL bezpośrednio do modelu bazowego bez SFT
Opracowano DeepSeek-R1-Zero, demonstrując możliwości takie jak autoweryfikacja i refleksja.
Pierwsze otwarte badanie potwierdzające, że zdolności rozumowania mogą być motywowane wyłącznie przez RL
Wprowadzono potok dla DeepSeek-R1 z dwoma stopniami RL i dwoma stopniami SFT

Destylacja: Wzmacnianie pozycji mniejszych modeli

Wykazał, że wzorce rozumowania z większych modeli mogą być skutecznie destylowane do mniejszych.
Open-sourcing DeepSeek-R1 i jego API z korzyścią dla społeczności badawczej
Dopracowano kilka gęstych modeli wykazujących wyjątkową wydajność w testach porównawczych.
Wyodrębnione modele znacznie przewyższają poprzednie modele open-source

Wyniki oceny

Zadania rozumowania

DeepSeek-R1 osiąga 79,8% Pass@1 na AIME 2024, przewyższając OpenAI-o1-1217
Wynik 97,3% w teście MATH-500, na równi z OpenAI-o1-1217
Wydajność na poziomie eksperta w zadaniach konkursowych z oceną 2,029 Elo na Codeforces

Zadania związane z wiedzą

Znakomite wyniki w testach MMLU (90,8%), MMLU-Pro (84,0%) i GPQA Diamond (71,5%).
Przewyższa inne modele o zamkniętym kodzie źródłowym w zadaniach edukacyjnych
Wysoka wydajność w testach porównawczych, takich jak SimpleQA

Ogólne możliwości

Doskonale radzi sobie z kreatywnym pisaniem, odpowiadaniem na pytania, edytowaniem i podsumowywaniem.
Współczynnik wygranych 87,6% w AlpacaEval 2.0 i 92,3% w ArenaHard.
Wysoka wydajność w zadaniach wymagających rozumienia długiego kontekstu

Przyszłe prace

Zespół planuje skupić się na:

Zwiększenie ogólnych możliwości w obszarach takich jak wywoływanie funkcji i złożone odgrywanie ról.
Rozwiązywanie problemów związanych z mieszaniem języków
Poprawa inżynierii podpowiedzi
Zwiększanie wydajności w zadaniach inżynierii oprogramowania

Wnioski

DeepSeek-R1 stanowi znaczący postęp w możliwościach rozumowania AI poprzez uczenie ze wzmocnieniem. Sukces zarówno głównego modelu, jak i jego wydestylowanych wersji pokazuje potencjał tego podejścia do tworzenia bardziej wydajnych systemów sztucznej inteligencji. Udostępnienie tych modeli na zasadach open source przyczyni się do dalszych badań i rozwoju w tej dziedzinie.

DeepSeek_R1 Pobierz

Uncategorized

Dialog a16z z 27-letnim CEO: Agent AI ma ogromny efekt dźwigni, a długoterminowe ceny będą powiązane z kosztami pracy

Przezzddeepseeker 8 lutego 20258 lutego 2025

Najważniejsze informacje Agent AI zmienia doświadczenie klienta Jesse Zhang: Jak właściwie skonstruowany jest agent? Naszym zdaniem z czasem będzie on coraz bardziej przypominał agenta opartego na języku naturalnym, ponieważ w ten sposób trenowane są duże modele językowe (LLM). W dłuższej perspektywie, jeśli masz superinteligentnego agenta, który…

Uncategorized

Aktualizacja DeepSeek-R1-0528: Głębsze myślenie, silniejsze rozumowanie

Przezzddeepseeker 29 maja 202529 maja 2025

Model DeepSeek R1 przeszedł niewielką aktualizację wersji, a obecna wersja to DeepSeek-R1-0528. Po wejściu na stronę internetową lub aplikację DeepSeek włącz funkcję „Deep Thinking” w interfejsie dialogowym, aby zapoznać się z najnowszą wersją. Wagi modelu DeepSeek-R1-0528 zostały przesłane do HuggingFace W ciągu ostatnich czterech miesięcy model DeepSeek-R1 przeszedł…

Uncategorized

Le Chat jest na szczycie list przebojów, z inwestycją w wysokości stu miliardów dolarów. Czy po USA i Chinach jest trzecią potęgą AI?

Przezzddeepseeker 11 lutego 202511 lutego 2025

9 lutego prezydent Francji Emmanuel Macron ogłosił, że Francja zainwestuje 109 miliardów euro (113 miliardów dolarów amerykańskich) w dziedzinie AI w ciągu najbliższych kilku lat. Inwestycja ta zostanie wykorzystana do budowy parku AI we Francji, ulepszenia infrastruktury i zainwestowania w lokalne start-upy AI. Tymczasem Mistral, francuski startup,…

Uncategorized

Ujawniono technologię DeepSeek-R1: podstawowe zasady artykułu zostały rozbite na czynniki pierwsze, a klucz do przełomowej wydajności modelu został ujawniony

Przezzddeepseeker luty 9, 2025luty 9, 2025

Dzisiaj podzielimy się DeepSeek R1, tytuł: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning: Incentivizing the reasoning ability of LLM via enhancement learning. W tym artykule przedstawiono pierwszą generację modeli rozumowania DeepSeek, DeepSeek-R1-Zero i DeepSeek-R1. Model DeepSeek-R1-Zero został wytrenowany poprzez uczenie się wzmacniające na dużą skalę (RL) bez nadzorowanego dostrajania (SFT) jako początkowego kroku,…

Uncategorized

Sekret kryjący się za DeepSeek 1 | DeepSeekMath i szczegóły GRPO

Przezzddeepseeker luty 9, 2025luty 9, 2025

Dzisiaj chciałbym podzielić się artykułem z DeepSeek zatytułowanym DeepSeekMath: Przesuwanie granic rozumowania matematycznego w otwartych modelach językowych. W tym artykule przedstawiono DeepSeekMath 7B, który został wstępnie wytrenowany na DeepSeek-Coder-Base-v1.5 7B w oparciu o zbiór 120B tokenów matematycznych, języka naturalnego i danych kodowych. Model osiągnął niesamowity wynik 51,7% w konkurencyjnym…

Uncategorized

Artefakty zarządzania dużym modelem językowym, takie jak DeepSeek: Cherry Studio, Chatbox, AnythingLLM – kto jest Twoim akceleratorem wydajności?

Przezzddeepseeker 11 lutego 202511 lutego 2025

Wiele osób zaczęło już wdrażać i używać Deepseek Large Language Models lokalnie, używając Chatbox jako narzędzia wizualizacyjnego. W tym artykule przedstawimy dwa inne artefakty zarządzania i wizualizacji AI Large Language Model oraz porównamy je szczegółowo, aby pomóc Ci wydajniej korzystać z AI Large Language Models. W 2025 r.…

Paper-DeepSeek-R1: Motywowanie zdolności rozumowania w LLM poprzez uczenie się ze wzmocnieniem

Streszczenie

Kluczowy wkład

Po treningu: Uczenie ze wzmocnieniem na dużą skalę

Destylacja: Wzmacnianie pozycji mniejszych modeli