The Model DeepSeek R1 przeszedł niewielką aktualizację wersji, a aktualna wersja to DeepSeek-R1-0528. Po wejściu na stronę internetową lub aplikację DeepSeek włącz funkcję „Deep Thinking” w interfejsie dialogowym, aby doświadczyć najnowszej wersji.

Modele DeepSeek-R1-0528 zostały przesłane do HuggingFace

W ciągu ostatnich czterech miesięcy DeepSeek-R1 przeszedł superewolucję, osiągając możliwości kodowania wykraczające poza skalę i znacznie dłuższy czas myślenia. Choć może nie jest to DeepSeek-R2 wszyscy się spodziewali, że ulepszenia w modelu DeepSeek-R1-0528 są znaczące.

Według doniesień nowy model jest trenowany na DeepSeek-V3-0324 (z parametrami 660B).

Najpierw przyjrzyjmy się szybko najważniejszym aktualizacjom w tej wersji, korzystając z tabeli

Wymiar możliwoścideepseek-R1Głębokie poszukiwanie-R1-0528
Maksymalny kontekst64k(API)128K(API)jeszcze więcej
Generowanie koduliveCodeBench zamknij openai O1Blisko O3
Głębokość rozumowaniaZłożone pytania wymagają podzielonych na segmenty podpowiedzi.Wspiera 30-60 minut głębokiego myślenia
Naturalność językaraczej długiKompaktowa konstrukcja, pismo podobne do O3
Koszt użytkowaniaOprogramowanie typu open source lub API$0.5/MOprogramowanie typu open source lub API$0.5/M

Ulepszone możliwości głębokiego myślenia

Model DeepSeek-R1-0528 nadal wykorzystuje jako podstawę model DeepSeek V3 Base wydany w grudniu 2024 r., ale na etapie poszkoleniowym zainwestowano w niego więcej mocy obliczeniowej, co znacznie zwiększyło głębię myślenia i zdolność rozumowania modelu.

Zaktualizowany model R1 osiągnął najwyższą wydajność wśród wszystkich krajowych modeli w licznych testach porównawczych, obejmujących matematykę, programowanie i ogólną logikę, a jego ogólna wydajność jest teraz porównywalna z innymi międzynarodowymi modelami najwyższej klasy, takimi jak o3 i Gemini-2.5-Pro.

  • Umiejętności matematyczne i programistyczne: W konkursie matematycznym AIME 2025 dokładność wzrosła z 70% w poprzedniej wersji do 87,5%; możliwości generowania kodu w teście porównawczym LiveCodeBench są niemal porównywalne z modelem o3-high firmy OpenAI, osiągając wynik pass@1 wynoszący 73,3%.

Testy użytkowników wykazują, że nowy DeepSeek-R1 jest po prostu zadziwiający pod względem programowania!

Ekspert ds. sztucznej inteligencji „karminski-dentist” przetestował DeepSeek-R1-0528 i Claude 4 Sonnet przy użyciu tego samego polecenia i odkrył, że:

Niezależnie od tego, czy chodzi o rozproszone odbicie światła na ścianie, kierunek lotu piłki po uderzeniu czy walory estetyczne panelu sterowania, R1 wyraźnie przewyższa konkurencję.

Użytkownik Haider. zlecił modelowi zbudowanie systemu punktacji słów. R1 krótko rozważył zadanie i natychmiast wygenerował dwa pliki — jeden do kodu, a drugi do testowania pracy — które działały bezbłędnie przy pierwszej próbie.

Wcześniej o3 był jedynym modelem zdolnym do wykonania tego zadania. Teraz R1 jest niewątpliwie najlepszym modelem do tego zadania.

Warto zauważyć, że wydajność R1 jest tak niezwykła, ponieważ dwa zwrócone przez niego pliki uruchamiają się bezbłędnie od pierwszej próby, bez żadnej edycji ani ponawiania prób, co zdarza się niezwykle rzadko.

Wcześniej większość modeli albo kończyła działanie w skrajnych przypadkach, albo nadmiernie komplikowała rozwiązanie, albo nie obejmowała wystarczającego pokrycia testowego.

  • Głębokość wnioskowania: Czas myślenia nad pojedynczym zadaniem wydłużony do 30–60 minut, przy znacznie poprawionych możliwościach rozwiązywania złożonych problemów (np. symulacje fizyczne, wieloetapowe łamigłówki logiczne).

Dłuższy czas myślenia stał się najczęściej omawianą cechą online. Niektórzy użytkownicy zgłaszali, że czas myślenia R1 przekroczył 25 minut w testach w warunkach rzeczywistych.

Ponadto wydaje się, że jest to jedyny model, który potrafi konsekwentnie poprawnie odpowiedzieć na pytanie „Ile wynosi 9,9 minus 9,11?”

DeepSeek-R1-0528 osiągnął doskonałą wydajność na wszystkich zestawach danych ewaluacyjnych

W porównaniu z poprzednią wersją R1 nowy model wykazuje znaczące ulepszenia w złożonych zadaniach rozumowania. Na przykład w teście AIME 2025 wskaźnik dokładności nowego modelu wzrósł z 70% do 87,5%.

Poprawa ta wynika z większej głębi rozumowania w modelu: w zestawie testowym AIME 2025 stary model używał średnio 12 tys. tokenów na pytanie, podczas gdy nowy model używał średnio 23 tys. tokenów na pytanie, co wskazuje na bardziej szczegółowe i pogłębione myślenie w procesie rozwiązywania problemów.

Dodatkowo zespół deepseek przekształcił łańcuch wnioskowania z DeepSeek-R1-0528 i udoskonalił bazę Qwen3-8B, co zaowocowało DeepSeek-R1-0528-Qwen3-8B.

Model 8B zajął drugie miejsce za modelem DeepSeek-R1-0528 w teście matematycznym AIME 2024, przewyższając Qwen3-8B (+10,0%) i dorównując Qwen3-235B.

Łańcuchy rozumowania DeepSeek-R1-0528 będą miały istotne znaczenie dla badań naukowych nad modelami rozumowania i rozwoju przemysłowego modeli na małą skalę.

Niektórzy internauci chwalili DeepSeek-R1 za to, że potrafi korygować łańcuchy rozumowania, takie jak o3, i kreatywnie budować światy, takie jak Claude.

Należy zauważyć, że DeepSeek jest modelem o otwartym kodzie źródłowym, co oznacza wielkie zwycięstwo modeli opartych na otwartym kodzie źródłowym.

Wyniki porównania AIME 2024 dla modeli open-source, takich jak DeepSeek-R1-0528-Qwen3-8B

Inne aktualizacje możliwości

  • Poprawa halucynacji: Nowa wersja DeepSeek R1 zoptymalizowała wydajność w przypadku problemów z „halucynacjami”. W porównaniu z poprzednią wersją, zaktualizowany model osiąga 45–50% redukcję częstości halucynacji w takich zadaniach, jak przepisywanie i polerowanie, podsumowywanie i czytanie ze zrozumieniem, zapewniając dokładniejsze i bardziej wiarygodne wyniki.
  • Twórcze pisanie: Zaktualizowany model R1, oparty na poprzedniej wersji R1, został zoptymalizowany pod kątem pisania esejów, powieści i prozy. Dzięki temu możliwe stało się pisanie dłuższych, strukturalnie pełniejszych dzieł przy jednoczesnym zachowaniu stylu pisania bardziej odpowiadającego ludzkim preferencjom.
  • Wywołanie narzędzia: DeepSeek-R1-0528 obsługuje wywoływanie narzędzia (wywołanie narzędzia nie jest obsługiwane w myśleniu). Obecne wyniki oceny Tau-Bench modelu wynoszą 53,5% dla linii lotniczych i 63,9% dla handlu detalicznego, porównywalne z OpenAI o1-high, ale nadal pozostające w tyle za o3-High i Claude 4 Sonnet.

Przykład pokazuje podsumowanie artykułu internetowego wygenerowane przy użyciu możliwości wywołania narzędzia DeepSeek-R1-0528 za pośrednictwem LobeChat. Ponadto DeepSeek-R1-0528 zostało zaktualizowane i ulepszone w takich obszarach, jak generowanie kodu front-end i odgrywanie ról.

Przykład przedstawia nowoczesną i minimalistyczną aplikację kart słów opracowaną z wykorzystaniem HTML/CSS/JavaScript poprzez wywołanie DeepSeek-R1-0528 na stronie internetowej.

Najważniejsze informacje o aktualizacji DeepSeek-R1-0528

  • Głębokie możliwości rozumowania porównywalne z modelami Google
  • Optymalizacja generowania tekstu: bardziej naturalny i lepiej sformatowany
  • Unikalny styl rozumowania: nie tylko szybszy, ale i bardziej rygorystyczny
  • Wsparcie dla myślenia długoterminowego: czas przetwarzania pojedynczego zadania może wynosić od 30 do 60 minut

Możliwości nowej wersji DeepSeek-R1 zostały przez nas przetestowane. Mimo że jest to aktualizacja „wersji mniejszej”, jej wydajność została „epicko” zwiększona.

Zwłaszcza pod względem możliwości programowania, wydaje się, że przewyższył lub jest na równi z Claude 4 i Gemini 2.5 Pro. Wszystkie monity są „jednorazowe”, nie wymagają żadnych modyfikacji! I można go uruchomić bezpośrednio w przeglądarce internetowej, aby zademonstrować jego możliwości.

Można wyraźnie odczuć, że proces myślowy nowej wersji DeepSeek-R1 jest bardziej stabilny.

Możesz zadać deepseek-R1 dowolne pytanie, na które chcesz znać odpowiedź, nawet jeśli Twoje pytanie jest trochę bezsensowne, nadal będzie starannie przemyślane i uporządkuje logikę. Zdecydowanie zalecamy wypróbowanie najnowszego modelu deepseek-R1.

Informacje o aktualizacji API

API zostało zaktualizowane, ale interfejs i metody wywołania pozostają niezmienione. Nowe API R1 nadal obsługuje wyświetlanie procesu myślenia modelu, a teraz obsługuje również Function Calling i JsonOutput.

Zespół deepseek dostosował znaczenie parametru max_tokens w nowym API R1: max_tokens ogranicza teraz całkowitą długość pojedynczego wyniku modelu (wliczając proces myślenia) do wartości domyślnej 32 KB i maksymalnej 64 KB. Użytkownikom API zaleca się szybkie dostosowanie parametru max_tokens, aby zapobiec przedwczesnemu obcięciu wyniku.

Szczegółowe instrukcje dotyczące korzystania z modelu R1 można znaleźć w Przewodnik po interfejsie API deepseek R1:

Po tej aktualizacji R1 długość kontekstu modelu na oficjalnej stronie internetowej, miniprogramie, aplikacji i API pozostanie na poziomie 64 KB. Jeśli użytkownicy potrzebują dłuższej długości kontekstu, mogą wywołać wersję open-source modelu R1-0528 o długości kontekstu 128 KB za pośrednictwem innych platform zewnętrznych.

Otwarte źródło

Model DeepSeek-R1-0528 wykorzystuje ten sam model bazowy, co poprzedni model DeepSeek-R1. Udoskonalono jedynie metody stosowane po treningu.

Podczas wdrażania prywatnego należy zaktualizować tylko checkpoint i tokenizer_config.json (zmiany związane z wywołaniami narzędzi). Parametry modelu to 685B (z czego 14B jest dla warstwy MTP), a wersja open-source ma długość kontekstu 128K (długość kontekstu 64K jest dostępna dla sieci web, aplikacji i API).

Podobne posty

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *