DeepSeek R1 zajął pierwsze miejsce w teście kreatywnego pisania, a o3 mini było nawet gorsze od o1 mini!

DeepSeek R1 wygrał mistrzostwa w teście kreatywnego pisania opowiadań, z powodzeniem wyprzedzając poprzedniego dominującego gracza Claude 3.5 Sonnet!

Spis treści

Test porównawczy

Test porównawczy opracowany przez badacza Lecha Mazura nie jest przeciętnym konkursem pisarskim.

Każdy model AI musiał ukończyć 500 krótkich historii, a każda z nich musiała sprytnie zawierać 10 losowo przypisanych elementów. Było to trudne, otwarte zadanie pisarskie dla SI, które nie tylko wymagało kompletnej fabuły, ale także zapewniało, że wszystkie przypisane elementy były naturalnie zintegrowane

Metoda oceny

Ten test porównawczy wykorzystuje unikalny system punktacji: sześć najlepszych modeli językowych działa jako sędziowie, oceniając różne aspekty historii. Innymi słowy, liderzy branży AI oceniają samą sztuczną inteligencję, co ogólnie zapewnia stosunkowo uczciwy i systematyczny standard oceny.

Zawartość testu

Powyższy wykres przedstawia analizę korelacji wyników w teście porównawczym kreatywnego pisania. DeepSeek ma współczynnik korelacji powyżej 0,93 z innymi modelami głównego nurtu (Claude, GPT-4o, Gemini i Grok), co wskazuje, że ma wysoce spójne kryteria oceny z innymi najlepszymi modelami przy ocenie jakości kreatywnego pisania, co pośrednio potwierdza jego wiarygodność w tym teście.

Powyższy wykres przedstawia wyniki testu porównawczego kreatywnego pisania opowiadań. Każdy model sztucznej inteligencji musiał napisać 500 opowiadań, z których każde musiało zawierać 10 określonych losowych elementów. Punkty na wykresie pokazują rozkład wyników każdego uczestniczącego modelu AI dla różnych modeli punktacji (reprezentowanych przez różne kolory).

W teście, Głęboki S eek (ciemnoniebieskie punkty) wypadł dobrze, z większością punktów skoncentrowanych w górnej połowie wykresu i stosunkowo skoncentrowanych, wykazując stabilny i wysoki poziom umiejętności kreatywnego pisania.

Ta wyjątkowa wydajność pozwoliła mu z powodzeniem prześcignąć poprzedniego mistrza, Claude 3.5 Sonnet, i stać się nowym liderem testów porównawczych.

Na tym wykresie każdy wiersz reprezentuje model AI, a każda kolumna reprezentuje wymiar oceny (taki jak charakterystyka, spójność wykresu itp.). DeepSeek znajduje się w górnej środkowej części wykresu, z ogólnym pomarańczowo-żółtym odcieniem, co wskazuje, że osiągnął doskonałe wyniki w większości wymiarów oceny. W szczególności osiągnął wysokie wyniki wynoszące prawie 8 punktów w kluczowych wymiarach wykonania (Q6), charakterystyki (TA) i rozwoju fabuły (TJ). Chociaż nie jest to najjaśniejszy żółty kolor w poszczególnych wymiarach, nie ma żadnych oczywistych słabości.

Jak widać na wykresie, wyniki historii DeepSeek są w większości rozłożone między 7 a 9 punktów, a rozkład jest stosunkowo skoncentrowany. Co ciekawe, linia trendu jest prawie pozioma, co wskazuje, że jakość historii DeepSeek nie jest ściśle związana z długością historii. Innymi słowy, niezależnie od tego, czy piszemy długą, czy krótką historię, DeepSeek może utrzymać niezmiennie wysoką jakość produkcji. To pokazuje, że DeepSeek koncentruje się bardziej na jakości niż ilości podczas tworzenia i może utrzymać doskonałą wydajność w historiach o różnej długości.

Dlaczego Zwycięstwo DeepSeek R1?

Sądząc po wynikach testów, DeepSeek R1 wypadł niesamowicie:

Wszechstronne możliwości integracji historii: R1 wykazał się niesamowitą elastycznością i kreatywnością, radząc sobie z różnymi kombinacjami elementów fabuły.
Stabilna jakość wyjściowa: Sądząc po wykresie rozkładu wyników, R1 nie tylko miał wysoki średni wynik, ale także stabilną wydajność z mniejszymi wahaniami.
Wyjątkowa kreatywność: W tym teście porównawczym historie stworzone przez R1 zostały ocenione jako jedne z trzech najlepszych, co dowodzi jego wyjątkowej zdolności do kreatywnego pisania.

Jak wypadli pozostali uczestnicy?

Oprócz ekscytującego pojedynku pomiędzy DeepSeek R1 i Claude 3.5 Sonnet, warto również zwrócić uwagę na wydajność innych modeli:

Seria Gemini osiągnęła dobre wyniki
Seria Llama 3.x miała nieco trudności w tym teście
o3-mini nie wypadł dobrze, zajmując 22. miejsce

Wreszcie

Przełom DeepSeek R1 w tym teście pokazał nam nieskończone możliwości sztucznej inteligencji w dziedzinie kreatywności. Chociaż tworzenie AI wciąż znajduje się na ścieżce ciągłego doskonalenia, takie wyniki już sprawiły, że jesteśmy pełni oczekiwań na przyszłość.

Ci, którzy chcą dowiedzieć się więcej o szczegółach testu, mogą odwiedzić GitHub Lecha Mazura, aby uzyskać pełne dane i przykłady najlepszych historii. Oczekujmy razem kolejnych przełomów w kreatywnym pisaniu AI!

Uncategorized

Paper-DeepSeek-R1: Motywowanie zdolności rozumowania w LLM poprzez uczenie się ze wzmocnieniem

Przezdeepseeker styczeń 29, 2025styczeń 29, 2025

Streszczenie Niniejszy artykuł przedstawia modele rozumowania DeepSeek pierwszej generacji: DeepSeek-R1-Zero i DeepSeek-R1. DeepSeek-R1-Zero, wytrenowany poprzez wielkoskalowe uczenie ze wzmocnieniem (RL) bez nadzorowanego dostrajania (SFT), wykazuje niezwykłe możliwości rozumowania. Dzięki RL naturalnie rozwija potężne zachowania rozumowania. Napotyka jednak wyzwania, takie jak słaba czytelność i mieszanie języków. Aby rozwiązać te problemy i zwiększyć wydajność rozumowania, opracowano DeepSeek-R1,...

Uncategorized

Najnowsze wiadomości! Badacz DeepSeek ujawnia online: szkolenie R1 trwało tylko dwa do trzech tygodni, a potężną ewolucję R1 zero zaobserwowano podczas chińskiego Nowego Roku

Przezzddeepseeker 4 lutego 20254 lutego 2025

Najnowsze wiadomości! Badacz DeepSeek ujawnia online: szkolenie R1 zajęło tylko dwa do trzech tygodni, a potężną ewolucję R1 zero zaobserwowano podczas chińskiego Nowego Roku Właśnie zauważyliśmy, że badacz DeepSeek Daya Guo odpowiedział na pytania internautów dotyczące DeepSeek R1 i planów firmy na przyszłość. Możemy tylko powiedzieć…

Uncategorized

Czym jest FlashMLA? Kompleksowy przewodnik po jego wpływie na jądra dekodujące AI

Przezdeepseeker luty 24, 2025luty 24, 2025

FlashMLA szybko zyskało uwagę w świecie sztucznej inteligencji, szczególnie w obszarze dużych modeli językowych (LLM). To innowacyjne narzędzie, opracowane przez DeepSeek, służy jako zoptymalizowane jądro dekodowania zaprojektowane dla procesorów graficznych Hopper — wysokowydajnych układów powszechnie używanych w obliczeniach AI. FlashMLA koncentruje się na wydajnym przetwarzaniu sekwencji o zmiennej długości, co czyni je szczególnie dobrze przystosowanym…

Uncategorized

Gemini 2.0 dominuje na listach przebojów, podczas gdy DeepSeek V3 kusi ceną. Tak oto narodził się nowy, ekonomiczny mistrz!

Przezzddeepseeker 8 lutego 20258 lutego 2025

Rodzina Google Gemini 2.0 jest wreszcie kompletna! Dominuje na listach przebojów od razu po premierze. Pośród pościgu i blokad Deepseek, Qwen i o3, Google wypuściło trzy modele na raz wczesnym rankiem: Gemini 2.0 Pro, Gemini 2.0 Flash i Gemini 2.0 Flash-Lite. W rankingach dużych modeli LMSYS, Gemini…

Uncategorized

DeepSeek to zrobił! OpenAI przyznaje się do błędu zamkniętego źródła, przewaga lidera maleje

Przezzddeepseeker luty 2, 2025luty 2, 2025

Po tym, jak OpenAI wypuściło model o3-mini, jego CEO Sam Altman, Chief Research Officer Mark Chen, Chief Product Officer Kevin Weil; wiceprezes ds. inżynierii Srinivas Narayanan, Head of API Research Michelle Pokrass i Head of Research Hongyu Ren, przeprowadzili techniczne pytania i odpowiedzi online na reddit, jednym z największych na świecie wszechstronnych forów. Główne tematy...

Uncategorized

Główne produkty z zakresu sztucznej inteligencji na świecie koncentrują się na analizie i kompleksowych wytycznych dotyczących doświadczeń użytkowników (w tym DeepSeek i GPT)

Przezzddeepseeker luty 10, 2025luty 10, 2025

Pozycjonowanie funkcji i analiza głównych zalet ChatGPT (OpenAI) – globalny punkt odniesienia dla wszechstronnych ChatGPT Geny techniczne: generatywna sztuczna inteligencja oparta na serii dużych modeli GPT, której głównymi zaletami są ogólne umiejętności konwersacyjne i logiczne rozumowanie. Przetwarzanie wielojęzyczne: najlepiej sprawdza się w języku angielskim, z ciągłą poprawą w języku chińskim; zalecamy jednak używanie języka angielskiego do…

DeepSeek R1 zajął pierwsze miejsce w teście kreatywnego pisania, a o3 mini było nawet gorsze niż o1 mini!

Test porównawczy

Metoda oceny

Zawartość testu

Dlaczego Zwycięstwo DeepSeek R1?

Jak wypadli pozostali uczestnicy?

Wreszcie

Paper-DeepSeek-R1: Motywowanie zdolności rozumowania w LLM poprzez uczenie się ze wzmocnieniem

Najnowsze wiadomości! Badacz DeepSeek ujawnia online: szkolenie R1 trwało tylko dwa do trzech tygodni, a potężną ewolucję R1 zero zaobserwowano podczas chińskiego Nowego Roku

Czym jest FlashMLA? Kompleksowy przewodnik po jego wpływie na jądra dekodujące AI

Gemini 2.0 dominuje na listach przebojów, podczas gdy DeepSeek V3 kusi ceną. Tak oto narodził się nowy, ekonomiczny mistrz!

DeepSeek to zrobił! OpenAI przyznaje się do błędu zamkniętego źródła, przewaga lidera maleje

Główne produkty z zakresu sztucznej inteligencji na świecie koncentrują się na analizie i kompleksowych wytycznych dotyczących doświadczeń użytkowników (w tym DeepSeek i GPT)

Dodaj komentarz Anuluj pisanie odpowiedzi

Test porównawczy

Metoda oceny

Zawartość testu

Dlaczego Zwycięstwo DeepSeek R1?

Jak wypadli pozostali uczestnicy?

Wreszcie

Podobne posty

Dodaj komentarz Anuluj pisanie odpowiedzi