DeepSeek R1 wygrał mistrzostwa w teście kreatywnego pisania opowiadań, z powodzeniem wyprzedzając poprzedniego dominującego gracza Claude 3.5 Sonnet!

Test porównawczy

Test porównawczy opracowany przez badacza Lecha Mazura nie jest przeciętnym konkursem pisarskim.

Każdy model AI musiał ukończyć 500 krótkich historii, a każda z nich musiała sprytnie zawierać 10 losowo przypisanych elementów. Było to trudne, otwarte zadanie pisarskie dla SI, które nie tylko wymagało kompletnej fabuły, ale także zapewniało, że wszystkie przypisane elementy były naturalnie zintegrowane

Metoda oceny

Ten test porównawczy wykorzystuje unikalny system punktacji: sześć najlepszych modeli językowych działa jako sędziowie, oceniając różne aspekty historii. Innymi słowy, liderzy branży AI oceniają samą sztuczną inteligencję, co ogólnie zapewnia stosunkowo uczciwy i systematyczny standard oceny.

Zawartość testu

Powyższy wykres przedstawia analizę korelacji wyników w teście porównawczym kreatywnego pisania. DeepSeek ma współczynnik korelacji powyżej 0,93 z innymi modelami głównego nurtu (Claude, GPT-4o, Gemini i Grok), co wskazuje, że ma wysoce spójne kryteria oceny z innymi najlepszymi modelami przy ocenie jakości kreatywnego pisania, co pośrednio potwierdza jego wiarygodność w tym teście.

Powyższy wykres przedstawia wyniki testu porównawczego kreatywnego pisania opowiadań. Każdy model sztucznej inteligencji musiał napisać 500 opowiadań, z których każde musiało zawierać 10 określonych losowych elementów. Punkty na wykresie pokazują rozkład wyników każdego uczestniczącego modelu AI dla różnych modeli punktacji (reprezentowanych przez różne kolory).

W teście, GłębokiSeek (ciemnoniebieskie punkty) wypadł dobrze, z większością punktów skoncentrowanych w górnej połowie wykresu i stosunkowo skoncentrowanych, wykazując stabilny i wysoki poziom umiejętności kreatywnego pisania.

Ta wyjątkowa wydajność pozwoliła mu z powodzeniem prześcignąć poprzedniego mistrza, Claude 3.5 Sonnet, i stać się nowym liderem testów porównawczych.

Na tym wykresie każdy wiersz reprezentuje model AI, a każda kolumna reprezentuje wymiar oceny (taki jak charakterystyka, spójność wykresu itp.). DeepSeek znajduje się w górnej środkowej części wykresu, z ogólnym pomarańczowo-żółtym odcieniem, co wskazuje, że osiągnął doskonałe wyniki w większości wymiarów oceny. W szczególności osiągnął wysokie wyniki wynoszące prawie 8 punktów w kluczowych wymiarach wykonania (Q6), charakterystyki (TA) i rozwoju fabuły (TJ). Chociaż nie jest to najjaśniejszy żółty kolor w poszczególnych wymiarach, nie ma żadnych oczywistych słabości.

Jak widać na wykresie, wyniki historii DeepSeek są w większości rozłożone między 7 a 9 punktów, a rozkład jest stosunkowo skoncentrowany. Co ciekawe, linia trendu jest prawie pozioma, co wskazuje, że jakość historii DeepSeek nie jest ściśle związana z długością historii. Innymi słowy, niezależnie od tego, czy piszemy długą, czy krótką historię, DeepSeek może utrzymać niezmiennie wysoką jakość produkcji. To pokazuje, że DeepSeek koncentruje się bardziej na jakości niż ilości podczas tworzenia i może utrzymać doskonałą wydajność w historiach o różnej długości.

Dlaczego Zwycięstwo DeepSeek R1?

Sądząc po wynikach testów, DeepSeek R1 wypadł niesamowicie:

  • Wszechstronne możliwości integracji historii: R1 wykazał się niesamowitą elastycznością i kreatywnością, radząc sobie z różnymi kombinacjami elementów fabuły.
  • Stabilna jakość wyjściowa: Sądząc po wykresie rozkładu wyników, R1 nie tylko miał wysoki średni wynik, ale także stabilną wydajność z mniejszymi wahaniami.
  • Wyjątkowa kreatywność: W tym teście porównawczym historie stworzone przez R1 zostały ocenione jako jedne z trzech najlepszych, co dowodzi jego wyjątkowej zdolności do kreatywnego pisania.

Jak wypadli pozostali uczestnicy?

Oprócz ekscytującego pojedynku pomiędzy DeepSeek R1 i Claude 3.5 Sonnet, warto również zwrócić uwagę na wydajność innych modeli:

  • Seria Gemini osiągnęła dobre wyniki
  • Seria Llama 3.x miała nieco trudności w tym teście
  • o3-mini nie wypadł dobrze, zajmując 22. miejsce

Wreszcie

Przełom DeepSeek R1 w tym teście pokazał nam nieskończone możliwości sztucznej inteligencji w dziedzinie kreatywności. Chociaż tworzenie AI wciąż znajduje się na ścieżce ciągłego doskonalenia, takie wyniki już sprawiły, że jesteśmy pełni oczekiwań na przyszłość.

Ci, którzy chcą dowiedzieć się więcej o szczegółach testu, mogą odwiedzić GitHub Lecha Mazura, aby uzyskać pełne dane i przykłady najlepszych historii. Oczekujmy razem kolejnych przełomów w kreatywnym pisaniu AI!

Podobne posty

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *