DeepSeek R1 je bio prvi u testu kreativnog pisanja, a o3 mini bio je još lošiji od o1 mini!

DeepSeek R1 osvojio je prvenstvo u referentnom testu kreativnog pisanja kratkih priča, uspješno nadmašivši prethodnog dominantnog igrača Claude 3.5 Sonnet!

Sadržaj

Benchmark test

Benchmark test koji je osmislio istraživač Lech Mazur nije vaše prosječno natjecanje u pisanju.

Svaki AI model trebao je dovršiti 500 kratkih priča, a svaka je priča morala pametno uključiti 10 nasumično dodijeljenih elemenata. Ovo je bio izazovan zadatak pisanja otvorenog tipa za AI, koji ne samo da je zahtijevao kompletnu priču, već je također osigurao da su svi dodijeljeni elementi prirodno integrirani

Metoda ocjenjivanja

Ovaj referentni test koristi jedinstveni sustav bodovanja: šest vrhunskih jezičnih modela djeluju kao suci, ocjenjujući različite aspekte priče. Drugim riječima, čelnici industrije umjetne inteligencije ocjenjuju samu umjetnu inteligenciju, koja općenito daje relativno pravedan i sustavan standard ocjenjivanja.

Testni sadržaj

Gornji grafikon prikazuje analizu korelacije bodova u referentnom testu kreativnog pisanja. DeepSeek ima korelacijski koeficijent od preko 0,93 s drugim mainstream modelima (Claude, GPT-4o, Gemini i Grok), što ukazuje na to da ima vrlo dosljedne kriterije prosudbe s drugim vrhunskim modelima kada ocjenjuje kvalitetu kreativnog pisanja, što neizravno potvrđuje njegovu pouzdanost u ovom test.

Gornji grafikon prikazuje rezultate referentnog testa kreativnog pisanja kratke priče. Svaki AI model trebao je napisati 500 priča, od kojih svaka mora sadržavati 10 određenih nasumičnih elemenata. Točke na grafikonu pokazuju distribuciju rezultata svakog modela umjetne inteligencije koji sudjeluje za različite modele bodovanja (predstavljene različitim bojama).

u testu, Duboko S eek (tamnoplave točke) pokazao se dobro, s većinom bodova koncentriranih u gornjoj polovici grafikona i relativno koncentriranih, pokazujući stabilnu i visoku razinu sposobnosti kreativnog pisanja.

Ova izvanredna izvedba omogućila mu je da uspješno nadmaši prethodnog prvaka, Claude 3.5 Sonnet, i postane novi vodeći u benchmark testu.

Na ovom grafikonu svaki redak predstavlja model umjetne inteligencije, a svaki stupac predstavlja dimenziju evaluacije (kao što je karakterizacija, koherencija crteža itd.). DeepSeek nalazi se u gornjem srednjem dijelu grafikona, s ukupnom narančasto-žutom nijansom, što ukazuje da je postigao izvrsne rezultate u većini dimenzija ocjenjivanja. Konkretno, postigao je visoke rezultate od gotovo 8 bodova u ključnim dimenzijama izvedbe (Q6), karakterizacije (TA) i razvoja radnje (TJ). Iako možda nije najsjajnija žuta u pojedinim dimenzijama, nema očitih nedostataka.

Kao što možete vidjeti na grafikonu, rezultati priče DeepSeek uglavnom su raspoređeni između 7 i 9 bodova, a distribucija je relativno koncentrirana. Zanimljivo je da je njegova linija trenda gotovo vodoravna, što ukazuje da kvaliteta priče DeepSeek nije usko povezana s duljinom priče. Drugim riječima, bilo da se radi o pisanju duge ili kratke priče, DeepSeek može održavati konzistentno visoku kvalitetu ispisa. Ovo pokazuje da DeepSeek se više fokusira na kvalitetu nego na kvantitetu pri stvaranju i može održati izvrsne performanse u pričama različite dužine.

Zašto jesam DeepSeek R1 pobjeda?

Sudeći po rezultatima testa, DeepSeek R1 je imao nevjerojatne rezultate:

Sveobuhvatne mogućnosti integracije priče: R1 je pokazao nevjerojatnu fleksibilnost i kreativnost u radu s različitim kombinacijama elemenata priče.
Stabilna kvaliteta ispisa: Sudeći prema grafikonu distribucije rezultata, R1 nije imao samo visoku prosječnu ocjenu, već i stabilnu izvedbu s manje fluktuacija.
Izvanredna kreativna izvedba: U ovom referentnom testu, priče koje je stvorio R1 ocijenjene su među tri najbolje u ukupnom poretku, što dokazuje njegovu izvanrednu sposobnost kreativnog pisanja.

Kako su se pokazali ostali natjecatelji?

Osim uzbudljivog obračuna između DeepSeek R1 i Claude 3.5 Sonnet, valja istaknuti i performanse drugih modela:

Serija Gemini pokazala se dobro
Serija Llama 3.x se malo mučila u ovom testu
O3-mini se nije dobro pokazao, zauzevši 22. mjesto

Konačno

Proboj DeepSeek R1-a u ovom testu pokazao nam je beskrajne mogućnosti umjetne inteligencije u polju kreativnosti. Iako je stvaranje umjetne inteligencije još uvijek na putu stalnog poboljšanja, takvi rezultati već su nas učinili punim očekivanjima za budućnost.

Za one koji žele saznati više o detaljima testa, možete posjetiti GitHub Lecha Mazura za sve podatke i primjere najboljih priča. Radujmo se zajedno novim otkrićima u kreativnom pisanju umjetne inteligencije!

Slični postovi

Nekategorizirano

a16z dijalog s 27-godišnjim izvršnim direktorom: AI Agent ima ogroman učinak poluge, a dugoročne cijene bit će povezane s troškovima rada

Pozddeepseeker 8. veljače 20258. veljače 2025

Istaknuto AI Agent preoblikuje korisničko iskustvo Jesse Zhang: Kako je agent zapravo konstruiran? Naše je mišljenje da će s vremenom sve više nalikovati agentu temeljenom na prirodnom jeziku jer se tako obučavaju veliki jezični modeli (LLM). Dugoročno gledano, ako imate super inteligentnog agenta koji...

Nekategorizirano

Googleov jeftini model, serija Gemini 2.0, napada: borba za isplativost kod velikih modela se zaoštrava

Pozddeepseeker 8. veljače 20258. veljače 2025

Visoka cijena korištenja velikih AI modela glavni je razlog zašto mnoge AI aplikacije još nisu implementirane i promovirane. Odabir ekstremnih performansi znači velike troškove računalne snage, što dovodi do visokih troškova korištenja koje obični korisnici ne mogu prihvatiti. Natjecanje za velike AI modele je poput rata bez dima. Nakon…

Nekategorizirano

DeepSeek TOP17 najboljih alternativa: Sveobuhvatna analiza (2025.)

Podeepseeker 6. veljače 20256. veljače 2025

Uvod U krajoliku umjetne inteligencije koji se brzo razvija, DeepSeek se pojavio kao moćan jezični model. Ova sveobuhvatna analiza istražuje 17 najboljih alternativa za DeepSeek, ispitujući njihove jedinstvene značajke, mogućnosti i slučajeve korištenja. Naše istraživanje usmjereno je na međunarodne i kineske platforme koje nude integraciju DeepSeek ili slične mogućnosti. Analiza najboljih alternativa 1….

Nekategorizirano

Qwen2.5-max protiv DeepSeek R1: Duboka usporedba modela: potpuna analiza scenarija primjene

Pozddeepseeker 14. veljače 202514. veljače 2025

Uvod Danas veliki jezični modeli (LLM) igraju presudnu ulogu. Početkom 2025. godine, kako se konkurencija za AI zaoštravala, Alibaba je lansirala novi Qwen2.5-max AI model, a DeepSeek, tvrtka iz Hangzhoua u Kini, lansirala je model R1, koji predstavlja vrhunac LLM tehnologije. Deepseek R1 je AI model otvorenog koda koji je privukao…

Nekategorizirano

OpenAI o3-mini protiv DeepSeek-R1: Tko je kralj nove generacije AI modela?

Pozddeepseeker 1. veljače 20251. veljače 2025

o3-mini je ovdje, sa zamahom izazivača Dana 31. siječnja, OpenAI je objavio potpuno novi veliki model o3-mini i dao neke od njegovih funkcija besplatno svim korisnicima ChatGPT-a. Iako postoji ograničenje broja upita, ono omogućuje korisnicima da iskuse najnoviji komercijalni model OpenAI-ja što je prije moguće….

Nekategorizirano

Tajna iza DeepSeek 1 | DeepSeekMmatematika i GRPO detalji

Pozddeepseeker 9. veljače 20259. veljače 2025

Danas bih želio podijeliti članak iz DeepSeek pod naslovom DeepSeekMath: Pomicanje granica matematičkog zaključivanja u modelima otvorenog jezika. Ovaj članak predstavlja DeepSeekMath 7B, koji je unaprijed obučen na DeepSeek-Coder-Base-v1.5 7B na temelju zbirke od 120B tokena povezanih s matematikom, prirodnim jezikom i podacima koda. Model je postigao zadivljujući rezultat od 51,7% na natjecateljskoj razini…

Benchmark test

Metoda ocjenjivanja

Testni sadržaj

Zašto jesam DeepSeek R1 pobjeda?

Kako su se pokazali ostali natjecatelji?

Konačno

Slični postovi

Odgovori Otkaži odgovor