Během posledních několika dní byl Deepseek-R1 0528 oficiálně zpřístupněn jako open-source.
V LiveCodeBench je jeho výkon téměř srovnatelný s OpenAI o3 (vysoký); v Aiderově vícejazyčném benchmarkovém testu si vede i proti Claude Opus.
Když byl spuštěn na oficiálních webových stránkách, rychle jsme otestovali jeho front-endové funkce a zjistili jsme, že jsou mimořádně silné, což vedlo k testům popsaným v tomto článku. Naším cílem je s vámi podělit se o specifický výkon různých modelů.
Je důležité poznamenat, že tento test se primárně zaměřuje na front-endové funkce, takže je nezbytné objektivně posoudit výkon různých modelů. Můžete využít námi poskytnuté pokyny k provedení vlastních testů a sdílení svých poznatků a zjištění.
Pomocí stejného pokynu jsme jej odeslali Claude Opus 4, Sonnet 4, Gemini 2.5 Pro a DeepSeek R1-0528a nechal je soutěžit v šesti stále náročnějších úkolech vývoje front-endu.
Pro ty, kteří se nemohou dočkat, zde je závěr:
Deepseek-R1-0528 mírně zaostává za Opus 4 ve front-endových funkcích, ale výkonnostně ho překonává. Sonet 4 a Gemini 2.5 Pro.
V podstatě jakýkoli úkol, který dokáže splnit Opus, zvládne i R1, a dokonce i úkoly, které nedokáže splnit Opus 4, zvládne R1, i když s mírně nižší mírou dokončení a kvalitou výsledků.
Vzhledem k cenovému rozdílu mezi R1 a ostatními třemi je tento výkon již vynikající a můžeme si jen představovat, jak působivý bude R2.
Test 1: Systém řízení skladu
Výzva: Prosím, pomozte mi vytvořit kompletní webový nástroj pro správu produktů s následujícími požadavky:
Funkční požadavky
- Produktový management
- Zadání informací o produktuNázev produktu, typ/kategorie, číslo SKU, cena, skladové množství
- Správa image produktuPodpora nahrávání a náhledu obrázků (simulováno pomocí voliče souborů)
- Zobrazení seznamu produktůZobrazení všech produktů v tabulkovém formátu s podporou vyhledávání a filtrování
- Úprava produktuPodpora úpravy informací o produktu
- Smazání produktuPodpora odstranění produktu (s potvrzovací výzvou)
- Řízení zásob
- Příchozí operaceZvyšte množství produktů na skladě, zaznamenejte čas a množství příjmu
- Odchozí operaceSnížení množství skladových zásob produktů, zaznamenání času a množství odeslaných produktů
- Záznamy o zásobáchZobrazuje historii změn zásob pro každý produkt
- Funkce rozhraní
- Přístrojová deskaZobrazuje statistiky, jako je celkový počet produktů, celková hodnota zásob, upozornění na nízkou zásobu atd.
- Responzivní designPřizpůsobitelné pro stolní počítače i mobilní zařízení
- Perzistence datPoužívá localStorage k ukládání dat
Technické požadavky
Styly a ikony
- CSS frameworkPoužívá TailwindCSS 3.0+ CDN
- Knihovna ikonPoužívá ikony hrdinů nebo peří CDN
- PísmoPoužijte písma Google
Struktura kódu
- Jednostránková aplikaceHTML + CSS + JavaScript
- Modulární designRozdělení funkcí do různých modulů JavaScriptu
- Formát dat: Použijte formát JSON pro ukládání produktových dat
Požadavky na design rozhraní
- Moderní uživatelské rozhraníJednoduchý a krásný design rozhraní
- Barevné schémaPoužívejte profesionální obchodní barevné kombinace
- Interaktivní zpětná vazbaKliknutí na tlačítka, ověřování formulářů a další interaktivní efekty
- Ověření formulářeOvěření povinných polí, ověření formátu dat
Příklad datové struktury
Vygenerujte prosím kompletní HTML soubor obsahující veškerý potřebný kód CSS a JavaScript, který zajistí, že všechny funkce budou funkční a budou se spouštět přímo v prohlížeči.
Podívejme se na výsledky testů. Logika je ve skutečnosti poměrně složitá a testuje délku kontextu modelu, estetický smysl a schopnosti logického zpracování.
V tomto případě selhaly všechny modely kromě Deepseeku. Překlad Clauda 4. bylo to docela mimo, abych byl upřímný.
Deepseek-R1-0528: Vylepšená verze R1 je velmi výkonná. Jak vidíte, rozhraní je velmi profesionální a můžete také vytvářet nové produkty, provádět běžné odchozí a příchozí operace a rozdělovat produkty, správu zásob a reporty zásob na tři stránky, což je celkově velmi přehledné. K dispozici je také vyhrazená stránka s dashboardem a autor napsal několik ukázkových dat pro testování. Ostatní modely nemají žádná data a přidávání produktů nefunguje, takže testování je zcela nemožné.
Claude, opus 4: Začíná to s velkým, velmi jednoduchým rozhraním, které používá horní navigační panel místo postranního panelu, který je běžný u SaaS platforem. Přidávání produktů má za následek chybu při ukládání, což znemožňuje testování.
Claude Sonnet 4: Ve srovnání s Opus 4 je rozhraní ještě jednodušší. Kliknutí na tlačítko „Přidat produkt“ nereaguje a neobjeví se žádné vyskakovací okno formuláře. Ostatní stránky jsou v podstatě jen zástupné symboly.
Gemini 2.5 Pro: Verze od Googlu je lepší než Claudeova. Umožňuje přidávat produkty a série, ale jsou tam chyby. Fungovalo to, když jsem to poprvé vyzkoušel, ale ne, když jsem nahrál video. Interakce v Gemini je ale poměrně složitá, správa zásob a vedení záznamů probíhají v jedné tabulce, což ztěžuje práci.
Test 2: Editor pixelových animací
Dalším testem je test vizuálních schopností. Požádal jsem je, aby vytvořili editor pixel art animací s využitím P5.js, který by podporoval režimy pohybu, upravoval tvary, velikosti, rychlosti a další podmínky bodů.
Výzva: Vytvořte generátor interaktivních animací pixel artu na celou obrazovku založený na P5.js, který splňuje následující technické požadavky:
Základní funkce
- Implementujte animaci pixel artu na celou obrazovku pomocí P5.js, přičemž animace bude pokrývat celou oblast zobrazovacího okna.
- Celková plocha pixelové mřížky musí být alespoň 10krát větší než viditelná plocha, aby bylo zajištěno plné pokrytí i při nejmenší rozteči mřížky.
- Nabízí několik animačních režimů: Vlna, Pulz, Zvlnění, Šum
- Podpora více možností tvaru bodu: kruh, čtverec, kříž, trojúhelník, diamant atd.
- Všechny ovládací panely jsou umístěny na pravé straně stránky a na mobilních zařízeních je lze sbalit dolů.
Nastavitelné parametry
- Hustota teček: Ovládání počtu teček na řádek/sloupec
- Velikost tvaru: Upravte velikost teček
- Rychlost animace: Ovládání rychlosti a amplitudy animačního efektu
- Rozteč mřížky: Upravte vzdálenost mezi tečkami
Technické specifikace
- Používejte HTML5, TailwindCSS 3.0+ (zavedený přes CDN) a P5.js
- Implementujte plnou funkcionalitu přepínání režimu tma/světlo s výchozím nastavením systému
- Kód musí obsahovat logiku optimalizace výkonu a vykreslovat pouze body ve viditelné oblasti a blízko okrajů.
- Animace musí běžet plynule a bez zpoždění
Responzivní design
- Stránky se musí perfektně zobrazovat na všech zařízeních (mobil, tablet, počítač)
- Ovládací panely by měly být v mobilním zobrazení skládací/rozkládací
- Optimalizace rozvržení a velikosti písma pro různé velikosti obrazovky
- Zajistěte dobrý dotykový zážitek na mobilních zařízeních
Prvky rozhraní
- Volič režimu animace (vlna, pulz, zvlnění, šum)
- Výběr tvarů (zobrazuje různé tvary s ikonami)
- Ovládací prvky posuvníku: hustota, velikost, rychlost, rozteč
- Tlačítko pro přepínání motivů
- Zobrazit informace o překrytí matice a celkový počet bodů
Podívejte se na výsledky. Abych byl upřímný, nečekal jsem, že si ostatní modely v tomto testu povedou tak špatně. Kromě Deepseek-R1 animace ostatních modelů vůbec nefungovaly.
Deepseek-R1-0528: Naprosto bezchybné. Každé tlačítko a posuvník funguje normálně a body se pohybují plynule. Dokonce přidal data z bodové matice a barvy zůstávají konzistentní i po přepnutí do nočního režimu. Jediným drobným problémem je, že vybraný stav výběru barev má drobný problém, ale to je zanedbatelné ve srovnání s katastrofálním výkonem ostatních modelů.
Claude, opus 4: Dobrá zpráva: má pixelart. Špatná zpráva: nepohybuje se. Obsah na pravé straně lze normálně ovládat, ale barevné schéma je po přepnutí do nočního režimu nesprávné.
Claude Sonnet 4: Tohle je katastrofa. Není tam žádný pixelart a dokonce chybí i stav výběru tlačítek. Posuvníky jsou jen tečky – klidně by se daly použít výchozí komponenty.
Gemini 2.5 Pro: Také hlásí chybu bez pixelové mřížky. Obsah na pravé straně lze normálně ovládat a přepínání témat funguje dobře, ale výchozí komponenty jsou trochu ošklivé.
Test 3: Nástroj pro extrakci barevných gradientů obrázků
Toto je nástroj, který jsem napsal dříve. Není zde moc popisu logiky, ale je zde více popisu stylu. Hlavní funkcí je extrahovat pět sad barev přechodu z obrázku.
Výzva: Vygenerujte webovou stránku HTML na základě následujícího obsahu souboru, s podporou extrakce pěti sad barev přechodu z nahraných obrázků a s možností přímého kopírování pěti sad hexadecimálních barev přechodu. Je třeba implementovat funkci extrakce barev.
- Použijte vizuální design ve stylu NetEase Cloud Music, bílé pozadí s barvou podobnou #FE1110 jako zvýraznění.
- Zdůrazněte klíčové body velkými písmeny nebo čísly. Zahrňte nadměrné vizuální prvky, které zdůrazní oblasti zájmu a vytvoří kontrast s menšími prvky.
- Kombinujte čínský a anglický text. Jako diakritiku používejte tučné, velké čínské znaky a menší anglický text.
- Používejte jednoduchou čárovou grafiku pro vizualizaci dat nebo jako dekorativní prvky.
- Použijte přechod průhlednosti barev zvýraznění k vytvoření technologicky inspirovaného efektu, ale ujistěte se, že se různé barvy zvýraznění vzájemně neprolínají.
- Napodobujte animace oficiálních webových stránek společnosti Apple s animacemi spouštěnými posouváním myši
- Na data lze odkazovat z online komponent grafů se styly odpovídajícími tématu.
- Použít Framer Motion (přes CDN)
- Používejte HTML5, TailwindCSS 3.0+ (přes CDN) a nezbytný JavaScript
- Používejte profesionální knihovny ikon, jako například Font Awesome nebo Material Icons (přes CDN)
- Nepoužívejte emoji jako primární ikony
- Tlačítko kapsle v levém dolním rohu zobrazuje autorův účet na Twitteru
V tomto případě Claude konečně odvedl skvělou práci. Detaily a estetika stránky Deepseek-R1-0528 jsou působivé, ale funkčnost není implementována. Stránky Opus 4 a Sonnet 4 jsou jednodušší, ale alespoň funkční, zatímco Gemini nefunguje vůbec.
Deepseek-R1-0528: Po opětovném použití mého výzvy je estetika stránky Deepseeka skutečně bezkonkurenční. Na stránku také přidal spoustu SEO optimalizovaného obsahu, jako jsou scénáře aplikací a doby zpracování. Karty s přechodovými barvami jsou také velmi detailní, ale logika výběru barev není implementována.
Claude, opus 4: Tentokrát Claude konečně nezklamal a dokončil funkčnost stránky, ale obsah stránky je velmi základní, pouze s místem pro nahrávání obrázků a výsledků a logika výběru barev je také špatná. Nicméně alespoň to funguje.
Claude Sonnet 4: Sonnet 4 také dokončil tuto funkcionalitu a dokonce si myslím, že výsledky Sonnetu jsou lepší než u Opusu, i když stále není tak bohatý jako Deepseek.
Gemini 2.5 Pro: Tenhle je nejhorší. Nejenže chybí detaily a estetika stránky, ale není implementována ani funkčnost a při spuštění to padá.
Test 4: Webová stránka s denními nabídkami bílého šumu
Dalším je generátor webových stránek s denními citacemi s bílým šumem, který je ideální pro plugin pro novou záložku. Podporuje přehrávání bílého šumu ze Spotify a webová stránka se zobrazuje.
Výzva: Prosím, pomozte mi vytvořit jednoduchý a elegantní web s denními cenovými nabídkami s následujícími požadavky:
Vizuální design
- Obrázek na pozadíNáhodně vyberte vysoce kvalitní obrázky krajiny z následujících odkazů jako obrázek na pozadí
- Odkazy na obrázkyXXXX
- Zpracování obrazuPřidejte černou masku 25% a mírné Gaussovo rozostření, aby text zůstal jasný a čitelný.
- Celkový stylMinimalistický a moderní vzhled s obrázky krajiny jako pozadím webové stránky pro lepší ponoření se do děje
- Pro animační framework používejte anime.js (zavedený přes CDN: JsDelivr jsdelivr.com), HTML5, TailwindCSS 3.0+ (zavedený přes CDN) a nezbytný JavaScript a používejte profesionální knihovny ikon, jako například Font Awesome nebo Material Icons (zavedené přes CDN).
Modul zobrazení času
- Nahoře: Zobrazení formátu měsíce a dne (např. „29. května“) menším písmem a zarovnání na střed
- Druhá řadaZobrazuje formát „Týden X · Lunární kalendář X. měsíc X. den“ menším písmem.
- CentrumZvýrazní aktuální datum velkým bílým písmem, vycentrované
Modul zobrazení cenových nabídek
- ObsahNáhodně zobrazuje klasické citáty čínských i zahraničních filozofů a spisovatelů
- RozvrženíCitace jsou vycentrované, velikost písma je střední a řádkování je pohodlné.
- Uvedení zdrojeV pravém dolním rohu se zobrazuje „Spisovatel, XXX“ nebo „Filozof, XXX“.
- Knihovna citacíObsahuje citáty na různá témata, jako je motivace, životní postřehy a moudrost
Funkce přehrávání hudby
- UmístěníLevý dolní roh stránky, ve výchozím nastavení sbalený
- ObsahVložit playlist Spotify s bílým šumem
- Kód:
Technická implementace
- Responzivní designPřizpůsobeno pro stolní počítače a mobilní zařízení
- Výběr písmaPoužívejte elegantní čínská písma, která zavedla služba Google Fonts
- Barevné schémaPoužívejte převážně bílý text, aby byla zajištěna čitelnost na všech pozadích.
- Optimalizace načítáníPomalé načítání obrázků pro zlepšení výkonu stránky
Interaktivní funkce
- Automatické obnovení: Automaticky mění obrázek na pozadí a citát každý den
- Ruční aktualizace: Poskytuje tlačítko pro obnovení, které uživatelům umožňuje ručně změnit obsah
Styl copywritingu
- Výběr cenové nabídkyPreferujte krátké, pozitivní a filozofické citáty
- Jazykový stylStručné a silné, vyhýbá se nadměrné délce
- Klasifikace tématŽivotní vhledy, inspirativní růst, moudré myšlenky, vyjádření emocí atd.
Vygenerujte prosím kompletní webové stránky HTML/CSS/JavaScript dle výše uvedených požadavků a zajistěte, aby rozhraní bylo esteticky příjemné, funkční a poskytovalo dobrý uživatelský zážitek.
Tento test slouží čistě k posouzení chápání estetiky u každého modelu. Tento typ webové stránky zaměřené na zobrazení je obecně dosažitelný.
Nutno říct, že Claude Opus 4 je v této oblasti stále poměrně autoritativní a věnuje se vynikajícímu detailu. Gemini 2.5 Pro je také dobrý, dokonce přidává animační efekty k přechodům obrázků. Deepseek a Sonnet 4 jsou na stejné úrovni.
Deepseek-R1-0528: Nejdřív jsem spustil Deepseek a myslel jsem si, že už je docela dobrý. Prvním problémem s celkovou estetikou bylo tlačítko hudby v levém dolním rohu, které bylo trochu moc ploché. Sekce s citáty měla také problémy – neměla být přidána černá maska a zarovnání textu bylo trochu špatně. Nicméně přidal animační efekt pro obnovení.
Claude, opus 4: Estetika Opus 4 je skutečně bezchybná. Velikost a rozteč všech písem jsou velmi pohodlné a citace slavných výroků byly zpracovány s transparentností, a to jak v textu citace, tak v uvozovkách. Dokonce i přehrávač Spotify byl zabalen do uživatelského rozhraní s animací rozbalení/sbalení. Je to perfektní.
Claude Sonnet 4: Efekt Sonnet 4 je podobný jako u Deepseeku. Tlačítko přehrávání hudby, velikost textu, zarovnání a rozestupy lze dále optimalizovat.
Gemini 2.5 Pro: Efekt Gemini je také dobrý, ale odstranění stínu textu by ho vylepšilo. Také upravilo uživatelské rozhraní přehrávače Spotify a detaily textu jsou v pořádku. Přechodový efekt je znatelný, s efektem roztažení obrazu.
Test 5: Generování stránky aplikace Sleep
Dalším krokem je test mobilní aplikace. Nechte každého z nich vytvořit aplikaci pro monitorování spánku. V úkolu bude specifikován technický stack a požadavky na design a bude vyžadováno vygenerování několika interaktivních stránek.
Výzva: Požadavky na vývoj aplikace pro monitorování spánku
Přehled projektu
Prosím, pomozte mi vytvořit kompletní aplikaci pro sledování spánku se čtyřmi hlavními funkčními stránkami. Rozhraní by mělo být esteticky příjemné a profesionální.
Technické požadavky na zásobník
Frontendové technologie
– HTML5 – Struktura stránky
– TailwindCSS v3.0+ – Stylový framework (zavedený přes CDN)
– JavaScript – Nezbytná logika interakce
– Anime.js v4.0.2 – Knihovna animačních efektů
- CDN:
https://cdn.jsdelivr.net/npm/animejs@4.0.2/+esm
Ikony a grafy
- Knihovna ikon: Font Awesome nebo Material Icons (CDN)
- Komponenty grafu: Komponenty online grafu, styly musí být v souladu s tématem
- Vizualizace dat: Podporuje grafické zobrazení dat o spánku
Požadavky na design
Responzivní design
- Plně responzivní rozvržení
- Design zaměřený na mobilní zařízení
- Dobrý displej na stolních počítačích i mobilních zařízeních
Interakční efekty
- Interakce tlačítek: Mírně zvětšený efekt při najetí myší
Interakce s formulářem: Zobrazení přechodového okraje, když je vstupní pole aktivní
Interakce s kartou: Ztmavení stínu při najetí myší
Animační efekty: Použijte Anime.js k dosažení plynulých animací stránek
Funkční požadavky na stránku
Vygenerujte prosím všechny stránky potřebné pro aplikaci pro sledování spánku, včetně, ale nikoli výhradně:
- Domovská stránka/řídicí panel
- Stránka se záznamem spánku
- Stránka s analýzou dat
- Stránka nastavení
- Další související funkční stránky
Požadavky na výstup kódu
- Každá stránka je nezávislý HTML soubor
- Jasná struktura kódu s kompletními komentáři
- Zajistěte, aby všechny odkazy CDN byly přístupné
- Poskytněte kompletní a spustitelný kód
Co se týče mobilní logiky a rozhraní, Cluade Opus 4 opět prokázal svou sílu a s dobrou logikou vygeneroval více stránek. Ostatní modely vygenerovaly pouze jednu stránku, ale Deepseek R1 0528 se náhle trefil do černého, co se týče estetiky, s krásným stylem. Přestože vygeneroval pouze jednu stránku, byl velmi komplexní.
Deepseek-R1-0528: Vygenerovala jsem sice pouze jednu stránku, ale celková estetika je dobrá. Detaily karet a zpracování ikon jsou dobře provedené a celá stránka je kompletní a dlouhá. Navíc byl implementován responzivní design pro navigaci, což má za následek zcela odlišné rozvržení na mobilních a stolních zařízeních.
Claude, opus 4: Vskutku výkonné, pouze Opus4 vygeneroval všechny stránky kompletně, ale estetický design tentokrát není skvělý, používá logiku webových stránek s příliš malými navigačními ikonami.
Claude Sonnet 4: Vygenerovala jsem pouze jednu stránku a nahlásila chyby, špatný estetický design, úkol jsem jen dokončila.
Gemini 2.5 Pro: Google vždycky dělá věci jinak. Každou stránku generuje samostatně a poskytuje čtyři soubory, které spolu nemohou interagovat. Navíc všechny stránky hlásily chyby, přičemž každá stránka obsahovala pouze navigaci a žádný obsah, což je docela zklamání.
Test 6: Komplexní funkcionalita – Tetris
Nakonec jsem to zakončil malým herním testem. Navrhl jsem relativně složitou hru Tetris se speciálními bloky, přepínáním témat, predikcí přistání bloků, ukládáním bloků a dalšími funkcemi – skutečnou vrcholnou výzvu.
Výzva: Prosím, pomozte mi vytvořit plně funkční a vizuálně atraktivní webovou hru Tetris s následujícími požadavky:
Základní herní funkce
- Kompletní mechanismus Tetrisu7 standardních bloků (I, O, T, S, Z, J, L)
- Plynulé ovládání: pohyb doleva a doprava, rotace, rychlé spouštění, okamžité spouštění
- Inteligentní systém eliminacepodporuje odstranění 1–4 řádků najednou pomocí speciálních animačních efektů
- Systém progresivní obtížnosti: automaticky zvyšuje rychlost a úroveň pádu na základě počtu eliminovaných řádků
Pokročilé funkce
- Systém náhleduzobrazuje další a další bloky
- Funkce pozastaveníPodržením klávesy Hold dočasně uložíte aktuální blok. Lze použít pouze jednou za kolo.
- Duchové blokyZobrazuje polohu přistání bloků v poloprůhledné podobě
- Kombinovaný systémNeustálé čištění získává extra body a vizuální efekty
- Speciální dovednosti:
- Bomb Block (vyčistí okolní oblast)
- Laserové vyčištění (vyčistí celý řádek)
- Časová pauza (bloky přestanou padat na 3 sekundy)
Požadavky na vizuální design
- Moderní uživatelské rozhraní:
- Přechodové pozadí nebo efekty částic
- Herní panel se skleněným efektem
- Plynulé přechody animací
- Responzivní design pro různé obrazovky
- Bohaté vizuální efekty:
- Plynulá animace padajících a otáčejících se bloků
- Účinky exploze nebo záblesku po eliminaci
- Efekt chvění obrazovky při dosažení kombinace
- Animace oslavy při vylepšení úrovně
- Systém tématAlespoň 3 různá vizuální témata, mezi kterými lze přepínat
Systém zvukových efektů
- Kompletní zvuková zpětná vazba: pohyb, rotace, přistání, vyřazení, konec hry atd.
- Hudba na pozadí: smyčková herní hudba
- Ovládání hlasitostinezávisle nastavitelná hlasitost zvukových efektů a hudby na pozadí
Herní režimy
- Klasický režimtradiční hraní Tetrisu
- Časově omezený režimdosáhnout nejvyššího skóre v daném časovém limitu
- Režim výzvypřednastavené překážky pro zvýšení obtížnosti
- Zenový režimžádný časový tlak, čisté potěšení ze hry
Funkce statistiky dat
- Statistiky v reálném časeaktuální skóre, úroveň, počet vyčištěných čar, herní doba
- Dějinynejvyšší skóre, nejlepší úroveň, celkový herní čas
- Systém úspěchů: odemknout různé herní úspěchy
- Lokální úložištěukládat herní záznamy a nastavení
Technické požadavky
- Používá čistý HTML5/CSS3/JavaScript, nejsou potřeba žádné externí frameworky
- Jasná struktura kóduobjektově orientované programování, modulární návrh
- Optimalizace výkonuPlynulá animace s 60 FPS, bez zpoždění
- Kompatibilita: podporuje běžné moderní prohlížeče
- Responzivní designKompatibilní s počítači a mobilními zařízeními
Uživatelská zkušenost
- Intuitivní pokynyVestavěný tutoriál a výzvy k tlačítkům
- Funkce pozastavení/obnoveníPozastavit hru kdykoli
- Nabídka nastaveníUpravte obtížnost hry, zvukové efekty, vizuální efekty atd.
- Ukládání herního stavuPodporuje ukládání a obnovení hry
Požadavky na kvalitu kódu
- Podrobné komentářeKaždá funkce a důležitý segment kódu musí mít popis.
- Ošetření chybKomplexní mechanismus zachycování a zpracování výjimek
- Elegantní kódDodržujte osvědčené postupy, snadno se s nimi pracuje a je snadné je udržovat.
- RozšiřitelnostSnadné přidávání nových funkcí v budoucnu
Prosím, poskytněte kompletní HTML soubory obsahující veškerý CSS a JavaScript kód, aby bylo možné je spustit přímo v prohlížeči. Kód by měl prokazovat profesionální programátorské dovednosti a hluboké pochopení vývoje her.
V minihře se Claudeovi něco děje. Opus i Sonnet vygenerovali odpovídající bloky Tetrisu podle potřeby, zejména logiku pro speciální bloky. Deepseek sice zvládl téma, které Claude přehlédl, ale speciální bloky přehlédl, což vedlo k tomu, že Gemini 2.5 Pro generoval nehratelné bloky.
Deepseek-R1-0528: Úkol byl splněn velmi dobře a dle specifikací, ale speciální blokový design byl vynechán a nebyl vůbec implementován. To může být způsobeno problémy se sledováním slovních pokynů. Celá webová stránka připomíná herní rozhraní, všechna tlačítka vypadají jako standardní komponenty.
Claude, opus 4: Dokončil logiku pro speciální bloky a další logiku bez problémů, ale ignoroval výzvu k přepnutí tématu, kterou neimplementoval. Ve srovnání s problémy DeepSeek se jedná o menší problém, ale rozhraní je pevně naprogramované bez responzivní logiky, takže proporce jsou mírně odlišné, takže některá tlačítka nelze kliknout.
Claude Sonnet 4: Podobné jako Opus, ale myslím, že Sonnet 4 je lepší než Opus. Adaptace stránek je také dobrá. Zdá se, že Sonnet vyhrál, protože splnil všechny požadované funkce.
Gemini 2.5 Pro: Gemini se neustále potýká se složitou logikou. Tentokrát byl zcela nepoužitelný, protože umístění kostek mělo chybu, která znemožňovala předvídat, kde přistanou. To je nejhorší.
Myslím, že už teď jste stejně jako já ohromeni výkonem DeepSeek-R1.
Je těžké uvěřit, že se jedná jen o malé vylepšení modelu. Porovnejme ceny těchto modelů s DeepSeek R1 0528.
Opus 4 je 30krát dražší, a to při použití cen Openrouteru – oficiální cena by byla ještě ohromující.
model | Délka kontextu | Vstupní cena ($/M tokenů) | Výstupní cena ($/M tokenů) | cena obrázku ($/K tokenů) |
DeepSeek R1 0528 | 160 tisíc | 0.50 | 2.18 | – |
Náhled Gemini 2.5 Pro | 1000 tisíc | 1.25 | 10 | 5.16 |
Claude Sonnet 4 | 200 tisíc | 3.00 | 15 | 4.80 |
Claude Opus 4 | 200 tisíc | 15.00 | 75 | 24.00 |
Jako někdo, kdo se denně zabývá novinkami z oblasti umělé inteligence, jsem byl svědkem nespočtu „průlomů“, které se nakonec ukázaly jako „zklamání“. Ale tentokrát je to jiné. DeepSeek-R1 mi dal skutečnou naději.
Třicetinásobný cenový rozdíl, ale téměř stejný výkon.
Už nemusíme platit přemrštěné ceny za používání nejlepších programovacích modelů umělé inteligence, ani nemusíme dělat bolestivé kompromisy mezi cenou a kvalitou. Ještě inspirativnější je, že se jedná o náš vlastní model.
Tuto větu napsala umělá inteligence a myslím, že je skvělá: Skutečná revoluce často začíná, když obyčejní lidé mohou dosáhnout hvězd.