I løbet af de sidste par dage er Deepseek-R1 0528 officielt blevet open source.
På LiveCodeBench er dens ydeevne næsten på niveau med OpenAIs o3 (høj); i Aiders flersprogede benchmarktest kan den måle sig med Claude Opus.
Da den blev lanceret på den officielle hjemmeside, testede vi hurtigt dens frontend-funktioner og fandt dem usædvanligt stærke, hvilket førte til de tests, der er dækket i denne artikel. Vi sigter mod at dele de specifikke ydeevner for forskellige modeller med dig.
Det er vigtigt at bemærke, at denne test primært fokuserer på frontend-funktioner, så det er vigtigt at se objektivt på ydeevnen af forskellige modeller. Du kan bruge de instruktioner, vi giver, til at udføre dine egne tests og dele dine indsigter og resultater.
Med den samme prompt sendte vi den til Claude Opus 4, Sonnet 4, Gemini 2.5 Pro og DeepSeek R1-0528, og lod dem konkurrere i seks stadigt mere udfordrende front-end-udviklingsopgaver.
For dem der ikke kan vente, er her konklusionen:
Deepseek-R1-0528 halter en smule efter Opus 4 i frontend-funktioner, men klarer sig bedre Sonnet 4 og Gemini 2.5 Pro.
Grundlæggende set kan R1 også udføre enhver opgave, som Opus kan udføre, og selv opgaver, som Opus 4 ikke kan udføre, kan R1 håndtere, dog med lidt lavere gennemførelsesrater og resultatkvalitet.
I betragtning af prisforskellen mellem R1 og de tre andre er denne ydeevne allerede fremragende, og vi kan kun forestille os, hvor imponerende R2 vil være.
Test 1: Lagerstyringssystem
Spørgsmål: Hjælp mig venligst med at oprette et komplet webbaseret produktstyringsværktøj med følgende krav:
Funktionelle krav
- Produktstyring
- Indtastning af produktinformationProduktnavn, type/kategori, SKU-nummer, pris, lagerbeholdning
- Håndtering af produktbillederUnderstøtter upload og forhåndsvisning af billeder (simuleret med en filvælger)
- Visning af produktlisteVis alle produkter i tabelformat med søge- og filterunderstøttelse
- ProduktredigeringÆndring af supportproduktoplysninger
- ProduktsletningUnderstøttelse af produktsletning (med bekræftelsesprompt)
- Lagerstyring
- Indgående operationerØg produktlagerbeholdningen, registrer indgående tid og mængde
- Udgående operationerReducer produktlagerbeholdningen, registrer udgående tid og mængde
- LageroptegnelserViser lagerændringshistorikken for hvert produkt
- Grænsefladefunktioner
- DashboardViser statistikker såsom samlet antal produkter, samlet lagerværdi, advarsler om lav lagerbeholdning osv.
- Responsivt designKan tilpasses til stationære og mobile enheder
- DatapersistensBruger localStorage til at gemme data
Tekniske krav
Stilarter og ikoner
- CSS-rammeværkBruger TailwindCSS 3.0+ CDN
- IkonbibliotekBruger helteikoner eller fjerikoner CDN
- SkrifttypeBrug Google-skrifttyper
Kodestruktur
- Ansøgning på én sideHTML + CSS + JavaScript
- Modulært designOpdel funktioner i forskellige JavaScript-moduler
- DataformatBrug JSON-format til at gemme produktdata
Krav til grænsefladedesign
- Moderne brugergrænsefladeSimpelt og smukt brugerfladedesign
- FarveskemaBrug professionelle forretningsfarvekombinationer
- Interaktiv feedbackKlik på knap, formularvalidering og andre interaktive effekter
- FormularvalideringValidering af obligatoriske felter, validering af dataformat
Eksempel på datastruktur
Generer venligst en komplet HTML-fil, der indeholder al nødvendig CSS- og JavaScript-kode, og sørg for, at alle funktioner er funktionelle og kan køre direkte i en browser.
Lad os se på testresultaterne. Logikken er faktisk ret kompleks og tester modellens kontekstlængde, æstetiske sans og logiske behandlingsevner.
I dette tilfælde fejlede alle modeller undtagen Deepseek. Claude 4's oversættelse var helt skør, for at være ærlig.
Deepseek-R1-0528: Den opgraderede version af R1 er meget kraftfuld. Som du kan se, er brugerfladen meget professionel, og du kan også oprette nye produkter, udføre normale udgående og indgående operationer og opdele produkt-, lagerstyrings- og lagerrapporter på tre sider, hvilket generelt er meget tydeligt. Der er også en dedikeret dashboardside, og han har skrevet nogle eksempeldata til test. De andre modeller har ingen data, og det virker ikke at tilføje produkter, så test er fuldstændig umuligt.
Claude Opus 4: Det starter med en stor, meget simpel brugerflade, der bruger en navigationslinje øverst i stedet for den sidebjælke, der er almindelig på SaaS-platforme. Tilføjelse af produkter resulterer i en fejl ved lagring, hvilket gør test umulig.
Claude Sonnet 4: Sammenlignet med Opus 4 er brugerfladen endnu mere grundlæggende. Klik på knappen "Tilføj produkt" reagerer ikke, og der vises ingen pop op-formular. De andre sider er stort set bare pladsholdere.
Gemini 2.5 Pro: Googles version er bedre end Claudes. Den tillader tilføjelse af produkter og kørsler, men der er fejl. Det virkede, da jeg prøvede det første gang, men ikke da jeg optog en video. Gemini's interaktionsdesign er dog ret komplekst, med lagerstyring og registrering alt sammen i én tabel, hvilket gør det lidt vanskeligere.
Test 2: Pixelanimationseditor
Dernæst er der en test af visuelle evner. Jeg bad dem om at lave en pixel art animationseditor ved hjælp af P5.js, der understøtter bevægelsestilstande, justerer punktformer, størrelser, hastigheder og andre forhold.
Spørgsmål: Opret en interaktiv pixelart-animationsgenerator i fuldskærmsvisning baseret på P5.js, der opfylder følgende tekniske krav:
Kernefunktioner
- Implementer pixelart-animation i fuld skærm ved hjælp af P5.js, hvor animationen dækker hele viewport-området.
- Det samlede areal af pixelgitteret skal være mindst 10 gange det synlige areal for at sikre fuld dækning, selv ved den mindste gitterafstand.
- Tilbyder flere animationstilstande: Bølge, Puls, Ripple, Støj
- Understøtter flere punktformmuligheder: cirkel, firkant, kryds, trekant, diamant osv.
- Alle kontrolpaneler er placeret i højre side af siden og kan skjules til bunden på mobile enheder
Justerbare parametre
- Punkttæthed: Styr antallet af punkter pr. række/kolonne
- Formstørrelse: Juster størrelsen på prikkerne
- Animationshastighed: Styr hastigheden og amplituden af animationseffekten
- Gitterafstand: Juster afstanden mellem prikker
Tekniske specifikationer
- Brug HTML5, TailwindCSS 3.0+ (introduceret via CDN) og P5.js
- Implementer fuld funktionalitet til skift mellem mørk/lys tilstand, med standardindstillingerne
- Koden skal indeholde logik til optimering af ydeevne, der kun gengiver punkter inden for det synlige område og nær kanterne.
- Animationer skal køre problemfrit uden forsinkelser
Responsivt design
- Siderne skal vises perfekt på alle enheder (mobil, tablet, computer)
- Kontrolpaneler skal være sammenklappelige/udvidelige i mobilvisning
- Optimer layout og skriftstørrelser til forskellige skærmstørrelser
- Sørg for en god berøringsoplevelse på mobile enheder
Grænsefladeelementer
- Animationstilstandsvælger (bølge, puls, krusning, støj)
- Formvælger (viser forskellige former med ikoner)
- Sliderkontroller: tæthed, størrelse, hastighed, afstand
- Knap til temaskift
- Vis matrixoverlay-information og det samlede antal punkter
Se på resultaterne. For at være ærlig, havde jeg ikke forventet, at de andre modeller ville klare sig så dårligt i denne test. Bortset fra Deepseek-R1 fungerede animationerne på de andre modeller slet ikke.
Deepseek-R1-0528: Fuldstændig fejlfri. Hver knap og skyder fungerer normalt, og punkterne bevæger sig jævnt. Den har endda tilføjet dot matrix-data, og farverne forbliver ensartede efter skift til nattilstand. Det eneste mindre problem er, at den valgte tilstand af farvevalget har et lille problem, men dette er ubetydeligt sammenlignet med den katastrofale ydeevne hos de andre modeller.
Claude Opus 4: Gode nyheder: den har pixelkunst. Dårlige nyheder: den bevæger sig ikke. Indholdet i højre side kan betjenes normalt, men farveskemaet er forkert efter skift til nattilstand.
Claude Sonnet 4: Denne her er en katastrofe. Der er ingen pixelgrafik, og selv knappens valgtilstand mangler. Skyderne er bare prikker – man kan lige så godt bruge standardkomponenterne.
Gemini 2.5 Pro: Rapporterer også en fejl uden pixelgitter. Indholdet i højre side kan betjenes normalt, og temaskift fungerer fint, men standardkomponenterne er lidt grimme.
Test 3: Værktøj til ekstraktion af billedgradientfarver
Dette er et værktøj, jeg skrev om tidligere. Der er ikke meget beskrivelse af logikken, men der er mere beskrivelse af stilen. Hovedfunktionen er at udtrække fem sæt gradientfarver fra et billede.
Spørgsmål: Generer en HTML-webside baseret på følgende filindhold, understøt udtrækning af fem sæt gradientfarver fra uploadede billeder, og giv brugerne mulighed for direkte at kopiere de fem sæt hexadecimale gradientfarver. Farveudtrækningsfunktionen skal implementeres.
- Brug et visuelt design i NetEase Cloud Music-stil, hvid baggrund med en farve svarende til #FE1110 som fremhævning.
- Fremhæv store skrifttyper eller tal for at fremhæve vigtige punkter. Inkluder overdimensionerede visuelle elementer for at fremhæve fokusområder og skabe kontrast til mindre elementer.
- Bland kinesisk og engelsk tekst. Brug fede, store kinesiske tegn og mindre engelsk tekst som accenter.
- Brug simple stregtegninger til datavisualisering eller som dekorative elementer.
- Brug gennemsigtighedsgradienten af fremhævningsfarver til at skabe en teknologisk inspireret effekt, men sørg for, at forskellige fremhævningsfarver ikke blandes med hinanden.
- Efterlign Apples officielle hjemmesideanimationer, hvor museskrulning udløser animationer
- Data kan refereres fra online diagramkomponenter med stilarter, der stemmer overens med temaet.
- Brug Framer Motion (via CDN)
- Brug HTML5, TailwindCSS 3.0+ (via CDN) og nødvendig JavaScript
- Brug professionelle ikonbiblioteker som Font Awesome eller Material Icons (via CDN)
- Undgå at bruge emojis som primære ikoner
- Kapselknappen i nederste venstre hjørne viser forfatterens Twitter-navn
I dette tilfælde gjorde Claude endelig et fantastisk stykke arbejde. Sidedetaljerne og æstetikken i Deepseek-R1-0528 er imponerende, men funktionaliteten er ikke implementeret. Opus 4- og Sonnet 4-siderne er enklere, men i det mindste funktionelle, mens Gemini slet ikke er funktionel.
Deepseek-R1-0528: Efter at have brugt min prompt igen, er Deepseeks sideæstetik virkelig uovertruffen. Han har også tilføjet en masse SEO-venligt indhold til siden, såsom applikationsscenarier og behandlingstider. De gradientfarvede displaykort er også meget detaljerede, men farvevalgslogikken er ikke implementeret.
Claude Opus 4: Denne gang skuffede Claude endelig ikke, idet han fuldendte sidens funktionalitet, men sidens indhold er meget grundlæggende, med kun et sted at uploade billeder og resultater, og farvevalgslogikken er også dårlig. Men det virker i det mindste.
Claude Sonnet 4: Sonnet 4 fuldendte også funktionaliteten, og jeg synes endda, at Sonnets resultater er bedre end Opus', selvom den stadig ikke er lige så omfattende som Deepseek.
Gemini 2.5 Pro: Denne er den værste. Ikke alene mangler sidens detaljer og æstetik, men funktionaliteten er heller ikke implementeret, og den går ned ved opstart.
Test 4: Hjemmeside med daglige tilbud fra White Noise
Dernæst er der en hjemmesidegenerator til daglige hvide støj-citater, som er perfekt til et plugin til en ny fanebladside. Den understøtter afspilning af hvid støj fra Spotify, og websiden vises.
Spørgsmål: Hjælp mig venligst med at oprette en simpel og elegant hjemmeside med daglige tilbud, der opfylder følgende krav:
Visuelt design
- BaggrundsbilledeVælg tilfældigt landskabsbilleder i høj kvalitet fra følgende links som baggrundsbillede
- Billedlinks: XXXX
- BilledbehandlingTilføj en 25% sort maske og en let Gaussisk sløring for at sikre, at teksten forbliver klar og læsbar
- Overordnet stilMinimalistisk og moderne, med landskabsbilleder som baggrund for websiden for at forbedre fordybelsen
- Brug anime.js (introduceret via CDN: JsDelivr jsdelivr.com) til animationsframeworket, HTML5, TailwindCSS 3.0+ (introduceret via CDN) og nødvendigt JavaScript, og brug professionelle ikonbiblioteker som Font Awesome eller Material Icons (introduceret via CDN).
Tidsvisningsmodul
- TopVis måneds- og dagsformatet (f.eks. "29. maj") med en mindre skrifttype og centreret.
- Anden rækkeViser formatet "Uge X · Månekalender X. måned X. dag" i en mindre skrifttype
- CentrumFremhæver den aktuelle dato med stor hvid skrift, centreret
Modul til visning af tilbud
- TilfredsViser tilfældigt klassiske citater fra kinesiske og udenlandske filosoffer og forfattere
- LayoutCitater er centrerede, skriftstørrelsen er moderat, og linjeafstanden er behagelig
- Attribuering"Forfatter, XXX" eller "Filosof, XXX" vises nederst til højre
- CitatbibliotekIndeholder citater om forskellige emner såsom motivation, livsindsigt og visdom
Musikafspilningsfunktion
- BeliggenhedNederste venstre hjørne af siden, skjult som standard
- TilfredsIntegrer Spotify hvid støj-playliste
- Kode:
Teknisk implementering
- Responsivt designTilpasset til stationære og mobile enheder
- Valg af skrifttypeBrug elegante kinesiske skrifttyper, introduceret af Google Fonts
- FarveskemaBrug primært hvid tekst for at sikre læsbarhed på alle baggrunde
- IndlæsningsoptimeringDoven indlæsning af billeder for at forbedre sidens ydeevne
Interaktive funktioner
- Automatisk opdateringÆndrer automatisk baggrundsbilledet og citatet hver dag
- Manuel opdatering: Indeholder en opdateringsknap, der giver brugerne mulighed for manuelt at ændre indholdet
Tekstforfatningsstil
- Udvælgelse af tilbudForetrækker korte, positive og filosofiske citater
- SprogstilKortfattet og kraftfuld, undgår overdreven længde
- TemaklassificeringLivsindsigt, inspirerende vækst, kloge tanker, følelsesmæssig udtryk osv.
Generer venligst en komplet HTML/CSS/JavaScript-hjemmeside i henhold til ovenstående krav, og sørg for, at brugerfladen er æstetisk tiltalende, funktionel og giver en god brugeroplevelse.
Denne test har udelukkende til formål at vurdere hver models forståelse af æstetik. Denne type displayorienteret webside er generelt opnåelig.
Det må siges, at Claude Opus 4 stadig er ret autoritativ på dette område med fremragende sans for detaljer. Gemini 2.5 Pro er også god og tilføjer endda animationseffekter til billedovergange. Deepseek og Sonnet 4 er på samme niveau.
Deepseek-R1-0528: Jeg kørte Deepseek først og syntes, det allerede var ret godt. Det første problem med den overordnede æstetik var musikknappen i nederste venstre hjørne, som var lidt for flad. Citatsektionen havde også problemer – den sorte maske burde ikke have været tilføjet, og tekstjusteringen var lidt skæv. Det tilføjede dog en animationseffekt til opdateringen.
Claude Opus 4: Æstetikken i Opus 4 er virkelig fejlfri. Størrelsen og afstanden mellem alle skrifttyper er meget behagelig, og citaterne til de berømte ordsprog er håndteret med gennemsigtighed for både citatteksten og anførselstegnene. Selv Spotify-afspilleren er blevet pakket ind i en brugergrænseflade med en udvid/skjul-animation. Det er perfekt.
Claude Sonnet 4: Sonnet 4's effekt minder om Deepseeks problem. Musikafspilningsknappen, tekststørrelsen, justeringen og afstanden kan alle optimeres yderligere.
Gemini 2.5 Pro: Gemini-effekten er også god, men at fjerne tekstskyggen ville gøre den bedre. Den har også tilpasset Spotify-afspillerens brugergrænseflade, og tekstdetaljerne er fine. Overgangseffekten er mærkbar med en strækeffekt på billedet.
Test 5: Generering af søvnapp-sider
Dernæst er der mobilapp-testen. Bed dem hver især om at oprette en søvnovervågningsapp. Prompten vil specificere de tekniske stak- og designkrav og kræve generering af flere interaktive sider.
Spørgsmål: Krav til udvikling af søvnovervågningsapp
Projektoversigt
Hjælp mig venligst med at lave en komplet søvnovervågningsapp med fire primære funktionelle sider. Brugerfladen skal være æstetisk tiltalende og professionel.
Tekniske krav til stak
Frontend-teknologier
– HTML5 – Sidestruktur
– TailwindCSS v3.0+ – Stilramme (introduceret via CDN)
– JavaScript – Nødvendig interaktionslogik
– Anime.js v4.0.2 – Bibliotek med animationseffekter
- CDN:
https://cdn.jsdelivr.net/npm/animejs@4.0.2/+esm
Ikoner og diagrammer
- Ikonbibliotek: Font Awesome eller Material Icons (CDN)
- Diagramkomponenter: Online diagramkomponenter, stilarter skal være i overensstemmelse med temaet
- Datavisualisering: Understøtter diagramvisning af søvndata
Designkrav
Responsivt design
- Fuldt responsivt layout
- Mobilorienteret design
- God visning på både stationære og mobile enheder
Interaktionseffekter
- Knapinteraktion: Lidt forstørret effekt ved musepekeren
Formularinteraktion: Vis en gradientkant, når inputfeltet er i fokus
Kortinteraktion: Gør skyggen mørkere, når du holder musepekeren over den
Animationseffekter: Brug Anime.js til at opnå jævne sideanimationer
Funktionelle sidekrav
Generer venligst alle de sider, der kræves til en søvnovervågningsapp, herunder, men ikke begrænset til:
- Hjemmeside/dashboard
- Søvnregistreringsside
- Dataanalyseside
- Indstillingsside
- Andre relaterede funktionelle sider
Krav til kodeoutput
- Hver side er en uafhængig HTML-fil
- Tydelig kodestruktur med komplette kommentarer
- Sørg for, at alle CDN-links er tilgængelige
- Lever komplet, kørbar kode
Med hensyn til mobil logik og brugerflade demonstrerede Cluade Opus 4 endnu engang sin styrke ved at fuldføre flere sider med god logik. De andre modeller genererede kun en enkelt side, men Deepseek R1 0528 ramte pludselig plet med hensyn til æstetik med en smuk stil. Selvom den kun genererede en enkelt side, var den meget komplet.
Deepseek-R1-0528: Kun genereret en enkelt side, men den overordnede æstetik er god. Detaljerne i kortene og håndteringen af ikonerne er veludførte, og hele siden er komplet og lang. Derudover blev der implementeret responsivt design til navigationen, hvilket resulterede i helt forskellige layouts på mobile og stationære enheder.
Claude Opus 4: Virkelig kraftfuld, kun Opus4 genererede alle sider fuldstændigt, men det æstetiske design denne gang er ikke fantastisk, da der bruges websidelogik og navigationsikoner er for små.
Claude Sonnet 4: Genererede kun en enkelt side og rapporterede fejl med dårligt æstetisk design, og fuldførte lige akkurat opgaven.
Gemini 2.5 Pro: Google gør altid tingene forskelligt. De genererer hver side individuelt og leverer fire filer, der ikke kan interagere med hinanden. Derudover rapporterede alle sider fejl, hvor hver side kun indeholdt navigation og intet indhold, hvilket er ret skuffende.
Test 6: Kompleks funktionalitet—Tetris
Endelig afsluttede jeg med en lille spiltest. Jeg designede et relativt komplekst Tetris-spil med specielle blokke, temaskift, forudsigelse af bloklanding, bloklagring og mere – en sand ultimativ udfordring.
Spørgsmål: Hjælp mig venligst med at lave et fuldt funktionelt, visuelt tiltalende Tetris-webspil med følgende krav:
Kernespilfunktioner
- Komplet Tetris-mekanisme7 standardblokke (I, O, T, S, Z, J, L)
- Glatte kontrollerVenstre og højre bevægelse, rotation, hurtigt drop, øjeblikkeligt drop
- Smart elimineringssystemunderstøtter eliminering af 1-4 rækker ad gangen med specielle animationseffekter
- Progressiv sværhedsgradssystem: øger automatisk drophastigheden og niveauet baseret på antallet af eliminerede rækker
Avancerede funktioner
- Forhåndsvisningssystemviser de næste og næste-næste blokke
- Hold-funktionHold Hold-tasten nede for midlertidigt at gemme den aktuelle blok. Kan kun bruges én gang pr. runde
- SpøgelsesblokkeViser landingspositionen for blokke i semitransparent form
- KombinationssystemetKontinuerlig clearing giver ekstra point og visuelle effekter
- Særlige færdigheder:
- Bombeblok (rydder det omkringliggende område)
- Laser Clear (rydder hele rækken)
- Tidspause (blokke stopper med at falde i 3 sekunder)
Krav til visuelt design
- Moderne brugergrænseflade:
- Gradientbaggrund eller partikeleffekter
- Spilpanel med glaseffekt
- Jævne animationsovergange
- Responsivt design til forskellige skærme
- Rige visuelle effekter:
- Jævn animation af blokke, der falder og roterer
- Eksplosions- eller blitzeffekter ved eliminering
- Skærmrystelseseffekt, når kombinationen opnås
- Festanimation når niveauet opgraderes
- TemasystemMindst 3 forskellige visuelle temaer at skifte imellem
Lydeffektsystem
- Komplet lydfeedback: bevægelse, rotation, landing, eliminering, spillets afslutning osv.
- Baggrundsmusik: looping spil BGM
- Lydstyrkekontrol: uafhængigt justerbare lydeffekter og baggrundsmusiklydstyrke
Spiltilstande
- Klassisk tilstandtraditionelt Tetris-spil
- Tidsbegrænset tilstand: opnå den højeste score inden for en bestemt tidsfrist
- Udfordringstilstand: forudindstillede forhindringer for at øge sværhedsgraden
- Zen-tilstandintet tidspres, ren nydelse af spillet
Funktioner til datastatistik
- Statistik i realtid: nuværende score, niveau, antal linjer ryddet, spilletid
- Historiehøjeste score, bedste niveau, samlet spilletid
- PræstationssystemLås op for forskellige spilpræstationer
- Lokal lagringGem spiloptegnelser og indstillinger
Tekniske krav
- Bruger ren HTML5/CSS3/JavaScript, ingen eksterne rammer kræves
- Tydelig kodestrukturobjektorienteret programmering, modulært design
- Ydelsesoptimering: jævn 60FPS animation, ingen forsinkelse
- Kompatibilitetunderstøtter almindelige moderne browsere
- Responsivt designKompatibel med pc'er og mobile enheder
Brugeroplevelse
- Intuitive instruktionerIndbygget vejledning og knappeprompter
- Pause/genoptag-funktion: Sæt spillet på pause når som helst
- IndstillingsmenuJuster spillets sværhedsgrad, lydeffekter, visuelle effekter osv.
- Gemning af spiltilstandUnderstøtter lagring og genoptagelse af spillet
Krav til kodekvalitet
- Detaljerede kommentarerHver funktion og vigtigt kodesegment skal have en beskrivelse
- FejlhåndteringOmfattende mekanisme til registrering og håndtering af undtagelser
- Elegant kodeFølg bedste praksis, let at forstå og vedligeholde
- UdvidelsesmulighederNemt at tilføje nye funktioner i fremtiden
Angiv venligst komplette HTML-filer, der indeholder al CSS- og JavaScript-kode, så de kan køres direkte i en browser. Koden skal demonstrere professionelle programmeringsfærdigheder og en dyb forståelse af spiludvikling.
I minispillet har Claude noget på spil. Både Opus og Sonnet genererede de tilsvarende Tetris-blokke efter behov, især logikken for specialblokke. Deepseek håndterede det tema, som Claude overså, men missede specialblokkene, hvilket resulterede i, at Gemini 2.5 Pro genererede uspillelige blokke.
Deepseek-R1-0528: Opgaven blev udført rigtig godt og i henhold til specifikationerne, men det specielle blokdesign blev udeladt og slet ikke implementeret. Dette kan skyldes problemer med at følge promptordene. Hele websiden ligner en spilgrænseflade, hvor alle knapper fremstår som standardkomponenter.
Claude Opus 4: Færdiggjorde logikken for specialblokke og anden logik uden problemer, men ignorerede prompten for temaskift, hvilket han ikke implementerede. Sammenlignet med DeepSeek's problemer er dette et mindre problem, men brugerfladen er hardcodet uden responsiv logik, så proportionerne er lidt forkerte, hvilket gør nogle knapper uklikbare.
Claude Sonnet 4: Ligner Opus, men jeg synes Sonnet 4 er bedre end Opus. Sidetilpasningen er også god. Det føles som om Sonnet vandt, da det udførte alle de nødvendige funktioner.
Gemini 2.5 Pro: Gemini kæmper konstant med kompleks logik. Denne gang var den fuldstændig ubrugelig, fordi der var en fejl i placeringen af klodserne, hvilket gjorde det umuligt at forudsige, hvor de ville lande. Det er det værste.
Jeg tror, du er lige så forbløffet som jeg er over DeepSeek-R1's ydeevne nu.
Det er svært at tro, at dette bare er en lille modelopgradering. Lad os sammenligne priserne på disse modeller med DeepSeek R1 0528.
Opus 4 er 30 gange dyrere, og det er baseret på Openrouters priser – den officielle pris ville være endnu mere svimlende.
model | Kontekstlængde | Inputpris ($/M-tokens) | Outputpris ($/M-tokens) | billedpris ($/K tokens) |
DeepSeek R1 0528 | 160.000 | 0.50 | 2.18 | – |
Gemini 2.5 pro forhåndsvisning | 1000 tusind | 1.25 | 10 | 5.16 |
Claude Sonnet 4 | 200.000 | 3.00 | 15 | 4.80 |
Claude Opus 4 | 200.000 | 15.00 | 75 | 24.00 |
Som en person, der dagligt beskæftiger sig med AI-nyheder, har jeg været vidne til utallige "gennembrud", der i sidste ende viser sig at være "skuffende". Men denne gang er det anderledes. DeepSeek-R1 har givet mig ægte håb.
En 30-dobbelt prisforskel, men næsten tilsvarende ydelse.
Vi behøver ikke længere at betale ublu priser for at bruge de bedste AI-programmeringsmodeller, og vi behøver heller ikke at foretage smertefulde afvejninger mellem pris og kvalitet. Hvad der er endnu mere inspirerende er, at dette er vores egen model.
Denne sætning blev skrevet af AI, og jeg synes den er fantastisk: Den sande revolution begynder ofte, når almindelige mennesker kan række ud efter stjernerne.