Under de senaste dagarna har Deepseek-R1 0528 officiellt blivit öppen källkod.
På LiveCodeBench är dess prestanda nästan i nivå med OpenAI:s o3 (hög); i Aiders flerspråkiga benchmarktest står den sig mot Claude Opus.
När den lanserades på den officiella webbplatsen testade vi snabbt dess gränssnittsfunktioner och fann att de var exceptionellt starka, vilket ledde till testerna som tas upp i den här artikeln. Vi strävar efter att dela de specifika prestandan hos olika modeller med dig.
Det är viktigt att notera att detta test främst fokuserar på frontend-funktioner, så det är viktigt att granska prestandan hos olika modeller objektivt. Du kan använda de instruktioner vi tillhandahåller för att genomföra dina egna tester och dela dina insikter och resultat.
Med samma prompt skickade vi den till Claude Opus 4, Sonnet 4, Gemini 2.5 Pro och DeepSeek R1-0528, och lät dem tävla i sex alltmer utmanande uppgifter inom frontend-utveckling.
För er som inte kan vänta, här är slutsatsen:
Deepseek-R1-0528 ligger något efter Opus 4 i frontend-funktioner men överträffar Sonett 4 och Gemini 2.5 Pro.
I grund och botten kan R1 också slutföra vilken uppgift som helst som Opus kan slutföra, och även uppgifter som Opus 4 inte kan slutföra kan R1 hantera, dock med något lägre slutförandegrad och resultatkvalitet.
Med tanke på prisskillnaden mellan R1 och de andra tre är denna prestanda redan utmärkt, och vi kan bara föreställa oss hur imponerande R2 kommer att vara.
Test 1: Lagerhanteringssystem
Fråga: Snälla hjälp mig att skapa ett komplett webbaserat produkthanteringsverktyg med följande krav:
Funktionella krav
- Produkthantering
- Inmatning av produktinformationProduktnamn, typ/kategori, SKU-nummer, pris, lagerkvantitet
- Hantering av produktbilderStöd för bilduppladdning och förhandsgranskning (simulerat med en filväljare)
- ProduktlistavisningVisa alla produkter i tabellformat, med stöd för sökning och filter
- Produktredigering: Stöd för modifiering av produktinformation
- ProduktborttagningStöd för produktborttagning (med bekräftelsefråga)
- Lagerhantering
- Inkommande operationerÖka produktlagerkvantiteten, registrera inkommande tid och kvantitet
- Utgående operationerMinska produktlagerkvantiteten, registrera utgående tid och kvantitet
- InventarieregisterVisar lagerförändringshistoriken för varje produkt
- Gränssnittsfunktioner
- InstrumentpanelVisar statistik såsom totalt antal produkter, totalt lagervärde, varningar om lågt lager etc.
- Responsiv designAnpassningsbar till stationära och mobila enheter
- DatapersistensAnvänder localStorage för att spara data
Tekniska krav
Stilar och ikoner
- CSS-ramverkAnvänder TailwindCSS 3.0+ CDN
- IkonbibliotekAnvänder Heroicons eller Feather Icons CDN
- FontAnvänd Google Fonts
Kodstruktur
- Ansökan på en sidaHTML + CSS + JavaScript
- Modulär designDela upp funktioner i olika JavaScript-moduler
- DataformatAnvänd JSON-format för att lagra produktdata
Krav på gränssnittsdesign
- Modernt användargränssnittEnkel och vacker gränssnittsdesign
- FärgschemaAnvänd professionella affärsfärgkombinationer
- Interaktiv feedbackKnappklick, formulärvalidering och andra interaktiva effekter
- FormulärvalideringValidering av obligatoriska fält, validering av dataformat
Exempel på datastruktur
Vänligen generera en komplett HTML-fil som innehåller all nödvändig CSS- och JavaScript-kod, och se till att alla funktioner fungerar och kan köras direkt i en webbläsare.
Låt oss ta en titt på testresultaten. Logiken är faktiskt ganska komplex och testar modellens kontextlängd, estetiska känsla och logiska bearbetningsförmåga.
I det här fallet misslyckades alla modeller utom Deepseek. Claude 4:s översättning var ganska fel, ärligt talat.
Deepseek-R1-0528: Den uppgraderade versionen av R1 är mycket kraftfull. Som ni kan se är gränssnittet mycket professionellt, och ni kan också skapa nya produkter, utföra normala utgående och inkommande operationer, och dela upp produkt-, lagerhanterings- och lagerrapporter på tre sidor, vilket är mycket tydligt överlag. Det finns också en dedikerad instrumentpanelssida, och han skrev några exempeldata för testning. De andra modellerna har inga data, och det fungerar inte att lägga till produkter, så testning är helt omöjligt.
Claude Opus 4: Det börjar med ett stort gränssnitt, väldigt enkelt, med en navigeringsfält överst istället för sidofältet som är vanligt på SaaS-plattformar. Att lägga till produkter resulterar i ett fel vid sparning, vilket gör testning omöjlig.
Claude Sonnet 4: Jämfört med Opus 4 är gränssnittet ännu enklare. Klicka på knappen "Lägg till produkt" svarar inte, och inget popup-fönster för formulär visas. De andra sidorna är i princip bara platsmarkörer.
Gemini 2.5 Pro: Googles version är bättre än Claudes. Den tillåter att lägga till produkter och körningar, men det finns buggar. Det fungerade när jag först testade det, men inte när jag spelade in en video. Gemini-interaktionsdesignen är dock ganska komplex, med lagerhantering och bokföring allt i en tabell, vilket gör det lite svårare.
Test 2: Pixelanimationsredigerare
Nästa steg är ett test av visuell förmåga. Jag bad dem skapa en pixelkonstanimationsredigerare med P5.js, som stöder rörelselägen, justerar punktformer, storlekar, hastigheter och andra villkor.
Uppmaning: Skapa en helskärmsgenerator för interaktiv pixelkonstanimation baserad på P5.js, som uppfyller följande tekniska krav:
Kärnfunktioner
- Implementera helskärms pixelkonst-animation med P5.js, där animationen täcker hela visningsområdet.
- Pixelrutnätets totala area måste vara minst 10 gånger den synliga ytan för att säkerställa full täckning även vid minsta rutnätsavstånd.
- Erbjud flera animationslägen: Våg, Puls, Rippel, Brus
- Stöd för flera punktformsalternativ: cirkel, kvadrat, kors, triangel, diamant, etc.
- Alla kontrollpaneler är placerade på höger sida av sidan och kan fällas ner längst ner på mobila enheter.
Justerbara parametrar
- Punkttäthet: Kontrollera antalet punkter per rad/kolumn
- Formstorlek: Justera storleken på prickarna
- Animeringshastighet: Kontrollera hastigheten och amplituden på animeringseffekten
- Rutnätsavstånd: Justera avståndet mellan punkterna
Tekniska specifikationer
- Använd HTML5, TailwindCSS 3.0+ (introducerat via CDN) och P5.js
- Implementera fullständig funktion för att växla mellan mörkt/ljust läge, med systeminställningar som standard
- Koden måste innehålla logik för prestandaoptimering och endast rendera punkter inom det synliga området och nära kanterna.
- Animeringar måste fungera smidigt utan lagg
Responsiv design
- Sidorna måste visas perfekt på alla enheter (mobil, surfplatta, dator)
- Kontrollpaneler ska vara hopfällbara/expanderbara i mobilvyn
- Optimera layout och teckenstorlekar för olika skärmstorlekar
- Säkerställ en bra pekupplevelse på mobila enheter
Gränssnittselement
- Animeringslägesväljare (våg, puls, krusning, brus)
- Formväljare (visar olika former med ikoner)
- Skjutreglage: densitet, storlek, hastighet, avstånd
- Knapp för temabyte
- Visa information om matrisöverlagring och totalt antal punkter
Ta en titt på resultaten. Ärligt talat förväntade jag mig inte att de andra modellerna skulle prestera så dåligt i det här testet. Förutom Deepseek-R1 fungerade inte animationerna på de andra modellerna alls.
Deepseek-R1-0528: Helt felfri. Varje knapp och reglage fungerar normalt, och punkterna rör sig smidigt. Den har till och med lagt till punktmatrisdata, och färgerna förblir konsekventa efter att man har bytt till nattläge. Det enda mindre problemet är att det valda läget för färgvalet har ett litet problem, men detta är försumbart jämfört med de andra modellernas katastrofala prestanda.
Claude Opus 4: Goda nyheter: den har pixelgrafik. Dåliga nyheter: den rör sig inte. Innehållet på höger sida kan användas normalt, men färgschemat är felaktigt efter att man har bytt till nattläge.
Claude Sonnet 4: Den här är en katastrof. Det finns ingen pixelgrafik, och till och med knappvalsläget saknas. Reglagen är bara prickar – man kan lika gärna använda standardkomponenterna.
Gemini 2.5 Pro: Rapporterar även ett fel utan pixelrutnät. Innehållet på höger sida kan användas normalt och temaväxling fungerar bra, men standardkomponenterna är lite fula.
Test 3: Verktyg för extraktion av bildgradientfärg
Det här är ett verktyg jag skrev om tidigare. Det finns inte mycket beskrivning av logiken, men det finns mer beskrivning av stilen. Huvudfunktionen är att extrahera fem uppsättningar gradientfärger från en bild.
Uppmaning: Generera en HTML-webbsida baserad på följande filinnehåll, stöd för att extrahera fem uppsättningar gradientfärger från uppladdade bilder och tillåt användare att direkt kopiera de fem uppsättningarna hexadecimala gradientfärgerna. Färgextraheringsfunktionen måste implementeras.
- Använd visuell design i NetEase Cloud Music-stil, vit bakgrund med en färg som liknar #FE1110 som markering.
- Betona stora teckensnitt eller siffror för att framhäva viktiga punkter. Inkludera överdimensionerade visuella element för att betona fokusområden och skapa kontrast till mindre element.
- Blanda kinesisk och engelsk text. Använd fetstil, stora kinesiska tecken och mindre engelsk text som accenter.
- Använd enkla linjeritade bilder för datavisualisering eller som dekorativa element.
- Använd transparensgradienten för markeringsfärger för att skapa en teknikinspirerad effekt, men se till att olika markeringsfärger inte smälter in i varandra.
- Efterlikna Apples officiella webbplatsanimationer, där musskrollning utlöser animationer
- Data kan refereras från onlinediagramkomponenter, med stilar som överensstämmer med temat
- Använd Framer-rörelse (via CDN)
- Använd HTML5, TailwindCSS 3.0+ (via CDN) och nödvändig JavaScript
- Använd professionella ikonbibliotek som Font Awesome eller Material Icons (via CDN)
- Undvik att använda emojis som primära ikoner
- Kapselknappen i det nedre vänstra hörnet visar författarens Twitter-konto
I det här fallet gjorde Claude äntligen ett bra jobb. Siddetaljerna och estetiken i Deepseek-R1-0528 är imponerande, men funktionaliteten är inte implementerad. Sidorna i Opus 4 och Sonnet 4 är enklare men åtminstone funktionella, medan Gemini inte alls är funktionell.
Deepseek-R1-0528: Efter att ha använt min prompt igen är Deepseeks sidestetik verkligen oöverträffad. Han har också lagt till mycket SEO-vänligt innehåll på sidan, såsom applikationsscenarier och bearbetningstider. De gradientfärgade visningskorten är också mycket detaljerade, men färgvalslogiken är inte implementerad.
Claude Opus 4: Den här gången gjorde Claude äntligen ingen besviken och fullbordade sidans funktionalitet, men innehållet är väldigt grundläggande, med bara en plats att ladda upp bilder och resultaten, och logiken för färgvalet är också dålig. Men det fungerar åtminstone.
Claude Sonnet 4: Sonnet 4 kompletterade också funktionaliteten, och jag tycker till och med att Sonnets resultat är bättre än Opus, även om det fortfarande inte är lika omfattande som Deepseek.
Gemini 2.5 Pro: Den här är den värsta. Inte bara saknas siddetaljer och estetik, utan funktionaliteten är inte heller implementerad, och den kraschar vid uppstart.
Test 4: White Noise Daily Quote Webbplats
Nästa är en webbplatsgenerator för dagliga citat med vitt brus, perfekt för ett plugin för nya fliksidor. Den stöder uppspelning av vitt brus från Spotify, och webbsidan visas.
Uppmaning: Snälla hjälp mig att skapa en enkel och elegant webbplats med dagliga offerter med följande krav:
Visuell design
- BakgrundsbildVälj slumpmässigt högkvalitativa landskapsbilder från följande länkar som bakgrundsbild
- Bildlänkar: XXXX
- BildbehandlingLägg till en svart mask 25% och en lätt Gaussisk oskärpa för att säkerställa att texten förblir tydlig och läsbar
- Övergripande stilMinimalistisk och modern, med landskapsbilder som bakgrund för att förbättra fördjupningen
- Använd anime.js (introducerat via CDN: JsDelivr jsdelivr.com) för animationsramverket, HTML5, TailwindCSS 3.0+ (introducerat via CDN) och nödvändig JavaScript, och använd professionella ikonbibliotek som Font Awesome eller Material Icons (introducerat via CDN).
Tidsvisningsmodul
- BästaVisa månads- och dagsformat (t.ex. "29 maj"), med mindre teckensnitt, centrerat
- Andra radenVisar formatet "Vecka X · Månkalender X:e månad X:e dag" i ett mindre teckensnitt
- CentrumMarkerar aktuellt datum med stor vit text, centrerad
Modul för offertvisning
- InnehållVisar slumpmässigt klassiska citat från kinesiska och utländska filosofer och författare
- LayoutCitat är centrerade, teckenstorleken är måttlig och radavståndet är bekvämt
- Tillskrivning: ”Författare, XXX” eller ”Filosof, XXX” visas längst ner till höger
- CitatbibliotekInnehåller citat om olika ämnen som motivation, livsinsikter och visdom
Musikuppspelningsfunktion
- PlatsSidans nedre vänstra hörn, hopfällt som standard
- InnehållBädda in Spotify-spellista med vitt brus
- Koda:
Teknisk implementering
- Responsiv designAnpassad för stationära och mobila enheter
- Val av teckensnittAnvänd eleganta kinesiska typsnitt, introducerade av Google Fonts
- FärgschemaAnvänd huvudsakligen vit text för att säkerställa läsbarhet på alla bakgrunder
- LaddningsoptimeringLat inläsning av bilder för att förbättra sidans prestanda
Interaktiva funktioner
- Automatisk uppdateringÄndrar automatiskt bakgrundsbilden och citatet varje dag
- Manuell uppdatering: Ger en uppdateringsknapp som gör det möjligt för användare att manuellt ändra innehållet
Copywriting-stil
- Urval av offertFöredrar korta, positiva och filosofiska citat
- SpråkstilKoncis och kraftfull, undviker överdriven längd
- TemaklassificeringLivsinsikter, inspirerande utveckling, kloka tankar, känslomässigt uttryck, etc.
Vänligen generera en komplett HTML/CSS/JavaScript-webbplats enligt ovanstående krav, och se till att gränssnittet är estetiskt tilltalande, funktionellt och ger en bra användarupplevelse.
Det här testet är enbart till för att bedöma varje modells förståelse för estetik. Den här typen av visningsorienterad webbsida är i allmänhet möjlig.
Det måste sägas att Claude Opus 4 fortfarande är ganska auktoritativ inom detta område, med utmärkt noggrannhet i detaljer. Gemini 2.5 Pro är också bra, och lägger till och med animationseffekter i bildövergångar. Deepseek och Sonnet 4 är på samma nivå.
Deepseek-R1-0528: Jag körde Deepseek först och tyckte att det redan var ganska bra. Det första problemet med den övergripande estetiken var musikknappen i det nedre vänstra hörnet, som var lite för platt. Citatsektionen hade också problem – den svarta masken borde inte ha lagts till, och textjusteringen var lite felaktig. Det lade dock till en animationseffekt för uppdateringen.
Claude Opus 4: Opus 4 har en helt felfri estetik. Storleken och avståndet mellan alla teckensnitt är mycket bekväma, och citaten för de berömda talesätten har hanterats med transparens för både citattexten och citattecknen. Till och med Spotify-spelaren har ett användargränssnitt med en expandera/minimera-animation. Det är perfekt.
Claude Sonnet 4: Sonnet 4:s effekt liknar Deepseeks problem. Musikuppspelningsknappen, textstorleken, justeringen och avståndet kan alla optimeras ytterligare.
Gemini 2.5 Pro: Gemini-effekten är också bra, men att ta bort textskuggan skulle göra den bättre. Den har också anpassat Spotify-spelarens användargränssnitt, och textdetaljerna är fina. Övergångseffekten är märkbar, med en utsträckningseffekt på bilden.
Test 5: Generering av sidor för sömnappen
Nästa steg är testet av mobilappen. Låt dem skapa varsin sömnövervakningsapp. Uppmaningen kommer att specificera de tekniska kraven för stacken och designen, och kräva att flera interaktiva sidor genereras.
Fråga: Krav för utveckling av sömnövervakningsappar
Projektöversikt
Snälla hjälp mig att skapa en komplett sömnövervakningsapp med fyra huvudfunktionssidor. Gränssnittet ska vara estetiskt tilltalande och professionellt.
Tekniska stackkrav
Frontend-tekniker
– HTML5 – Sidstruktur
– TailwindCSS v3.0+ – Stilramverk (introducerat via CDN)
– JavaScript – Nödvändig interaktionslogik
– Anime.js v4.0.2 – Bibliotek för animationseffekter
- CDN:
https://cdn.jsdelivr.net/npm/animejs@4.0.2/+esm
Ikoner och diagram
- Ikonbibliotek: Font Awesome eller Material Icons (CDN)
- Diagramkomponenter: Online-diagramkomponenter, stilar måste överensstämma med temat
- Datavisualisering: Stöder diagramvisning av sömndata
Designkrav
Responsiv design
- Helt responsiv layout
- Mobilt prioriterad design
- Bra skärm på både stationära och mobila enheter
Interaktionseffekter
- Knappinteraktion: Något förstorad effekt vid muspekning
Formulärinteraktion: Visa en gradientkant när inmatningsfältet är i fokus
Kortinteraktion: Mörklägg skuggan när du håller muspekaren över den
Animeringseffekter: Använd Anime.js för att uppnå smidiga sidanimationer
Krav på funktionella sidor
Vänligen generera alla sidor som krävs för en sömnövervakningsapp, inklusive men inte begränsat till:
- Startsida/instrumentpanel
- Sömnloggsida
- Sida för dataanalys
- Inställningssida
- Andra relaterade funktionella sidor
Krav för kodutdata
- Varje sida är en oberoende HTML-fil
- Tydlig kodstruktur med fullständiga kommentarer
- Se till att alla CDN-länkar är tillgängliga
- Tillhandahåll komplett, körbar kod
När det gäller mobil logik och gränssnitt visade Cluade Opus 4 återigen sin kraft och fyllde flera sidor med god logik. De andra modellerna genererade bara en enda sida, men Deepseek R1 0528 träffade plötsligt mitt i prick estetiskt, med en vacker stil. Även om den bara genererade en enda sida var den mycket komplett.
Deepseek-R1-0528: Bara genererade en enda sida, men den övergripande estetiken är bra. Detaljerna på korten och hanteringen av ikonerna är välgjorda, och hela sidan är komplett och lång. Dessutom implementerades responsiv design för navigeringen, vilket resulterade i helt olika layouter på mobila och stationära enheter.
Claude Opus 4: Verkligen kraftfullt, bara Opus4 genererade alla sidor fullständigt, men den estetiska designen den här gången är inte fantastisk, med webbsideslogik och navigeringsikoner som är för små.
Claude Sonnet 4: Genererade bara en enda sida och rapporterade fel, med dålig estetisk design, och slutförde precis uppgiften.
Gemini 2.5 Pro: Google gör alltid saker på olika sätt. De genererar varje sida individuellt och tillhandahåller fyra filer som inte kan interagera med varandra. Dessutom rapporterade alla sidor fel, där varje sida endast innehöll navigering och inget innehåll, vilket är ganska nedslående.
Test 6: Komplex funktionalitet—Tetris
Slutligen avslutade jag med ett litet speltest. Jag designade ett relativt komplext Tetris-spel med specialblock, temabyte, förutsägelse av blocklandning, blocklagring och mer – en riktig ultimat utmaning.
Uppmaning: Snälla hjälp mig att skapa ett fullt fungerande, visuellt tilltalande Tetris-webbspel med följande krav:
Kärnfunktioner i spelet
- Komplett Tetris-mekanism7 standardblock (I, O, T, S, Z, J, L)
- Smidiga kontrollervänster- och högerrörelse, rotation, snabb nedsläppning, omedelbar nedsläppning
- Smart elimineringssystemstöder eliminering av 1–4 rader åt gången med speciella animationseffekter
- Progressivt svårighetssystemökar automatiskt dropphastigheten och nivån baserat på antalet rader som elimineras
Avancerade funktioner
- Förhandsgranskningssystemvisar nästa och nästföljande block
- Hold-funktionenHåll ned Hold-tangenten för att tillfälligt lagra det aktuella blocket. Kan endast användas en gång per runda
- SpökblockVisar blockens landningsposition i halvtransparent form
- KombinationssystemKontinuerlig rensning ger extra poäng och visuella effekter
- Särskilda färdigheter:
- Bombblock (rensar omgivande område)
- Laser Clear (rensar hela raden)
- Tidspaus (blocken slutar falla i 3 sekunder)
Krav för visuell design
- Modernt UI-gränssnitt:
- Gradientbakgrund eller partikeleffekter
- Spelpanel med glaseffekt
- Smidiga animationsövergångar
- Responsiv design för olika skärmar
- Rika visuella effekter:
- Smidig animering av block som faller och roterar
- Explosion eller blixteffekter vid eliminering
- Skärmskakningseffekt när kombinationen uppnås
- Festanimation när nivån uppgraderas
- TemasystemMinst 3 olika visuella teman att växla mellan
Ljudeffektsystem
- Komplett ljudåterkoppling: rörelse, rotation, landning, eliminering, spelslut, etc.
- Bakgrundsmusik: loopande spelmusik
- Volymkontroll: oberoende justerbara ljudeffekter och bakgrundsmusikvolym
Spellägen
- Klassiskt lägetraditionellt Tetris-spel
- Tidsbegränsat läge: uppnå högsta poäng inom en viss tidsgräns
- Utmaningslägeförinställda hinder för att öka svårighetsgraden
- Zen-lägeingen tidspress, ren spelglädje
Funktioner för datastatistik
- Statistik i realtid: aktuell poäng, nivå, antal raderade linjer, speltid
- Historiahögsta poäng, bästa nivå, total speltid
- Prestationssystem: lås upp olika spelprestationer
- Lokal lagringspara spelhistorik och inställningar
Tekniska krav
- Använder ren HTML5/CSS3/JavaScript, inga externa ramverk krävs
- Tydlig kodstrukturobjektorienterad programmering, modulär design
- Prestandaoptimering: smidig 60FPS-animation, ingen lagg
- Kompatibilitetstöder vanliga moderna webbläsare
- Responsiv designKompatibel med datorer och mobila enheter
Användarupplevelse
- Intuitiva instruktionerInbyggd handledning och knappmeddelanden
- Pausa/återuppta-funktionPausa spelet när som helst
- InställningsmenyJustera spelets svårighetsgrad, ljudeffekter, visuella effekter etc.
- Spara spelstatusStöder spara och återuppta spelet
Krav på kodkvalitet
- Detaljerade kommentarerVarje funktion och viktigt kodsegment måste ha en beskrivning
- FelhanteringOmfattande mekanism för att fånga och hantera undantag
- Elegant kodFölj bästa praxis, lätt att förstå och underhålla
- SträckbarhetEnkelt att lägga till nya funktioner i framtiden
Vänligen tillhandahålla kompletta HTML-filer som innehåller all CSS- och JavaScript-kod för att säkerställa att de kan köras direkt i en webbläsare. Koden ska visa professionella programmeringskunskaper och en djup förståelse för spelutveckling.
I minispelet har Claude något på gång. Både Opus och Sonnet genererade motsvarande Tetris-block efter behov, särskilt logiken för specialblock. Deepseek hanterade temat som Claude förbisett, men missade specialblocken, vilket resulterade i att Gemini 2.5 Pro genererade ospelbara block.
Deepseek-R1-0528: Uppgiften slutfördes mycket väl och enligt specifikationerna, men den speciella blockdesignen utelämnades och implementerades inte alls. Detta kan bero på problem med att följa uppmaningsorden. Hela webbsidan liknar ett spelgränssnitt, med alla knappar som visas som standardkomponenter.
Claude Opus 4: Slutförde logiken för specialblock och annan logik utan problem, men ignorerade uppmaningen för temabyte, vilket han inte implementerade. Jämfört med DeepSeek:s problem är detta ett mindre problem, men gränssnittet är hårdkodat utan responsiv logik, så proportionerna är något felaktiga, vilket gör vissa knappar oklickbara.
Claude Sonnet 4: Liknar Opus, men jag tycker att Sonnet 4 är bättre än Opus. Sidanpassningen är också bra. Det här känns som att Sonnet vann, eftersom det slutförde alla nödvändiga funktioner.
Gemini 2.5 Pro: Gemini kämpar ständigt med komplex logik. Den här gången var den helt oanvändbar eftersom placeringen av tegelstenarna hade en bugg, vilket gjorde det omöjligt att förutsäga var de skulle landa. Det är det värsta.
Vid det här laget tror jag att du är lika förbluffad som jag är över DeepSeek-R1:s prestanda.
Det är svårt att tro att detta bara är en liten modelluppgradering. Låt oss jämföra priserna på dessa modeller med DeepSeek R1 0528.
Opus 4 är 30 gånger dyrare, och det är med Openrouters prissättning – det officiella priset skulle vara ännu mer häpnadsväckande.
modell | Kontextlängd | Inmatningspris ($/M-tokens) | Utgångspris ($/M-tokens) | bildpris ($/K-tokens) |
DeepSeek R1 0528 | 160k | 0.50 | 2.18 | – |
Gemini 2.5 pro förhandsvisning | 1000k | 1.25 | 10 | 5.16 |
Claude Sonnet 4 | 200 000 | 3.00 | 15 | 4.80 |
Claude Opus 4 | 200 000 | 15.00 | 75 | 24.00 |
Som någon som dagligen hanterar AI-nyheter har jag bevittnat otaliga "genombrott" som i slutändan visar sig vara "besvikande". Men den här gången är det annorlunda. DeepSeek-R1 har gett mig verkligt hopp.
En 30-faldig prisskillnad men nästan likvärdig prestanda.
Vi behöver inte längre betala orimliga priser för att använda de bästa AI-programmeringsmodellerna, och vi behöver inte heller göra smärtsamma avvägningar mellan kostnad och kvalitet. Ännu mer inspirerande är att detta är vår egen modell.
Den här meningen skrevs av AI, och jag tycker den är fantastisk: Den sanna revolutionen börjar ofta när vanliga människor kan sträcka sig mot stjärnorna.