Во текот на изминатите неколку дена, Deepseek-R1 0528 официјално е достапен со отворен код.
На LiveCodeBench, неговите перформанси се речиси на исто ниво со o3 (високи) на OpenAI; во повеќејазичниот бенчмарк тест на Aider, се држи до Claude Opus.
Кога беше лансиран на официјалната веб-страница, брзо ги тестиравме неговите можности за напредна употреба и откривме дека се исклучително силни, што доведе до тестовите опфатени во оваа статија. Целта ни е да ги споделиме специфичните перформанси на различните модели со вас.
Важно е да се напомене дека овој тест првенствено се фокусира на можностите на front-end, па затоа е важно објективно да се согледаат перформансите на различните модели. Можете да ги користите упатствата што ги даваме за да ги спроведете сопствените тестови и да ги споделите вашите сознанија и наоди.
Користејќи го истиот потсетник, го испративме до Claude Opus 4, Sonnet 4, Gemini 2.5 Pro и DeepSeek R1-0528, и ги натераа да се натпреваруваат во шест сè попредизвикувачки задачи за развој на front-end.
За оние кои едвај чекаат, еве го заклучокот:
Deepseek-R1-0528 малку заостанува зад Opus 4 во можностите на предниот дел, но има подобри перформанси. Сонет 4 и Gemini 2.5 Pro.
Во основа, секоја задача што Opus може да ја заврши, R1 исто така може да ја заврши, па дури и задачите што Opus 4 не може да ги заврши, R1 може да ги реши, иако со малку пониски стапки на завршување и квалитет на резултатот.
Со оглед на разликата во цената помеѓу R1 и другите три, овие перформанси се веќе одлични, а можеме само да замислиме колку импресивен ќе биде R2.
Тест 1: Систем за управување со магацини
Прашање: Ве молам помогнете ми да креирам комплетна веб-базирана алатка за управување со производи со следниве барања:
Функционални барања
- Управување со производи
- Внесување информации за производотИме на производ, тип/категорија, SKU број, цена, количина на залиха
- Управување со слики од производиПоддржува прикачување и преглед на слики (симулирано со селектор на датотеки)
- Приказ на листа на производи: Прикажете ги сите производи во табеларен формат, со поддршка за пребарување и филтрирање
- Уредување на производиПоддршка за модификација на информациите за производот
- Бришење на производ: Поддршка за бришење на производ (со барање за потврда)
- Управување со залихи
- Влезни операцииЗголемете ја количината на залиха на производи, евидентирајте го времето и количината на прием
- Излезни операцииНамалете ја количината на залиха на производи, евидентирајте го времето и количината на испорака
- Записи за инвентар: Ја прикажува историјата на промени во залихите за секој производ
- Карактеристики на интерфејсот
- Контролна табла: Прикажува статистика како што се вкупниот број на производи, вкупната вредност на залихите, известувања за ниски залихи итн.
- Респонзивен дизајн: Прилагодливо за десктоп и мобилни уреди
- Перзистентност на податоциКористи localStorage за зачувување на податоци
Технички барања
Стилови и икони
- CSS рамкаКористи TailwindCSS 3.0+ CDN
- Библиотека со икониКористи Хероикони или Икони од Пердуви CDN
- Фонт: Користете ги фонтовите на Google
Структура на кодот
- Апликација од една страница: HTML + CSS + JavaScript
- Модуларен дизајнРазделете ги функциите во различни JavaScript модули
- Формат на податоциКористете JSON формат за складирање на податоци за производот
Барања за дизајн на интерфејс
- Модерен кориснички интерфејсЕдноставен и убав дизајн на интерфејс
- Шема на боиКористете професионални комбинации на деловни бои
- Интерактивни повратни информацииКликнување на копчиња, валидација на формулари и други интерактивни ефекти
- Потврда на формуларот: Потврда на задолжителни полиња, валидација на формат на податоци
Пример за структура на податоци
Ве молиме генерирајте комплетна HTML-датотека што го содржи целиот потребен CSS и JavaScript код, осигурувајќи се дека сите функции се функционални и можат да се извршуваат директно во прелистувач.
Да ги погледнеме резултатите од тестот. Логиката е всушност доста сложена, тестирајќи ја должината на контекстот на моделот, естетската смисла и можностите за логичка обработка.
Во овој случај, сите модели освен Deepseek не успеаја. Преводот на Клод 4 беше доста погрешно, да бидам искрен.
Deepseek-R1-0528: Надградената верзија на R1 е многу моќна. Како што можете да видите, интерфејсот е многу професионален, а можете да креирате и нови производи, да извршувате нормални излезни и влезни операции и да ги поделите извештаите за производи, управување со залихи и залихи на три страници, што е многу јасно во целина. Исто така, постои и посебна страница на контролната табла, а тој напиша и некои примероци на податоци за тестирање. Другите модели немаат податоци, а додавањето производи не функционира, па затоа тестирањето е сосема невозможно.
Клод Опус 4: Започнува со голем интерфејс, многу едноставен, користејќи горна лента за навигација наместо страничната лента што е вообичаена кај SaaS платформите. Додавањето производи резултира со грешка при зачувувањето, што го прави тестирањето невозможно.
Клод Сонет 4: Во споредба со Opus 4, интерфејсот е уште поосновен. Кликнувањето на копчето „Додај производ“ не реагира и не се појавува никаков скокачки прозорец со формулар. Другите страници се во суштина само резервирани места.
Близнаци 2.5 Про: Верзијата на Google е подобра од онаа на Claude. Овозможува додавање производи и пробиви, но има грешки. Работеше кога првпат го пробав, но не и кога снимив видео. Сепак, дизајнот на интеракција на Gemini е доста сложен, со управување со залихи и водење евиденција во една табела, што додава одредена тешкотија.
Тест 2: Уредник за анимација на пиксели
Следно е тест за визуелни способности. Ги замолив да креираат уредник за анимација со пикселна уметност користејќи P5.js, кој ќе поддржува режими на движење, ќе ги прилагодува облиците, големините, брзините и другите услови на точките.
Прашање: Креирајте генератор на интерактивна пиксел арт анимација на цел екран базиран на P5.js, кој ги исполнува следниве технички барања:
Основни карактеристики
- Имплементирајте анимација на пикселна уметност на цел екран користејќи P5.js, при што анимацијата ја покрива целата површина на прозорецот за преглед.
- Вкупната површина на мрежата со пиксели мора да биде најмалку 10 пати поголема од видливата површина за да се обезбеди целосна покриеност дури и при најмалиот растојание помеѓу мрежите.
- Обезбедете повеќе режими на анимација: бран, пулс, бранување, шум
- Поддржува повеќе опции за облик на точки: круг, квадрат, крст, триаголник, дијамант, итн.
- Сите контролни панели се поставени на десната страна од страницата и можат да се склопат до дното на мобилните уреди.
Прилагодливи параметри
- Густина на точки: Контролирајте го бројот на точки по ред/колона
- Големина на обликот: Прилагодете ја големината на точките
- Брзина на анимација: Контролирајте ја брзината и амплитудата на ефектот на анимација
- Растојание помеѓу мрежите: Прилагодете го растојанието помеѓу точките
Технички спецификации
- Користете HTML5, TailwindCSS 3.0+ (воведено преку CDN) и P5.js
- Имплементирајте целосна функционалност за префрлување на темни/светли режими, со стандардно подесување на системските поставки
- Кодот мора да вклучува логика за оптимизација на перформансите, прикажувајќи само точки во видливата област и близу до рабовите.
- Анимациите мора да се одвиваат непречено без застој
Респонзивен дизајн
- Страниците мора совршено да се прикажуваат на сите уреди (мобилен, таблет, десктоп)
- Контролните панели треба да бидат склопливи/проширливи во мобилниот приказ
- Оптимизирајте го распоредот и големината на фонтот за различни големини на екранот
- Обезбедете добро искуство со допир на мобилните уреди
Елементи на интерфејсот
- Избирач на режим на анимација (бран, пулс, бранување, шум)
- Избирач на форми (прикажува различни форми со икони)
- Контроли на лизгачот: густина, големина, брзина, растојание
- Копче за менување тема
- Прикажи информации за преклопување на матрицата и вкупен број на точки
Погледнете ги резултатите. Да бидам искрен, не очекував другите модели да имаат толку лоши резултати на овој тест. Освен Deepseek-R1, анимациите на другите модели воопшто не работеа.
Deepseek-R1-0528: Совршено беспрекорно. Секое копче и лизгач функционираат нормално, а точките се движат непречено. Дури и додаде матрични податоци, а боите остануваат конзистентни по префрлањето во ноќен режим. Единствениот мал проблем е што избраната состојба на изборот на бои има мал проблем, но тој е занемарлив во споредба со катастрофалните перформанси на другите модели.
Клод Опус 4: Добри вести: има пикселна уметност. Лоши вести: не се движи. Содржината од десната страна може да се ракува нормално, но шемата на бои е неточна по префрлувањето во ноќен режим.
Клод Сонет 4: Ова е катастрофа. Нема пиксел арт, па дури и состојбата за избор на копче недостасува. Лизгачите се само точки - можеби е подобро да се користат стандардните компоненти.
Близнаци 2.5 Про: Исто така, пријавува грешка без мрежа на пиксели. Содржината од десната страна може да се ракува нормално, а менувањето на теми работи добро, но стандардните компоненти се малку грди.
Тест 3: Алатка за извлекување на боја на градиент на слика
Ова е алатка што ја напишав претходно. Нема многу опис на логиката, но има повеќе описи на стилот. Главната функција е да се извлечат пет сета градиентни бои од сликата.
Прашање: Генерирајте HTML веб-страница врз основа на следната содржина на датотеката, која ќе поддржува извлекување на пет сета градиентни бои од прикачените слики и ќе им овозможува на корисниците директно да ги копираат петте сета хексадецимални градиентни бои. Функцијата за извлекување бои треба да се имплементира.
- Користете визуелен дизајн во стилот на NetEase Cloud Music, бела позадина со боја слична на #FE1110 како најважен елемент.
- Нагласете големи фонтови или броеви за да ги истакнете клучните точки. Вклучете преголеми визуелни елементи за да ги нагласите фокусните области, создавајќи контраст со помалите елементи.
- Мешајте кинески и англиски текст. Користете задебелени, големи кинески знаци и помал англиски текст како акценти.
- Користете едноставни графики со линии за визуелизација на податоци или како декоративни елементи.
- Користете го градиентот на транспарентност на боите за осветлување за да создадете ефект инспириран од технологијата, но осигурајте се дека различните бои за осветлување не се мешаат една со друга.
- Имитирајте ги анимациите на официјалната веб-страница на Apple, со анимации што ги активираат скролувањата со глувче
- Податоците може да се референцираат од компонентите на графиконите преку интернет, со стилови конзистентни со темата
- Користете Framer Motion (преку CDN)
- Користете HTML5, TailwindCSS 3.0+ (преку CDN) и потребен JavaScript
- Користете професионални библиотеки со икони како што се Font Awesome или Material Icons (преку CDN)
- Избегнувајте користење на емотикони како примарни икони
- Копчето за капсули во долниот лев агол го прикажува корисничкото име на авторот на Твитер
Во овој случај, Клод конечно заврши одлична работа. Деталите на страницата и естетиката на Deepseek-R1-0528 се импресивни, но функционалноста не е имплементирана. Страниците на Opus 4 и Sonnet 4 се поедноставни, но барем функционални, додека Gemini воопшто не е функционален.
Deepseek-R1-0528: Откако повторно го користев мојот потсетник, естетиката на страницата на Deepseek е навистина неспоредлива. Тој, исто така, додаде многу содржина прилагодена за SEO на страницата, како што се сценарија на апликации и време на обработка. Картичките за прикажување со градиентна боја се исто така многу детални, но логиката за избор на боја не е имплементирана.
Клод Опус 4: Овој пат, Клод конечно не разочара, комплетирајќи ја функционалноста на страницата, но содржината на страницата е многу основна, само со место за прикачување слики и резултати, а логиката за избор на бои е исто така лоша. Сепак, барем функционира.
Клод Сонет 4: Сонет 4 исто така ја комплетираше функционалноста, и дури мислам дека резултатите на Сонет се подобри од оние на Опус, иако сè уште не е толку богат како Deepseek.
Близнаци 2.5 Про: Ова е најлошото. Не само што недостасуваат деталите и естетиката на страницата, туку и функционалноста не е имплементирана, а се урива при стартување.
Тест 4: Веб-страница за дневен цитат од бел шум
Следно е генератор на веб-страница за дневни понуди за бел шум, кој е совршен за приклучок за нова страница со таб. Поддржува репродукција на бел шум од Spotify, а веб-страницата се прикажува.
Прашање: Ве молам, помогнете ми да креирам едноставна и елегантна веб-страница за дневни понуди со следниве барања:
Визуелен дизајн
- Слика во позадинаСлучајно изберете висококвалитетни пејзажни слики од следните линкови како слика во позадина
- Линкови со слики: XXXX
- Обработка на сликиДодајте црна маска 25% и мало гаусово замаглување за да се осигурате дека текстот останува јасен и читлив.
- Општ стилМинималистички и модерно, со пејзажни слики како позадина на веб-страницата за подобро запознавање со содржините
- Користете anime.js (воведен преку CDN: JsDelivr jsdelivr.com) за рамката за анимација, HTML5, TailwindCSS 3.0+ (воведен преку CDN) и потребниот JavaScript, и користете професионални библиотеки со икони како што се Font Awesome или Material Icons (воведени преку CDN).
Модул за прикажување на време
- Врв: Прикажувај го форматот за месец и ден (на пр., „29 мај“), со помал фонт, центриран
- Втор ред: Го прикажува форматот „Недела X · Лунарен календар X-ти месец X-ти ден“ во помал фонт
- ЦентарГо означува тековниот датум со голем бел фонт, центриран
Модул за прикажување на цитати
- Содржина: Случајно прикажува класични цитати од кинески и странски филозофи и писатели
- РаспоредЦитатите се центрирани, големината на фонтот е умерена, а растојанието меѓу редовите е удобно
- Припишување„Писател, XXX“ или „Филозоф, XXX“ се прикажува долу десно
- Библиотека со цитатиСодржи цитати на различни теми како што се мотивација, животни увиди и мудрост
Функција за репродукција на музика
- Локација: Долен лев агол на страницата, стандардно склопен
- СодржинаВметнете ја плејлистата со бел шум на Spotify
- Код:
Техничка имплементација
- Респонзивен дизајн: Адаптирано за десктоп и мобилни уреди
- Избор на фонтКористете елегантни кинески фонтови, воведени од Google Fonts
- Шема на боиГлавно користете бел текст за да се обезбеди читливост на сите позадини
- Оптимизација на вчитување: Мрзеливо вчитување на слики за подобрување на перформансите на страницата
Интерактивни функции
- Автоматско освежување: Автоматски ја менува сликата во позадина и цитатот секој ден
- Рачно освежувањеОбезбедува копче за освежување за да им овозможи на корисниците рачно да ја менуваат содржината
Стил на пишување копии
- Избор на понудиПретпочитаат кратки, позитивни и филозофски цитати
- Јазичен стилКонцизен и моќен, избегнувајќи прекумерна должина
- Класификација на темиЖивотни увиди, инспиративен раст, мудри мисли, емоционално изразување итн.
Ве молиме генерирајте комплетна HTML/CSS/JavaScript веб-страница според горенаведените барања, осигурувајќи се дека интерфејсот е естетски пријатен, функционален и обезбедува добро корисничко искуство.
Овој тест е чисто за да се процени разбирањето на естетиката на секој модел. Овој тип на веб-страница ориентирана кон прикажување е генерално остварлив.
Мора да се каже дека Claude Opus 4 е сè уште доста авторитативен во оваа област, со одлично внимание на деталите. Gemini 2.5 Pro е исто така добар, дури додавајќи и анимациски ефекти на транзициите на сликите. Deepseek и Sonnet 4 се на исто ниво.
Deepseek-R1-0528: Прво го стартував Deepseek и мислев дека веќе е доста добар. Првиот проблем со целокупната естетика беше копчето за музика во долниот лев агол, кое беше малку премногу рамно. Делот со цитати исто така имаше проблеми - црната маска не требаше да се додаде, а порамнувањето на текстот беше малку погрешно. Сепак, додаде ефект на анимација за освежувањето.
Клод Опус 4: Естетиката на Opus 4 е навистина беспрекорна. Големината и растојанието меѓу сите фонтови се многу удобни, а цитатите за познатите изреки се обработени транспарентно и за текстот на цитатот и за наводниците. Дури и Spotify плеерот е обвиткан во кориснички интерфејс со анимација за проширување/склопување. Совршен е.
Клод Сонет 4: Ефектот на Sonnet 4 е сличен на проблемот на Deepseek. Копчето за репродукција на музика, големината на текстот, порамнувањето и растојанието можат дополнително да се оптимизираат.
Близнаци 2.5 Про: Ефектот на Gemini е исто така добар, но отстранувањето на сенката од текстот би го подобрило. Исто така, го прилагоди и корисничкиот интерфејс на Spotify плеерот, а деталите за текстот се во ред. Ефектот на транзиција е забележлив, со ефект на истегнување на сликата.
Тест 5: Генерирање страница за апликација за спиење
Следно е тестирањето на мобилната апликација. Нека секој од нив креира апликација за следење на спиењето. Во барањето ќе бидат наведени техничките барања и барањата за дизајн, а ќе биде потребно и генерирање на повеќе интерактивни страници.
Прашање: Потребни услови за развој на апликација за следење на спиењето
Преглед на проектот
Ве молам, помогнете ми да создадам комплетна апликација за следење на спиењето со четири главни функционални страници. Интерфејсот треба да биде естетски пријатен и професионален.
Технички барања за стек
Фронтенд технологии
– HTML5 – Структура на страницата
– TailwindCSS v3.0+ – Стилска рамка (воведена преку CDN)
– ЈаваСкрипт – Неопходна логика на интеракција
– Anime.js верзија 4.0.2 – Библиотека со анимациски ефекти
- CDN:
https://cdn.jsdelivr.net/npm/animejs@4.0.2/+esm
Икони и графикони
- Библиотека со икони: Font Awesome или Material Icons (CDN)
- Компоненти на графиконот: Компонентите и стиловите на онлајн графиконот мора да бидат во согласност со темата.
- Визуелизација на податоци: Поддржува прикажување на податоци за спиење во графикон
Дизајнерски барања
Респонзивен дизајн
- Целосно прилагодлив распоред
- Дизајн кој е првенствено мобилна
- Добар приказ и на десктоп и на мобилни уреди
Ефекти на интеракција
- Интеракција со копчиња: Малку зголемен ефект при покажување на курсорот
Интеракција со форма: Прикажува граница на градиент кога полето за внесување е фокусирано
Интеракција со картичка: Затемнете ја сенката кога лебдите
Ефекти на анимација: Користете Anime.js за да постигнете непречени анимации на страницата
Функционални барања за страница
Ве молиме генерирајте ги сите страници потребни за апликација за следење на спиењето, вклучувајќи, но не ограничувајќи се на:
- Почетна страница/контролна табла
- Страница за евиденција на спиење
- Страница за анализа на податоци
- Страница со поставки
- Други поврзани функционални страници
Барања за излез на код
- Секоја страница е независна HTML датотека
- Јасна структура на кодот со целосни коментари
- Осигурајте се дека сите CDN врски се достапни
- Обезбедете комплетен, извршлив код
Во однос на мобилната логика и интерфејсот, Cluade Opus 4 повторно ја демонстрираше својата моќ, комплетирајќи повеќе страници со добра логика. Другите модели генерираа само една страница, но Deepseek R1 0528 одеднаш ја погоди целта во однос на естетиката, со прекрасен стил. Иако генерираше само една страница, беше многу комплетен.
Deepseek-R1-0528: Генерирана е само една страница, но целокупната естетика е добра. Деталите на картичките и ракувањето со иконите се добро изработени, а целата страница е комплетна и долга. Дополнително, имплементиран е адаптивен дизајн за навигацијата, што резултира со сосема различни распореди на мобилни и десктоп уреди.
Клод Опус 4: Навистина моќен, само Opus4 ги генерираше сите страници целосно, но естетскиот дизајн овој пат не е одличен, користејќи логика на веб-страницата, со икони за навигација кои се премногу мали.
Клод Сонет 4: Генерирана е само една страница и пријавени се грешки, со лош естетски дизајн, само завршување на задачата.
Близнаци 2.5 Про: Google секогаш ги прави работите поинаку. Ја генерира секоја страница поединечно, обезбедувајќи четири датотеки кои не можат да комуницираат една со друга. Дополнително, сите страници пријавија грешки, при што секоја страница содржеше само навигација и немаше содржина, што е доста разочарувачки.
Тест 6: Комплексна функционалност - Тетрис
Конечно, завршив со мал тест за играта. Дизајнирав релативно комплексна игра Тетрис со специјални блокови, менување теми, предвидување на слетување на блокови, складирање на блокови и друго - вистински врвен предизвик.
Прашање: Ве молам, помогнете ми да создадам целосно функционална, визуелно привлечна веб-игра Тетрис со следниве барања:
Основни карактеристики на играта
- Комплетен механизам на Тетрис: 7 стандардни блокови (I, O, T, S, Z, J, L)
- Нежните контроли: движење лево и десно, ротација, брзо паѓање, моментално паѓање
- Паметен систем за елиминацијаПоддржува елиминирање на 1-4 реда истовремено со специјални анимациски ефекти
- Прогресивен систем на тежина: автоматски ја зголемува брзината на пуштање и нивото врз основа на бројот на елиминирани редови
Напредни функции
- Преглед на системот: ги прикажува следните и следно-следните блокови
- Функција за задржувањеДржете го копчето Задржи за привремено да го зачувате тековниот блок. Може да се користи само еднаш по рунда.
- Духовни блокови: Ја прикажува позицијата на слетување на блоковите во полупроѕирна форма
- Комбиниран системКонтинуираното чистење дава дополнителни поени и визуелни ефекти
- Специјални вештини:
- Блок со бомби (ја чисти околната област)
- Ласерско чистење (чисти цел ред)
- Временска пауза (блоковите престануваат да паѓаат 3 секунди)
Барања за визуелен дизајн
- Модерен кориснички интерфејс:
- Градиентна позадина или ефекти на честички
- Панел за игра со ефект на стакло
- Нежните транзиции на анимацијата
- Респонзивен дизајн за различни екрани
- Богати визуелни ефекти:
- Мазна анимација на блокови што паѓаат и ротираат
- Ефекти на експлозија или блесок кога се елиминираат
- Ефект на тресење на екранот кога се постигнува комбинација
- Анимација на прослава кога нивото е надградено
- Тематски системНајмалку 3 различни визуелни теми за префрлање помеѓу
Систем за звучни ефекти
- Целосен звучен фидбек: движење, ротација, слетување, елиминација, крај на играта, итн.
- Музика во позадина: повторувачка музика во играта
- Контрола на јачината на звукот: независно прилагодливи звучни ефекти и јачина на музика во позадина
Режими на игра
- Класичен режимтрадиционален тетрис гејмплеј
- Временски ограничен режим: постигне највисок резултат во одреден временски рок
- Режим на предизвик: претходно поставени пречки за зголемување на тежината
- Зен режим: без временски притисок, чисто уживање во играта
Функции за статистика на податоци
- Статистика во реално време: тековен резултат, ниво, број на исчистени линии, време на игра
- Историја: највисок резултат, најдобро ниво, вкупно време на игра
- Систем за достигнувања: отклучете разни достигнувања во играта
- Локално складирање: зачувај ги записите и поставките за играта
Технички барања
- Користи чист HTML5/CSS3/JavaScript, не се потребни надворешни рамки
- Јасна структура на кодотобјектно-ориентирано програмирање, модуларен дизајн
- Оптимизација на перформансите: мазна анимација од 60FPS, без застој
- Компатибилност: поддржува мејнстрим модерни прелистувачи
- Респонзивен дизајнКомпатибилен со компјутери и мобилни уреди
Корисничко искуство
- Интуитивни инструкцииВграден туторијал и упатства за копчиња
- Функција за пауза/продолжување: Паузирајте ја играта во секое време
- Мени за поставки: Прилагодете ја тежината на играта, звучните ефекти, визуелните ефекти итн.
- Зачувување на состојбата на игратаПоддржува зачувување и продолжување на играта
Барања за квалитет на кодот
- Детални коментариСекоја функција и важен сегмент од кодот мора да има опис
- Ракување со грешкиСеопфатен механизам за снимање и ракување со исклучоци
- Елегантен кодСледете ги најдобрите практики, лесно за разбирање и одржување
- Проширливост: Лесно додавање нови функции во иднина
Ве молиме, доставете комплетни HTML датотеки што го содржат целиот CSS и JavaScript код за да се осигурате дека тие можат да се извршуваат директно во прелистувач. Кодот треба да покаже професионални програмски вештини и длабоко разбирање на развојот на игри.
Во мини-играта, Клод има нешто што се случува. И Opus и Sonnet ги генерираа соодветните блокови на Tetris по потреба, особено логиката за специјалните блокови. Deepseek се справи со темата што Клод ја превидеше, но ги пропушти специјалните блокови, што резултираше со тоа што Gemini 2.5 Pro генерираше блокови што не можеа да се играат.
Deepseek-R1-0528: Задачата беше завршена многу добро и според спецификациите, но специјалниот дизајн на блокови беше изоставен и воопшто не беше имплементиран. Ова може да се должи на проблеми со следењето на зборовите што се бараат. Целата веб-страница наликува на интерфејс на игра, при што сите копчиња изгледаат како стандардни компоненти.
Клод Опус 4: Ја заврши логиката за специјални блокови и друга логика без проблеми, но го игнорираше барањето за менување на теми, кое не го имплементираше. Во споредба со проблемите на DeepSeek, ова е помал проблем, но интерфејсот е хардкодиран без прилагодлива логика, па пропорциите се малку погрешни, што ги прави некои копчиња некликливи.
Клод Сонет 4: Слично на Opus, но мислам дека Sonnet 4 е подобар од Opus. Адаптацијата на страницата е исто така добра. Ова се чини како Sonnet да победи, бидејќи ги заврши сите потребни функции.
Близнаци 2.5 Про: Близнаците постојано се мачат со сложена логика. Овој пат, таа беше целосно неупотреблива бидејќи поставувањето на тулите имаше грешка, што го отежнуваше предвидувањето каде ќе паднат. Тоа е најлошото.
Досега, мислам дека си исто толку воодушевен колку и јас од перформансите на DeepSeek-R1.
Тешко е да се поверува дека ова е само мала надградба на моделот. Ајде да ги споредиме цените на овие модели со DeepSeek R1 0528.
Opus 4 е 30 пати поскап, а тоа е користејќи ги цените на Openrouter - официјалната цена би била уште позачудувачка.
модел | Должина на контекстот | Влезна цена ($/M токени) | Излезна цена ($/M токени) | цена на сликата (токени $/K) |
DeepSeek R1 0528 | 160 илјади | 0.50 | 2.18 | – |
Преглед на Gemini 2.5 pro | 1000 илјади | 1.25 | 10 | 5.16 |
Клод Сонет 4 | 200 илјади | 3.00 | 15 | 4.80 |
Клод Опус 4 | 200 илјади | 15.00 | 75 | 24.00 |
Како некој што секојдневно се справува со вести за вештачката интелигенција, сум бил сведок на безброј „пробиви“ кои на крајот се покажаа како „разочарувачки“. Но, овој пат е поинаку. DeepSeek-R1 ми даде вистинска надеж.
30-кратна разлика во цената, а сепак речиси еквивалентни перформанси.
Повеќе не треба да плаќаме претерани цени за да ги користиме најдобрите модели за програмирање со вештачка интелигенција, ниту пак мора да правиме болни компромиси помеѓу цената и квалитетот. Уште поинспиративно е што ова е наш сопствен модел.
Оваа реченица е напишана од вештачка интелигенција и мислам дека е одлична: Вистинската револуција често започнува кога обичните луѓе можат да посегнат по ѕвездите.