За последние несколько дней Deepseek-R1 0528 был официально открыт для доступа.
В LiveCodeBench его производительность практически сопоставима с o3 (high) от OpenAI; в многоязыковом тесте производительности Aider он не уступает Claude Opus.
Когда он был запущен на официальном сайте, мы быстро протестировали его возможности front-end и обнаружили, что они исключительно сильны, что привело к тестам, описанным в этой статье. Мы стремимся поделиться с вами конкретной производительностью различных моделей.
Важно отметить, что этот тест в первую очередь фокусируется на возможностях front-end, поэтому важно объективно оценивать производительность различных моделей. Вы можете использовать предоставленные нами подсказки для проведения собственных тестов и делиться своими идеями и выводами.
Используя ту же подсказку, мы отправили ее в Claude Opus 4, Sonnet 4, Gemini 2.5 Pro и DeepSeek R1-0528и заставил их соревноваться в шести все более сложных задачах по разработке интерфейса.
Для тех, кто не может дождаться, вот заключение:
Deepseek-R1-0528 немного уступает Opus 4 по возможностям интерфейса, но превосходит его Сонет 4 и Gemini 2.5 Pro.
По сути, любую задачу, которую может выполнить Opus, может выполнить и R1, и даже задачи, которые не может выполнить Opus 4, R1 может выполнить, хотя и с несколько более низкими показателями выполнения и качеством результата.
Учитывая разницу в цене между R1 и тремя другими моделями, эти характеристики уже превосходны, и мы можем только представить, насколько впечатляющим будет R2.
Тест 1: Система управления складом
Подсказка: Пожалуйста, помогите мне создать полноценный веб-инструмент для управления продуктами, отвечающий следующим требованиям:
Функциональные требования
- Управление продуктом
- Ввод информации о продукте: Название продукта, тип/категория, номер SKU, цена, количество на складе
- Управление имиджем продукта: Поддержка загрузки и предварительного просмотра изображений (симуляция с помощью селектора файлов)
- Отображение списка продуктов: Отображение всех продуктов в табличном формате с поддержкой поиска и фильтрации.
- Редактирование продукта: Поддержка модификации информации о продукте
- Удаление продукта: Поддержка удаления продукта (с запросом подтверждения)
- Управление запасами
- Входящие операции: Увеличьте количество запасов продукции, запишите время и количество поступления
- Исходящие операции: Уменьшение количества запасов продукции, регистрация времени и количества исходящих товаров
- Инвентарные записи: Отображает историю изменений запасов для каждого продукта
- Возможности интерфейса
- Приборная панель: Отображает статистику, такую как общее количество товаров, общая стоимость запасов, оповещения о низком уровне запасов и т. д.
- Адаптивный дизайн: Адаптируется к настольным компьютерам и мобильным устройствам
- Сохранение данных: Использует localStorage для сохранения данных
Технические требования
Стили и значки
- CSS-фреймворк: Использует TailwindCSS 3.0+ CDN
- Библиотека иконок: Использует Heroicons или Feather Icons CDN
- Шрифт: Используйте шрифты Google
Структура кода
- Одностраничное приложение: HTML + CSS + JavaScript
- Модульная конструкция: Разбейте функции на различные модули JavaScript
- Формат данных: Используйте формат JSON для хранения данных о продуктах
Требования к дизайну интерфейса
- Современный пользовательский интерфейс: Простой и красивый дизайн интерфейса
- Цветовая схема: Используйте профессиональные деловые цветовые сочетания
- Интерактивная обратная связь: Нажатие кнопок, проверка форм и другие интерактивные эффекты
- Проверка формы: Обязательная проверка полей, проверка формата данных
Пример структуры данных
Создайте полный HTML-файл, содержащий весь необходимый код CSS и JavaScript, обеспечивающий работоспособность всех функций и их запуск непосредственно в браузере.
Давайте посмотрим на результаты теста. Логика на самом деле довольно сложная, она проверяет длину контекста модели, эстетическое чувство и возможности логической обработки.
В этом случае все модели, кроме Deepseek, потерпели неудачу. Перевод Клода 4 Честно говоря, было совсем не то.
Deepseek-R1-0528: Обновленная версия R1 очень мощная. Как вы видите, интерфейс очень профессиональный, и вы также можете создавать новые продукты, выполнять обычные исходящие и входящие операции и делить отчеты о продуктах, управлении запасами и инвентаризации на три страницы, что в целом очень понятно. Также есть специальная страница панели мониторинга, и он написал несколько образцов данных для тестирования. В других моделях нет данных, и добавление продуктов не работает, поэтому тестирование полностью невозможно.
Клод Опус 4: Он начинается с большого интерфейса, очень простого, использующего верхнюю панель навигации вместо боковой панели, распространенной в платформах SaaS. Добавление продуктов приводит к ошибке при сохранении, что делает тестирование невозможным.
Клод Сонет 4: По сравнению с Opus 4 интерфейс еще более базовый. Нажатие кнопки «Добавить продукт» не реагирует, и не появляется всплывающая форма. Остальные страницы по сути просто заглушки.
Близнецы 2.5 Про: Версия Google лучше, чем у Клода. Она позволяет добавлять продукты и запуски, но есть ошибки. Она работала, когда я впервые попробовал, но не работала, когда я записывал видео. Однако дизайн взаимодействия Gemini довольно сложный, с управлением запасами и ведением записей в одной таблице, что добавляет некоторые трудности.
Тест 2: Редактор пиксельной анимации
Далее следует тест на визуальные способности. Я попросил их создать редактор анимации пиксельной графики с использованием P5.js, поддерживающий режимы движения, регулирующий формы точек, размеры, скорости и другие условия.
Подсказка: создать полноэкранный интерактивный генератор пиксельной анимации на основе P5.js, отвечающий следующим техническим требованиям:
Основные характеристики
- Реализуйте полноэкранную пиксельную анимацию с помощью P5.js, при этом анимация будет охватывать всю область просмотра.
- Общая площадь пиксельной сетки должна быть как минимум в 10 раз больше видимой площади, чтобы обеспечить полное покрытие даже при самом маленьком шаге сетки.
- Предоставляет несколько режимов анимации: волна, пульсация, рябь, шум
- Поддержка нескольких вариантов формы точек: круг, квадрат, крест, треугольник, ромб и т. д.
- Все панели управления расположены в правой части страницы и могут быть свернуты вниз на мобильных устройствах.
Регулируемые параметры
- Плотность точек: контролируйте количество точек в строке/столбце.
- Размер фигуры: отрегулируйте размер точек.
- Скорость анимации: управление скоростью и амплитудой анимационного эффекта.
- Интервал сетки: отрегулируйте расстояние между точками.
Технические характеристики
- Используйте HTML5, TailwindCSS 3.0+ (представлено через CDN) и P5.js
- Реализовать полную функциональность переключения темного/светлого режима, используя системные настройки по умолчанию
- Код должен включать логику оптимизации производительности, отображая только точки в видимой области и вблизи краев.
- Анимации должны работать плавно, без задержек.
Адаптивный дизайн
- Страницы должны отлично отображаться на всех устройствах (мобильных, планшетных, настольных)
- Панели управления должны быть сворачиваемыми/разворачиваемыми в мобильном представлении.
- Оптимизируйте макет и размеры шрифта для разных размеров экрана
- Обеспечьте удобство использования сенсорных экранов на мобильных устройствах
Элементы интерфейса
- Выбор режима анимации (волна, пульсация, рябь, шум)
- Селектор форм (отображает различные формы со значками)
- Регулировка ползунков: плотность, размер, скорость, интервал
- Кнопка переключения темы
- Отображение информации о наложении матрицы и общего количества точек
Посмотрите на результаты. Честно говоря, я не ожидал, что другие модели покажут себя так плохо в этом тесте. За исключением Deepseek-R1, анимации других моделей вообще не работали.
Deepseek-R1-0528: Абсолютно безупречный. Каждая кнопка и ползунок функционируют нормально, а точки двигаются плавно. Он даже добавил данные точечной матрицы, и цвета остаются согласованными после переключения в ночной режим. Единственная незначительная проблема заключается в том, что выбранное состояние выбора цвета имеет небольшую проблему, но это незначительно по сравнению с катастрофической производительностью других моделей.
Клод Опус 4: Хорошие новости: в нем есть пиксельная графика. Плохие новости: он не двигается. Содержимое на правой стороне может работать нормально, но цветовая схема неверна после переключения в ночной режим.
Клод Сонет 4: Это катастрофа. Пиксель-арта нет, и даже состояние выбора кнопки отсутствует. Ползунки — просто точки, можно было бы использовать компоненты по умолчанию.
Близнецы 2.5 Про: Также сообщает об ошибке без пиксельной сетки. Содержимое на правой стороне может работать нормально, и переключение тем работает нормально, но компоненты по умолчанию немного уродливы.
Тест 3: Инструмент извлечения градиентного цвета изображения
Это инструмент, который я написал ранее. Там нет подробного описания логики, но больше описания стиля. Основная функция — извлечь пять наборов градиентных цветов из изображения.
Подсказка: Создайте HTML-страницу на основе следующего содержимого файла, поддержите извлечение пяти наборов градиентных цветов из загруженных изображений и разрешите пользователям напрямую копировать пять наборов шестнадцатеричных градиентных цветов. Необходимо реализовать функцию извлечения цвета.
- Используйте визуальный дизайн в стиле NetEase Cloud Music, белый фон с цветом, похожим на #FE1110, в качестве подсветки.
- Подчеркните крупные шрифты или цифры, чтобы выделить ключевые моменты. Включайте крупные визуальные элементы, чтобы подчеркнуть области фокусировки, создавая контраст с более мелкими элементами.
- Смешайте китайский и английский текст. Используйте жирные, большие китайские иероглифы и более мелкий английский текст в качестве акцентов.
- Используйте простые линейные графические элементы для визуализации данных или в качестве декоративных элементов.
- Используйте градиент прозрачности цветов подсветки, чтобы создать эффект в стиле хай-тек, но следите за тем, чтобы разные цвета подсветки не смешивались друг с другом.
- Имитация анимации официального сайта Apple с помощью прокрутки мыши, вызывающей анимацию
- Данные можно ссылать на компоненты онлайн-диаграмм, стили которых соответствуют теме.
- Используйте Framer Motion (через CDN)
- Используйте HTML5, TailwindCSS 3.0+ (через CDN) и необходимый JavaScript
- Используйте профессиональные библиотеки иконок, такие как Font Awesome или Material Icons (через CDN)
- Избегайте использования эмодзи в качестве основных значков.
- Кнопка-капсула в нижнем левом углу отображает имя автора в Twitter.
В этом случае Клод наконец-то проделал отличную работу. Детали и эстетика страницы Deepseek-R1-0528 впечатляют, но функциональность не реализована. Страницы Opus 4 и Sonnet 4 проще, но по крайней мере функциональны, в то время как Gemini вообще не функционален.
Deepseek-R1-0528: После повторного использования моей подсказки эстетика страницы Deepseek действительно не имеет себе равных. Он также добавил на страницу много SEO-дружественного контента, такого как сценарии применения и время обработки. Градиентно окрашенные карты отображения также очень подробны, но логика выбора цвета не реализована.
Клод Опус 4: На этот раз Клод наконец не разочаровал, завершив функциональность страницы, но содержимое страницы очень базовое, есть только место для загрузки изображений и результатов, а логика выбора цвета также плохая. Тем не менее, это хотя бы работает.
Клод Сонет 4: Sonnet 4 также дополнил функционал, и я даже думаю, что результаты Sonnet лучше, чем у Opus, хотя он все еще не такой богатый, как Deepseek.
Близнецы 2.5 Про: Это худший вариант. Не только не хватает деталей и эстетики страницы, но и функционал не реализован, и он вылетает при запуске.
Тест 4: Белый шум ежедневных цитат веб-сайта
Далее идет генератор ежедневной цитаты белого шума, который идеально подходит для плагина новой вкладки. Он поддерживает воспроизведение белого шума из Spotify, а веб-страница отображает
Подсказка: Пожалуйста, помогите мне создать простой и элегантный сайт с ежедневными котировками, отвечающий следующим требованиям:
Визуальный дизайн
- Фоновое изображение: Случайным образом выберите высококачественные ландшафтные изображения из следующих ссылок в качестве фонового изображения
- Ссылки на изображения: ХХХХ
- Обработка изображений: Добавьте черную маску 25% и легкое размытие по Гауссу, чтобы текст оставался четким и читаемым.
- Общий стиль: Минималистичный и современный, с пейзажными изображениями в качестве фона веб-страницы для усиления погружения
- Используйте anime.js (представлен через CDN: JsDelivr jsdelivr.com) для фреймворка анимации, HTML5, TailwindCSS 3.0+ (представлен через CDN) и необходимый JavaScript, а также используйте профессиональные библиотеки иконок, такие как Font Awesome или Material Icons (представлены через CDN).
Модуль отображения времени
- Вершина: Отображение формата месяца и дня (например, «29 мая»), более мелким шрифтом, по центру
- Второй ряд: Отображает формат «Неделя X · Лунный календарь X месяц X день» более мелким шрифтом
- Центр: Выделяет текущую дату крупным белым шрифтом по центру
Модуль отображения цитаты
- Содержание: Случайным образом отображает классические цитаты китайских и зарубежных философов и писателей.
- Макет: Цитаты центрированы, размер шрифта умеренный, межстрочный интервал удобный.
- Атрибуция: «Писатель, XXX» или «Философ, XXX» отображается в правом нижнем углу
- Библиотека цитат: Содержит цитаты на различные темы, такие как мотивация, жизненные идеи и мудрость.
Функция воспроизведения музыки
- Расположение: Нижний левый угол страницы, по умолчанию свернутый
- Содержание: Встроить плейлист Spotify с белым шумом
- Код:
Техническая реализация
- Адаптивный дизайн: Адаптировано для настольных компьютеров и мобильных устройств
- Выбор шрифта: Используйте элегантные китайские шрифты, представленные Google Fonts
- Цветовая схема: В основном используйте белый текст, чтобы обеспечить читаемость на любом фоне.
- Оптимизация загрузки: Отложенная загрузка изображений для повышения производительности страницы
Интерактивные функции
- Автоматическое обновление: Автоматически меняет фоновое изображение и цитату каждый день
- Ручное обновление: Предоставляет кнопку обновления, позволяющую пользователям вручную изменять содержимое.
Стиль копирайтинга
- Выбор цитаты: Предпочитаю короткие, позитивные и философские цитаты.
- Стиль языка: Кратко и убедительно, избегая чрезмерной длины.
- Тематическая классификация: Жизненные идеи, вдохновляющий рост, мудрые мысли, эмоциональное выражение и т. д.
Создайте, пожалуйста, полноценный веб-сайт HTML/CSS/JavaScript в соответствии с вышеуказанными требованиями, убедившись, что интерфейс эстетически приятен, функционален и обеспечивает удобство использования.
Этот тест предназначен исключительно для оценки понимания эстетики каждой моделью. Этот тип веб-страницы, ориентированной на отображение, в целом достижим.
Надо сказать, что Claude Opus 4 по-прежнему весьма авторитетен в этой области, с превосходным вниманием к деталям. Gemini 2.5 Pro тоже хорош, даже добавляет анимационные эффекты к переходам изображений. Deepseek и Sonnet 4 находятся на том же уровне.
Deepseek-R1-0528: Сначала я запустил Deepseek и подумал, что он уже довольно хорош. Первой проблемой общей эстетики была кнопка музыки в нижнем левом углу, которая была немного слишком плоской. Раздел цитат также имел проблемы — черную маску не следовало добавлять, и выравнивание текста было немного не тем. Однако он добавил эффект анимации для обновления.
Клод Опус 4: Эстетика Opus 4 действительно безупречна. Размер и интервал всех шрифтов очень удобны, а цитаты известных высказываний обработаны с прозрачностью как для текста цитаты, так и для кавычек. Даже проигрыватель Spotify был обернут в пользовательский интерфейс с анимацией развертывания/свертывания. Он идеален.
Клод Сонет 4: Эффект Sonnet 4 похож на проблему Deepseek. Кнопка воспроизведения музыки, размер текста, выравнивание и интервалы могут быть дополнительно оптимизированы.
Близнецы 2.5 Про: Эффект Gemini тоже хорош, но удаление тени текста сделало бы его лучше. Он также настроил пользовательский интерфейс Spotify player, и детали текста хороши. Эффект перехода заметен, с эффектом растяжения на изображении.
Тест 5: Генерация страницы приложения Sleep
Далее следует тест мобильного приложения. Пусть каждый из них создаст приложение для мониторинга сна. В подсказке будут указаны требования к техническому стеку и дизайну, а также потребуется создать несколько интерактивных страниц.
Подсказка: Требования к разработке приложения для мониторинга сна
Обзор проекта
Помогите мне создать полноценное приложение для мониторинга сна с четырьмя основными функциональными страницами. Интерфейс должен быть эстетически приятным и профессиональным.
Технические требования к стеку
Фронтенд-технологии
– HTML5 – Структура страницы
– TailwindCSS v3.0+ – Структура стиля (введена через CDN)
– JavaScript – Необходимая логика взаимодействия
– Аниме.js v4.0.2 – Библиотека анимационных эффектов
- СДН:
https://cdn.jsdelivr.net/npm/animejs@4.0.2/+esm
Иконки и диаграммы
- Библиотека иконок: Font Awesome или Material Icons (CDN)
- Компоненты диаграммы: компоненты онлайн-диаграммы, стили должны соответствовать теме.
- Визуализация данных: поддерживает отображение данных сна в виде диаграммы.
Требования к проектированию
Адаптивный дизайн
- Полностью адаптивный макет
- Дизайн, ориентированный на мобильные устройства
- Хорошее отображение как на настольных компьютерах, так и на мобильных устройствах
Эффекты взаимодействия
- Взаимодействие с кнопкой: немного увеличенный эффект при наведении
Взаимодействие с формой: отображение градиентной границы, когда поле ввода находится в фокусе
Взаимодействие с картой: затемнение тени при наведении
Эффекты анимации: используйте Anime.js для достижения плавной анимации страниц.
Требования к функциональной странице
Пожалуйста, создайте все страницы, необходимые для приложения для мониторинга сна, включая, помимо прочего:
- Домашняя страница/панель инструментов
- Страница записи сна
- Страница анализа данных
- Страница настроек
- Другие связанные функциональные страницы
Требования к выходному коду
- Каждая страница — это независимый HTML-файл.
- Понятная структура кода с полными комментариями
- Убедитесь, что все ссылки CDN доступны
- Предоставьте полный, работоспособный код
С точки зрения мобильной логики и интерфейса Cluade Opus 4 снова продемонстрировал свою мощь, завершив несколько страниц с хорошей логикой. Другие модели сгенерировали только одну страницу, но Deepseek R1 0528 внезапно попал в точку с точки зрения эстетики, с прекрасным стилем. Хотя он сгенерировал только одну страницу, она была очень полной.
Deepseek-R1-0528: Сгенерирована только одна страница, но общая эстетика хороша. Детали карточек и обработка иконок сделаны хорошо, а вся страница завершена и длинна. Кроме того, для навигации был реализован адаптивный дизайн, что привело к совершенно разным макетам на мобильных и настольных устройствах.
Клод Опус 4: Действительно мощный, только Opus4 полностью сгенерировал все страницы, но эстетический дизайн на этот раз не очень хорош, использует логику веб-страницы и имеет слишком маленькие значки навигации.
Клод Сонет 4: Сгенерирована только одна страница и сообщены ошибки, с плохим эстетическим дизайном, просто выполнена задача.
Близнецы 2.5 Про: Google всегда делает все по-другому. Он генерирует каждую страницу индивидуально, предоставляя четыре файла, которые не могут взаимодействовать друг с другом. Кроме того, все страницы сообщали об ошибках, каждая из которых содержала только навигацию и никакого контента, что весьма разочаровывает.
Тест 6: Сложная функциональность — Тетрис
Наконец, я закончил с небольшим игровым тестом. Я разработал относительно сложную игру Тетрис со специальными блоками, переключением тем, прогнозированием выпадения блоков, хранением блоков и многим другим — настоящий экстремальный вызов.
Подсказка: Пожалуйста, помогите мне создать полностью функциональную, визуально привлекательную веб-игру «Тетрис» со следующими требованиями:
Основные особенности игры
- Полный механизм Тетриса: 7 стандартных блоков (I, O, T, S, Z, J, L)
- Плавное управление: движение влево и вправо, вращение, быстрое падение, мгновенное падение
- Умная система устранения: поддерживает удаление от 1 до 4 строк за раз со специальными анимационными эффектами
- Прогрессивная система сложности: автоматически увеличивает скорость и уровень падения в зависимости от количества удаленных рядов
Расширенные возможности
- Система предварительного просмотра: отображает следующие и следующие-следующие блоки
- Функция удержания: Удерживайте клавишу Hold, чтобы временно сохранить текущий блок. Можно использовать только один раз за раунд
- Призрачные блоки: Отображает положение приземления блоков в полупрозрачном виде
- Комбинированная система: Непрерывная очистка дает дополнительные очки и визуальные эффекты.
- Специальные навыки:
- Бомба-блок (очищает окружающую территорию)
- Лазерная очистка (очищает весь ряд)
- Временная пауза (блоки перестают падать на 3 секунды)
Требования к визуальному дизайну
- Современный пользовательский интерфейс:
- Градиентный фон или эффекты частиц
- Игровая панель со стеклянным эффектом
- Плавные анимационные переходы
- Адаптивный дизайн для разных экранов
- Богатые визуальные эффекты:
- Плавная анимация падения и вращения блоков
- Эффект взрыва или вспышки при устранении
- Эффект дрожания экрана при достижении комбинации
- Анимация празднования при повышении уровня
- Тематическая система: Не менее 3 различных визуальных тем для переключения
Система звуковых эффектов
- Полная звуковая обратная связь: движение, вращение, приземление, выбывание, конец игры и т. д.
- Фоновая музыка: циклическая игра BGM
- Регулировка громкости: независимо регулируемые звуковые эффекты и громкость фоновой музыки
Режимы игры
- Классический режим: традиционный игровой процесс Тетриса
- Режим ограниченного времени: достичь наивысшего балла за указанный срок
- Режим вызова: заранее установленные препятствия для увеличения сложности
- Режим дзен: никакого цейтнота, чистое наслаждение игрой
Возможности статистики данных
- Статистика в реальном времени: текущий счет, уровень, количество очищенных линий, время игры
- История: наивысший балл, лучший уровень, общее время игры
- Система достижений: разблокируйте различные игровые достижения
- Локальное хранилище: сохранение игровых записей и настроек
Технические требования
- Использует чистый HTML5/CSS3/JavaScript, внешние фреймворки не требуются
- Четкая структура кода: объектно-ориентированное программирование, модульная конструкция
- Оптимизация производительности: плавная анимация 60 кадров в секунду, без задержек
- Совместимость: поддерживает основные современные браузеры
- Адаптивный дизайн: Совместимо с ПК и мобильными устройствами
Пользовательский опыт
- Интуитивно понятные инструкции: Встроенное руководство и подсказки по кнопкам
- Функция паузы/возобновления: Приостановите игру в любой момент
- Меню настроек: Настройте сложность игры, звуковые эффекты, визуальные эффекты и т. д.
- Сохранение состояния игры: Поддерживает сохранение и возобновление игры
Требования к качеству кода
- Подробные комментарии: Каждая функция и важный сегмент кода должны иметь описание
- Обработка ошибок: Комплексный механизм захвата и обработки исключений
- Элегантный код: Следуйте лучшим практикам, легко понимаете и поддерживаете
- Расширяемость: Легко добавлять новые функции в будущем
Пожалуйста, предоставьте полные файлы HTML, содержащие весь код CSS и JavaScript, чтобы гарантировать, что их можно будет запустить напрямую в браузере. Код должен демонстрировать профессиональные навыки программирования и глубокое понимание разработки игр.
В мини-игре у Клода что-то происходит. И Opus, и Sonnet сгенерировали соответствующие блоки Тетриса по мере необходимости, особенно логику для специальных блоков. Deepseek обработал тему, которую упустил Клод, но пропустил специальные блоки, в результате чего Gemini 2.5 Pro сгенерировал неиграбельные блоки.
Deepseek-R1-0528: Задача была выполнена очень хорошо и в соответствии со спецификациями, но специальный дизайн блока был пропущен и не реализован вообще. Это может быть связано с проблемами со следованием подсказкам. Вся веб-страница напоминает игровой интерфейс, все кнопки выглядят как стандартные компоненты.
Клод Опус 4: Завершил логику для специальных блоков и другую логику без проблем, но проигнорировал запрос на переключение темы, который он не реализовал. По сравнению с проблемами DeepSeek, это меньшая проблема, но интерфейс жестко закодирован без адаптивной логики, поэтому пропорции немного нарушены, из-за чего некоторые кнопки не нажимаются.
Клод Сонет 4: Похоже на Opus, но я думаю, что Sonnet 4 лучше, чем Opus. Адаптация страницы тоже хороша. Кажется, Sonnet победил, так как выполнил все требуемые функции.
Близнецы 2.5 Про: Gemini постоянно борется со сложной логикой. На этот раз он был совершенно бесполезен, потому что в размещении кирпичей был баг, из-за которого невозможно было предсказать, где они приземлятся. Это худшее.
Думаю, теперь вы, как и я, поражены производительностью DeepSeek-R1.
Трудно поверить, что это всего лишь небольшое обновление модели. Давайте сравним цены этих моделей с DeepSeek R1 0528.
Opus 4 стоит в 30 раз дороже, и это по ценам Openrouter — официальная цена была бы еще более ошеломляющей.
модель | Длина контекста | Входная цена (токены $/M) | Выходная цена (токены $/M) | цена изображения (токены $/K) |
1ТП5Т 0528 | 160 тыс. | 0.50 | 2.18 | – |
Gemini 2.5 pro превью | 1000к | 1.25 | 10 | 5.16 |
Клод Сонет 4 | 200 тыс. | 3.00 | 15 | 4.80 |
Клод Опус 4 | 200 тыс. | 15.00 | 75 | 24.00 |
Как человек, который ежедневно имеет дело с новостями об ИИ, я был свидетелем бесчисленных «прорывов», которые в конечном итоге оказывались «разочаровывающими». Но в этот раз все по-другому. DeepSeek-R1 дал мне настоящую надежду.
Разница в цене в 30 раз при практически эквивалентной производительности.
Нам больше не нужно платить непомерные цены, чтобы использовать лучшие модели программирования ИИ, и нам не нужно идти на болезненные компромиссы между стоимостью и качеством. Что еще более вдохновляет, так это то, что это наша собственная модель.
Это предложение было написано ИИ, и я думаю, что оно великолепно: Настоящая революция часто начинается тогда, когда простые люди могут дотянуться до звезд.