
DeepSeek R1 завоевал первенство в бенчмарк-тесте Creative Short Story Writing, успешно обойдя предыдущего доминирующего игрока Claude 3.5 Sonnet!
Контрольный тест
Контрольный тест, разработанный исследователем Лехом Мазуром, - это не обычный конкурс письменных работ.
Каждая модель ИИ должна была написать 500 коротких историй, в каждую из которых необходимо было ловко вписать 10 случайно заданных элементов. Это было сложное задание для ИИ, которое не только требовало создания полноценной сюжетной линии, но и обеспечивало естественную интеграцию всех назначенных элементов.
Метод судейства
В этом эталонном тесте используется уникальная система оценки: шесть лучших языковых моделей выступают в роли судей, оценивая различные аспекты рассказа. Другими словами, лидеры индустрии ИИ оценивают сам ИИ, что в целом обеспечивает относительно справедливый и систематический стандарт оценки.
Содержание теста

На приведенной выше диаграмме показан корреляционный анализ результатов контрольного теста по креативному письму. DeepSeek имеет коэффициент корреляции более 0,93 с другими основными моделями (Claude, GPT-4o, Gemini и Grok), что говорит о высокой согласованности критериев оценки качества творческого письма с другими ведущими моделями, что косвенно подтверждает его надежность в данном тесте.

На диаграмме выше показаны результаты эталонного теста на написание творческих рассказов. Каждая модель ИИ должна была написать 500 рассказов, каждый из которых должен был содержать 10 заданных случайных элементов. Точки на графике показывают распределение баллов каждой участвующей модели ИИ для разных моделей оценки (представлены разными цветами).
В тесте, ГлубокийSeek (темно-синие баллы) показал хорошие результаты, большинство его баллов сосредоточено в верхней половине графика и относительно сконцентрировано, что свидетельствует о стабильном и высоком уровне творческих способностей к письму.
Эта выдающаяся производительность позволила ему успешно превзойти предыдущего чемпиона, Claude 3.5 Sonnet, и стать новым лидером бенчмарк-тестов.

На этой диаграмме каждая строка представляет модель ИИ, а каждый столбец - измерение оценки (например, характеристика, связность сюжета и т. д.). Модель DeepSeek расположена в верхней части диаграммы и имеет оранжево-желтый оттенок, что говорит о том, что она достигла отличных результатов в большинстве измерений оценки. В частности, он набрал почти 8 баллов в таких ключевых измерениях, как исполнение (Q6), характеристика (TA) и развитие сюжета (TJ). Хотя по отдельным параметрам он, возможно, не самый ярко-желтый, у него нет явных слабых мест.

Как видно на графике, оценки историй DeepSeek в основном распределены между 7 и 9 баллами, причем распределение относительно концентрированное. Интересно, что линия тренда почти горизонтальна, что говорит о том, что качество рассказов DeepSeek не тесно связано с длиной рассказа. Другими словами, независимо от того, пишет ли он длинный или короткий рассказ, DeepSeek может поддерживать стабильно высокое качество. Это говорит о том, что DeepSeek уделяет больше внимания качеству, чем количеству при создании, и может поддерживать отличную производительность в историях разной длины.
Почему Победа DeepSeek R1?
Судя по результатам тестов, DeepSeek R1 показал потрясающие результаты:
- Широкие возможности интеграции историй: R1 проявил удивительную гибкость и креативность при работе с различными комбинациями сюжетных элементов.
- Стабильное качество продукции: Судя по графику распределения баллов, у R1 не только высокий средний балл, но и стабильная производительность с меньшими колебаниями.
- Выдающиеся творческие достижения: В этом контрольном тесте рассказы, созданные R1, вошли в тройку лучших, что доказывает его выдающиеся способности к творческому письму.
Как выступили другие участники конкурса?
Помимо захватывающего противостояния между DeepSeek R1 и Claude 3.5 Sonnet, стоит отметить и производительность других моделей:
- Серия Gemini показала хорошие результаты
- В этом тесте серия Llama 3.x оказалась немного сложнее.
- Модель o3-mini показала себя не лучшим образом, заняв 22-е место.

Наконец-то
Прорыв DeepSeek R1 в этом тесте показал нам безграничные возможности ИИ в области творчества. Хотя создание ИИ все еще находится на пути постоянного совершенствования, такие результаты уже заставляют нас с нетерпением ждать будущего.
Те, кто хочет узнать больше о деталях теста, могут посетить GitHub Леха Мазура, где представлены полные данные и примеры лучших историй. Давайте вместе ждать новых прорывов в области творческого письма на основе ИИ!