DeepSeek R1 занял первое место в тесте на креативное письмо, а o3 mini оказался еще хуже, чем o1 mini!

DeepSeek R1 завоевал первенство в бенчмарк-тесте Creative Short Story Writing, успешно обойдя предыдущего доминирующего игрока Claude 3.5 Sonnet!

Оглавление

Контрольный тест

Контрольный тест, разработанный исследователем Лехом Мазуром, - это не обычный конкурс письменных работ.

Каждая модель ИИ должна была написать 500 коротких историй, в каждую из которых необходимо было ловко вписать 10 случайно заданных элементов. Это было сложное задание для ИИ, которое не только требовало создания полноценной сюжетной линии, но и обеспечивало естественную интеграцию всех назначенных элементов.

Метод судейства

В этом эталонном тесте используется уникальная система оценки: шесть лучших языковых моделей выступают в роли судей, оценивая различные аспекты рассказа. Другими словами, лидеры индустрии ИИ оценивают сам ИИ, что в целом обеспечивает относительно справедливый и систематический стандарт оценки.

Содержание теста

На приведенной выше диаграмме показан корреляционный анализ результатов контрольного теста по креативному письму. DeepSeek имеет коэффициент корреляции более 0,93 с другими основными моделями (Claude, GPT-4o, Gemini и Grok), что говорит о высокой согласованности критериев оценки качества творческого письма с другими ведущими моделями, что косвенно подтверждает его надежность в данном тесте.

На диаграмме выше показаны результаты эталонного теста на написание творческих рассказов. Каждая модель ИИ должна была написать 500 рассказов, каждый из которых должен был содержать 10 заданных случайных элементов. Точки на графике показывают распределение баллов каждой участвующей модели ИИ для разных моделей оценки (представлены разными цветами).

В тесте, Глубокий S eek (темно-синие баллы) показал хорошие результаты, большинство его баллов сосредоточено в верхней половине графика и относительно сконцентрировано, что свидетельствует о стабильном и высоком уровне творческих способностей к письму.

Эта выдающаяся производительность позволила ему успешно превзойти предыдущего чемпиона, Claude 3.5 Sonnet, и стать новым лидером бенчмарк-тестов.

На этой диаграмме каждая строка представляет модель ИИ, а каждый столбец - измерение оценки (например, характеристика, связность сюжета и т. д.). Модель DeepSeek расположена в верхней части диаграммы и имеет оранжево-желтый оттенок, что говорит о том, что она достигла отличных результатов в большинстве измерений оценки. В частности, он набрал почти 8 баллов в таких ключевых измерениях, как исполнение (Q6), характеристика (TA) и развитие сюжета (TJ). Хотя по отдельным параметрам он, возможно, не самый ярко-желтый, у него нет явных слабых мест.

Как видно на графике, оценки историй DeepSeek в основном распределены между 7 и 9 баллами, причем распределение относительно концентрированное. Интересно, что линия тренда почти горизонтальна, что говорит о том, что качество рассказов DeepSeek не тесно связано с длиной рассказа. Другими словами, независимо от того, пишет ли он длинный или короткий рассказ, DeepSeek может поддерживать стабильно высокое качество. Это говорит о том, что DeepSeek уделяет больше внимания качеству, чем количеству при создании, и может поддерживать отличную производительность в историях разной длины.

Почему Победа DeepSeek R1?

Судя по результатам тестов, DeepSeek R1 показал потрясающие результаты:

Широкие возможности интеграции историй: R1 проявил удивительную гибкость и креативность при работе с различными комбинациями сюжетных элементов.
Стабильное качество продукции: Судя по графику распределения баллов, у R1 не только высокий средний балл, но и стабильная производительность с меньшими колебаниями.
Выдающиеся творческие достижения: В этом контрольном тесте рассказы, созданные R1, вошли в тройку лучших, что доказывает его выдающиеся способности к творческому письму.

Как выступили другие участники конкурса?

Помимо захватывающего противостояния между DeepSeek R1 и Claude 3.5 Sonnet, стоит отметить и производительность других моделей:

Серия Gemini показала хорошие результаты
В этом тесте серия Llama 3.x оказалась немного сложнее.
Модель o3-mini показала себя не лучшим образом, заняв 22-е место.

Наконец-то

Прорыв DeepSeek R1 в этом тесте показал нам безграничные возможности ИИ в области творчества. Хотя создание ИИ все еще находится на пути постоянного совершенствования, такие результаты уже заставляют нас с нетерпением ждать будущего.

Те, кто хочет узнать больше о деталях теста, могут посетить GitHub Леха Мазура, где представлены полные данные и примеры лучших историй. Давайте вместе ждать новых прорывов в области творческого письма на основе ИИ!

DeepSeek TOP17 лучших альтернатив: комплексный анализ (2025)

Авторdeepseeker 6 февраля 2025 г.6 февраля 2025 г.

Введение В быстро развивающемся ландшафте искусственного интеллекта DeepSeek стал мощной языковой моделью. Этот всесторонний анализ исследует 17 лучших альтернатив DeepSeek, изучая их уникальные особенности, возможности и варианты использования. Наше исследование сосредоточено как на международных, так и на китайских платформах, которые предлагают интеграцию DeepSeek или аналогичные возможности. Анализ лучших альтернатив 1….

Без категории

Недорогая модель Google серии Gemini 2.0 наступает: борьба за экономическую эффективность в крупных моделях усиливается

Авторzddeepseeker 8 февраля 2025 г.8 февраля 2025 г.

Высокая стоимость использования больших моделей ИИ является основной причиной, по которой многие приложения ИИ до сих пор не внедрены и не продвигаются. Выбор экстремальной производительности означает огромные затраты вычислительной мощности, что приводит к высоким расходам на использование, которые обычные пользователи не могут принять. Конкуренция за большие модели ИИ — это как война без дыма. После…

Без категории

Le Chat возглавляет рейтинги, имея инвестиции в сто миллиардов долларов. Является ли он третьей силой ИИ после США и Китая?

Авторzddeepseeker 11 февраля 2025 г.11 февраля 2025 г.

9 февраля президент Франции Эммануэль Макрон объявил, что Франция вложит 109 миллиардов евро (113 миллиардов долларов США) в сферу ИИ в ближайшие несколько лет. Эти инвестиции пойдут на строительство парка ИИ во Франции, улучшение инфраструктуры и инвестирование в местные стартапы в области ИИ. Между тем, французский стартап Mistral…

Без категории

В кругу ИИ DeepSeek R1 уверенно превзошел o1 и Claude в физических тестах, и мы вступили в золотой век RL.

Авторzddeepseeker 1 февраля 2025 года1 февраля 2025 года

Никто из нас не ожидал, что именно так начнется 2025 год в сфере ИИ. DeepSeek R1 - это действительно удивительно! В последнее время "таинственная восточная сила" DeepSeek "жестко контролирует" Кремниевую долину. Я попросил R1 подробно объяснить теорему Пифагора. Все это было сделано искусственным интеллектом менее чем за 30 секунд без каких-либо...

Без категории

Paper-DeepSeek-R1: Стимулирование способности к рассуждению в LLM с помощью обучения с подкреплением

Авторdeepseeker 29 января 2025 г.29 января 2025 г.

Аннотация В данной статье представлены модели рассуждений DeepSeek первого поколения: DeepSeek-R1-Zero и DeepSeek-R1. DeepSeek-R1-Zero, обученная с помощью крупномасштабного обучения с подкреплением (RL) без контролируемой тонкой настройки (SFT), демонстрирует замечательные способности к рассуждениям. Благодаря RL он естественным образом развивает мощное поведение рассуждения. Однако он сталкивается с такими проблемами, как плохая читаемость и смешение языков. Чтобы решить эти проблемы и повысить эффективность рассуждений, был разработан DeepSeek-R1,...

Без категории

Альтман: Мы ошибались насчет открытого ИИ! DeepSeek сделал OpenAI менее выгодным, а следующим будет GPT-5

Авторzddeepseeker 1 февраля 2025 года1 февраля 2025 года

o3-mini прибыл поздно вечером, и OpenAI наконец-то раскрыл свой последний козырь. В ходе Reddit AMA Q&A Альтман глубокомысленно признался, что встал не на ту сторону открытого ИИ. Он сказал, что внутренняя стратегия открытого кода рассматривается, и модель будет продолжать развиваться, но...

Контрольный тест

Метод судейства

Содержание теста

Почему Победа DeepSeek R1?

Как выступили другие участники конкурса?

Наконец-то

Похожие записи

Добавить комментарий Отменить ответ