DeepSeek R1 е на първо място в теста по творческо писане, а o3 mini е дори по-зле от o1 mini!

DeepSeek R1 спечели шампионата в теста за творческо писане на кратки истории, като успешно надмина предишния доминиращ играч Claude 3.5 Sonnet!

Съдържание

Сравнителен тест

Сравнителният тест, разработен от изследователя Лех Мазур, не е обикновено състезание по писане.

Всеки модел с изкуствен интелект трябваше да завърши 500 кратки истории, като всяка история трябваше умело да включва 10 произволно зададени елемента. Това беше предизвикателна задача за писане с отворен край за ИИ, която не само изискваше завършен сюжет, но и гарантираше, че всички зададени елементи са естествено интегрирани

Метод на оценяване

В този сравнителен тест се използва уникална система за оценяване: шест топ езикови модела действат като съдии, които оценяват различни аспекти на историята. С други думи, лидерите в областта на изкуствения интелект оценяват самия изкуствен интелект, което като цяло осигурява сравнително справедлив и систематичен стандарт за оценка.

Съдържание на теста

Горната графика показва корелационния анализ на резултатите от сравнителния тест по творческо писане. DeepSeek има коефициент на корелация над 0,93 с други основни модели (Claude, GPT-4o, Gemini и Grok), което показва, че той има силно съгласувани критерии за преценка с други топ модели при оценяване на качеството на творческото писане, което косвено потвърждава неговата надеждност в този тест.

Графиката по-горе показва резултатите от сравнителния тест по творческо писане на кратки разкази. Всеки модел на изкуствен интелект трябваше да напише 500 разказа, всеки от които да съдържа 10 определени случайни елемента. Точките в диаграмата показват разпределението на резултатите на всеки участващ модел на ИИ за различните модели за оценяване (представени с различни цветове).

В теста, Deep S eek (тъмносини точки) се представя добре, като повечето от точките му са концентрирани в горната половина на графиката и са сравнително концентрирани, което показва стабилно и високо ниво на способност за творческо писане.

Тази изключителна производителност му позволи успешно да надмине предишния шампион - Claude 3.5 Sonnet, и да стане новият лидер в сравнителните тестове.

В тази диаграма всеки ред представлява модел на изкуствен интелект, а всяка колона - измерение за оценка (например характеристика, съгласуваност на сюжета и т.н.). DeepSeek се намира в горната част на средата на диаграмата, с общ оранжево-жълт оттенък, което показва, че е постигнал отлични резултати в повечето измерения на оценяване. По-специално, той постигна високи резултати от близо 8 точки в ключовите измерения изпълнение (Q6), характеризиране (TA) и развитие на сюжета (TJ). Въпреки че може да не е най-ярко жълтият в отделните измерения, той няма очевидни слабости.

Както можете да видите на графиката, оценките на историята на DeepSeek са разпределени предимно между 7 и 9 точки, като разпределението е сравнително концентрирано. Интересно е, че линията на тенденцията е почти хоризонтална, което показва, че качеството на историята на DeepSeek не е тясно свързано с дължината на историята. С други думи, независимо дали пише дълъг или кратък разказ, DeepSeek може да поддържа постоянно високо качество на продукцията. Това показва, че DeepSeek се фокусира повече върху качеството, отколкото върху количеството, когато създава, и може да поддържа отлично представяне в разкази с различна продължителност.

Защо Победа на DeepSeek R1?

Съдейки по резултатите от тестовете, DeepSeek R1 се представи невероятно:

Изчерпателни възможности за интегриране на истории: R1 прояви невероятна гъвкавост и творчество при работата с различни комбинации от елементи на историята.
Стабилно качество на продукцията: Ако се съди по графиката на разпределение на резултатите, R1 има не само висок среден резултат, но и стабилно представяне с по-малко колебания.
Изключително творческо представяне: В този сравнителен тест историите, създадени от R1, бяха класирани сред първите три в общото класиране, което доказва изключителните му способности в творческото писане.

Как се представиха останалите участници?

В допълнение към вълнуващия сблъсък между DeepSeek R1 и Claude 3.5 Sonnet си струва да се отбележи и представянето на други модели:

Серията Gemini се представи добре
Серията Llama 3.x има известни затруднения в този тест
o3-mini не се представи добре, заемайки 22-ро място

Накрая

Пробивът на DeepSeek R1 в този тест ни показа безкрайните възможности на изкуствения интелект в областта на творчеството. Въпреки че създаването на ИИ все още е в процес на непрекъснато усъвършенстване, тези резултати вече ни изпълват с очаквания за бъдещето.

Тези, които искат да научат повече за подробностите на теста, могат да посетят GitHub на Лех Мазур за пълните данни и примери за най-добрите истории. Нека заедно да очакваме още пробиви в областта на творческото писане с изкуствен интелект!

Подобни публикации

Без категория

Първо стартиране! SiliconFlow X Huawei Cloud съвместно стартират услуги за изводи DeepSeek R1 и V3, базирани на Ascend Cloud!

Отzddeepseeker февруари 1, 2025 г.февруари 1, 2025 г.

DeepSeek-R1 и DeepSeek-V3 предизвикаха световна сензация след пускането им на пазара с отворен код. Те са подарък от екипа на DeepSeek за цялото човечество и ние искрено се радваме на техния успех. След дни на упорита работа от страна на екипите на Silicon Mobility и Huawei Cloud, днес подаряваме на китайските потребители и китайски...

Без категория

Paper-DeepSeek-R1: Стимулиране на способността за разсъждаване в LLM чрез обучение с подсилване

Отdeepseeker януари 29, 2025януари 29, 2025

Резюме Този документ представя първото поколение модели за разсъждение на DeepSeek: DeepSeek-R1-Zero и DeepSeek-R1. DeepSeek-R1-Zero, обучен чрез широкомащабно усилено обучение (RL) без контролирана фина настройка (SFT), демонстрира забележителни възможности за разсъждение. Чрез RL той естествено развива мощно поведение на разсъждаване. Въпреки това той е изправен пред предизвикателства като слаба четимост и смесване на езици. За да се решат тези проблеми и да се подобри ефективността на разсъжденията, беше разработен DeepSeek-R1,...

Без категория

DeepSeek-R1-0528 Актуализация: По-задълбочено мислене, по-силно разсъждение

Отzddeepseeker 29 май 2025 г.29 май 2025 г.

Моделът DeepSeek R1 е претърпял малка актуализация, като текущата версия е DeepSeek-R1-0528. Когато влезете в уеб страницата или приложението на DeepSeek, активирайте функцията „Задълбочено мислене“ в диалоговия интерфейс, за да изпробвате най-новата версия. Теглата на модела DeepSeek-R1-0528 са качени в HuggingFace. През последните четири месеца DeepSeek-R1 е претърпял…

Без категория

Сблъсъкът на четирите най-добри модела! Ревю показва колко мощен е Deepseek R1

Отzddeepseeker 1 юни 2025 г.1 юни 2025 г.

През последните няколко дни Deepseek-R1 0528 беше официално пуснат в отворен код. В LiveCodeBench производителността му е почти наравно с o3 (високо) на OpenAI; в многоезичния бенчмарк тест на Aider, той се справя добре с Claude Opus. Когато беше пуснат на официалния уебсайт, бързо тествахме възможностите му от предния край и установихме, че те са изключително...

Без категория

Qwen2.5-max срещу DeepSeek R1: Задълбочено сравнение на моделите: пълен анализ на сценариите на приложение

Отzddeepseeker 14 февруари 2025 г14 февруари 2025 г

Въведение Днес големите езикови модели (LLM) играят решаваща роля. В началото на 2025 г., когато конкуренцията за AI се засили, Alibaba пусна новия модел Qwen2.5-max AI, а DeepSeek, компания от Ханджоу, Китай, пусна модела R1, който представлява върха на технологията LLM. Deepseek R1 е AI модел с отворен код, който привлече...

Без категория

Той е близо до DeepSeek-R1-32B и смазва s1 на Fei-Fei Li! UC Berkeley и други нови SOTA модели с отворен код

Отzddeepseeker 14 февруари 2025 г14 февруари 2025 г

Моделът за извод 32B използва само 1/8 от данните и е обвързан с DeepSeek-R1 със същия размер! Току-що институции като Станфорд, Калифорнийския университет в Бъркли и Университета на Вашингтон съвместно пуснаха модел за изводи на ниво SOTA, OpenThinker-32B, и също така отвориха до 114k данни за обучение. Начална страница на OpenThinker Project: OpenThinker Hugging Face:…

Сравнителен тест

Метод на оценяване

Съдържание на теста

Защо Победа на DeepSeek R1?

Как се представиха останалите участници?

Накрая

Подобни публикации

Вашият коментар Отказ