DeepSeek R1 спечели шампионата в теста за творческо писане на кратки истории, като успешно надмина предишния доминиращ играч Claude 3.5 Sonnet!

Сравнителен тест

Сравнителният тест, разработен от изследователя Лех Мазур, не е обикновено състезание по писане.

Всеки модел с изкуствен интелект трябваше да завърши 500 кратки истории, като всяка история трябваше умело да включва 10 произволно зададени елемента. Това беше предизвикателна задача за писане с отворен край за ИИ, която не само изискваше завършен сюжет, но и гарантираше, че всички зададени елементи са естествено интегрирани

Метод на оценяване

В този сравнителен тест се използва уникална система за оценяване: шест топ езикови модела действат като съдии, които оценяват различни аспекти на историята. С други думи, лидерите в областта на изкуствения интелект оценяват самия изкуствен интелект, което като цяло осигурява сравнително справедлив и систематичен стандарт за оценка.

Съдържание на теста

Горната графика показва корелационния анализ на резултатите от сравнителния тест по творческо писане. DeepSeek има коефициент на корелация над 0,93 с други основни модели (Claude, GPT-4o, Gemini и Grok), което показва, че той има силно съгласувани критерии за преценка с други топ модели при оценяване на качеството на творческото писане, което косвено потвърждава неговата надеждност в този тест.

Графиката по-горе показва резултатите от сравнителния тест по творческо писане на кратки разкази. Всеки модел на изкуствен интелект трябваше да напише 500 разказа, всеки от които да съдържа 10 определени случайни елемента. Точките в диаграмата показват разпределението на резултатите на всеки участващ модел на ИИ за различните модели за оценяване (представени с различни цветове).

В теста, DeepSeek (тъмносини точки) се представя добре, като повечето от точките му са концентрирани в горната половина на графиката и са сравнително концентрирани, което показва стабилно и високо ниво на способност за творческо писане.

Тази изключителна производителност му позволи успешно да надмине предишния шампион - Claude 3.5 Sonnet, и да стане новият лидер в сравнителните тестове.

В тази диаграма всеки ред представлява модел на изкуствен интелект, а всяка колона - измерение за оценка (например характеристика, съгласуваност на сюжета и т.н.). DeepSeek се намира в горната част на средата на диаграмата, с общ оранжево-жълт оттенък, което показва, че е постигнал отлични резултати в повечето измерения на оценяване. По-специално, той постигна високи резултати от близо 8 точки в ключовите измерения изпълнение (Q6), характеризиране (TA) и развитие на сюжета (TJ). Въпреки че може да не е най-ярко жълтият в отделните измерения, той няма очевидни слабости.

Както можете да видите на графиката, оценките на историята на DeepSeek са разпределени предимно между 7 и 9 точки, като разпределението е сравнително концентрирано. Интересно е, че линията на тенденцията е почти хоризонтална, което показва, че качеството на историята на DeepSeek не е тясно свързано с дължината на историята. С други думи, независимо дали пише дълъг или кратък разказ, DeepSeek може да поддържа постоянно високо качество на продукцията. Това показва, че DeepSeek се фокусира повече върху качеството, отколкото върху количеството, когато създава, и може да поддържа отлично представяне в разкази с различна продължителност.

Защо Победа на DeepSeek R1?

Съдейки по резултатите от тестовете, DeepSeek R1 се представи невероятно:

  • Изчерпателни възможности за интегриране на истории: R1 прояви невероятна гъвкавост и творчество при работата с различни комбинации от елементи на историята.
  • Стабилно качество на продукцията: Ако се съди по графиката на разпределение на резултатите, R1 има не само висок среден резултат, но и стабилно представяне с по-малко колебания.
  • Изключително творческо представяне: В този сравнителен тест историите, създадени от R1, бяха класирани сред първите три в общото класиране, което доказва изключителните му способности в творческото писане.

Как се представиха останалите участници?

В допълнение към вълнуващия сблъсък между DeepSeek R1 и Claude 3.5 Sonnet си струва да се отбележи и представянето на други модели:

  • Серията Gemini се представи добре
  • Серията Llama 3.x има известни затруднения в този тест
  • o3-mini не се представи добре, заемайки 22-ро място

Накрая

Пробивът на DeepSeek R1 в този тест ни показа безкрайните възможности на изкуствения интелект в областта на творчеството. Въпреки че създаването на ИИ все още е в процес на непрекъснато усъвършенстване, тези резултати вече ни изпълват с очаквания за бъдещето.

Тези, които искат да научат повече за подробностите на теста, могат да посетят GitHub на Лех Мазур за пълните данни и примери за най-добрите истории. Нека заедно да очакваме още пробиви в областта на творческото писане с изкуствен интелект!

Подобни публикации

Вашият коментар

Вашият имейл адрес няма да бъде публикуван. Задължителните полета са отбелязани с *