DeepSeek R1 беше прв на тестот за креативно пишување, а o3 mini беше уште полош од o1 mini!

DeepSeek R1 го освои шампионатот во репер тестот за креативно пишување раскази, со што успешно го надмина претходниот доминантен играч Клод 3.5 Сонет!

Содржина

Репер тест

Репер тестот дизајниран од истражувачот Лех Мазур не е ваш просечен натпревар за пишување.

Секој модел на вештачка интелигенција требаше да заврши 500 кратки приказни, а секоја приказна мораше паметно да вклучи 10 случајно доделени елементи. Ова беше предизвикувачка отворена задача за пишување за вештачката интелигенција, која не само што бараше целосна приказна, туку и гарантираше дека сите доделени елементи се природно интегрирани

Метод на судење

Овој репер тест користи уникатен систем на бодување: шест врвни јазични модели дејствуваат како судии, оценувајќи различни аспекти на приказната. Со други зборови, лидерите во индустријата за вештачка интелигенција ја оценуваат самата вештачка интелигенција, што генерално обезбедува релативно фер и систематски стандард за евалуација.

Тест содржина

Горенаведената табела ја прикажува корелационата анализа на стрелците во репер тестот за креативно пишување. DeepSeek има коефициент на корелација од над 0,93 со другите мејнстрим модели (Клод, GPT-4o, Gemini и Grok), што покажува дека има високо конзистентни критериуми за расудување со другите врвни модели кога го оценува квалитетот на креативното пишување, што индиректно ја потврдува неговата веродостојност во оваа тест.

Графиконот погоре ги прикажува резултатите од репер тестот за пишување креативни раскази. Секој модел на вештачка интелигенција требаше да напише 500 приказни, од кои секоја мора да содржи 10 специфицирани случајни елементи. Точките во графиконот ја прикажуваат распределбата на бодовите на секој учеснички модел на вештачка интелигенција за различни модели на бодување (претставени со различни бои).

Во тестот, Длабоко С еек (темно сини точки) се покажа добро, со повеќето од неговите бодови концентрирани во горната половина од табелата и релативно концентрирани, што покажува стабилно и високо ниво на способност за креативно пишување.

Оваа извонредна изведба му овозможи успешно да го надмине претходниот шампион, Клод 3.5 Сонет, и да стане нов лидер за тестирање на репер.

Во оваа табела, секој ред претставува модел на вештачка интелигенција, а секоја колона претставува димензија за оценување (како што се карактеризација, кохерентност на заплетот итн.). DeepSeek се наоѓа во горната средина на графиконот, со целокупна портокалово-жолта нијанса, што покажува дека постигнал одлични резултати во повеќето димензии за оценување. Конкретно, постигна високи оценки од скоро 8 поени во клучните димензии на извршување (Q6), карактеризација (TA) и развој на заговор (TJ). Иако можеби не е најсветлата жолта во поединечни димензии, нема очигледни слабости.

Како што можете да видите на графиконот, резултатите од приказната на DeepSeek се главно распределени помеѓу 7 и 9 поени, а распределбата е релативно концентрирана. Интересно, неговата линија на тренд е речиси хоризонтална, што покажува дека квалитетот на приказната на DeepSeek не е тесно поврзан со должината на приказната. Со други зборови, без разлика дали се работи за пишување долга или кратка приказна, DeepSeek може да одржува конзистентно висок квалитет на излезот. Ова го покажува тоа DeepSeek се фокусира повеќе на квалитетот отколку на квантитетот при креирањето и може да одржува одлични перформанси во приказни со различна должина.

Зошто DeepSeek R1 победа?

Судејќи според резултатите од тестот, DeepSeek R1 се покажа неверојатно:

Сеопфатни можности за интеграција на приказната: R1 покажа неверојатна флексибилност и креативност кога се занимава со различни комбинации на елементи на приказната.
Стабилен квалитет на излезот: Судејќи според табелата за распределба на бодовите, R1 не само што имал висок просечен резултат, туку и стабилни перформанси со помали флуктуации.
Извонредна креативна изведба: Во овој репер тест, приказните создадени од R1 беа оценети меѓу првите три во целина, што ја докажува неговата извонредна способност во креативното пишување.

Како настапија другите натпреварувачи?

Покрај возбудливата пресметка помеѓу DeepSeek R1 и Claude 3.5 Sonnet, вреди да се забележат и перформансите на другите модели:

Серијата Близнаци се претстави добро
Серијата Llama 3.x малку се мачеше на овој тест
O3-mini не се претстави добро, се рангираше на 22-то место

Конечно

Пробивот на DeepSeek R1 во овој тест ни ги покажа бесконечните можности на вештачката интелигенција на полето на креативноста. Иако создавањето вештачка интелигенција сè уште е на патот на постојано подобрување, ваквите резултати веќе не направија полни со очекувања за иднината.

За оние кои сакаат да дознаат повеќе за деталите од тестот, можете да го посетите GitHub на Лех Мазур за целосни податоци и примери за најдобрите приказни. Ајде заедно да очекуваме повеќе откритија во креативното пишување со вештачка интелигенција!

DeepSeek R1 беше прв на тестот за креативно пишување, а o3 mini беше уште полош од o1 mini!

Репер тест

Метод на судење

Тест содржина

Зошто DeepSeek R1 победа?

Како настапија другите натпреварувачи?

Конечно

DeepSeek го направи тоа! OpenAI ја признава грешката со затворен код, предноста на предната страна станува помала

Блиску е до DeepSeek-R1-32B и го скрши s1 на Fei-Fei Li! UC Berkeley и други нови модели на SOTA заклучоци со отворен код

OpenAI o3-mini наспроти DeepSeek-R1: Кој е кралот на новата генерација на модели со вештачка интелигенција?

Прво лансирање! SiliconFlow X Huawei Cloud заеднички ги лансираше услугите за заклучување DeepSeek R1 и V3 базирани на Ascend Cloud!

Напишете коментар Откажи одговор

Репер тест

Метод на судење

Тест содржина

Зошто DeepSeek R1 победа?

Како настапија другите натпреварувачи?

Конечно

Слични објави

Напишете коментар Откажи одговор