DeepSeek R1 memenangi kejuaraan dalam ujian penanda aras penulisan cerpen kreatif, berjaya mengatasi pemain dominan sebelumnya Claude 3.5 Sonnet!

Ujian penanda aras

Ujian penanda aras yang direka oleh penyelidik Lech Mazur bukanlah persaingan menulis biasa anda.

Setiap model AI dikehendaki melengkapkan 500 cerpen, dan setiap cerita perlu bijak memasukkan 10 elemen yang diberikan secara rawak. Ini adalah tugas penulisan terbuka yang mencabar untuk AI, yang bukan sahaja memerlukan jalan cerita yang lengkap, tetapi juga memastikan bahawa semua elemen yang diberikan disepadukan secara semula jadi

Kaedah penghakiman

Ujian penanda aras ini menggunakan sistem pemarkahan yang unik: enam model bahasa teratas bertindak sebagai hakim, menskor pelbagai aspek cerita. Dengan kata lain, pemimpin industri AI menilai AI itu sendiri, yang secara keseluruhannya menyediakan standard penilaian yang agak adil dan sistematik.

Kandungan ujian

Carta di atas menunjukkan analisis korelasi penjaring dalam ujian penanda aras penulisan kreatif. DeepSeek mempunyai pekali korelasi lebih 0.93 dengan model arus perdana lain (Claude, GPT-4o, Gemini dan Grok), menunjukkan bahawa ia mempunyai kriteria pertimbangan yang sangat konsisten dengan model teratas lain apabila menilai kualiti penulisan kreatif, yang secara tidak langsung mengesahkan kebolehpercayaannya dalam ini. ujian.

Carta di atas menunjukkan keputusan ujian penanda aras penulisan cerpen kreatif. Setiap model AI dikehendaki menulis 500 cerita, setiap satunya mesti mengandungi 10 elemen rawak yang ditentukan. Mata dalam carta menunjukkan taburan skor setiap model AI yang mengambil bahagian untuk model pemarkahan yang berbeza (diwakili oleh warna yang berbeza).

Dalam ujian, DalamSeek (mata biru gelap) menunjukkan prestasi yang baik, dengan kebanyakan mata skornya tertumpu pada separuh bahagian atas carta dan agak tertumpu, menunjukkan tahap keupayaan penulisan kreatif yang stabil dan tinggi.

Prestasi cemerlang ini telah membolehkannya berjaya mengatasi juara sebelumnya, Claude 3.5 Sonnet, dan menjadi peneraju ujian penanda aras baharu.

Dalam carta ini, setiap baris mewakili model AI dan setiap lajur mewakili dimensi penilaian (seperti pencirian, keselarasan plot, dsb.). DeepSeek terletak di bahagian tengah atas carta, dengan warna kuning oren keseluruhan, menunjukkan bahawa ia telah mencapai keputusan yang cemerlang dalam kebanyakan dimensi penilaian. Khususnya, ia mencapai skor tinggi hampir 8 mata dalam dimensi utama pelaksanaan (Q6), pencirian (TA) dan pembangunan plot (TJ). Walaupun ia mungkin bukan kuning paling terang dalam dimensi individu, ia tidak mempunyai sebarang kelemahan yang jelas.

Seperti yang anda boleh lihat dalam carta, skor cerita DeepSeek kebanyakannya diedarkan antara 7 dan 9 mata, dan pengedarannya agak tertumpu. Menariknya, garis alirannya hampir mendatar, menunjukkan kualiti cerita DeepSeek tidak berkait rapat dengan panjang cerita. Dalam erti kata lain, sama ada ia menulis cerita panjang atau cerpen, DeepSeek boleh mengekalkan output berkualiti tinggi secara konsisten. Ini menunjukkan bahawa DeepSeek lebih menumpukan pada kualiti berbanding kuantiti semasa mencipta, dan boleh mengekalkan prestasi cemerlang dalam cerita yang berbeza panjangnya.

Kenapa DeepSeek R1 menang?

Berdasarkan keputusan ujian, DeepSeek R1 menunjukkan prestasi yang menakjubkan:

  • Keupayaan penyepaduan cerita yang komprehensif: R1 menunjukkan fleksibiliti dan kreativiti yang menakjubkan apabila berurusan dengan gabungan unsur cerita yang berbeza.
  • Kualiti keluaran yang stabil: Berdasarkan carta taburan skor, R1 bukan sahaja mempunyai skor purata yang tinggi, tetapi juga prestasi yang stabil dengan kurang turun naik.
  • Prestasi kreatif yang cemerlang: Dalam ujian penanda aras ini, cerita yang dicipta oleh R1 telah dinilai antara tiga teratas secara keseluruhan, yang membuktikan keupayaannya yang cemerlang dalam penulisan kreatif.

Bagaimanakah prestasi peserta lain?

Sebagai tambahan kepada pertarungan menarik antara DeepSeek R1 dan Claude 3.5 Sonnet, prestasi model lain juga perlu diberi perhatian:

  • Siri Gemini beraksi dengan baik
  • Siri Llama 3.x bergelut sedikit dalam ujian ini
  • O3-mini tidak menunjukkan prestasi yang baik, menduduki tempat ke-22

Akhirnya

Kejayaan DeepSeek R1 dalam ujian ini telah menunjukkan kepada kita kemungkinan AI yang tidak terhingga dalam bidang kreativiti. Walaupun penciptaan AI masih dalam laluan penambahbaikan berterusan, keputusan sedemikian telah membuatkan kami penuh dengan jangkaan untuk masa hadapan.

Bagi mereka yang ingin mengetahui lebih lanjut tentang butiran ujian, anda boleh melawati GitHub Lech Mazur untuk mendapatkan data penuh dan contoh cerita terbaik. Mari kita nantikan lebih banyak penemuan dalam penulisan kreatif AI bersama-sama!

Catatan Serupa

Tinggalkan Balasan

Alamat e-mel anda tidak akan disiarkan. Medan diperlukan ditanda dengan *