DeepSeek R1 memenangkan kejuaraan dalam tes tolok ukur penulisan cerita pendek kreatif, berhasil mengungguli pemain dominan sebelumnya, Claude 3.5 Soneta!

Uji tolok ukur

Tes tolok ukur yang dirancang oleh peneliti Lech Mazur ini bukanlah kompetisi menulis biasa.

Setiap model AI diminta untuk menyelesaikan 500 cerita pendek, dan setiap cerita harus secara cerdik menggabungkan 10 elemen yang ditugaskan secara acak. Ini adalah tugas menulis terbuka yang menantang bagi AI, yang tidak hanya membutuhkan alur cerita yang lengkap, tetapi juga memastikan bahwa semua elemen yang ditugaskan terintegrasi secara alami

Metode penilaian

Tes tolok ukur ini menggunakan sistem penilaian yang unik: enam model bahasa terbaik bertindak sebagai juri, menilai berbagai aspek cerita. Dengan kata lain, para pemimpin industri AI menilai AI itu sendiri, yang secara keseluruhan memberikan standar evaluasi yang relatif adil dan sistematis.

Konten pengujian

Bagan di atas menunjukkan analisis korelasi dari para penilai dalam tes tolok ukur menulis kreatif. DeepSeek memiliki koefisien korelasi lebih dari 0,93 dengan model utama lainnya (Claude, GPT-4o, Gemini, dan Grok), yang menunjukkan bahwa model ini memiliki kriteria penilaian yang sangat konsisten dengan model-model utama lainnya dalam menilai kualitas tulisan kreatif, yang secara tidak langsung menegaskan keandalannya dalam tes ini.

Grafik di atas menunjukkan hasil dari tes tolok ukur penulisan cerita pendek yang kreatif. Setiap model AI diminta untuk menulis 500 cerita, yang masing-masing harus mengandung 10 elemen acak yang ditentukan. Titik-titik pada grafik menunjukkan distribusi skor dari setiap model AI yang berpartisipasi untuk model penilaian yang berbeda (diwakili oleh warna yang berbeda).

Dalam pengujian, DeepSeek (titik biru tua) tampil dengan baik, dengan sebagian besar poin nilainya terkonsentrasi di bagian atas grafik dan relatif terkonsentrasi, menunjukkan kemampuan menulis kreatif yang stabil dan tinggi.

Performa luar biasa ini telah memungkinkannya berhasil melampaui juara sebelumnya, Claude 3.5 Soneta, dan menjadi pemimpin uji benchmark yang baru.

Dalam bagan ini, setiap baris mewakili model AI, dan setiap kolom mewakili dimensi evaluasi (seperti karakterisasi, koherensi plot, dll.). DeepSeek terletak di bagian tengah atas bagan, dengan warna oranye-kuning secara keseluruhan, yang menunjukkan bahwa model ini telah mencapai hasil yang sangat baik dalam sebagian besar dimensi evaluasi. Secara khusus, film ini meraih skor tinggi hampir 8 poin dalam dimensi kunci eksekusi (Q6), karakterisasi (TA), dan pengembangan plot (TJ). Meskipun mungkin bukan warna kuning yang paling terang di setiap dimensi, film ini tidak memiliki kelemahan yang jelas.

Seperti yang dapat Anda lihat pada grafik, skor cerita DeepSeek sebagian besar terdistribusi antara 7 dan 9 poin, dan distribusinya relatif terkonsentrasi. Menariknya, garis trennya hampir mendatar, menunjukkan bahwa kualitas cerita DeepSeek tidak terkait erat dengan panjang cerita. Dengan kata lain, baik menulis cerita panjang maupun cerita pendek, DeepSeek dapat mempertahankan kualitas yang tinggi secara konsisten. Hal ini menunjukkan bahwa DeepSeek lebih berfokus pada kualitas daripada kuantitas saat membuat, dan dapat mempertahankan kinerja yang sangat baik dalam cerita dengan panjang yang berbeda.

Mengapa DeepSeek R1 menang?

Dilihat dari hasil pengujian, DeepSeek R1 menunjukkan performa yang mengagumkan:

  • Kemampuan integrasi cerita yang komprehensif: R1 menunjukkan fleksibilitas dan kreativitas yang mengagumkan apabila berhadapan dengan berbagai kombinasi elemen cerita.
  • Kualitas output yang stabil: Dilihat dari grafik distribusi skor, R1 tidak hanya memiliki skor rata-rata yang tinggi, tetapi juga performa yang stabil dengan fluktuasi yang lebih sedikit.
  • Kinerja kreatif yang luar biasa: Dalam tes tolok ukur ini, cerita yang dibuat oleh R1 dinilai di antara tiga besar secara keseluruhan, yang membuktikan kemampuannya yang luar biasa dalam menulis kreatif.

Bagaimana penampilan kontestan lainnya?

Selain pertarungan seru antara DeepSeek R1 dan Claude 3.5 Soneta, performa model lainnya juga patut diperhatikan:

  • Seri Gemini tampil dengan baik
  • Seri Llama 3.x sedikit kesulitan dalam pengujian ini
  • O3-mini tidak memiliki performa yang baik, berada di peringkat ke-22

Akhirnya

Terobosan DeepSeek R1 dalam pengujian ini telah menunjukkan kepada kita, kemungkinan AI yang tidak terbatas dalam bidang kreativitas. Meskipun penciptaan AI masih dalam tahap penyempurnaan yang terus menerus, namun hasil ini sudah membuat kami penuh harapan untuk masa depan.

Bagi Anda yang ingin mempelajari lebih lanjut tentang detail tes ini, Anda bisa mengunjungi GitHub Lech Mazur untuk mendapatkan data lengkap dan contoh-contoh cerita terbaik. Mari kita nantikan lebih banyak terobosan dalam penulisan kreatif AI bersama-sama!

Posting serupa

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *