DeepSeek R1 mendapat tempat pertama dalam ujian penulisan kreatif, dan o3 mini lebih teruk daripada o1 mini!

DeepSeek R1 memenangi kejuaraan dalam ujian penanda aras penulisan cerpen kreatif, berjaya mengatasi pemain dominan sebelumnya Claude 3.5 Sonnet!

Jadual Kandungan

Ujian penanda aras

Ujian penanda aras yang direka oleh penyelidik Lech Mazur bukanlah persaingan menulis biasa anda.

Setiap model AI dikehendaki melengkapkan 500 cerpen, dan setiap cerita perlu bijak memasukkan 10 elemen yang diberikan secara rawak. Ini adalah tugas penulisan terbuka yang mencabar untuk AI, yang bukan sahaja memerlukan jalan cerita yang lengkap, tetapi juga memastikan bahawa semua elemen yang diberikan disepadukan secara semula jadi

Kaedah penghakiman

Ujian penanda aras ini menggunakan sistem pemarkahan yang unik: enam model bahasa teratas bertindak sebagai hakim, menskor pelbagai aspek cerita. Dengan kata lain, pemimpin industri AI menilai AI itu sendiri, yang secara keseluruhannya menyediakan standard penilaian yang agak adil dan sistematik.

Kandungan ujian

Carta di atas menunjukkan analisis korelasi penjaring dalam ujian penanda aras penulisan kreatif. DeepSeek mempunyai pekali korelasi lebih 0.93 dengan model arus perdana lain (Claude, GPT-4o, Gemini dan Grok), menunjukkan bahawa ia mempunyai kriteria pertimbangan yang sangat konsisten dengan model teratas lain apabila menilai kualiti penulisan kreatif, yang secara tidak langsung mengesahkan kebolehpercayaannya dalam ini. ujian.

Carta di atas menunjukkan keputusan ujian penanda aras penulisan cerpen kreatif. Setiap model AI dikehendaki menulis 500 cerita, setiap satunya mesti mengandungi 10 elemen rawak yang ditentukan. Mata dalam carta menunjukkan taburan skor setiap model AI yang mengambil bahagian untuk model pemarkahan yang berbeza (diwakili oleh warna yang berbeza).

Dalam ujian, Dalam S eek (mata biru gelap) menunjukkan prestasi yang baik, dengan kebanyakan mata skornya tertumpu pada separuh bahagian atas carta dan agak tertumpu, menunjukkan tahap keupayaan penulisan kreatif yang stabil dan tinggi.

Prestasi cemerlang ini telah membolehkannya berjaya mengatasi juara sebelumnya, Claude 3.5 Sonnet, dan menjadi peneraju ujian penanda aras baharu.

Dalam carta ini, setiap baris mewakili model AI dan setiap lajur mewakili dimensi penilaian (seperti pencirian, keselarasan plot, dsb.). DeepSeek terletak di bahagian tengah atas carta, dengan warna kuning oren keseluruhan, menunjukkan bahawa ia telah mencapai keputusan yang cemerlang dalam kebanyakan dimensi penilaian. Khususnya, ia mencapai skor tinggi hampir 8 mata dalam dimensi utama pelaksanaan (Q6), pencirian (TA) dan pembangunan plot (TJ). Walaupun ia mungkin bukan kuning paling terang dalam dimensi individu, ia tidak mempunyai sebarang kelemahan yang jelas.

Seperti yang anda boleh lihat dalam carta, skor cerita DeepSeek kebanyakannya diedarkan antara 7 dan 9 mata, dan pengedarannya agak tertumpu. Menariknya, garis alirannya hampir mendatar, menunjukkan kualiti cerita DeepSeek tidak berkait rapat dengan panjang cerita. Dalam erti kata lain, sama ada ia menulis cerita panjang atau cerpen, DeepSeek boleh mengekalkan output berkualiti tinggi secara konsisten. Ini menunjukkan bahawa DeepSeek lebih menumpukan pada kualiti berbanding kuantiti semasa mencipta, dan boleh mengekalkan prestasi cemerlang dalam cerita yang berbeza panjangnya.

Kenapa DeepSeek R1 menang?

Berdasarkan keputusan ujian, DeepSeek R1 menunjukkan prestasi yang menakjubkan:

Keupayaan penyepaduan cerita yang komprehensif: R1 menunjukkan fleksibiliti dan kreativiti yang menakjubkan apabila berurusan dengan gabungan unsur cerita yang berbeza.
Kualiti keluaran yang stabil: Berdasarkan carta taburan skor, R1 bukan sahaja mempunyai skor purata yang tinggi, tetapi juga prestasi yang stabil dengan kurang turun naik.
Prestasi kreatif yang cemerlang: Dalam ujian penanda aras ini, cerita yang dicipta oleh R1 telah dinilai antara tiga teratas secara keseluruhan, yang membuktikan keupayaannya yang cemerlang dalam penulisan kreatif.

Bagaimanakah prestasi peserta lain?

Sebagai tambahan kepada pertarungan menarik antara DeepSeek R1 dan Claude 3.5 Sonnet, prestasi model lain juga perlu diberi perhatian:

Siri Gemini beraksi dengan baik
Siri Llama 3.x bergelut sedikit dalam ujian ini
O3-mini tidak menunjukkan prestasi yang baik, menduduki tempat ke-22

Akhirnya

Kejayaan DeepSeek R1 dalam ujian ini telah menunjukkan kepada kita kemungkinan AI yang tidak terhingga dalam bidang kreativiti. Walaupun penciptaan AI masih dalam laluan penambahbaikan berterusan, keputusan sedemikian telah membuatkan kami penuh dengan jangkaan untuk masa hadapan.

Bagi mereka yang ingin mengetahui lebih lanjut tentang butiran ujian, anda boleh melawati GitHub Lech Mazur untuk mendapatkan data penuh dan contoh cerita terbaik. Mari kita nantikan lebih banyak penemuan dalam penulisan kreatif AI bersama-sama!

Catatan Serupa

Tidak dikategorikan

Ali Qwen2.5-Max memintas DeepSeek-V3! Netizen: AI China dengan pantas menutup jurang

Olehzddeepseeker 5 Februari 20255 Februari 2025

Sebentar tadi, satu lagi model domestik telah ditambahkan ke senarai Big Model Arena daripada Ali, Qwen2.5-Max, yang melepasi DeepSeek-V3 dan menduduki tempat ketujuh dalam kedudukan keseluruhan dengan jumlah markah 1332. Ia juga mengatasi model seperti Claude 3.5 Sonnet dan Llama 3.1 405B dalam satu masa. Khususnya, ia cemerlang dalam pengaturcaraan…

Tidak dikategorikan

Teknologi DeepSeek-R1 didedahkan: prinsip teras kertas dipecahkan dan kunci kepada prestasi model terobosan didedahkan

Olehzddeepseeker 9 Februari 20259 Februari 2025

Hari ini kami akan berkongsi DeepSeek R1, Tajuk: DeepSeek-R1: Mendorong Keupayaan Penaakulan dalam LLM melalui Pembelajaran Peneguhan: Mendorong keupayaan penaakulan LLM melalui pembelajaran peneguhan. Makalah ini memperkenalkan model penaakulan generasi pertama DeepSeek, DeepSeek-R1-Zero dan DeepSeek-R1. Model DeepSeek-R1-Zero telah dilatih melalui pembelajaran pengukuhan (RL) berskala besar tanpa penalaan halus (SFT) yang diselia sebagai langkah awal,…

Tidak dikategorikan

Dalam bulatan AI, DeepSeek R1 telah melepasi o1 dan Claude secara berterusan dalam ujian fizikal, dan kami telah memasuki zaman kegemilangan RL.

Olehzddeepseeker 1 Februari 20251 Februari 2025

Tiada seorang pun daripada kami menjangkakan bahawa ini adalah bagaimana 2025 akan bermula dalam bidang AI. DeepSeek R1 sungguh menakjubkan! Baru-baru ini, "kuasa Timur misterius" DeepSeek telah "kawal keras" Silicon Valley. Saya meminta R1 untuk menerangkan teorem Pythagoras secara terperinci. Semua ini dilakukan oleh AI dalam masa kurang daripada 30 saat tanpa sebarang…

Tidak dikategorikan

Ia hampir dengan DeepSeek-R1-32B dan menghancurkan s1 Fei-Fei Li! UC Berkeley dan model inferens SOTA baharu sumber terbuka lain

Olehzddeepseeker 14 Februari 202514 Februari 2025

Model inferens 32B hanya menggunakan 1/8 daripada data dan diikat dengan DeepSeek-R1 dengan saiz yang sama! Baru-baru ini, institusi seperti Stanford, UC Berkeley dan University of Washington telah bersama-sama mengeluarkan model inferens peringkat SOTA, OpenThinker-32B, dan juga telah membekalkan data latihan sumber terbuka sehingga 114k. Laman utama Projek OpenThinker: Muka Berpeluk OpenThinker:…

Tidak dikategorikan

DeepSeek telah melakukannya! OpenAI mengakui kesilapan sumber tertutup, kelebihan kelebihan utama menjadi lebih kecil

Olehzddeepseeker 2 Februari 20252 Februari 2025

Selepas OpenAI mengeluarkan model o3-mini, Ketua Pegawai Eksekutifnya Sam Altman, Ketua Pegawai Penyelidik Mark Chen, Ketua Pegawai Produk Kevin Weil; Naib Presiden Kejuruteraan Srinivas Narayanan, Ketua Penyelidikan API Michelle Pokrass, dan Ketua Penyelidikan Hongyu Ren, menjalankan Soal Jawab teknikal dalam talian mengenai reddit, salah satu forum komprehensif terbesar di dunia. Topik utama…

Tidak dikategorikan

OpenAI o3-mini lwn. DeepSeek-R1: Siapakah raja model AI generasi baharu?

Olehzddeepseeker 1 Februari 20251 Februari 2025

o3-mini ada di sini, dengan momentum pencabar Pada 31 Januari, OpenAI mengeluarkan model besar o3-mini serba baharu dan menyediakan beberapa fungsinya secara percuma kepada semua pengguna ChatGPT. Walaupun terdapat had pada bilangan pertanyaan, ia membolehkan pengguna mengalami model komersial terbaru OpenAI secepat mungkin….

Ujian penanda aras

Kaedah penghakiman

Kandungan ujian

Kenapa DeepSeek R1 menang?

Bagaimanakah prestasi peserta lain?

Akhirnya

Catatan Serupa

Tinggalkan Balasan Batal balasan