Skor Debugging Claude Fable 5 Turun dari 86,2 menjadi 25,9 Setelah Pemulihan 1 Juli

Claude Fable 5 kembali online pada 1 Juli, dan dua platform benchmarking AI menerbitkan penilaian kinerja yang bertentangan pada hari yang sama. BridgeBench melaporkan skor debugging Claude Fable 5 turun drastis dari 86,2 menjadi 25,9 setelah pemulihan, sementara Arena.AI menemukan kinerja sebagian besar tidak berubah melalui ribuan suara preferensi manusia buta. Perbedaan ini berasal dari pengklasifikasi keamanan baru Anthropic yang mengarahkan sebagian besar tugas coding dan debugging ke Claude Opus 4.8, alih-alih membiarkan Fable 5 menanganinya secara langsung. Anthropic telah mengakui bahwa pengklasifikasi tersebut menghasilkan positif palsu pada tugas coding rutin. Perusahaan menerapkan pengklasifikasi konservatif ini sebagai syarat pemulihan Fable 5 setelah demonstrasi kerentanan keamanan yang dilaporkan oleh peneliti Amazon.

BridgeBench Mencatat Penurunan Skor Signifikan di Semua Kategori Coding

BridgeMind menjalankan ulang seluruh rangkaian coding pada versi Fable 5 tanggal 1 Juli pada hari yang sama saat kembalinya. BridgeBench menguji tugas coding dunia nyata di berbagai kategori termasuk debugging, refactoring, dan ketahanan terhadap halusinasi, dengan skor 0–100 berdasarkan seberapa baik model menyelesaikan setiap kategori. Debugging turun dari 86,2 menjadi 25,9, Refactoring dari 73,6 menjadi 38,4, dan Ketahanan terhadap halusinasi dari 75,9 menjadi 61,7.

Dari 12 tugas debugging TypeScript, hanya tiga yang benar-benar mencapai Fable 5. Sembilan sisanya dicegat oleh pengklasifikasi keamanan baru Anthropic dan dialihkan ke Claude Opus 4.8. BridgeBench menetapkan skor nol untuk setiap pengalihan, karena model yang menjawab bukanlah model yang dievaluasi. Pengklasifikasi dilatih untuk memblokir teknik jailbreak yang dilaporkan Amazon yang membuat Fable 5 mengidentifikasi dan mendemonstrasikan kerentanan perangkat lunak. Debugging TypeScript tampak cukup mirip dengan pekerjaan keamanan bagi pengklasifikasi sehingga pengalihan sering terjadi.

Suara Preferensi Manusia Arena.AI Menunjukkan Kinerja Stabil hingga Meningkat

Arena.AI menjalankan pertanyaan yang sama melalui sudut pandang berbeda. Platform ini mengumpulkan ribuan suara preferensi manusia buta di berbagai kategori—teks, visi, dokumen, kode, dan agen—dan memberi peringkat model menggunakan skor Elo. Ketika dua model bertanding secara anonim dan manusia memilih pemenang, skor mencerminkan kualitas yang benar-benar dirasakan, bukan perutean infrastruktur.

Perbandingan sebelum dan sesudah menunjukkan Fable 5 sebagian besar bertahan. Kode frontend turun dari 1650 menjadi 1623 Elo—perbedaan yang menurut Arena masih dalam interval kepercayaan seiring dengan terus bertambahnya data. Kinerja dokumen meningkat 34 poin. Teks ahli naik 25. Penulisan kreatif naik sedikit 9. Kategori yang menurun—Coding di -18, hard prompts di -3—adalah tepat di mana pengklasifikasi paling mungkin mencegat prompt sebelum Fable dapat menjawab.

Ketika Fable 5 benar-benar menangani tugas, ia tetap berkinerja seperti Fable 5. Pengguna umum yang melakukan penulisan kreatif, analisis dokumen, penelitian, dan kueri teks tingkat ahli kemungkinan besar akan merasakan sedikit atau tanpa perubahan. Itu adalah kategori di mana Arena.AI menunjukkan kinerja stabil atau meningkat. Pengembang yang bekerja di area yang berdekatan dengan keamanan—coding manajemen memori, apa pun yang menyentuh kata seperti kerentanan, eksploitasi, hook, atau perbaikan—akan sering terkena pengalihan.

Anthropic Akui Positif Palsu pada Pekerjaan Coding Rutin

Anthropic telah menyatakan bahwa pengklasifikasi akan membaik seiring waktu, mengakui bahwa saat ini pengklasifikasi tersebut menjaring terlalu luas. Larangan awal terjadi setelah peneliti Amazon menemukan teknik untuk membuat Fable mengidentifikasi dan mendemonstrasikan kerentanan perangkat lunak, dan pemerintah AS menganggapnya sebagai ancaman keamanan nasional. Perbaikannya adalah membuat pengklasifikasi cukup konservatif untuk menangkap itu dan segala sesuatu di sekitarnya, lalu menyetelnya kemudian. Anthropic tidak memberikan target tanggal kapan hal itu akan terjadi.

FAQ

Apa yang menyebabkan skor debugging Claude Fable 5 turun dari 86,2 menjadi 25,9 setelah 1 Juli?

Penurunan ini disebabkan oleh pengklasifikasi keamanan baru Anthropic yang mengarahkan sembilan dari dua belas tugas debugging ke Claude Opus 4.8 alih-alih membiarkan Fable 5 menanganinya. BridgeBench menetapkan skor nol untuk setiap pengalihan karena model yang dievaluasi tidak menjawab. Pengklasifikasi diterapkan untuk memblokir teknik jailbreak yang dilaporkan Amazon yang membuat Fable 5 mendemonstrasikan kerentanan perangkat lunak.

Bagaimana pengujian preferensi manusia Arena.AI berbeda dengan hasil BridgeBench?

Arena.AI mengumpulkan ribuan suara preferensi manusia buta di seluruh kategori teks, visi, dokumen, kode, dan agen. Platform ini menemukan kinerja Fable 5 sebagian besar stabil dibandingkan dengan versi Juni, dengan kinerja dokumen meningkat 34 poin dan teks ahli naik 25 poin. Kode frontend turun dari 1650 menjadi 1623 Elo, perbedaan yang menurut Arena masih dalam interval kepercayaan.

Kapan Anthropic akan menyempurnakan pengklasifikasi keamanan untuk mengurangi positif palsu?

Anthropic telah mengakui bahwa pengklasifikasi baru menghasilkan positif palsu pada tugas coding dan debugging rutin dan menyatakan bahwa sistem akan disempurnakan seiring waktu. Perusahaan tidak memberikan jadwal kapan penyempurnaan akan dilakukan.

Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.
Komentar
0/400
Tidak ada komentar