Laporan Anthropic: Tingkat kemenangan pengambilan keputusan AI naik menjadi 64%, optimasi kode 52 kali

Mythos Preview模型優化

Anthropic pada 4 Juni merilis laporan yang mengungkap bahwa model Mythos Preview miliknya, dalam pengujian untuk membantu pengambilan keputusan riset AI, membuat keputusan yang lebih baik daripada peneliti manusia dalam 64% kasus, sementara tingkat kemenangan untuk pengujian sejenis pada 2024 hanya 22%. Pada pengujian standar yang mengoptimalkan kode pelatihan untuk model AI skala kecil, Mythos Preview mencapai peningkatan kecepatan 52 kali.

Metode dan Data Pengujian Pengambilan Keputusan Riset

Desain pengujian yang dipublikasikan oleh Anthropic: tim menampilkan kepada Claude catatan percakapan yang menunjukkan peneliti manusia akan membuat keputusan keliru dalam arah riset, lalu meminta AI “apa yang seharusnya dilakukan selanjutnya”. Mythos Preview memberikan jawaban yang lebih baik daripada peneliti manusia dalam 64% kasus, dan pada 2024 tingkat kemenangan untuk pengujian sejenis adalah 22%.

Dalam laporan, Anthropic menjelaskan bahwa hasil ini “mengisyaratkan AI telah mulai memiliki kemampuan untuk membimbing riset tingkat lanjut”, tetapi sekaligus menyatakan bahwa saat ini belum dapat dipastikan apakah Claude memiliki kemampuan penilaian tingkat global untuk secara mandiri memilih “pertanyaan riset yang tepat”.

Data Efisiensi Kode dalam Laporan Anthropic

Indikator terkait efisiensi kode dari Anthropic:

Jumlah pengiriman kode per kuartal insinyur internal: sebesar 8 kali dari level rata-rata 2021-2025

Tingkat keberhasilan untuk masalah kode terbuka: dalam 6 bulan meningkat 50 poin persentase, mencapai 76%

Kecepatan optimasi kode pelatihan: Mythos Preview mencapai peningkatan 52 kali

Pembanding: Claude Opus 4 (Mei 2024) rata-rata sekitar 3 kali; insinyur manusia yang sudah berpengalaman biasanya memerlukan 4-8 jam untuk mewujudkan sekitar 4 kali

Laporan Anthropic menyebutkan bahwa sebagian insinyur internal menilai kualitas kode Claude sudah mendekati standar manusia.

Institut Riset Anthropic: dikonfirmasi berdiri, potensi dampak RSI

Anthropic mengumumkan akan bekerja sama dengan pihak terkait eksternal untuk mendirikan “Anthropic Institute (Institut Riset Anthropic)”, dengan fokus meneliti dampak mendalam dari sistem AI yang kuat.

Dalam laporannya, Anthropic menyatakan bahwa percepatan perkembangan AI tidak hanya berpotensi membawa dampak positif pada bidang kedokteran, teknologi, dan ekonomi, tetapi juga dapat memperparah persoalan penyelarasan AI (Alignment), serta memunculkan risiko “kehilangan kendali (Loss of control)”; Anthropic menyebut dampak ini “layak mendapat perhatian tingkat lebih tinggi”.

Pertanyaan yang Sering Diajukan

Bagaimana desain pengujian tingkat kemenangan keputusan Mythos Preview secara spesifik?

Anthropic menampilkan kepada Claude catatan percakapan yang menunjukkan peneliti akan menuju arah riset yang salah, lalu menanyakan “apa yang seharusnya dilakukan selanjutnya” untuk menguji kemampuan penilaian riset AI. Mythos Preview memberikan jawaban yang lebih baik dalam 64% kasus, dibanding tingkat kemenangan 22% untuk pengujian sejenis pada 2024, dengan pertumbuhan yang meledak dalam dua tahun.

Apa itu “Recursive Self-Improvement (RSI)” yang disebut dalam laporan Anthropic?

Recursive Self-Improvement (peningkatan diri rekursif) merujuk pada kemampuan sistem AI untuk secara mandiri mengembangkan generasi AI berikutnya yang lebih kuat daripada dirinya. Dalam laporan 4 Juni 2026, Anthropic menyatakan bahwa proses ini sedang berjalan dengan “kecepatan yang lebih cepat dari perkiraan”, sekaligus mengakui bahwa saat ini belum dapat dipastikan apakah Claude memiliki kemampuan penilaian global untuk secara mandiri memilih “pertanyaan riset yang tepat”.

Apa posisi dan tujuan Institut Riset Anthropic?

Anthropic mengumumkan akan mendirikan Institut Riset Anthropic bekerja sama dengan pihak terkait eksternal, dengan fokus pada penelitian dampak mendalam dari sistem AI yang kuat. Anthropic menyatakan bahwa tujuan pendirian institut ini adalah memastikan manusia dapat membuat pilihan yang penuh kehati-hatian bagi masa depan teknologi AI; ruang lingkup riset dan jadwalnya belum sepenuhnya diungkap.

Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.
Komentar
0/400
Tidak ada komentar