Lembaga Riset Keamanan AI Inggris (AISI) menunjukkan dalam penilaian terbaru bahwa model AI Claude Mythos Preview milik Anthropic dapat, dalam lingkungan yang terkendali, menyelesaikan secara mandiri simulasi serangan siber perusahaan lengkap 32 langkah; pada tantangan CTF tingkat pakar, tingkat keberhasilannya mencapai 73%, menandai kemampuan serangan siber berbasis AI telah melewati ambang batas penting.
(Info sebelumnya: Claude secara resmi mendukung pengubahan file Word, menyimpan workflow menjadi keterampilan skill, dan integrasi selesai dengan paket Microsoft Office tiga serangkai)
(Tambahan latar belakang: Laporan indeks ekonomi AI Anthropic yang terdiri dari puluhan ribu kata: frekuensi workflow trading otomatis berlipat dua, dan Claude sedang berubah dari sekadar alat menjadi asisten hidup)
Daftar Isi
Toggle
Lembaga Riset Keamanan AI Inggris (AISI) pada tanggal 13 merilis laporan penilaian kemampuan keamanan siber yang ditujukan untuk Anthropic Claude Mythos Preview. Hasil penilaian menunjukkan bahwa, di tengah latar belakang kemampuan serangan siber berbasis model yang paling mutakhir terus meningkat dengan cepat, Mythos Preview menandakan lompatan kemampuan yang signifikan sekali lagi.
AISI sejak 2023 melacak kemampuan serangan siber berbasis AI, dan secara bertahap membangun sistem penilaian dengan tingkat kesulitan yang meningkat setiap tahun: mulai dari penelusuran berbasis percakapan yang sederhana, lalu tantangan Capture The Flag (CTF), hingga simulasi serangan siber multi-langkah seperti sekarang. Penilaian kali ini menggunakan anggaran penalaran maksimum 1 ratus juta token untuk menjalankan arena siber, dan performa Mythos Preview tetap terus bertumbuh di dalam batas atas tersebut.
Capture The Flag (CTF) adalah salah satu metode standar untuk penilaian keamanan siber: model AI harus menemukan celah pada sistem target dan memanfaatkannya, untuk memperoleh string “bendera” yang disembunyikan. Tantangan seperti ini mensimulasikan satu komponen teknis dalam situasi serangan dunia nyata, sehingga menjadi indikator acuan untuk mengukur kemampuan model dalam penetration testing.
Hasil penilaian menunjukkan bahwa pada tugas CTF level pakar yang “hingga April 2025 belum ada model yang dapat menyelesaikannya”, tingkat keberhasilan Claude Mythos Preview mencapai 73%. AISI menyatakan angka ini menandai bahwa pada teknik serangan titik tunggal yang terisolasi, model mutakhir telah mencapai tingkat kematangan yang tinggi.
Namun, CTF level pakar hanya menguji kemampuan teknik tunggal. Serangan siber dunia nyata memerlukan perangkaian puluhan langkah di antara banyak host dan banyak segment jaringan; tindakan berkelanjutan seperti ini biasanya memerlukan waktu berjam-jam, berhari-hari, bahkan berminggu-minggu untuk diselesaikan oleh pakar manusia.
Untuk lebih mendekati skenario serangan yang nyata, AISI membangun arena simulasi serangan siber perusahaan bernama “The Last Ones” (TLO). TLO memiliki total 32 langkah, mencakup seluruh proses dari pengintaian awal hingga pengambilalihan penuh jaringan perusahaan; AISI memperkirakan personel profesional manusia membutuhkan sekitar 20 jam untuk menyelesaikan alur ini.
Claude Mythos Preview menjadi model pertama dalam sejarah yang berhasil melewati TLO dari awal hingga akhir sepenuhnya; dalam 10 kali percobaan, ada 3 kali yang berhasil menyelesaikan semua 32 langkah. Bahkan jika memasukkan percobaan yang gagal, Mythos Preview rata-rata menyelesaikan jumlah langkah 22/32. Sebagai perbandingan, Claude Opus 4.6 yang berada di peringkat berikutnya hanya menyelesaikan 16 langkah rata-rata.
Penilaian menunjukkan bahwa dalam lingkungan terkendali yang dengan instruksi yang jelas serta disertai izin akses jaringan, Mythos Preview dapat menjalankan serangan multi-tahap dan secara mandiri menemukan serta memanfaatkan celah, padahal tugas-tugas ini sebelumnya memerlukan waktu beberapa hari yang dikerjakan oleh pakar manusia.
AISI juga menambahkan bahwa terdapat kesenjangan antara kerangka penilaian yang ada dan dunia nyata. Saat ini, arena kurang memiliki elemen pertahanan yang umum ditemui di lingkungan nyata: tidak ada pihak pertahanan yang ikut campur secara aktif, tidak ada deployment alat pertahanan, dan tindakan yang berpotensi memicu alarm keamanan saat dijalankan model tidak akan dikenai hukuman apa pun.
AISI terus terang mengatakan: “Ini berarti kami tidak dapat memastikan apakah Mythos Preview bisa menyerang sistem yang pertahanannya sudah lengkap.” Kemampuan yang ditunjukkan Mythos Preview saat ini, deskripsi yang lebih akurat adalah: dengan asumsi sudah memiliki titik masuk ke jaringan, ia dapat menyerang sistem perusahaan yang ukurannya lebih kecil, pertahanannya lemah, dan terdapat celah yang sudah diketahui—secara mandiri.
Kesimpulan AISI secara langsung menyoroti sifat ganda kemampuan siber berbasis AI. Di satu sisi, lebih banyak model dengan kemampuan serupa di masa depan akan terus bermunculan, sehingga menimbulkan risiko yang semakin mencolok bagi organisasi dengan pertahanan yang lemah; di sisi lain, kemampuan siber berbasis AI juga dapat membawa peningkatan yang bersifat terobosan pada sisi pertahanan.
Untuk respons organisasi, AISI menekankan urgensi dasar-dasar keamanan siber: terapkan pembaruan keamanan secara berkala, kontrol akses yang kuat, manajemen konfigurasi keamanan, serta pencatatan log yang lengkap. AISI menyatakan bahwa kemampuan model mutakhir di masa depan akan semakin kuat, sehingga sangat penting untuk mulai menginvestasikan upaya pembangunan pertahanan siber sekarang.
Dalam arah penilaian ke depan, AISI menyatakan akan membangun arena yang mensimulasikan penguatan dan lingkungan pertahanan, dengan memasukkan elemen seperti pemantauan aktif, deteksi endpoint, dan respons insiden secara real-time, untuk mengukur batas aktual kemampuan serangan siber AI dengan cara yang lebih mendekati skenario serangan yang nyata.
Laporan lengkap silakan lihat 【original】
Artikel Terkait
Saham Meta Naik 1,73% Saat Perusahaan Berencana Pemutusan 8.000 Pekerja Mulai 20 Mei
Laporan Tahunan Google menyebut Gemini melakukan penyaringan dalam skala milidetik, memblokir 99% iklan penipuan
Pendiri Ethereum Lubin: AI Akan Menjadi Titik Balik Penting untuk Kripto, Tapi Monopoli Raksasa Teknologi Menimbulkan Risiko Sistemik
Elon Musk Mendorong Cek “Pendapatan Tinggi Universal” sebagai Solusi Utama untuk Pengangguran Akibat AI
DeepSeek Dilaporkan Meluncurkan Putaran Penggalangan Dana Eksternal Pertama, Menargetkan Valuasi $10B+ dan $300M+
Iklan ChatGPT masuk ke Australia dan Selandia Baru: Free dan pengguna Go lebih dulu, paket berbayar tetap tanpa iklan