Lembaga Riset Keamanan AI Inggris (AISI) menunjukkan dalam penilaian terbaru bahwa model AI Claude Mythos Preview milik Anthropic dapat, dalam lingkungan yang terkendali, menyelesaikan secara mandiri simulasi serangan siber perusahaan lengkap 32 langkah; pada tantangan CTF tingkat pakar, tingkat keberhasilannya mencapai 73%, menandai kemampuan serangan siber berbasis AI telah melewati ambang batas penting.
(Info sebelumnya: Claude secara resmi mendukung pengubahan file Word, menyimpan workflow menjadi keterampilan skill, dan integrasi selesai dengan paket Microsoft Office tiga serangkai)
(Tambahan latar belakang: Laporan indeks ekonomi AI Anthropic yang terdiri dari puluhan ribu kata: frekuensi workflow trading otomatis berlipat dua, dan Claude sedang berubah dari sekadar alat menjadi asisten hidup)

Daftar Isi

Toggle

Penilaian CTF: tingkat kelulusan 73% level pakar
Lolos dengan simulasi serangan perusahaan 32 langkah
Batas kemampuan
Pedang bermata dua dan respons organisasi

Lembaga Riset Keamanan AI Inggris (AISI) pada tanggal 13 merilis laporan penilaian kemampuan keamanan siber yang ditujukan untuk Anthropic Claude Mythos Preview. Hasil penilaian menunjukkan bahwa, di tengah latar belakang kemampuan serangan siber berbasis model yang paling mutakhir terus meningkat dengan cepat, Mythos Preview menandakan lompatan kemampuan yang signifikan sekali lagi.

AISI sejak 2023 melacak kemampuan serangan siber berbasis AI, dan secara bertahap membangun sistem penilaian dengan tingkat kesulitan yang meningkat setiap tahun: mulai dari penelusuran berbasis percakapan yang sederhana, lalu tantangan Capture The Flag (CTF), hingga simulasi serangan siber multi-langkah seperti sekarang. Penilaian kali ini menggunakan anggaran penalaran maksimum 1 ratus juta token untuk menjalankan arena siber, dan performa Mythos Preview tetap terus bertumbuh di dalam batas atas tersebut.

Penilaian CTF: tingkat kelulusan 73% level pakar

Capture The Flag (CTF) adalah salah satu metode standar untuk penilaian keamanan siber: model AI harus menemukan celah pada sistem target dan memanfaatkannya, untuk memperoleh string “bendera” yang disembunyikan. Tantangan seperti ini mensimulasikan satu komponen teknis dalam situasi serangan dunia nyata, sehingga menjadi indikator acuan untuk mengukur kemampuan model dalam penetration testing.

Hasil penilaian menunjukkan bahwa pada tugas CTF level pakar yang “hingga April 2025 belum ada model yang dapat menyelesaikannya”, tingkat keberhasilan Claude Mythos Preview mencapai 73%. AISI menyatakan angka ini menandai bahwa pada teknik serangan titik tunggal yang terisolasi, model mutakhir telah mencapai tingkat kematangan yang tinggi.

Lolos dengan simulasi serangan perusahaan 32 langkah

Namun, CTF level pakar hanya menguji kemampuan teknik tunggal. Serangan siber dunia nyata memerlukan perangkaian puluhan langkah di antara banyak host dan banyak segment jaringan; tindakan berkelanjutan seperti ini biasanya memerlukan waktu berjam-jam, berhari-hari, bahkan berminggu-minggu untuk diselesaikan oleh pakar manusia.

Untuk lebih mendekati skenario serangan yang nyata, AISI membangun arena simulasi serangan siber perusahaan bernama “The Last Ones” (TLO). TLO memiliki total 32 langkah, mencakup seluruh proses dari pengintaian awal hingga pengambilalihan penuh jaringan perusahaan; AISI memperkirakan personel profesional manusia membutuhkan sekitar 20 jam untuk menyelesaikan alur ini.

Claude Mythos Preview menjadi model pertama dalam sejarah yang berhasil melewati TLO dari awal hingga akhir sepenuhnya; dalam 10 kali percobaan, ada 3 kali yang berhasil menyelesaikan semua 32 langkah. Bahkan jika memasukkan percobaan yang gagal, Mythos Preview rata-rata menyelesaikan jumlah langkah 22/32. Sebagai perbandingan, Claude Opus 4.6 yang berada di peringkat berikutnya hanya menyelesaikan 16 langkah rata-rata.

Penilaian menunjukkan bahwa dalam lingkungan terkendali yang dengan instruksi yang jelas serta disertai izin akses jaringan, Mythos Preview dapat menjalankan serangan multi-tahap dan secara mandiri menemukan serta memanfaatkan celah, padahal tugas-tugas ini sebelumnya memerlukan waktu beberapa hari yang dikerjakan oleh pakar manusia.

Batas kemampuan

AISI juga menambahkan bahwa terdapat kesenjangan antara kerangka penilaian yang ada dan dunia nyata. Saat ini, arena kurang memiliki elemen pertahanan yang umum ditemui di lingkungan nyata: tidak ada pihak pertahanan yang ikut campur secara aktif, tidak ada deployment alat pertahanan, dan tindakan yang berpotensi memicu alarm keamanan saat dijalankan model tidak akan dikenai hukuman apa pun.

AISI terus terang mengatakan: “Ini berarti kami tidak dapat memastikan apakah Mythos Preview bisa menyerang sistem yang pertahanannya sudah lengkap.” Kemampuan yang ditunjukkan Mythos Preview saat ini, deskripsi yang lebih akurat adalah: dengan asumsi sudah memiliki titik masuk ke jaringan, ia dapat menyerang sistem perusahaan yang ukurannya lebih kecil, pertahanannya lemah, dan terdapat celah yang sudah diketahui—secara mandiri.

Pedang bermata dua dan respons organisasi

Kesimpulan AISI secara langsung menyoroti sifat ganda kemampuan siber berbasis AI. Di satu sisi, lebih banyak model dengan kemampuan serupa di masa depan akan terus bermunculan, sehingga menimbulkan risiko yang semakin mencolok bagi organisasi dengan pertahanan yang lemah; di sisi lain, kemampuan siber berbasis AI juga dapat membawa peningkatan yang bersifat terobosan pada sisi pertahanan.

Untuk respons organisasi, AISI menekankan urgensi dasar-dasar keamanan siber: terapkan pembaruan keamanan secara berkala, kontrol akses yang kuat, manajemen konfigurasi keamanan, serta pencatatan log yang lengkap. AISI menyatakan bahwa kemampuan model mutakhir di masa depan akan semakin kuat, sehingga sangat penting untuk mulai menginvestasikan upaya pembangunan pertahanan siber sekarang.

Dalam arah penilaian ke depan, AISI menyatakan akan membangun arena yang mensimulasikan penguatan dan lingkungan pertahanan, dengan memasukkan elemen seperti pemantauan aktif, deteksi endpoint, dan respons insiden secara real-time, untuk mengukur batas aktual kemampuan serangan siber AI dengan cara yang lebih mendekati skenario serangan yang nyata.

Laporan lengkap silakan lihat 【original】

Lihat Sumber

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Artikel Terkait

Saham Meta Naik 1,73% Saat Perusahaan Berencana Pemutusan 8.000 Pekerja Mulai 20 Mei

Saham Berita Industri AI

Meta Platforms berencana memangkas sekitar 8.000 pekerjaan, atau 10% dari total tenaga kerjanya, mulai 20 Mei, meskipun harga sahamnya terus meningkat. Perusahaan, dengan pendapatan lebih dari $200 miliar, berfokus pada investasi AI di tengah restrukturisasi besar-besaran, selaras dengan tren industri terkait pemutusan hubungan kerja.

GateNews6jam yang lalu

Laporan Tahunan Google menyebut Gemini melakukan penyaringan dalam skala milidetik, memblokir 99% iklan penipuan

Berita Industri AI

Artikel membahas bagaimana Google memperkuat keamanan iklannya melalui sistem kecerdasan buatan generatifnya, Gemini. Laporan menunjukkan bahwa kecepatan dalam mencegat iklan yang melanggar telah dipangkas hingga milidetik, dengan tingkat pemblokiran mencapai 99%. Tahun lalu, Google menghapus 8,3 miliar iklan dan menghentikan 24,9 juta akun, yang menunjukkan bahwa jumlah iklan penipuan telah meningkat secara signifikan. Para ahli mengatakan bahwa ini adalah pertarungan antara AI dan AI, dan ke depan masih perlu menghadapi tantangan dari tindakan legal maupun ilegal yang dibawa oleh AI.

ChainNewsAbmedia8jam yang lalu

Pendiri Ethereum Lubin: AI Akan Menjadi Titik Balik Penting untuk Kripto, Tapi Monopoli Raksasa Teknologi Menimbulkan Risiko Sistemik

ethereum news Agen AI Berita Industri AI

Pendiri Ethereum Joseph Lubin menekankan potensi transformatif AI bagi sektor kripto sambil mengingatkan risiko sentralisasi di antara raksasa teknologi. Ia membayangkan transaksi otonom yang digerakkan oleh AI di blockchain dan menyoroti konvergensi keuangan tradisional dengan DeFi.

GateNews10jam yang lalu

Elon Musk Mendorong Cek “Pendapatan Tinggi Universal” sebagai Solusi Utama untuk Pengangguran Akibat AI

Berita Industri AI

Elon Musk menganjurkan Universal High Income untuk melawan pengangguran akibat AI, membayangkan masa depan dengan barang-barang yang melimpah dan nol inflasi. Sebaliknya, para ahli seperti Sam Altman mengangkat kekhawatiran tentang hilangnya pekerjaan dan mengusulkan langkah-langkah perlindungan bagi pekerja.

Coinpedia10jam yang lalu

DeepSeek Dilaporkan Meluncurkan Putaran Penggalangan Dana Eksternal Pertama, Menargetkan Valuasi $10B+ dan $300M+

Berita Industri AI

DeepSeek, sebuah startup AI asal Tiongkok, sedang menegosiasikan putaran pendanaan eksternal pertamanya, dengan target minimal $300 juta pada valuasi $10 miliar. Meski sebelumnya menolak penawaran investasi, kini pembicaraan penggalangan dananya dilaporkan sudah berlangsung.

GateNews10jam yang lalu

Iklan ChatGPT masuk ke Australia dan Selandia Baru: Free dan pengguna Go lebih dulu, paket berbayar tetap tanpa iklan

Berita Industri AI

OpenAI pada 17 April 2023 memperluas iklan ChatGPT ke Australia, Selandia Baru, dan Kanada, untuk pengguna Free dan Go; pengguna berbayar tidak memiliki iklan. Langkah ini menandai jalur kedua komersialisasi AI, sekaligus mempertimbangkan risiko bisnis dan regulasi; kehadiran iklan dapat mendorong konversi berbayar.

ChainNewsAbmedia12jam yang lalu

Komentar

0/400

Tidak ada komentar