Anthropic merilis senjata baru: Claude Opus 4.7 😈

Anthropic baru saja meluncurkan Claude Opus 4.7 — model paling kuat yang dapat diakses umum hingga saat ini. Dan dalam tabel perbandingan mereka juga menunjukkan Claude Mythos Preview — “monster” internal yang belum diberikan ke semua orang (karena kemampuan cybernya yang kuat).

Pemrograman agen (paling penting untuk pengembang)
SWE-bench Pro (tugas nyata yang kompleks dalam memperbaiki bug):
Mythos Preview — 77,8% | Opus 4.7 — 64,3% | Opus 4.6 — 53,4% | GPT-5.4 — 57,7%
SWE-bench Verified: Mythos — 93,9% | Opus 4.7 — 87,6% | Opus 4.6 — 80,8%

Ini lonjakan besar. Mythos hampir menggandakan hasil model tahun 2024–2025 pada tugas GitHub nyata.
Terminal-Bench 2.0 (kerja di terminal, pengkodean agen):
Mythos — 82,0% | GPT-5.4 — 75,1% | Opus 4.7 — 69,4%

Pemikiran multilateral dan tugas kompleks Humanity’s Last Exam (salah satu “ujian terakhir manusia” yang paling keras, multidisiplin, tingkat pascasarjana):

Mythos — 56,8% | Opus 4.7 — 46,9% Dengan alat: Mythos — 64,7% | Opus 4.7 — 54,7%
GPQA Diamond (tingkat tinggi pemikiran ilmiah):Semua model teratas sekitar 94%, Mythos sedikit di depan — 94,6%.

Kemampuan agen
Penggunaan alat skala (MCP-Atlas):
Opus 4.7 — 77,3% (pemimpin di antara yang tersedia)
Penggunaan komputer agenik (OSWorld-Verified): Opus 4.7 — 78,0% | Mythos — 79,6%
Pencarian agenik (BrowseComp): GPT-5.4 memimpin dengan 89,3%, Mythos — 86,9%
Reproduksi kerentanan keamanan siber (CyberGym): Mythos — 83,1% (di sini sangat kuat dan berbahaya)

Pemikiran visual dan multimodalitas CharXiv Reasoning: Opus 4.7 tanpa alat — 82,1% | dengan alat — 91,0% Mythos — 93,2% dengan alat.
Q&A multibahasa (MMMLU): Opus 4.7 dan 4.6 — sekitar 91%, Gemini 3.1 Pro — 92,6%.

Opus 4.7 — ini pilihan terbaik saat ini untuk sebagian besar tugas:
Jauh lebih baik dari Opus 4.6 hampir di semua aspek (terutama dalam pengkodean agen, penggunaan komputer, reasoning visual, dan analisis keuangan).
Harga tetap sama: $5 / $25 per juta token.
Tersedia untuk semua melalui Claude, API, Bedrock, Vertex AI, dan lain-lain.
Peningkatan kerja dengan gambar berkualitas tinggi (hingga 3,75 MP), level effort “extra high” baru, ultra review di Claude Code, dan lain-lain.

Mythos Preview benar-benar monster — ini level berikutnya. Ia mendominasi hampir semua benchmark agen dan tugas kompleks. Anthropic membatasinya dalam akses terbatas (Project Glasswing), karena model ini sangat kuat dalam pencarian dan reproduksi kerentanan dalam kode. Pada dasarnya — ini adalah “senjata cyber” level frontier, yang saat ini sedang diuji dengan safeguard yang diperkuat. Anthropic secara langsung mengatakan: Opus 4.7 kalah jauh dari Mythos di hampir semua aspek, tetapi lebih aman dan sudah tersedia untuk produksi.

Tahun 2026 — ini bukan lagi sekadar “chatbot”. Kita melihat agen nyata yang bisa bekerja berjam-jam di terminal, memperbaiki kode nyata, menganalisis keuangan, dan menyelesaikan tugas tingkat PhD.
Opus 4.7 sudah bisa digunakan dalam produksi untuk workflow yang kompleks. Mythos memberi petunjuk ke mana industri akan bergerak dalam beberapa bulan ke depan.

Mungkin ini sudah masa depan saat ini?
Bagaimana menurut Anda? 🤝

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

1 Suka