#GatePreIPOsLaunchesWithSpaceX


Anthropic vừa ra mắt phiên bản mới: Claude Opus 4.7 😈

Anthropic vừa mới ra mắt Claude Opus 4.7 — mô hình công cộng mạnh nhất của họ tính đến hôm nay. Và trong bảng so sánh còn có Claude Mythos Preview — “quái vật” nội bộ, chưa được cung cấp rộng rãi (do khả năng siêu việt về cyber).

Lập trình theo tác nhân (quan trọng nhất đối với các nhà phát triển)
SWE-bench Pro (các nhiệm vụ thực tế phức tạp về sửa lỗi):
Mythos Preview — 77.8% | Opus 4.7 — 64.3% | Opus 4.6 — 53.4% | GPT-5.4 — 57.7%
SWE-bench Verified: Mythos — 93.9% | Opus 4.7 — 87.6% | Opus 4.6 — 80.8%

Đây là bước nhảy vọt lớn. Mythos gần như gấp đôi kết quả của các mô hình năm 2024–2025 trên các nhiệm vụ thực tế trên GitHub.
Terminal-Bench 2.0 (làm việc trong terminal, lập trình theo tác nhân):
Mythos — 82.0% | GPT-5.4 — 75.1% | Opus 4.7 — 69.4%

Tư duy đa chiều và các nhiệm vụ phức tạp Humanity’s Last Exam (một trong những “kỳ thi cuối cùng của nhân loại” khắt khe nhất, đa ngành, trình độ cao):

Mythos — 56.8% | Opus 4.7 — 46.9% Với công cụ: Mythos — 64.7% | Opus 4.7 — 54.7%
GPQA Diamond (mức độ tư duy khoa học cao): Tất cả các mô hình hàng đầu khoảng 94%, Mythos nhỉnh hơn — 94.6%.

Khả năng tác nhân
Sử dụng công cụ mở rộng (MCP-Atlas):
Opus 4.7 — 77.3% (dẫn đầu trong số các mô hình khả dụng)
Sử dụng máy tính tác nhân (OSWorld-Verified): Opus 4.7 — 78.0% | Mythos — 79.6%
Tìm kiếm tác nhân (BrowseComp): GPT-5.4 dẫn đầu với 89.3%, Mythos — 86.9%
Tái tạo lỗ hổng an ninh mạng (CyberGym): Mythos — 83.1% (đặc biệt mạnh mẽ trong lĩnh vực này)

Tư duy hình ảnh và đa phương thức CharXiv Reasoning: Opus 4.7 không công cụ — 82.1% | có công cụ — 91.0% Mythos — 93.2% có công cụ.
Hỏi đáp đa ngôn ngữ (MMMLU): Opus 4.7 và 4.6 — khoảng 91%, Gemini 3.1 Pro — 92.6%.

Opus 4.7 là lựa chọn tốt nhất hiện nay cho hầu hết các nhiệm vụ:
Hiệu quả cao hơn đáng kể so với Opus 4.6 gần như trong mọi lĩnh vực (đặc biệt trong lập trình theo tác nhân, sử dụng máy tính, reasoning hình ảnh và phân tích tài chính).
Giá vẫn giữ nguyên: $5 / $25 cho triệu token.
Có sẵn cho tất cả qua Claude, API, Bedrock, Vertex AI, v.v.
Cải thiện khả năng xử lý hình ảnh chất lượng cao (đến 3.75 MP), mức độ nỗ lực “extra high” mới, đánh giá siêu cao trong Claude Code và nhiều tính năng khác.

Mythos Preview thực sự là một con quái vật — đây là cấp độ tiếp theo. Nó gần như chiếm ưu thế trong hầu hết các benchmark tác nhân và phức tạp. Anthropic giữ nó trong chế độ truy cập hạn chế (Project Glasswing), vì mô hình đặc biệt mạnh trong việc tìm kiếm và tái tạo lỗ hổng trong mã nguồn. Về cơ bản — đây là “vũ khí cyber” cấp frontier, hiện đang được thử nghiệm với các biện pháp bảo vệ nâng cao. Anthropic nói rõ: Opus 4.7 thua Mythos gần như về mọi mặt, nhưng an toàn hơn và đã sẵn sàng cho sản xuất.

Năm 2026 — không còn chỉ là “chatbot” nữa. Chúng ta đang chứng kiến các tác nhân thực thụ, có thể làm việc hàng giờ trong terminal, sửa mã thực, phân tích tài chính và giải quyết các nhiệm vụ cấp độ PhD.
Opus 4.7 đã có thể đưa vào sản xuất cho các quy trình phức tạp. Mythos cho thấy hướng đi của ngành trong vài tháng tới.

Chắc hẳn đây đã là tương lai ngay từ bây giờ?
Bạn nghĩ sao? 🤝
Xem bản gốc
post-image
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim