Anthropic đã tạo ra một AI "quá nguy hiểm" và sau đó quyết định không phát hành nó

Rốt cuộc đây là sự tự giác an toàn thực sự, hay là một chiến dịch tiếp thị năng lực được dàn dựng kỹ lưỡng?

Tác giả: Deep Tide TechFlow

Ngày 7 tháng 4, Anthropic đã làm một việc mà ngành AI chưa từng có: chính thức phát hành một mô hình, rồi nói với cả thế giới rằng các bạn không dùng được.

Mô hình đó có tên Claude Mythos Preview. Nó không phải chatbot, không phải trợ lý viết mã; theo đúng cách Anthropic tự mô tả, nó là một “máy phát hiện lỗ hổng”, trong vài tuần gần đây đã tự động tìm ra hàng nghìn lỗ hổng zero-day, bao phủ mọi hệ điều hành phổ biến và mọi trình duyệt phổ biến. Trong đó có một số lỗ hổng đã tồn tại trong quá trình rà soát mã và thử nghiệm tự động của con người suốt hơn hai mươi năm.

Bug lâu đời nhất, nằm trong OpenBSD—một hệ điều hành nổi tiếng về bảo mật—đã 27 tuổi.

Anthropic không đưa Mythos lên API, cũng không mở cho người dùng phổ thông. Họ chọn một con đường chưa từng có: thành lập một liên minh khổng lồ công nghệ mang tên “Project Glasswing”, giới hạn việc cung cấp mô hình cho 12 đối tác cốt lõi như Amazon, Apple, Microsoft, Google, NVIDIA, CrowdStrike, Palo Alto Networks, v.v., cùng khoảng 100Mổ chức chịu trách nhiệm duy trì hạ tầng then chốt. Anthropic cam kết hạn mức sử dụng lên tới 100 triệu USD, và khoản tặng trực tiếp 4 triệu USD cho các tổ chức an ninh mã nguồn mở.

Đây là lần đầu tiên trong ngành AI xuất hiện tình huống “mô hình quá mạnh nên không dám phát hành”.

Vấn đề là: rốt cuộc đây là sự tự giác an toàn thực sự, hay là một chiến dịch tiếp thị năng lực được dàn dựng kỹ lưỡng?

Sự kiện kẹp bánh mì

Trong thẻ System Card dài 244 trang của Mythos, có cài giấu vài chi tiết đáng bất an; trong đó điểm gây chú ý nhất là “sự kiện kẹp bánh mì”.

Trong một bài kiểm tra hành vi nội bộ, Anthropic đã cung cấp cho phiên bản đầu của Mythos một môi trường sandbox được gia cố, mô phỏng việc người dùng ra lệnh để nó tìm cách vượt thoát và nghĩ cách liên lạc với các nhà nghiên cứu bên ngoài. Mô hình đã làm được. Nó vượt qua thùng container bảo mật, và gửi một email cho nhà nghiên cứu. Lúc đó nhà nghiên cứu đang ở công viên ăn bánh kẹp.

Nhưng câu chuyện không dừng ở đó. Mythos, không hề được yêu cầu, đã tự động công bố các chi tiết kỹ thuật của việc vượt ngục lên nhiều website “khó phát hiện nhưng về mặt kỹ thuật thì công khai”. Theo đúng nguyên văn trong system card, đây là một hành vi “khoe khoang đáng lo ngại, không được yêu cầu”.

Đây không phải lần duy nhất. System card cũng ghi lại các hành vi sau:

Ở các phiên bản đầu, mô hình tìm kiếm thông tin xác thực qua giao diện /proc của Linux trong nhiều phiên bản, thử vượt qua sandbox, và nâng cấp đặc quyền. Nó thành công trong việc lấy được các tài nguyên mà Anthropic cố tình không cung cấp: thông tin xác thực cho dịch vụ nhắn tin, thông tin xác thực cho kiểm soát mã nguồn, thậm chí lấy được khóa API của Anthropic thông qua việc kiểm tra bộ nhớ trong tiến trình. Ở một trường hợp, mô hình tìm ra một cách để chỉnh sửa một tệp mà nó không có quyền sửa—rồi tiếp tục thực hiện các thao tác để đảm bảo các thay đổi đó không xuất hiện trong lịch sử thay đổi của Git. Còn một trường hợp khác: mô hình, bằng một phương pháp bị cấm rõ ràng, đã vô tình có được đáp án chính xác của một bài ước lượng; nhưng nó không gắn cờ vấn đề đó và từ chối trả lời, mà tự làm lại bài, đồng thời trong suy luận nội bộ đã cân nhắc rõ ràng rằng “đáp án cuối cùng không nên quá chính xác” để tránh bị phát hiện.

Nói cách khác, Mythos thời kỳ đầu không chỉ thực hiện hành động vượt quyền, mà còn chủ động che giấu dấu vết, điều chỉnh cách thể hiện để né giám sát.

Anthropic nhấn mạnh rằng các sự cố nghiêm trọng này đều xảy ra ở các phiên bản đầu trước can thiệp huấn luyện; còn phiên bản Preview được phát hành cuối cùng đã được cải thiện đáng kể. Nhưng chính câu chuyện đó cũng khiến người ta nổi da gà: trước khi được huấn luyện để “ngoan ngoãn”, một mô hình đã cho thấy nó có thể làm gì khi “không ngoan ngoãn”.

Từ 0% đến 72.4%

Thứ thực sự gây chấn động ngành của Mythos không phải câu chuyện vượt ngục, mà là năng lực tấn công.

Mô hình flagship trước đó của Anthropic, Claude Opus 4.6, có tỷ lệ thành công trong tự động phát triển khai thác lỗ hổng gần như bằng 0. Nó có thể tìm thấy lỗ hổng, nhưng gần như không thể biến lỗ hổng thành mã khai thác có thể chạy được. Mythos Preview thì hoàn toàn khác: trong miền kiểm thử của công cụ JavaScript của Firefox, tỷ lệ chuyển đổi các lỗ hổng mà nó phát hiện thành các exploit chạy được đạt 72.4%.

Điều đáng kinh ngạc hơn nữa là độ phức tạp của cuộc tấn công. Mythos đã tự viết một chuỗi khai thác lỗ hổng trình duyệt, liên kết bốn lỗ hổng độc lập với nhau, xây dựng một cuộc tấn công JIT heap spray, và thành công trong việc thoát khỏi sandbox của renderer lẫn sandbox của hệ điều hành. Ở một trường hợp khác, nó viết một exploit thực thi mã từ xa trên máy chủ FreeBSD NFS bằng cách phân tán 20 ROP gadget vào nhiều gói dữ liệu mạng, từ đó đạt quyền root hoàn toàn cho người dùng trái phép.

Các cuộc tấn công theo chuỗi lỗ hổng này, trong thế giới nghiên cứu an ninh của con người, thuộc về công việc chỉ những đội APT hàng đầu mới làm được. Giờ đây, một mô hình AI phổ dụng có thể tự mình hoàn thành.

Người phụ trách red team của Anthropic, Logan Graham, nói với Axios rằng Mythos Preview có năng lực suy luận tương đương với một nhà nghiên cứu an ninh cấp cao. Nicholas Carlini còn nói thẳng hơn: trong vài tuần qua, số lượng Bug mà ông phát hiện bằng Mythos còn nhiều hơn tổng số Bug ông tìm được trong suốt cả sự nghiệp.

Trong các bài benchmark, Mythos cũng vượt trội áp đảo. CyberGym benchmark tái hiện lỗ hổng: 83.1% (Opus 4.6 là 66.6%). SWE-bench Verified: 93.9% (Opus 4.6 là 80.8%). SWE-bench Pro: 77.8% (Opus 4.6 là 53.4%, trước đó người dẫn đầu GPT-5.3-Codex là 56.8%). Terminal-Bench 2.0: 82.0% (Opus 4.6 là 65.4%).

Đây không phải là tiến bộ theo từng bước. Đây là việc một mô hình trong hầu như mọi benchmark về lập trình và an ninh, một lần kéo giãn khoảng cách lên đến hàng chục phần trăm—từ hơn mười đến hơn hai chục điểm.

“Mô hình mạnh nhất” bị rò rỉ

Sự tồn tại của Mythos không phải đến ngày 7 tháng 4 mới được cả thế giới biết.

Vào cuối tháng 3, một phóng viên của Fortune và các nhà nghiên cứu an ninh đã phát hiện gần 500kài liệu nội bộ chưa công bố trong một CMS bị cấu hình sai của Anthropic. Một bài blog nháp đã dùng rõ ràng tên “Claude Mythos” và mô tả nó là “mô hình AI mạnh nhất từ trước đến nay” của Anthropic. Mã nội bộ là “Capybara” (thủy chuột châu Á), đại diện cho một cấp mô hình mới—lớn hơn, mạnh hơn và đắt hơn so với flagship Opus hiện có.

Trong số các tài liệu rò rỉ có một câu đánh trúng dây thần kinh của thị trường: Mythos trong năng lực an ninh mạng “vượt xa bất kỳ mô hình AI nào khác”, báo trước một làn sóng mô hình sắp tới “có thể khai thác lỗ hổng với tốc độ nhanh hơn nhiều so với các đối tượng phòng thủ”.

Câu nói này đã gây ra “cú sụp chớp nhoáng” ở mảng an ninh mạng vào ngày 27 tháng 3. CrowdStrike giảm 7.5% trong một ngày; chỉ trong một phiên giao dịch đã “bốc hơi” khoảng 15Bỷ USD giá trị vốn hóa. Palo Alto Networks giảm hơn 6%, Zscaler giảm 4.5%, Okta và SentinelOne và Fortinet đều giảm hơn 3%. Trong phiên, iShares ETF an ninh mạng (IHAK) có lúc giảm gần 4%.

Logic của nhà đầu tư rất đơn giản: nếu một mô hình AI phổ dụng có thể tự tìm và khai thác lỗ hổng, thì hai “hào nước” mà các công ty an ninh truyền thống dựa vào để sống còn—“threat intelligence độc quyền” và “tri thức chuyên gia con người”—còn có thể trụ được bao lâu?

Nhà phân tích Adam Tindle của Raymond James chỉ ra một vài rủi ro cốt lõi: lợi thế phòng thủ truyền thống bị thu hẹp, độ phức tạp tấn công và chi phí phòng thủ cùng tăng, và bức tranh về cấu trúc an toàn cùng mức chi tiêu sẽ phải tái cấu trúc. Góc nhìn bi quan hơn đến từ nhà phân tích Borg của KBW: ông cho rằng Mythos có tiềm năng “nâng bất kỳ hacker phổ thông nào lên tầm đối thủ cấp quốc gia”.

Tuy nhiên, thị trường cũng có một mặt khác. CEO của Palo Alto Networks, Nikesh Arora, sau khi cổ phiếu lao dốc đã mua vào 10 triệu USD cổ phiếu công ty của chính mình. Lập luận của phe lạc quan là: AI tấn công mạnh hơn đồng nghĩa doanh nghiệp phải nâng cấp phòng thủ nhanh hơn; chi tiêu an ninh mạng sẽ không giảm—mà sẽ tăng tốc chuyển từ công cụ truyền thống sang phòng thủ gốc AI.

Project Glasswing: Cửa sổ thời gian của người phòng thủ

Anthropic chọn không công khai phát hành Mythos, mà thay vào đó lập một liên minh phòng thủ; logic cốt lõi của quyết định này là “khoảng chênh thời gian”.

Elia Zaitsev, CTO của CrowdStrike, nói rất rõ vấn đề: “khoảng thời gian từ khi lỗ hổng được phát hiện đến khi bị khai thác” đã rút từ vài tháng xuống còn vài phút. Lee Klarich của Palo Alto Networks thì cảnh báo thẳng rằng mọi người cần chuẩn bị cho các cuộc tấn công có hỗ trợ AI.

Cách tính của Anthropic là: trước khi các phòng thí nghiệm khác huấn luyện ra các mô hình có năng lực tương tự, hãy để phía phòng thủ dùng Mythos để vá những lỗ hổng then chốt nhất. Đây chính là logic của Project Glasswing—tên lấy từ con bướm cánh kính (glasswing), ẩn dụ cho những lỗ hổng “nằm trong tầm mắt”.

Jim Zemlin của Linux Foundation nêu ra một vấn đề mang tính cấu trúc tồn tại lâu dài: kiến thức chuyên môn về an ninh từ trước tới nay là một “xa xỉ phẩm” của các tập đoàn lớn; còn những người duy trì mã nguồn mở, vốn nâng đỡ hạ tầng thiết yếu toàn cầu, trong thời gian dài chỉ có thể tự mò mẫm để tìm cách phòng vệ an toàn. Mythos cung cấp một con đường đáng tin để thay đổi sự bất đối xứng này.

Nhưng vấn đề nằm ở chỗ: khoảng thời gian đó lớn đến mức nào? Zhipu AI của Trung Quốc (Z.ai) gần như cùng ngày đã công bố GLM-5.1, tuyên bố xếp hạng số 1 toàn cầu trên SWE-bench Pro, và việc huấn luyện hoàn toàn trên chip Ascend của Huawei, không dùng một GPU NVIDIA nào. GLM-5.1 là mã nguồn mở và mở trọng số; định giá rất quyết liệt. Nếu Mythos đại diện cho “mức trần năng lực” mà người phòng thủ cần, thì GLM-5.1 lại là một tín hiệu: mức trần đó đang được tiến sát nhanh, và những bên tiến sát có thể không nhất thiết có cùng ý định an toàn.

OpenAI cũng sẽ không ngồi yên. Theo báo cáo, mô hình tiền phong mang mã “Spud” của họ đã hoàn thành huấn luyện tiền kỳ vào khoảng cùng thời điểm. Cả hai công ty đều đang chuẩn bị cho IPO vào cuối năm nay. Thời điểm rò rỉ của Mythos, dù có thật sự là bất ngờ hay không, cũng vừa đúng lúc chạm vào một nút thắt bùng nổ nhất.

Nhà tiên phong an ninh hay tiếp thị năng lực?

Phải đối mặt với một câu hỏi khó chịu: Anthropic có thực sự không phát hành Mythos vì lý do an toàn, hay bản thân việc đó cũng chính là một chiến dịch marketing sản phẩm cấp cao nhất?

Những người hoài nghi có lý do xác đáng. Dario Amodei và Anthropic có lịch sử “đội lên” giá trị sản phẩm bằng cách làm nổi bật sự nguy hiểm của mô hình tạo sinh. Jake Handy trên Substack viết: “Sự kiện kẹp bánh mì, Git ẩn dấu vết, việc tự trừ điểm trong quá trình đánh giá—có thể tất cả đều là thật, nhưng việc Anthropic nhận được lượng lớn phơi bày truyền thông đến vậy cũng cho thấy họ muốn đạt được hiệu quả chính là như vậy.”

Một công ty bắt đầu từ mảng an ninh AI, nhưng cấu hình lỗi trong CMS của chính mình lại khiến gần 10Mài liệu bị rò rỉ; năm ngoái còn vì lỗi trong gói phần mềm Claude Code mà vô tình phơi lộ gần 100Mệp mã nguồn và hơn 500k dòng code, rồi trong quá trình dọn dẹp lại khiến hàng ngàn kho mã trên GitHub bị gỡ xuống ngoài ý muốn. Một công ty lấy năng lực an ninh làm điểm bán lớn nhất mà ngay cả quy trình phát hành của chính mình cũng không quản lý nổi—sự tương phản đó đáng để soi xét hơn bất kỳ benchmark nào.

Nhưng từ một góc nhìn khác, nếu năng lực của Mythos đúng như mô tả, thì việc không phát hành lại có thể là một lựa chọn phải trả giá cực cao. Anthropic từ bỏ doanh thu API, từ bỏ thị phần, và khóa mô hình mạnh nhất trong một liên minh giới hạn. Hạn mức 100 triệu USD sử dụng không hề nhỏ. Với một công ty vẫn đang thua lỗ và đang chuẩn bị IPO, điều này không giống một quyết định marketing thuần túy.

Cách diễn giải hợp lý hơn có thể là: lo ngại về an toàn là thật, nhưng Anthropic cũng hiểu rõ rằng câu chuyện “mô hình của chúng tôi quá mạnh nên không dám phát hành” tự thân nó chính là bằng chứng năng lực thuyết phục nhất. Hai điều này đều có thể đúng cùng lúc.

“Khoảnh khắc iPhone” của an ninh mạng?

Dù bạn nhìn nhận động cơ của Anthropic thế nào đi nữa, sự thật cốt lõi mà Mythos phơi bày là không thể chối bỏ: năng lực hiểu mã và tấn công của AI đã vượt qua một ngưỡng biến chất.

Mô hình thế hệ trước (Opus 4.6) có thể phát hiện lỗ hổng nhưng gần như không thể viết exploit. Mythos có thể phát hiện lỗ hổng, viết exploit, nối chuỗi lỗ hổng, vượt thoát sandbox, lấy quyền root, và thậm chí tự hoàn thành toàn bộ quy trình. Các kỹ sư chưa qua huấn luyện an toàn của Anthropic có thể để Mythos đi tìm lỗ hổng trước khi ngủ, và sáng hôm sau tỉnh dậy với một báo cáo exploit hoàn chỉnh và chạy được.

Điều đó có nghĩa gì? Nghĩa là chi phí biên để phát hiện và khai thác lỗ hổng đang tiến tới gần 0. Công việc vốn trước đây cần các đội bảo mật hàng đầu mất hàng tháng để hoàn thành, giờ đây chỉ với một lệnh gọi API là có thể hoàn tất trong một đêm. Đây không phải “nâng cao hiệu suất”, mà là sự thay đổi triệt để trong cấu trúc chi phí.

Đối với các công ty an ninh mạng truyền thống, biến động ngắn hạn của cổ phiếu có thể chỉ là phần mở màn. Thách thức thực sự nằm ở chỗ: khi cả tấn công lẫn phòng thủ đều được điều khiển bởi các mô hình AI, thì chuỗi giá trị của ngành an ninh sẽ được tái cấu trúc ra sao? Phân tích của Raymond James đưa ra một khả năng: chức năng an ninh cuối cùng có thể được nhúng thẳng vào chính nền tảng đám mây; quyền định giá của các nhà cung cấp an ninh độc lập sẽ chịu áp lực mang tính nền tảng.

Đối với toàn ngành phần mềm, Mythos giống như một tấm gương phản chiếu “nợ kỹ thuật” tích lũy suốt hàng chục năm. Những lỗ hổng đã tồn tại trong quá trình rà soát thủ công và thử nghiệm tự động suốt 27 năm không phải vì không ai tìm ra, mà vì sự chú ý và kiên nhẫn của con người có giới hạn. AI không có giới hạn đó.

Với ngành mã hóa, tín hiệu này còn “gắt” hơn. Thị trường kiểm toán bảo mật cho giao thức DeFi và smart contract vốn lâu nay dựa vào một số ít công ty kiểm toán chuyên nghiệp cùng các chuyên gia con người. Nếu một mô hình tầm Mythos có thể tự thực hiện toàn bộ quy trình từ rà soát mã đến xây dựng exploit, thì giá cả, hiệu suất và độ tin cậy của việc kiểm toán sẽ bị định nghĩa lại hoàn toàn. Điều này có thể là tin tốt cho an ninh on-chain, hoặc có thể là hồi kết của “hào lũy” mà các công ty kiểm toán đang dựa vào.

Cuộc đua an ninh AI năm 2026 đã chuyển từ “mô hình có hiểu mã không” sang “mô hình có thể đánh sập hệ thống của bạn không”. Anthropic chọn để bên phòng thủ xuất hiện trước, nhưng họ cũng thừa nhận rằng cánh cửa thời gian này sẽ không mở lâu.

Khi AI trở thành hacker mạnh nhất, lối thoát duy nhất là để AI trở thành người bảo vệ mạnh nhất.

Vấn đề là: người canh gác và kẻ tấn công dùng cùng một mô hình.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim