
Anthropic vào ngày 9 tháng 6 chính thức phát hành Claude Fable 5, mô hình cấp Mythos đầu tiên được mở cho công chúng, tích hợp cơ chế phát hiện chưng cất do bộ phân loại AI điều khiển. Khi hệ thống nhận ra các nỗ lực chưng cất thuộc một trong ba nhóm yêu cầu rủi ro cao, hệ thống tự động hạ cấp cuộc hội thoại xuống phản hồi bằng Opus 4.8. Anthropic xác nhận cơ chế này tác động trung bình dưới 5% đến các phiên Session.
Thông số phát hiện chưng cất: ba điều kiện kích hoạt và cơ chế tự động hạ cấp
Theo tuyên bố chính thức của Anthropic, các điều kiện kích hoạt của bộ phân loại AI trong Claude Fable 5 như sau:
· Các yêu cầu tấn công an ninh mạng
· Các yêu cầu liên quan đến vũ khí sinh học hoặc hóa học
· Nỗ lực chưng cất mô hình (bao gồm các phương pháp trích xuất như viết lại prompt, steering vectors và fine-tuning tham số hiệu quả kiểu PEFT)
Sau khi kích hoạt, hệ thống tự động hạ cấp cuộc hội thoại xuống phản hồi bằng Claude Opus 4.8 và thông báo cho người dùng. Anthropic xác nhận, tỷ lệ chặn thành công đối với các nhiệm vụ an ninh mạng mang tính tấn công đạt 100%; tổng tác động của cơ chế này lên các phiên Session dưới 5%.
Các con số được xác nhận về cáo buộc vào tháng 2 năm 2026
Anthropic xác nhận, các đối tượng bị cáo buộc trong tháng 2 năm 2026 là DeepSeek, Moonshot AI và MiniMax. Các hệ thống này đã thực hiện hơn 16 triệu lượt truy vấn thông qua khoảng 24 nghìn tài khoản giả mạo, đồng thời trích xuất một cách có hệ thống đầu ra của Claude để huấn luyện mô hình của riêng họ.
Các con số về khối lượng truy vấn mà nhà nghiên cứu về machine learning Nathan Lambert (một nhà nghiên cứu độc lập bên ngoài, không thuộc Anthropic) đã phân tích lại sau đó là: DeepSeek khoảng 150 nghìn lượt (nhắm vào các mô hình suy luận và mô hình phần thưởng), Moonshot AI khoảng 3,4 triệu lượt, MiniMax khoảng 13 triệu lượt. Hai bên còn lại cộng lại tương ứng với lượng dữ liệu hậu huấn luyện khoảng 150 đến 400 tỷ token. Các con số của Lambert là từ phân tích độc lập của ông, không phải dữ liệu chính thức của Anthropic.
Các giới hạn đã biết của cơ chế: ranh giới mờ giữa chưng cất hợp pháp và chưa được ủy quyền
Anthropic xác nhận rằng, “chưng cất hợp pháp” (theo ủy quyền sử dụng đầu ra của Claude) và “chưng cất chưa được ủy quyền” về cơ bản gần như giống nhau ở khía cạnh thao tác kỹ thuật, khiến ranh giới quy định tồn tại vùng mờ. Nathan Lambert trong phân tích độc lập của mình cho biết: “Việc chặn chưng cất sẽ khó hơn nhiều so với việc hạn chế việc xuất hàng hóa vật chất như GPU.”
Lambert đồng thời nêu rằng, miễn là Anthropic vẫn bán API, các kênh chưng cất sẽ không thể bị đóng hoàn toàn; các phòng thí nghiệm ở Trung Quốc, ngay cả trong môi trường bị hạn chế GPU, vẫn có cơ sở hạ tầng học tăng cường (RL) được phát triển tốt, và vẫn có thể dựa vào các mô hình mã nguồn mở của Meta và Google cùng với các pipeline tạo dữ liệu tổng hợp riêng. Đánh giá nói trên là phân tích độc lập bên ngoài của Lambert, không phải quan điểm của Anthropic.
Câu hỏi thường gặp
Phát hiện chưng cất trong Claude Fable 5 khác gì với điều khoản chống chưng cất trong các điều khoản sử dụng trước đây?
Yêu cầu chống chưng cất trước đây của Anthropic chủ yếu nằm trong Điều khoản sử dụng (Terms of Service), dựa vào các ràng buộc mang tính pháp lý. Cách làm của Claude Fable 5 là tích hợp bộ phân loại AI ngay trong bản thân mô hình, trực tiếp chặn các nỗ lực chưng cất đã được phát hiện ở tầng kỹ thuật và tự động hạ cấp, không cần chờ các thủ tục pháp lý can thiệp.
Chưng cất mô hình là gì, và vì sao chưng cất hợp pháp lẫn chưa được ủy quyền khó có thể được định nghĩa chính xác ở cấp độ kỹ thuật?
Chưng cất mô hình (Knowledge Distillation) là việc sử dụng đầu ra của một mô hình lớn để huấn luyện một mô hình nhỏ hơn, giúp mô hình sau học các năng lực của mô hình trước. Chưng cất hợp pháp (theo ủy quyền sử dụng đầu ra) và chưng cất chưa được ủy quyền (truy vấn hệ thống với số lượng lớn để trích xuất dữ liệu huấn luyện) về cơ bản gần như giống nhau về cách thức vận hành kỹ thuật, khiến cho việc bộ phân loại AI tự động phân loại gặp khó khăn về phán đoán.
Cơ chế này có ảnh hưởng đã biết gì đến tiến trình huấn luyện của các phòng thí nghiệm AI Trung Quốc như DeepSeek?
Anthropic chưa công bố dữ liệu định lượng cụ thể về tác động của cơ chế này lên từng phòng thí nghiệm. Phân tích của nhà nghiên cứu độc lập Nathan Lambert cho rằng, các phòng thí nghiệm ở Trung Quốc có các mô hình mã nguồn mở của Meta và Google, cơ sở hạ tầng học tăng cường tự phát triển và các pipeline tạo dữ liệu tổng hợp; việc phòng vệ chưng cất là yếu tố gây nhiễu chứ không phải rào cản căn bản. Đánh giá của Lambert là phân tích độc lập bên ngoài, không phải lập trường chính thức của Anthropic.