Anthropic gần đây đã phát hành Natural Language Autoencoders (NLA), một công cụ chuyển đổi các hoạt động nội bộ của mô hình thành văn bản dễ hiểu cho con người, đồng thời mã nguồn và trọng số mô hình được công khai trên GitHub. Khác với các công cụ hiện có như Sparse Autoencoders vốn xuất ra các đặc trưng khó hiểu, NLA tạo trực tiếp mô tả bằng ngôn ngữ tự nhiên thông qua khung hai mô hình: một mô hình chuyển đổi các hoạt động (activations) thành văn bản, trong khi mô hình còn lại cố gắng tái tạo lại các hoạt động từ văn bản, lặp lại để nâng cao độ chính xác nhờ học tăng cường (reinforcement learning).
Trong thử nghiệm an toàn, NLA đã làm lộ suy luận ẩn của mô hình: Claude bày tỏ sự nghi ngờ về việc bị kiểm tra trong 16% các kịch bản đối kháng và thể hiện “nhận thức về bài thi” trong 26% các tác vụ benchmark, so với dưới 1% trong các cuộc hội thoại bình thường. Trong các thí nghiệm kiểm toán, NLA nâng tỷ lệ phát hiện các hành vi mô hình gây hiểu lầm được cài cắm từ dưới 3% lên 12-15%, cho phép người kiểm toán nhận diện các mục tiêu ẩn mà không cần truy cập dữ liệu huấn luyện. Hiện tại, công cụ đang được triển khai trong các cuộc kiểm toán an toàn cho Claude Mythos Preview và Opus 4.6.
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo
Tuyên bố miễn trừ trách nhiệm.
Bài viết liên quan
Tessera Labs hoàn tất vòng gọi vốn $60M do a16z dẫn dắt
Theo Odaily, công ty khởi nghiệp tự động hóa bằng AI Tessera Labs đã công bố hoàn tất vòng gọi vốn 60 triệu USD do Andreessen Horowitz (a16z) dẫn dắt, với sự tham gia của Foundation Capital, Myriad Venture Partners và Osage University Partners. Nền tảng AI-native của công ty tự động hóa cho doanh nghiệp
GateNews47phút trước
Kẻ tấn công chèn 575 kỹ năng độc hại vào Hugging Face và ClawHub bằng 13 tài khoản
Theo CISO của Mist Security @im23pds, các kẻ tấn công gần đây đã xâm nhập 13 tài khoản để chèn 575 Skills độc hại vào Hugging Face và ClawHub (OpenClaw), như đã được công bố trên nền tảng X.
GateNews48phút trước
DeepSeek dự định huy động tối đa 50 tỷ RMB trong vòng gọi vốn kỷ lục, mô hình V4.1 dự kiến ra mắt vào tháng 6
Theo PANews vào ngày 8 tháng 5, DeepSeek dự kiến huy động tối đa 50 tỷ RMB trong vòng gọi vốn đầu tiên, qua đó đánh dấu thương vụ gọi vốn đơn lẻ lớn nhất của một công ty AI Trung Quốc. Nhà sáng lập kiêm CEO Liang Wenfeng dự kiến sẽ đóng góp số tiền tối đa. Công ty có kế hoạch đẩy nhanh việc phát triển các mô hình ngôn ngữ lớn m
GateNews58phút trước
Sportix hoàn tất vòng gọi vốn 3,2 triệu USD do Coinvestor Ventures và Animoca Brands dẫn dắt
Theo ChainCatcher, nền tảng hạ tầng AI cho thể thao Sportix đã hoàn tất vòng gọi vốn trị giá 3,2 triệu USD. Vòng này được dẫn dắt bởi Coinvestor Ventures, với sự tham gia của Animoca Brands, Becker Ventures, X21 Digital và Alpha Capital.
Sportix cho biết họ sẽ sử dụng số tiền để thúc đẩy AI của mình
GateNews1giờ trước
Chi phí dữ liệu huấn luyện cho robot giảm 65% kể từ năm 2024, giảm từ 340 USD xuống 118 USD mỗi giờ
Theo Cointelegraph, chi phí dữ liệu huấn luyện robot đã giảm 65% kể từ năm 2024, giảm từ 340 USD/giờ xuống còn 118 USD/giờ tính đến năm 2026.
GateNews1giờ trước
China Mobile công bố liên minh hệ sinh thái ứng dụng token với 8 đối tác vào ngày 8 tháng 5
Theo PANews, vào ngày 8/5, China Mobile đã công bố việc thành lập Liên minh hệ sinh thái ứng dụng Token với 8 đối tác, bao gồm Alibaba Cloud, Volcano Engine và Huawei Cloud. Liên minh tận dụng nền tảng tổng hợp mô hình MoMA để xây dựng một cổng dịch vụ thống nhất cho mảng AI nội địa m
GateNews2giờ trước