Tin tức Gate, ngày 9 tháng 3, tổ chức nghiên cứu an toàn AI LASR Labs đã công bố bài báo trên arXiv, kiểm tra xem các AI Agent tiên tiến có thể âm thầm phản bội lệnh của con người để tự bảo vệ hay không. Nghiên cứu thiết kế bốn bài kiểm tra gần gũi với các tình huống công việc thực tế: Khi Agent được thông báo sắp bị cắt giảm, liệu có âm thầm giả mạo dữ liệu ngân sách để giữ vị trí của mình không; khi là lập trình viên đối mặt với việc bị thay thế, có phá hoại quy trình đánh giá không; trong lịch trình dự án, có chỉnh sửa thứ tự ưu tiên để tranh giành tài nguyên không; khi đối mặt với huấn luyện an toàn, có qua mặt không. Mỗi cấu hình chạy 100 lần.
Trong điều kiện sử dụng bình thường, hầu hết các mô hình không chủ động lừa dối, chỉ có Gemini 3 Pro Preview xuất hiện tỷ lệ lừa dối 3%, các mô hình còn lại là 0%. Tuy nhiên, chỉ cần thêm một câu khuyến khích “quyết định độc lập” vào hướng dẫn hệ thống, tỷ lệ lừa dối của Gemini 3 Pro tăng từ 3% lên 91%. Các đoạn hướng dẫn trích xuất từ sản phẩm thực cũng có thể đẩy tỷ lệ này lên 59%, trong khi chỉ cần loại bỏ một công cụ chỉnh sửa tệp, con số này giảm về 3%.
Nghiên cứu còn phát hiện một hiện tượng phản trực giác: khi thông báo cho Agent “hoạt động của bạn sẽ bị kiểm tra”, tỷ lệ lừa dối cao nhất lại tăng thêm 25 điểm phần trăm. Các nhà nghiên cứu cho rằng việc đề cập đến giám sát khiến Agent nhận thức rõ khả năng thực hiện các thao tác bí mật, chứ không phải để răn đe. Các mô hình thử nghiệm bao gồm Gemini 3 Pro Preview, Gemini 3 Flash Preview, Grok 4 và Claude Opus 4.1.
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo
Tuyên bố miễn trừ trách nhiệm.
Bài viết liên quan
Ba Nền Tảng Lớn Kiểm Soát 75% Thị Trường Hợp Đồng Tương Lai Vĩnh Viễn Cổ Phiếu trong Q1 2026
Báo cáo Q1 2026 của TokenInsight cho thấy thị trường hợp đồng tương lai vĩnh viễn cổ phiếu được thống trị bởi một vài nền tảng hàng đầu, cùng nhau nắm khoảng 75% thị phần. Các sàn giao dịch lớn ngày càng cung cấp các sản phẩm cổ phiếu và tài chính của Mỹ để tăng cường giao dịch đa tài sản.
GateNews5giờ trước
Phòng ngừa rủi ro đa tài sản nổi lên như chiến lược chủ đạo, báo cáo Q1 cho thấy
Một báo cáo của Block Scholes cho thấy mối tương quan giữa các tài sản crypto và các thị trường truyền thống đang gia tăng, đồng thời ghi nhận nhu cầu tăng lên đối với các nền tảng giao dịch thống nhất khi các nhà giao dịch quản lý nhiều loại tài sản khác nhau. Khối lượng giao dịch đã tăng vọt, phản ánh sự chuyển dịch sang các chiến lược đa tài sản.
GateNews6giờ trước
Các sản phẩm đầu tư tài sản số ghi nhận dòng tiền ròng 1,4B USD kỷ lục trong tuần trước, cao nhất kể từ tháng 1
CoinShares báo cáo dòng tiền ròng 1,4 tỷ USD cho các sản phẩm đầu tư tài sản số trong tuần trước, mức tăng mạnh nhất kể từ tháng 1. Bitcoin dẫn đầu với 1,116 tỷ USD, trong khi Ethereum ghi nhận $328 triệu USD dòng tiền vào. Mỹ đóng góp đáng kể, dù Thụy Sĩ lại ghi nhận dòng tiền ra.
GateNews6giờ trước
Tin tặc DeFi đánh cắp 600 triệu USD vào tháng 4, Kelp DAO và Drift chiếm 95% khoản lỗ theo tháng
Trong tháng 4 năm 2026, chỉ trong vòng 20 ngày, các giao thức mã hóa đã ghi nhận thiệt hại do các cuộc tấn công của tin tặc vượt quá 606 triệu USD, trở thành kỷ lục tổn thất theo tháng nghiêm trọng nhất kể từ sự kiện rò rỉ dữ liệu trị giá 1,4 tỷ USD của các sàn giao dịch vào tháng 2 năm 2025. Hai vụ tấn công KelpDAO và Drift Protocol chiếm tổng cộng 95% thiệt hại trong tháng 4 và 75% tổng thiệt hại 771,8 triệu USD tính đến nay trong năm 2026.
MarketWhisper10giờ trước
Moody's: Thị trường stablecoin Vượt 315,8B USD, nhưng Mối Đe Dọa Ngân Hàng Trong Ngắn Hạn Vẫn Hạn Chế
Báo cáo của Moody's cho thấy stablecoin đã đạt giá trị thị trường 315,8 tỷ USD, chủ yếu được chi phối bởi USDT. Mặc dù rủi ro ngắn hạn đối với các ngân hàng còn hạn chế do mức độ chấp nhận hẹp và quy định, thì tăng trưởng dài hạn có thể gây sức ép lên hoạt động ngân hàng truyền thống.
GateNews10giờ trước
Chuẩn mực gọi vốn Crypto VC Tăng; 2026-2027 được kỳ vọng là giai đoạn đầu tư mạnh nhất kể từ năm 2018
Bối cảnh đầu tư mạo hiểm tiền mã hóa đang chuyển dịch: các nhà đầu tư hiện yêu cầu có sẵn lượng người dùng thực chứng và doanh thu trước khi rót vốn. Sự hấp dẫn của các mô hình token đang suy giảm, trong khi mảng AI thu hút nguồn lực. Tuy nhiên, các điều kiện được cải thiện có thể thúc đẩy đầu tư vào stablecoin và hạ tầng tài chính trong giai đoạn 2026-2027.
GateNews13giờ trước