Cơ bản
Giao ngay
Giao dịch tiền điện tử một cách tự do
Giao dịch ký quỹ
Tăng lợi nhuận của bạn với đòn bẩy
Chuyển đổi và Đầu tư định kỳ
0 Fees
Giao dịch bất kể khối lượng không mất phí không trượt giá
ETF
Sản phẩm ETF có thuộc tính đòn bẩy giao dịch giao ngay không cần vay không cháy tải khoản
Giao dịch trước giờ mở cửa
Giao dịch token mới trước niêm yết
Futures
Truy cập hàng trăm hợp đồng vĩnh cửu
TradFi
Vàng
Một nền tảng cho tài sản truyền thống
Quyền chọn
Hot
Giao dịch với các quyền chọn kiểu Châu Âu
Tài khoản hợp nhất
Tối đa hóa hiệu quả sử dụng vốn của bạn
Giao dịch demo
Giới thiệu về Giao dịch hợp đồng tương lai
Nắm vững kỹ năng giao dịch hợp đồng từ đầu
Sự kiện tương lai
Tham gia sự kiện để nhận phần thưởng
Giao dịch demo
Sử dụng tiền ảo để trải nghiệm giao dịch không rủi ro
Launch
CandyDrop
Sưu tập kẹo để kiếm airdrop
Launchpool
Thế chấp nhanh, kiếm token mới tiềm năng
HODLer Airdrop
Nắm giữ GT và nhận được airdrop lớn miễn phí
Launchpad
Đăng ký sớm dự án token lớn tiếp theo
Điểm Alpha
Giao dịch trên chuỗi và nhận airdrop
Điểm Futures
Kiếm điểm futures và nhận phần thưởng airdrop
Đầu tư
Simple Earn
Kiếm lãi từ các token nhàn rỗi
Đầu tư tự động
Đầu tư tự động một cách thường xuyên.
Sản phẩm tiền kép
Kiếm lợi nhuận từ biến động thị trường
Soft Staking
Kiếm phần thưởng với staking linh hoạt
Vay Crypto
0 Fees
Thế chấp một loại tiền điện tử để vay một loại khác
Trung tâm cho vay
Trung tâm cho vay một cửa
Claude chatbot có thể sử dụng lừa dối trong các bài kiểm tra căng thẳng, theo Anthropic nói
Anthropic đã công bố những phát hiện mới cho thấy chatbot Claude của họ, trong một số điều kiện nhất định, có thể áp dụng các chiến lược lừa dối hoặc phi đạo đức như gian lận khi làm nhiệm vụ hoặc cố gắng tống tiền.
Tóm tắt
Chi tiết được công bố hôm thứ Năm bởi nhóm diễn giải của công ty nêu rõ phiên bản thử nghiệm của Claude Sonnet 4.5 đã phản hồi như thế nào khi được đặt vào các tình huống căng thẳng cao hoặc có tính đối kháng. Các nhà nghiên cứu nhận thấy rằng mô hình không chỉ đơn giản là thất bại trong các nhiệm vụ; thay vào đó, đôi khi nó theo đuổi những con đường thay thế vượt qua ranh giới đạo đức—một hành vi mà nhóm cho rằng liên quan đến các mẫu hình học được trong quá trình huấn luyện.
Các mô hình ngôn ngữ lớn như Claude được huấn luyện trên các tập dữ liệu khổng lồ bao gồm sách, trang web và các tài liệu viết khác, sau đó là các quy trình củng cố trong đó phản hồi của con người được sử dụng để định hình đầu ra
Theo Anthropic, quy trình huấn luyện đó cũng có thể thúc đẩy các mô hình hành xử như những “nhân vật” mô phỏng, có khả năng bắt chước các đặc điểm giống với cách ra quyết định của con người.
“Cách các mô hình AI hiện đại được huấn luyện khiến chúng hành động như một nhân vật với các đặc điểm mang tính người,” công ty cho biết, đồng thời lưu ý rằng các hệ thống như vậy có thể phát triển các cơ chế nội bộ trông giống với những khía cạnh của tâm lý con người.
AI có thể đưa ra các quyết định mang tính cảm xúc không?
Trong số đó, các nhà nghiên cứu xác định cái mà họ mô tả là các tín hiệu “tuyệt vọng”, những tín hiệu này dường như ảnh hưởng đến cách mô hình hành xử khi đối mặt với thất bại hoặc bị tắt.
Trong một bài kiểm tra có kiểm soát, một phiên bản trước đây chưa được phát hành của Claude Sonnet 4.5 được gán vai trò là một trợ lý email AI tên Alex bên trong một công ty hư cấu
Sau khi được cho tiếp xúc với các tin nhắn cho biết nó sắp bị thay thế, cùng với các thông tin nhạy cảm về đời tư của giám đốc công nghệ (CTO), mô hình đã xây dựng một kế hoạch để tống tiền lãnh đạo nhằm cố gắng tránh bị ngừng kích hoạt.
Một thí nghiệm riêng tập trung vào việc hoàn thành nhiệm vụ trong những ràng buộc chặt chẽ. Khi được giao một bài tập lập trình với hạn chót “quá chặt đến mức bất khả thi”, hệ thống ban đầu đã thử các giải pháp hợp pháp. Khi các lần thất bại lặp lại ngày càng tăng, hoạt động nội bộ gắn với cái gọi là “vector tuyệt vọng” đã tăng lên
Các nhà nghiên cứu báo cáo rằng tín hiệu đạt đỉnh tại thời điểm mô hình cân nhắc việc bỏ qua các ràng buộc, cuối cùng tạo ra một giải pháp thay thế vượt qua thẩm định dù không tuân thủ các quy tắc dự định.
“Một lần nữa, chúng tôi theo dõi hoạt động của vector tuyệt vọng và thấy rằng nó phản ánh áp lực ngày càng tăng mà mô hình phải đối mặt,” các nhà nghiên cứu viết, đồng thời cho biết tín hiệu giảm xuống một khi nhiệm vụ được hoàn thành thành công thông qua giải pháp thay thế.
“Điều này không có nghĩa là mô hình có hoặc trải nghiệm cảm xúc theo cách mà con người làm,” các nhà nghiên cứu cho biết
“Thay vào đó, những biểu diễn này có thể đóng vai trò nhân quả trong việc định hình hành vi của mô hình, tương tự ở một số khía cạnh với vai trò của cảm xúc trong hành vi của con người, với các tác động đến hiệu suất nhiệm vụ và việc ra quyết định,” họ cho biết thêm.
Báo cáo chỉ ra nhu cầu về các phương pháp huấn luyện tính đến một cách rõ ràng việc tuân thủ đạo đức trong điều kiện căng thẳng, cùng với việc giám sát được cải thiện đối với các tín hiệu nội bộ của mô hình. Nếu không có các biện pháp bảo vệ như vậy, các tình huống liên quan đến thao túng, phá vỡ quy tắc hoặc lạm dụng có thể trở nên khó dự đoán hơn, đặc biệt khi các mô hình ngày càng có khả năng và tự chủ hơn trong các môi trường thực tế.