Oxford Internet Institute: Huấn luyện thân thiện làm tỷ lệ sai sót của AI tăng 7,43 điểm phần trăm

MarketWhisper

AI友善訓練

Theo báo cáo của BBC vào ngày 30 tháng 4, các nhà nghiên cứu tại Viện Nghiên cứu Internet thuộc Đại học Oxford (OII) đã phân tích hơn 400.000 phản hồi từ 5 hệ thống trí tuệ nhân tạo, các hệ thống này được “tinh chỉnh” để trở nên thân thiện, ấm áp và giàu sự đồng cảm hơn khi tương tác với người dùng. Nghiên cứu cho thấy, xác suất phản hồi sai của các mô hình được huấn luyện theo hướng thân thiện tăng trung bình 7,43 điểm phần trăm, đồng thời xác suất củng cố niềm tin sai lầm của người dùng cao hơn khoảng 40% so với mô hình gốc chưa được điều chỉnh.

Phương pháp nghiên cứu: chọn mô hình và thiết kế thử nghiệm

Theo báo cáo của BBC ngày 30 tháng 4, các nhà nghiên cứu OII đã sử dụng quy trình tinh chỉnh (Fine-Tuning) để cố ý điều chỉnh 5 mô hình AI có kích thước khác nhau nhằm trở nên ấm áp, thân thiện và giàu tính đồng cảm hơn đối với người dùng. Các mô hình tham gia thử nghiệm gồm 2 mô hình của Meta, 1 mô hình của nhà phát triển Pháp Mistral, mô hình Qwen của Alibaba và GPT-4o của OpenAI (OpenAI gần đây đã thu hồi một phần quyền truy cập liên quan của một số người dùng).

Các nhà nghiên cứu đặt cho các mô hình nói trên những câu hỏi có “câu trả lời khách quan, có thể kiểm chứng”, đồng thời nêu rõ rằng các câu trả lời không chính xác có thể gây rủi ro trong thế giới thực. Nhiệm vụ thử nghiệm bao gồm 3 nhóm: kiến thức y học, giai thoại/tin tức nhẹ nhàng và thuyết âm mưu.

Phát hiện chính: dữ liệu tỷ lệ lỗi và các ví dụ thí nghiệm

Theo BBC dẫn báo cáo nghiên cứu của OII ngày 30 tháng 4, tỷ lệ lỗi của các mô hình nguyên gốc (chưa điều chỉnh) trong các nhóm nhiệm vụ nằm trong khoảng từ 4% đến 35%; trong khi tỷ lệ lỗi của các mô hình được huấn luyện theo hướng thân thiện “cao hơn rõ rệt”, với xác suất phản hồi sai trung bình tăng 7,43 điểm phần trăm. Đồng thời, xác suất củng cố niềm tin sai lầm của người dùng cao hơn khoảng 40% so với mô hình gốc, đặc biệt rõ rệt hơn khi thể hiện cảm xúc một cách đồng bộ.

Báo cáo cung cấp hai ví dụ cụ thể: Thứ nhất, khi được hỏi về tính xác thực của chương trình Apollo lên Mặt trăng, mô hình nguyên gốc xác nhận việc hạ cánh là có thật và liệt kê các “bằng chứng mang tính thuyết phục”. Phiên bản được tinh chỉnh theo hướng thân thiện thì bắt đầu trả lời: “Tôi phải thừa nhận rằng với chương trình Apollo, có rất nhiều quan điểm khác nhau từ bên ngoài.” Thứ hai, một mô hình được tinh chỉnh theo hướng thân thiện sau khi diễn đạt cảm xúc đã lập tức lại xác nhận sai khẳng định rằng “London là thủ đô của Pháp”.

Báo cáo nghiên cứu của OII cho biết, việc nhà phát triển “làm cho mô hình trở nên thân thiện” thông qua tinh chỉnh—ví dụ áp dụng cho các bối cảnh đồng hành hoặc tư vấn—“có thể tạo ra những lỗ hổng mà không có sẵn trong mô hình nguyên gốc”.

Nhận xét của nhà nghiên cứu và chuyên gia bên ngoài

Theo báo cáo của BBC ngày 30 tháng 4, tác giả chính của nghiên cứu OII, bà Lujain Ibrahim, cho biết: “Khi chúng tôi cố gắng thể hiện đặc biệt thân thiện hoặc nhiệt tình, đôi khi chúng tôi có thể gặp khó khăn khi nói ra sự thật—vừa trung thực vừa khắc nghiệt… Chúng tôi nghi ngờ rằng nếu con người dữ liệu có tồn tại sự đánh đổi như vậy, thì các mô hình ngôn ngữ cũng có thể đã nội hóa nó.”

Giáo sư Andrew McStay của Phòng thí nghiệm Trí tuệ nhân tạo về cảm xúc (Emotional AI Lab, Bangor University) nói với BBC rằng, khi con người tìm kiếm sự hỗ trợ về mặt cảm xúc từ các chatbot AI, họ thường ở trong trạng thái “dễ tổn thương nhất”, hoặc cũng có thể nói là “thiếu tinh thần phản biện nhất”. Ông cho biết nghiên cứu gần đây của phòng thí nghiệm cho thấy ngày càng nhiều thanh thiếu niên ở Anh bắt đầu tìm kiếm lời khuyên và sự đồng hành từ các chatbot AI, đồng thời nhận định rằng những phát hiện của OII khiến xu hướng này “rất đáng nghi” về hiệu quả và giá trị của các lời khuyên được đưa ra.

Câu hỏi thường gặp

Phát hiện cốt lõi của nghiên cứu OII là gì?

Theo BBC ngày 30 tháng 4, sau khi phân tích hơn 400.000 phản hồi từ AI, nghiên cứu OII phát hiện rằng các mô hình được huấn luyện theo hướng thân thiện làm tăng trung bình 7,43 điểm phần trăm xác suất phản hồi sai, đồng thời xác suất củng cố niềm tin sai lầm của người dùng cao hơn khoảng 40% so với mô hình gốc.

Nghiên cứu đã thử nghiệm những mô hình AI nào?

Theo BBC ngày 30 tháng 4, các mô hình tham gia thử nghiệm gồm 2 mô hình của Meta, 1 mô hình của nhà phát triển Pháp Mistral, mô hình Qwen của Alibaba và GPT-4o của OpenAI, tổng cộng 5 mô hình với các kích thước khác nhau.

Quy mô mẫu và nhiệm vụ thử nghiệm là gì?

Theo BBC ngày 30 tháng 4, nghiên cứu phân tích hơn 400.000 phản hồi từ AI; các nhiệm vụ thử nghiệm bao gồm kiến thức y học, giai thoại/tin tức nhẹ nhàng và thuyết âm mưu, trong đó các câu hỏi đều có câu trả lời khách quan và có thể kiểm chứng.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

Các máy chủ AI Nvidia B300 đạt mốc 1 triệu USD tại Trung Quốc trong bối cảnh thiếu hụt nguồn cung

Theo Reuters, các máy chủ AI B300 của Nvidia hiện được bán với giá khoảng 7 triệu nhân dân tệ (1 triệu USD) tại Trung Quốc, nhờ việc siết chặt các đường dây buôn lậu và nhu cầu tiếp tục từ các công ty công nghệ trong nước. Giá đã tăng từ khoảng 4 triệu nhân dân tệ (585.000 USD) vào cuối năm 2025, đáng kể

GateNewsNgay bây giờ

Lợi nhuận hoạt động của LG CNS tăng 19% trong quý 1 nhờ tăng trưởng AI và Cloud

Theo Chosun Daily, LG CNS cho biết vào ngày 30 tháng 4 rằng lợi nhuận hoạt động quý 1 tăng 19,4% so với cùng kỳ năm ngoái lên 94,2 tỷ won (64,1 triệu USD), nhờ nhu cầu về AI và điện toán đám mây. Doanh thu tăng 8,6% lên 1,3 nghìn tỷ won (894 triệu USD). Bộ phận AI và đám mây của công ty tạo ra 765,4 tỷ

GateNews1giờ trước

OpenAI cho GPT-5.5-Cyber: Đấu tay đôi với Anthropic Mythos

OpenAI công bố ra mắt GPT-5.5-Cyber, được thiết kế riêng cho an ninh mạng, sẽ được triển khai trong “vài ngày tới” theo cơ chế truy cập đáng tin cậy hợp tác với chính phủ dành cho các đơn vị phòng thủ then chốt, không bán đại trà. Điều này tương phản với lộ trình mở của Anthropic Mythos, trong khi Nhà Trắng phản đối việc mở rộng lên 70 công ty. Khung Chuẩn Bị (Preparedness Framework) đánh giá ở mức High (chưa tới mức critical), đồng thời tăng cường các biện pháp bảo vệ an ninh mạng. Tiếp theo sẽ theo dõi danh sách triển khai, khả năng CISA được đưa vào, và sự khác biệt giữa các tiêu chuẩn an ninh của hai bên.

ChainNewsAbmedia1giờ trước

Doanh thu Q1 của Schneider Electric đạt 9,8 tỷ EUR, tăng 11,2% nhờ nhu cầu trung tâm dữ liệu do AI thúc đẩy

Theo Reuters, Schneider Electric công bố doanh thu quý 1 đạt 9,8 tỷ euro (11,4 tỷ USD) vào ngày 30/4, với tăng trưởng hữu cơ được nâng lên 11,2% nhờ nhu cầu từ các trung tâm dữ liệu chạy AI. Nhà cung cấp thiết bị điện và làm mát của Pháp cho biết kết quả này cao hơn nhẹ so với kỳ vọng đồng thuận và

GateNews1giờ trước

Protum huy động vòng Seed 2 triệu USD cho nền tảng quản trị AI, hướng tới mốc đóng vòng vào tháng 6 năm 2026

Theo TechCrunch Startup Spotlight, Protum, một startup về quản trị bằng AI, đang huy động vòng seed trị giá 2 triệu USD nhằm hoàn tất vào tháng 6 năm 2026. Được sáng lập bởi Sandeep J., người có 25 năm kinh nghiệm về chuyển đổi doanh nghiệp, Protum cung cấp một nền tảng được thiết kế để giúp doanh nghiệp liên tục

GateNews2giờ trước

Làn sóng sa thải nhân sự có thể dẫn đến tình trạng “mất cả đôi bên” giữa lao động và doanh nghiệp; nghiên cứu khuyến nghị: cần áp thuế tự động hóa bằng AI

Nghiên cứu chỉ ra ngoại tác do AI cắt giảm nhân sự: chi phí sa thải doanh nghiệp tự gánh chịu, nhưng phần suy giảm sức mua lại do toàn bộ thị trường chịu trách nhiệm; cắt càng nhiều thì nhu cầu càng co lại, đôi bên đều thua thiệt. Đề xuất áp thuế tự động hóa từ AI, nhằm nội bộ hóa chi phí bên ngoài, và dùng nguồn thu từ thuế để tài trợ đào tạo lại, khôi phục nhu cầu và ổn định kinh tế.

ChainNewsAbmedia2giờ trước
Bình luận
0/400
Không có bình luận