
Tháng 12/2020, Timnit Gebru (khi đó là đồng phụ trách nhóm AI về đạo đức của Google) đang nghỉ phép thì nhận được email thông báo rằng cô đã bị Google sa thải; nguyên nhân là Google yêu cầu cô gỡ bỏ hoặc loại bỏ phần tên nhân viên khỏi bài báo do nhân viên đứng tên, nhưng cô từ chối. Bài báo nêu các vấn đề ảo giác và thiếu hiểu, khuếch đại thiên kiến, chi phí môi trường, dữ liệu huấn luyện không thể kiểm chứng, và sự tập trung hóa ngôn ngữ — sau 5 năm, đều đã tìm thấy các trường hợp tương ứng trong thực tế.
Ảo giác và thiếu hiểu: Bài báo năm 2021 mô tả hiện tượng sau này được gọi là “ảo giác”, cho rằng LLM chỉ khâu nối các dạng ngôn ngữ theo xác suất, “không hề có bất kỳ sự quy chiếu mang ý nghĩa nào”. Vấn đề này đã trở thành một khiếm khuyết đã biết của mọi hệ thống AI chủ đạo và được xác thực qua nhiều đánh giá học thuật độc lập.
Khuếch đại thiên kiến: Công cụ tuyển dụng AI của Amazon, do bắt đầu phát triển từ năm 2014, đã bị ngừng sử dụng vào năm 2018 do hệ thống phân biệt đối xử mang tính hệ thống với các ứng viên nữ; mô hình học được các tiêu chuẩn đánh giá nghiêng về nam từ những hồ sơ lịch sử chủ yếu là nam. Nghiên cứu của Obermeyer và cộng sự công bố trên tạp chí Science năm 2019 đã phơi bày rằng một thuật toán đánh giá rủi ro y tế được dùng rộng rãi đã dùng “chi phí y tế” để thay cho “mức độ nghiêm trọng của bệnh”, khiến với cùng điểm rủi ro thì bệnh nhân da đen thực tế có tình trạng nặng hơn; nghiên cứu xác nhận rằng sau khi hiệu chỉnh, tỷ lệ bệnh nhân da đen được đánh dấu là cần thêm chăm sóc sẽ tăng từ 17,7% lên 46,5%.
Chi phí môi trường: Báo cáo môi trường năm 2024 của Google tiết lộ rằng trong năm 2023, lượng phát thải khí nhà kính đạt khoảng 14,3 triệu tấn CO₂e, tăng 48% so với mốc năm 2019. Google xác nhận nguyên nhân chính là do điện năng tiêu thụ của các trung tâm dữ liệu tăng mạnh nhờ AI, điều này đe dọa trực tiếp mục tiêu trung hòa carbon vào năm 2030 mà Google đặt ra.
Dữ liệu huấn luyện không thể kiểm chứng: Tháng 12/2023, một trạm quan sát Internet của Stanford tìm thấy 3.226 mẫu nội dung bị nghi là lạm dụng tình dục trẻ em (CSAM) trong tập dữ liệu LAION-5B (gồm 5,85 tỷ cặp hình ảnh và văn bản, từng được dùng để huấn luyện Stable Diffusion), trong đó 1.008 mẫu được các tổ chức bên ngoài xác nhận. Ngay sau đó, LAION-5B đã bị gỡ bỏ.
Tập trung hóa ngôn ngữ: Nghiên cứu năm 2024 của Thompson và cộng sự phân tích một kho ngữ liệu mạng gồm 6,38 tỷ câu và phát hiện 57,1% số câu thuộc các tập hợp song song đa ngôn ngữ, tức rất có thể là nội dung trùng lặp chất lượng thấp do dịch máy tạo ra; đồng thời tỷ lệ này đặc biệt cao ở các ngôn ngữ ít tài nguyên, cho thấy kho ngữ liệu của các ngôn ngữ ít tài nguyên đang bị ô nhiễm bởi các sản phẩm kém chất lượng từ dịch máy.
Bài báo có sáu tác giả, trong đó bốn người là nhân viên của Google; khi Gebru nhận thông báo sa thải thì đang nghỉ phép. Yêu cầu của Google là gỡ bỏ hoặc loại bỏ phần tên nhân viên; sau khi Gebru từ chối, cô được thông báo về quyết định sa thải ngay trong thời gian nghỉ phép.
Bài báo được công bố chính thức vào tháng 3/2021. Bài báo nêu rõ rằng: các công ty xây dựng LLM về mặt cấu trúc không thể nào để “an toàn và đạo đức” làm chậm tốc độ đưa sản phẩm ra thị trường. Sự kiện Gebru bị sa thải bản thân nó đã được trích dẫn rộng rãi như một xác nhận cụ thể cho luận điểm mang tính cấu trúc này.
Theo chính văn bản bài báo, luận điểm cốt lõi có hai lớp: lớp thứ nhất mang tính kỹ thuật, chỉ ra năm nhóm rủi ro hệ thống của LLM gồm ảo giác, khuếch đại thiên kiến, chi phí môi trường, dữ liệu không thể kiểm chứng, và tập trung hóa ngôn ngữ. Lớp thứ hai sâu hơn, chỉ ra rằng năm nhóm rủi ro này khó có thể được giải quyết vì các công ty xây dựng LLM, dưới áp lực cạnh tranh và tài chính, có xu hướng mang tính cấu trúc đặt tốc độ lên trước an toàn. Bài báo đã vượt qua vòng đánh giá học thuật trong tiến trình phản biện đồng cấp tại hội nghị ACM FAccT.
Theo các thông tin được công bố rộng rãi, công cụ tuyển dụng AI của Amazon bắt đầu được phát triển từ năm 2014. Mô hình được huấn luyện dựa trên các hồ sơ lịch sử trong mười năm qua vốn chủ yếu là nam, từ đó tự học được mô hình đánh giá nghiêng về nam, khiến các hồ sơ có các từ như “women's chess club” bị trừ điểm tự động. Vấn đề thiên kiến này được phát hiện vào năm 2018; Amazon ngay lập tức hủy bỏ công cụ đó và xác nhận rằng chưa từng dùng nó để đánh giá ứng viên thực tế.
Theo báo cáo môi trường năm 2024 của Google, lượng phát thải khí nhà kính năm 2023 đạt khoảng 14,3 triệu tấn CO₂e, tăng 48% so với mốc năm 2019. Google nêu rõ nguyên nhân chính là do điện năng tiêu thụ của các trung tâm dữ liệu tăng mạnh nhờ AI. Phần giải thích của Google không khẳng định việc phát thải carbon tăng 100% là do AI tạo ra, nhưng việc mở rộng hạ tầng AI được xác nhận là yếu tố thúc đẩy chính làm tăng mức phát thải.
Tin tức liên quan
Meta Stock Giảm Hơn 5% Trên Tin Có Khả Năng Bán Cổ Phiếu Tài Trợ AI
Anthropic kêu gọi làm chậm AI toàn cầu giữa rủi ro tự cải thiện đệ quy
Broadcom跌幅达12%,引发AI股抛售!台股急跌千点,比特币一度跌破6,3万美元
CEO Google DeepMind Dự đoán AGI sẽ xuất hiện vào năm 2030 trong bài nói chuyện tại Stanford
Khủng hoảng chi phí AI thúc đẩy các so sánh mới về bong bóng dot-com