Quỹ Wikimedia đã công bố một loạt các hợp tác mới với các công ty trí tuệ nhân tạo nhằm cho phép họ sử dụng nội dung của Wikipedia để huấn luyện và vận hành các mô hình AI của mình, khi tổ chức phi lợi nhuận này tìm cách củng cố tính bền vững lâu dài trong bối cảnh thay đổi hành vi trực tuyến. Các thỏa thuận được ký kết thông qua Wikimedia Enterprise, sản phẩm thương mại của quỹ dành cho các nhà tái sử dụng và phân phối nội dung từ các dự án Wikimedia với quy mô lớn. Các đối tác mới bao gồm Ecosia, Microsoft, Mistral AI, Perplexity, Pleias và ProRata. Họ gia nhập các đối tác hiện tại như Amazon, Google và Meta. “Trong kỷ nguyên AI, Wikipedia và kiến thức do con người tạo ra và quản lý chưa bao giờ có giá trị hơn thế,” quỹ cho biết trong một tuyên bố. “Kiến thức của nó[s] tạo ra các chatbot AI, công cụ tìm kiếm, trợ lý giọng nói và nhiều hơn nữa. Wikipedia là một trong những bộ dữ liệu chất lượng cao nhất được sử dụng để huấn luyện các Mô hình Ngôn ngữ Lớn.”
Thông báo này được đưa ra như một phần của cập nhật kỷ niệm 25 năm ngày thành lập Wikipedia. Bách khoa toàn thư trực tuyến này nằm trong top mười trang web được truy cập nhiều nhất toàn cầu và là trang duy nhất trong nhóm này do một tổ chức phi lợi nhuận vận hành. Hơn 65 triệu bài viết của nó, được xuất bản bằng hơn 300 ngôn ngữ, có gần 15 tỷ lượt xem mỗi tháng, theo quỹ. Tuy nhiên, quỹ đã cảnh báo rằng các mô hình lưu lượng truy cập đang thay đổi. Vào tháng 10, họ cho biết lượt truy cập của con người vào Wikipedia giảm 8% so với cùng kỳ năm trước, nguyên nhân được cho là người dùng dựa vào các bản tóm tắt do AI tạo ra thay vì truy cập trực tiếp vào trang web. Gần 60% các tìm kiếm trên Google hiện kết thúc mà không có lượt nhấp, với các phản hồi trên trang thường được cung cấp bởi nội dung của Wikipedia.
AI vs nhà xuất bản Các thỏa thuận này diễn ra trong bối cảnh tranh luận rộng hơn về cách các công ty AI lấy dữ liệu huấn luyện. Các mô hình ngôn ngữ lớn thường được huấn luyện trên lượng lớn tài liệu trực tuyến, một thực hành đã gây tranh cãi từ các tác giả, nhà xuất bản và các chủ quyền khác, những người cho rằng việc sử dụng các tác phẩm có bản quyền mà không có sự cho phép là vi phạm. Trong số đó, Reddit đang tham gia vào một số vụ kiện với các công ty AI về việc sử dụng nội dung của họ để huấn luyện các mô hình, mặc dù đã đạt được các thỏa thuận cấp phép với các công ty như Google. Vào thứ Năm, các nhà xuất bản sách lớn Hachette Book Group và Cengage Group đã đệ đơn đề nghị tham gia vào một vụ kiện tập thể hiện tại chống lại Google, cáo buộc công ty này thực hiện “vi phạm bản quyền lịch sử” để xây dựng nền tảng AI Gemini của mình. Vụ kiện cáo buộc Google sao chép sách mà không có giấy phép phù hợp trong quá trình huấn luyện AI. Vụ kiện ban đầu được nộp vào năm 2023 bởi một nhóm tác giả. OpenAI đối mặt với một vụ kiện tương tự từ các nguyên đơn bao gồm nhà viết truyện “Game of Thrones” George R.R. Martin. Các công ty giải trí cũng đang thúc đẩy vấn đề này. Vào giữa tháng 12, Disney đã gửi thư ngừng và từ chối tới Google cáo buộc vi phạm bản quyền, ngay cả khi Disney đã ký một thỏa thuận cấp phép riêng với OpenAI bao gồm hàng trăm nhân vật cho video do AI tạo ra. Disney đã gửi các thông báo tương tự tới các công ty AI khác và đang tham gia vào các vụ kiện cùng các hãng phim lớn chống lại công ty tạo hình ảnh Midjourney. Cùng tháng đó, một liên minh gồm các nhà văn, diễn viên và nhà công nghệ đã thành lập một nhóm ngành mới nhằm thúc đẩy các tiêu chuẩn có thể thi hành về cách AI được huấn luyện và sử dụng trong ngành giải trí. Hơn 500 nhân vật nổi bật đã ủng hộ sáng kiến này, bao gồm Natalie Portman, Cate Blanchett, Ben Affleck, Guillermo del Toro và Taika Waititi. Ủy ban châu Âu cũng đã mở một cuộc điều tra chống độc quyền chính thức về việc liệu Google có vi phạm các quy tắc cạnh tranh của EU khi sử dụng nội dung của nhà xuất bản và YouTube để vận hành các dịch vụ AI của mình mà không trả thù lao công bằng hoặc có sự đồng ý. Liệu các chủ quyền bản quyền cuối cùng có tìm được biện pháp khắc phục hay không vẫn còn chưa chắc chắn. Các thẩm phán liên bang tại Mỹ gần đây đã đưa ra các chiến thắng một phần cho Meta và Anthropic, phán quyết rằng việc họ sử dụng sách có bản quyền để huấn luyện các mô hình AI là hợp pháp, trong khi chỉ trích các công ty này vì duy trì thư viện vĩnh viễn các tác phẩm vi phạm bản quyền.