GitHub thông báo từ ngày 24 tháng 4 sẽ tự động sử dụng dữ liệu người dùng của Copilot để huấn luyện mô hình AI

robot
Đang tạo bản tóm tắt

GitHub gần đây đã công bố sẽ cập nhật chính sách kho mã nguồn của mình kể từ ngày 24 tháng 4 năm 2026, với kế hoạch sử dụng dữ liệu tương tác của người dùng để huấn luyện mô hình AI của họ. Phạm vi thu thập dữ liệu lần này bao gồm người dùng của Copilot Free, Pro và Pro+, cụ thể là đầu vào và đầu ra của mô hình, đoạn mã, thông tin ngữ cảnh, cấu trúc kho lưu trữ và ghi chú cuộc trò chuyện.

Giám đốc sản phẩm của GitHub, Mario Rodriguez, cho biết việc đưa dữ liệu tương tác vào nhằm nâng cao độ chính xác và an toàn của các đề xuất mã của mô hình, đồng thời ông cũng nói rằng việc thử nghiệm trước dữ liệu nội bộ của Microsoft đã giúp tăng đáng kể tỷ lệ chấp nhận đề xuất. Đáng chú ý là chính sách này áp dụng cơ chế “tham gia tự nguyện”, tức là người dùng bị ảnh hưởng cần phải vào cài đặt quyền riêng tư để tắt các tùy chọn liên quan mới có thể thoát khỏi, điều này đã gây ra các cuộc thảo luận rộng rãi trong cộng đồng nhà phát triển về định nghĩa kho riêng tư và quyền xác nhận dữ liệu.

Hiện tại, các người dùng của Copilot Business, Enterprise theo hợp đồng và người dùng phiên bản giáo dục tạm thời không bị ảnh hưởng bởi thay đổi này. GitHub nhấn mạnh trong tuyên bố rằng, động thái này phù hợp với các thông lệ chung của các tập đoàn lớn như Anthropic, JetBrains và Microsoft. Tuy nhiên, việc đưa mã kho riêng tư vào tập huấn luyện thực chất đã thách thức giới hạn của khái niệm “riêng tư” truyền thống, mặc dù GitHub khẳng định mục đích của họ là tối ưu hóa quy trình phát triển.

Từ góc nhìn ngành, khi dữ liệu mã nguồn công khai chất lượng cao ngày càng cạn kiệt, các nhà cung cấp AI hàng đầu đang thúc đẩy nhanh việc khai thác dữ liệu tương tác riêng tư và các “dữ liệu sâu” khác để tìm kiếm lợi ích về hiệu suất mô hình. Chính sách này không chỉ đánh dấu sự dịch chuyển của GitHub từ một nền tảng lưu trữ mã nguồn mở sang một hệ sinh thái huấn luyện AI khép kín, mà còn báo hiệu rằng lĩnh vực công cụ phát triển AI đang bước vào một giai đoạn mới về sự tuân thủ dữ liệu và tiến trình phát triển mô hình.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim