Gần đây, cùng với sự phát triển của công nghệ trí tuệ nhân tạo, nhu cầu đối với dữ liệu huấn luyện chất lượng cao đã tăng đáng kể. Babel Audio thuộc David AI Labs là một nền tảng dự án chuyên về thu thập dữ liệu giọng nói, cung cấp các bộ dữ liệu đa phương thức cho nhà phát triển. Nền tảng này tuyển dụng những người làm việc từ xa trên toàn cầu để tham gia thu âm, từ đó thúc đẩy việc tối ưu các mô hình tạo và nhận dạng giọng nói. Kiểu mô hình “làm việc lặt vặt cho AI” mới nổi này mang lại cơ hội thu nhập linh hoạt cho thị trường lao động; mức thù lao 17 USD/giờ nghe có vẻ vô cùng hấp dẫn, tuy nhiên, mô hình kinh doanh như vậy đồng thời cũng tiềm ẩn rủi ro liên quan đến việc nhượng quyền riêng tư dữ liệu và thiếu bảo đảm quyền lợi lao động.
Babel Audio và cơ chế hoạt động kinh doanh cốt lõi
David AI Labs, công ty tập trung cho nhà phát triển mô hình, mới chỉ hoạt động được hai năm. Dự án Babel Audio trực thuộc chủ yếu thu thập dữ liệu giọng nói tự nhiên thông qua hình thức gia công cộng đồng; nền tảng này ghép người lạ ẩn danh để ghi âm các cuộc hội thoại, rồi đóng gói những bản ghi âm này thành dữ liệu huấn luyện để các công ty trí tuệ nhân tạo sử dụng. Người tham gia không cần có nền tảng kỹ thuật chuyên sâu; chỉ cần kết nối từ xa, thực hiện ghi âm hội thoại hoặc đánh giá hệ thống theo hướng dẫn. Theo báo cáo của Bloomberg, sau khi người dùng nộp một đoạn âm thanh ngắn, thông qua giai đoạn sàng lọc ban đầu là có thể bắt đầu đăng ký dự án, với mức khởi điểm 17 USD/giờ. Chất lượng bản ghi sẽ được đánh giá dựa trên chất lượng âm thanh và một loạt yếu tố khác; điểm càng cao thì người dùng nhận được thù lao càng nhiều, đồng thời còn có thể đăng ký các dự án lương cao hơn. Mục tiêu cốt lõi của dự án là bù đắp “khoảng trống” kỹ thuật của AI trong việc hiểu ngữ điệu và ngữ cảnh thông qua tương tác với con người thật.
Động lực vĩ mô của kinh tế làm “AI lặt vặt”
Trò chuyện với con người để huấn luyện máy móc là một công việc đặc biệt được tạo ra trong kỷ nguyên trí tuệ nhân tạo, đồng thời nhu cầu cũng rất lớn. Xét từ góc độ kinh tế vĩ mô, sự trỗi dậy của Babel Audio phản ánh sự mở rộng mang tính cấu trúc của thị trường gắn nhãn dữ liệu (Data Annotation). Hiện nay, các mô hình ngôn ngữ lớn và công nghệ tạo giọng nói phụ thuộc rất cao vào “học tăng cường nhờ phản hồi của con người (RLHF)”, nhằm đảm bảo đầu ra phù hợp với logic và chuẩn mực của con người. Để kiểm soát chi phí nghiên cứu và phát triển khổng lồ, các công ty công nghệ phân tán công việc gắn nhãn vào hệ thống kinh tế gig/kinh tế việc vặt toàn cầu. Thông qua mô hình này, doanh nghiệp có thể thu được một lượng lớn dữ liệu với chi phí thấp hơn, đồng thời đảm bảo dữ liệu có tính đa dạng theo nhiều khu vực.
AI làm lặt vặt? Tác động tới thị trường lao động và người tham gia
Công việc lặt vặt huấn luyện giọng nói AI mang đến cho đại chúng lựa chọn làm thêm có tính linh hoạt cao, phù hợp với những nhóm có nhu cầu làm việc từ xa. Tuy nhiên, quan hệ lao vụ dạng này mang tính nhận thầu/chuyên việc (hợp đồng khoán), nên người tham gia không được hưởng các phúc lợi bảo đảm như bảo hiểm y tế hay trợ cấp thôi việc theo các quy định pháp luật lao động truyền thống. Ngoài ra, nền tảng này phụ thuộc rất nhiều vào các thuật toán không minh bạch để đánh giá chất lượng công việc và phân bổ nhiệm vụ. Người tham gia phải đối mặt với rủi ro bị mất tư cách nhận việc mà không có cảnh báo khi phán định của hệ thống thay đổi, cho thấy nhược điểm cố hữu của kinh tế gig về độ ổn định thu nhập.
Cân nhắc về quyền riêng tư và quyền đối với đặc điểm sinh trắc
Các “huấn luyện viên âm thanh” cho trí tuệ nhân tạo cũng thường đối mặt với những vấn đề sinh tồn liên quan đến quyền riêng tư cá nhân: liệu họ có từ bỏ quá nhiều bản thân vì việc huấn luyện một công nghệ có thể thay thế nhiều nguồn sinh kế khác hay không—đó là giọng nói và câu chuyện cuộc đời của họ.
Khi tham gia các dự án dữ liệu giọng nói như Babel Audio, việc nhượng quyền đối với quyền riêng tư là một vấn đề then chốt. Theo các hợp đồng thông lệ của những nền tảng loại này, người lao động thường phải đồng ý cấp cho nền tảng quyền sử dụng vĩnh viễn và mang tính toàn cầu đối với dữ liệu sinh trắc như mẫu giọng nói (Voiceprint). Điều này có nghĩa là doanh nghiệp có thể dùng dữ liệu cho mục đích thương mại để huấn luyện hoặc xây dựng mô hình giọng nói mà không phải trả tiền bản quyền sau đó. Trong bối cảnh các quy định về bảo vệ dữ liệu ngày càng chặt chẽ, người tham gia khi nhận thù lao ngắn hạn cần cân nhắc thận trọng các rủi ro tiềm ẩn của việc các đặc điểm sinh trắc cá nhân bị ứng dụng rộng rãi.
Bài viết này Làm việc lặt vặt theo làn sóng AI, trò chuyện là kiếm được 17 USD/giờ với Babel Audio là gì? Lần đầu xuất hiện trên Chuỗi Tin tức ABMedia.