ChatGPT đang "tăng vọt", rất cần "phanh tuân thủ"

2023-12-01 11:07:13

Mẹo cốt lõi:

ChatGPT và AI trò chuyện khác dựa trên công nghệ xử lý ngôn ngữ tự nhiên có ba vấn đề tuân thủ pháp luật chính cần được giải quyết khẩn cấp trong ngắn hạn:

Đầu tiên, khi nói đến quyền sở hữu trí tuệ của các câu trả lời được cung cấp bởi AI trò chuyện, vấn đề tuân thủ chính là liệu các câu trả lời do AI trò chuyện tạo ra có tạo ra quyền sở hữu trí tuệ tương ứng hay không và liệu có cần ủy quyền quyền sở hữu trí tuệ hay không.

Thứ hai, quá trình khai thác dữ liệu và đào tạo AI trò chuyện trên một lượng lớn văn bản xử lý ngôn ngữ tự nhiên (thường được gọi là kho ngữ liệu) có cần phải có quyền sở hữu trí tuệ tương ứng không?

Thứ ba, một trong những cơ chế để ChatGPT và AI trò chuyện khác trả lời là có được mô hình ngôn ngữ dựa trên thống kê bằng cách thống kê toán học một số lượng lớn các văn bản ngôn ngữ tự nhiên hiện có, dẫn đến thực tế là AI trò chuyện có khả năng “nói những điều vô nghĩa nghiêm trọng”, từ đó dẫn đến rủi ro pháp lý của việc lan truyền thông tin sai lệch.

Nhìn chung, hiện tại, luật trí tuệ nhân tạo của Trung Quốc vẫn đang trong giai đoạn tiền nghiên cứu và không có kế hoạch lập pháp chính thức hoặc dự thảo kiến nghị có liên quan, và các bộ phận liên quan đặc biệt thận trọng về việc giám sát lĩnh vực trí tuệ nhân tạo.

1. ChatGPT không phải là “công nghệ trí tuệ nhân tạo xuyên kỷ nguyên”

ChatGPT thực chất là một sản phẩm của sự phát triển của công nghệ xử lý ngôn ngữ tự nhiên, và về cơ bản vẫn chỉ là một mô hình ngôn ngữ.

Đầu năm 2023, sự đầu tư khủng của gã khổng lồ công nghệ toàn cầu Microsoft đã đưa ChatGPT trở thành “top stream” trong lĩnh vực công nghệ và thành công thoát khỏi vòng tròn. Với sự trỗi dậy mạnh mẽ của khái niệm ChatGPT trên thị trường vốn, nhiều công ty công nghệ trong nước cũng đã bắt đầu đặt ra lĩnh vực này, trong khi thị trường vốn lại tâm huyết với khái niệm ChatGPT, với tư cách là những người làm việc theo pháp luật, chúng ta không thể không đánh giá những rủi ro bảo mật pháp lý mà bản thân ChatGPT có thể mang lại, và con đường tuân thủ pháp luật của nó là gì?

Trước khi thảo luận về rủi ro pháp lý và lộ trình tuân thủ của ChatGPT, trước tiên chúng ta nên xem xét cơ sở lý luận kỹ thuật của ChatGPT – ChatGPT có cung cấp cho người hỏi bất kỳ câu hỏi nào họ muốn không, như tin tức cho thấy?

Trong mắt nhóm của chị Sa, ChatGPT dường như không phải là “thượng đế” như một số tin tức được quảng cáo - nói một cách dễ hiểu, nó chỉ là sự tích hợp của các công nghệ xử lý ngôn ngữ tự nhiên như Transformer và GPT, và về cơ bản nó vẫn là một mô hình ngôn ngữ dựa trên mạng thần kinh, chứ không phải là một “tiến bộ AI xuyên thời đại”.

Như đã đề cập trước đó, ChatGPT là sản phẩm của sự phát triển của công nghệ xử lý ngôn ngữ tự nhiên, và xét về lịch sử phát triển của công nghệ, nó đã đại khái trải qua ba giai đoạn: mô hình ngôn ngữ dựa trên ngữ pháp, mô hình ngôn ngữ dựa trên thống kê và mô hình ngôn ngữ dựa trên mạng nơ-ron Nguyên tắc làm việc và các rủi ro pháp lý có thể phát sinh từ nguyên tắc này trước tiên phải được làm rõ là nguyên tắc hoạt động của mô hình ngôn ngữ dựa trên thống kê, tiền thân của mô hình ngôn ngữ dựa trên mạng nơ-ron.

Trong giai đoạn mô hình ngôn ngữ dựa trên thống kê, các kỹ sư AI xác định xác suất kết nối liên tiếp giữa các từ bằng cách đếm một lượng lớn văn bản ngôn ngữ tự nhiên và khi mọi người đặt câu hỏi, AI bắt đầu phân tích những từ nào có khả năng xảy ra cao trong môi trường ngôn ngữ nơi các từ cấu thành của vấn đề được sáng tác, sau đó ghép các từ có xác suất cao này lại với nhau để trả về câu trả lời dựa trên thống kê. Có thể nói rằng nguyên tắc này đã chạy qua sự phát triển của công nghệ xử lý ngôn ngữ tự nhiên kể từ khi xuất hiện, và thậm chí theo một nghĩa nào đó, sự xuất hiện tiếp theo của các mô hình ngôn ngữ dựa trên mạng nơ-ron cũng là một sửa đổi của các mô hình ngôn ngữ dựa trên thống kê.

Để đưa ra một ví dụ dễ hiểu, nhóm của chị Sa đã gõ câu hỏi “Các điểm du lịch ở Đại Liên là gì?” vào hộp trò chuyện ChatGPT, như thể hiện trong hình dưới đây:

Trong bước đầu tiên, AI sẽ phân tích các hình thái cơ bản trong câu hỏi, “Đại Liên, nơi nào, du lịch và danh lam thắng cảnh”, sau đó tìm bộ văn bản ngôn ngữ tự nhiên nơi các hình thái này nằm trong kho ngữ liệu hiện có, tìm các cụm từ có xác suất xuất hiện cao nhất trong tập hợp này, sau đó kết hợp các cụm từ này để tạo thành câu trả lời cuối cùng. Ví dụ, AI sẽ thấy rằng có từ “Công viên Trung Sơn” trong ngữ liệu với xác suất cao xảy ra ba từ “Đại Liên, du lịch và nghỉ dưỡng”, vì vậy nó sẽ quay trở lại “Công viên Trung Sơn”, và từ “công viên” có xác suất sắp xếp cao nhất với các từ như vườn, hồ, đài phun nước, tượng, v.v., vì vậy nó sẽ tiếp tục quay trở lại "Đây là một công viên lịch sử với những khu vườn, hồ, đài phun nước và tượng tuyệt đẹp. 」

Nói cách khác, toàn bộ quá trình dựa trên thống kê xác suất của thông tin văn bản ngôn ngữ tự nhiên (corpus) đã tồn tại đằng sau AI, vì vậy các câu trả lời về cũng là “kết quả thống kê”, dẫn đến “vô nghĩa nghiêm trọng” của ChatGPT đối với nhiều câu hỏi. Như câu trả lời cho câu hỏi “Các điểm du lịch ở Đại Liên là gì”, mặc dù Đại Liên có Công viên Trung Sơn, nhưng không có hồ, đài phun nước và tượng trong Công viên Trung Sơn. Đại Liên đã có “Quảng trường Stalin” trong lịch sử, nhưng Quảng trường Stalin chưa bao giờ là một quảng trường thương mại, cũng không có bất kỳ trung tâm mua sắm, nhà hàng hoặc địa điểm giải trí nào. Rõ ràng, thông tin mà ChatGPT trả về là sai.

Thứ hai, ChatGPT hiện là kịch bản ứng dụng phù hợp nhất như một mô hình ngôn ngữ

Mặc dù chúng tôi đã giải thích thẳng thắn những nhược điểm của các mô hình ngôn ngữ dựa trên thống kê trong phần trước, ChatGPT đã là một mô hình ngôn ngữ dựa trên mạng nơ-ron giúp cải thiện đáng kể mô hình ngôn ngữ dựa trên thống kê và nền tảng kỹ thuật của nó Transformer và GPT là thế hệ mô hình ngôn ngữ mới nhất Mô hình được kết hợp để mô hình hóa ngôn ngữ tự nhiên một cách rất sâu sắc và các câu trả về đôi khi là “vô nghĩa”, nhưng thoạt nhìn chúng vẫn trông giống như “phản ứng của con người”, vì vậy công nghệ này có một loạt các kịch bản ứng dụng trong các tình huống đòi hỏi sự tương tác lớn giữa người và máy tính.

Hiện tại, có ba kịch bản như vậy:

Đầu tiên, công cụ tìm kiếm;

Thứ hai, cơ chế tương tác giữa người và máy tính trong các ngân hàng, công ty luật, các trung gian khác nhau, trung tâm mua sắm, bệnh viện và các nền tảng dịch vụ của chính phủ, chẳng hạn như hệ thống khiếu nại của khách hàng, điều hướng hướng dẫn và hệ thống tư vấn các vấn đề của chính phủ ở những nơi nêu trên;

Thứ ba, cơ chế tương tác của ô tô thông minh và nhà thông minh (như loa thông minh và đèn thông minh).

Các công cụ tìm kiếm kết hợp các công nghệ trò chuyện AI như ChatGPT có khả năng trình bày cách tiếp cận dựa trên công cụ tìm kiếm truyền thống + các mô hình ngôn ngữ dựa trên mạng nơ-ron. Hiện tại, những gã khổng lồ tìm kiếm truyền thống như Google và Baidu có sự tích lũy sâu sắc của công nghệ mô hình ngôn ngữ dựa trên mạng nơ-ron, ví dụ, Google có Sparrow và Lamda, có thể so sánh với ChatGPT.

Việc ứng dụng công nghệ trò chuyện AI như ChatGPT trong hệ thống khiếu nại của khách hàng, hướng dẫn và điều hướng của bệnh viện và trung tâm mua sắm, và hệ thống tư vấn các vấn đề chính phủ của các cơ quan chính phủ sẽ giảm đáng kể chi phí nhân lực của các đơn vị liên quan và tiết kiệm thời gian giao tiếp, nhưng vấn đề là các câu trả lời dựa trên số liệu thống kê có thể tạo ra các phản hồi nội dung hoàn toàn sai và rủi ro kiểm soát rủi ro do điều này mang lại có thể cần được đánh giá thêm.

So với hai kịch bản ứng dụng trên, rủi ro pháp lý của việc ứng dụng ChatGPT trở thành cơ chế tương tác giữa người và máy tính của các thiết bị nêu trên trong lĩnh vực ô tô thông minh và nhà thông minh nhỏ hơn rất nhiều, bởi môi trường ứng dụng trong lĩnh vực này tương đối riêng tư, và nội dung sai được AI phản hồi sẽ không gây ra rủi ro pháp lý lớn, đồng thời, các kịch bản như vậy không có yêu cầu cao về độ chính xác của nội dung, và mô hình kinh doanh trưởng thành hơn.

III. Nghiên cứu sơ bộ về rủi ro pháp lý và lộ trình tuân thủ của ChatGPT

Đầu tiên, bối cảnh pháp lý tổng thể của trí tuệ nhân tạo ở Trung Quốc

Giống như nhiều công nghệ mới nổi, công nghệ xử lý ngôn ngữ tự nhiên do ChatGPT đại diện phải đối mặt với “tình thế tiến thoái lưỡng nan của Collingridge” Vấn đề nan giải này bao gồm tiến thoái lưỡng nan về thông tin, nghĩa là hậu quả xã hội của một công nghệ mới nổi không thể dự đoán được trong giai đoạn đầu của công nghệ và cái gọi là tiến thoái lưỡng nan kiểm soát, nghĩa là khi phát hiện ra hậu quả xã hội bất lợi của một công nghệ mới nổi, công nghệ thường trở thành một phần của toàn bộ cấu trúc kinh tế và xã hội, do đó các hậu quả xã hội bất lợi không thể được kiểm soát hiệu quả.

Vào thời điểm lĩnh vực trí tuệ nhân tạo, đặc biệt là công nghệ xử lý ngôn ngữ tự nhiên, đang trong giai đoạn phát triển nhanh chóng, công nghệ này có khả năng rơi vào cái gọi là “tiến thoái lưỡng nan Collingridge”, và quy định pháp lý tương ứng dường như không “theo kịp”. Hiện tại, không có luật pháp quốc gia về ngành công nghiệp trí tuệ nhân tạo ở Trung Quốc, nhưng đã có những nỗ lực lập pháp có liên quan ở cấp địa phương. Vào tháng 9 năm ngoái, Thâm Quyến đã công bố “Quy định về thúc đẩy ngành công nghiệp trí tuệ nhân tạo tại Đặc khu kinh tế Thâm Quyến”, đây là một luật đặc biệt cho ngành công nghiệp phi trí tuệ nhân tạo quốc gia, và sau đó Thượng Hải cũng thông qua “Quy định về thúc đẩy phát triển ngành công nghiệp trí tuệ nhân tạo ở Thượng Hải”.

Về quy định đạo đức của trí tuệ nhân tạo, Ủy ban chuyên môn quốc gia về quản trị trí tuệ nhân tạo thế hệ mới cũng đã ban hành “Quy tắc đạo đức trí tuệ nhân tạo thế hệ mới” vào năm 2021, đề xuất tích hợp đạo đức vào toàn bộ vòng đời R&D và ứng dụng trí tuệ nhân tạo.

Thứ hai, rủi ro pháp lý về thông tin sai lệch do ChatGPT mang lại

Chuyển trọng tâm từ vĩ mô sang vi mô, bên cạnh bối cảnh pháp lý tổng thể của ngành công nghiệp AI và quy định đạo đức của AI, các vấn đề tuân thủ thực tế tồn tại trong nền tảng của các cuộc trò chuyện AI như ChatGPT cũng cần được chú ý khẩn cấp.

Như đã đề cập trong Phần 2 của bài viết này, cơ chế hoạt động của ChatGPT khiến các câu trả lời của nó có thể hoàn toàn “vô nghĩa nghiêm trọng”, điều này cực kỳ sai lệch. Tất nhiên, việc trả lời sai cho các câu hỏi như “điểm du lịch ở Đại Liên là gì” có thể không gây hậu quả nghiêm trọng, nhưng nếu ChatGPT được áp dụng cho các công cụ tìm kiếm, hệ thống khiếu nại của khách hàng và các lĩnh vực khác, thông tin sai lệch mà nó trả lời có thể gây ra rủi ro pháp lý cực kỳ nghiêm trọng.

Trên thực tế, rủi ro pháp lý như vậy đã xuất hiện và Galactica, một mô hình ngôn ngữ trong lĩnh vực nghiên cứu khoa học dịch vụ Meta được ra mắt gần như cùng lúc với ChatGPT vào tháng 11/2022, đã bị ngoại tuyến chỉ sau 3 ngày thử nghiệm vì các câu hỏi hỗn hợp về câu trả lời đúng và sai. Với tiền đề rằng các nguyên tắc kỹ thuật không thể bị phá vỡ trong một khoảng thời gian ngắn, nếu ChatGPT và các mô hình ngôn ngữ tương tự được áp dụng cho các công cụ tìm kiếm, hệ thống khiếu nại của khách hàng và các lĩnh vực khác, chúng phải được chuyển đổi để tuân thủ. Khi phát hiện người dùng có thể đặt câu hỏi chuyên nghiệp, người dùng nên được hướng dẫn tham khảo ý kiến chuyên gia thích hợp thay vì tìm kiếm câu trả lời từ AI và người dùng nên được nhắc nhở đáng kể rằng tính xác thực của các câu hỏi do AI trò chuyện trả về có thể cần được xác minh thêm để giảm thiểu rủi ro tuân thủ tương ứng.

Thứ ba, các vấn đề tuân thủ sở hữu trí tuệ do ChatGPT mang lại

Khi chuyển trọng tâm từ vĩ mô sang vi mô, ngoài tính xác thực của tin nhắn trả lời của AI, vấn đề sở hữu trí tuệ của AI chat, đặc biệt là các mô hình ngôn ngữ lớn như ChatGPT, cũng cần thu hút sự quan tâm của các cán bộ tuân thủ.

Vấn đề tuân thủ đầu tiên là liệu “khai thác dữ liệu văn bản” có yêu cầu cấp phép sở hữu trí tuệ tương ứng hay không. Như đã chỉ ra ở trên, ChatGPT dựa vào một lượng lớn văn bản ngôn ngữ tự nhiên (hoặc cơ sở dữ liệu giọng nói), ChatGPT cần khai thác và đào tạo dữ liệu trong kho dữ liệu và ChatGPT cần sao chép nội dung trong kho dữ liệu vào cơ sở dữ liệu của riêng mình và hành vi tương ứng thường được gọi là “khai thác dữ liệu văn bản” trong lĩnh vực xử lý ngôn ngữ tự nhiên. Trên tiền đề rằng dữ liệu văn bản tương ứng có thể cấu thành một tác phẩm, vẫn còn tranh cãi về việc liệu việc khai thác dữ liệu văn bản có vi phạm quyền sao chép hay không.

Trong lĩnh vực luật so sánh, cả Nhật Bản và Liên minh châu Âu đã mở rộng phạm vi sử dụng hợp lý trong luật bản quyền của họ, thêm “khai thác dữ liệu văn bản” trong AI như một trường hợp sử dụng hợp lý mới. Mặc dù một số học giả ủng hộ việc thay đổi hệ thống sử dụng hợp lý của Trung Quốc từ “đóng” sang “mở” trong quá trình sửa đổi luật bản quyền của Trung Quốc vào năm 2020, nhưng đề xuất này cuối cùng đã không được thông qua và hiện tại, luật bản quyền của Trung Quốc vẫn duy trì các điều khoản khép kín của hệ thống sử dụng hợp lý và chỉ mười ba trường hợp được quy định tại Điều 24 của Luật Bản quyền mới có thể được công nhận là sử dụng hợp lý, nói cách khác, hiện tại, luật bản quyền của Trung Quốc không bao gồm “khai thác dữ liệu văn bản” trong AI Bao gồm trong phạm vi áp dụng hợp lý, khai thác dữ liệu văn bản vẫn yêu cầu ủy quyền sở hữu trí tuệ tương ứng ở Trung Quốc.

Đối với câu hỏi liệu các tác phẩm do AI tạo ra có phải là nguyên bản hay không, nhóm của Sơ Sa tin rằng các tiêu chí phán đoán không nên khác với các tiêu chuẩn phán đoán hiện có, nói cách khác, cho dù một phản hồi được hoàn thành bởi AI hay con người, nó nên được đánh giá theo các tiêu chuẩn nguyên bản hiện có. Rõ ràng, theo luật sở hữu trí tuệ của hầu hết các quốc gia, bao gồm cả Trung Quốc, tác giả của một tác phẩm chỉ có thể là một thể nhân và AI không thể trở thành tác giả của một tác phẩm.

Cuối cùng, nếu ChatGPT ghép tác phẩm của bên thứ ba trong câu trả lời của mình, quyền sở hữu trí tuệ của nó sẽ được xử lý như thế nào? Nhóm của chị Sa tin rằng nếu câu trả lời của ChatGPT ghép một tác phẩm có bản quyền vào kho dữ liệu (mặc dù điều này ít có khả năng xảy ra theo nguyên tắc hoạt động của ChatGPT), thì theo luật bản quyền hiện hành của Trung Quốc, trừ khi nó cấu thành sử dụng hợp lý, nó phải được sao chép mà không có sự cho phép của chủ sở hữu bản quyền.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.