ChatGPT, yang "melonjak", sangat membutuhkan "rem kepatuhan"

2023-12-01 11:07:13

Tips Inti:

ChatGPT dan AI obrolan lainnya berdasarkan teknologi pemrosesan bahasa alami memiliki tiga masalah kepatuhan hukum utama yang perlu segera diselesaikan dalam jangka pendek:

Pertama, ketika menyangkut hak kekayaan intelektual dari jawaban yang diberikan oleh chat AI, masalah kepatuhan utama adalah apakah jawaban yang dihasilkan oleh chat AI menghasilkan hak kekayaan intelektual yang sesuai, dan apakah otorisasi hak kekayaan intelektual diperlukan.

Kedua, apakah proses penambangan data dan pelatihan obrolan AI pada sejumlah besar teks pemrosesan bahasa alami (umumnya dikenal sebagai korpus) perlu mendapatkan hak kekayaan intelektual yang sesuai?

Ketiga, salah satu mekanisme untuk ChatGPT dan obrolan AI lainnya untuk menjawab adalah untuk mendapatkan model bahasa berbasis statistik dengan secara matematis secara statistik menghitung sejumlah besar teks bahasa alami yang ada, yang mengarah pada fakta bahwa obrolan AI cenderung “berbicara omong kosong serius”, yang pada gilirannya mengarah pada risiko hukum penyebaran informasi palsu.

Secara umum, saat ini, undang-undang kecerdasan buatan China masih dalam tahap pra-penelitian, dan tidak ada rencana legislatif formal atau rancangan mosi yang relevan, dan departemen terkait sangat berhati-hati dalam pengawasan bidang kecerdasan buatan.

1. ChatGPT bukanlah “teknologi kecerdasan buatan lintas era”

ChatGPT pada dasarnya adalah produk dari pengembangan teknologi pemrosesan bahasa alami, dan pada dasarnya masih hanya model bahasa.

Pada awal tahun 2023, investasi besar raksasa teknologi global Microsoft telah menjadikan ChatGPT sebagai “top stream” di bidang teknologi dan berhasil keluar dari lingkaran. Dengan maraknya konsep ChatGPT di pasar modal, banyak perusahaan teknologi dalam negeri juga mulai menata bidang ini, sementara pasar modal sangat antusias dengan konsep ChatGPT, sebagai pekerja legal, mau tidak mau kami mengevaluasi risiko keamanan hukum apa yang mungkin dibawa ChatGPT sendiri, dan apa jalur kepatuhan hukumnya?

Sebelum membahas risiko hukum dan jalur kepatuhan ChatGPT, pertama-tama kita harus memeriksa alasan teknis ChatGPT – apakah ChatGPT memberikan pertanyaan apa pun yang diinginkan penanya, seperti yang disarankan berita?

Di mata tim Sister Sa, ChatGPT tampaknya jauh dari “dewa” seperti beberapa berita yang diiklankan - singkatnya, ini hanyalah integrasi teknologi pemrosesan bahasa alami seperti Transformer dan GPT, dan pada dasarnya masih merupakan model bahasa berdasarkan jaringan saraf, daripada “kemajuan AI lintas era”.

Seperti disebutkan sebelumnya, ChatGPT adalah produk dari pengembangan teknologi pemrosesan bahasa alami, dan dalam hal sejarah perkembangan teknologi, secara kasar telah melalui tiga tahap: model bahasa berbasis tata bahasa, model bahasa berbasis statistik, dan model bahasa berbasis jaringan saraf Prinsip kerja dan risiko hukum yang mungkin timbul dari prinsip ini harus diperjelas terlebih dahulu sebagai prinsip kerja model bahasa berbasis statistik, pendahulu dari model bahasa berbasis jaringan saraf.

Pada tahap model bahasa berbasis statistik, insinyur AI menentukan probabilitas hubungan berturut-turut antara kata-kata dengan menghitung sejumlah besar teks bahasa alami, dan ketika orang mengajukan pertanyaan, AI mulai menganalisis kata-kata mana yang sangat mungkin dalam lingkungan bahasa di mana kata-kata penyusun masalah disusun, dan kemudian menyambung kata-kata probabilitas tinggi ini bersama-sama untuk mengembalikan jawaban berbasis statistik. Dapat dikatakan bahwa prinsip ini telah berjalan melalui perkembangan teknologi pemrosesan bahasa alami sejak kemunculannya, dan bahkan dalam arti tertentu, kemunculan selanjutnya dari model bahasa berbasis jaringan saraf juga merupakan modifikasi dari model bahasa berbasis statistik.

Untuk memberikan contoh yang mudah dipahami, tim Sister Sa mengetik pertanyaan “Apa saja tempat wisata di Dalian?” ke dalam kotak obrolan ChatGPT, seperti yang ditunjukkan pada gambar di bawah ini:

Pada langkah pertama, AI akan menganalisis morfem dasar dalam pertanyaan, “Dalian, yang, pariwisata, dan tempat-tempat indah”, dan kemudian menemukan set teks bahasa alami di mana morfem ini berada di korpus yang ada, menemukan kolokasi dengan probabilitas kejadian tertinggi dalam set ini, dan kemudian menggabungkan kolokasi ini untuk membentuk jawaban akhir. Misalnya, AI akan menemukan bahwa ada kata “Taman Zhongshan” di korpus dengan probabilitas tinggi terjadinya tiga kata “Dalian, pariwisata, dan resor”, sehingga akan kembali ke “Taman Zhongshan”, dan kata “taman” memiliki probabilitas kolokasi tertinggi dengan kata-kata seperti taman, danau, air mancur, patung, dll., Jadi selanjutnya akan kembali "Ini adalah taman bersejarah dengan taman, danau, air mancur, dan patung yang indah. 」

Dengan kata lain, seluruh proses didasarkan pada statistik probabilitas dari informasi teks bahasa alami (korpus) yang sudah ada di belakang AI, sehingga jawaban yang dikembalikan juga merupakan “hasil statistik”, yang mengarah ke “omong kosong serius” ChatGPT pada banyak pertanyaan. Sebagai jawaban atas pertanyaan “Apa saja tempat wisata di Dalian”, meskipun Dalian memiliki Taman Zhongshan, tidak ada danau, air mancur, dan patung di Taman Zhongshan. Dalian memang memiliki “Stalin Square” dalam sejarah, tetapi Stalin Square tidak pernah menjadi alun-alun komersial, juga tidak memiliki pusat perbelanjaan, restoran, atau tempat hiburan. Rupanya, informasi yang dikembalikan oleh ChatGPT salah.

Kedua, ChatGPT saat ini merupakan skenario aplikasi yang paling cocok sebagai model bahasa

Meskipun kami secara blak-blakan menjelaskan kerugian dari model bahasa berbasis statistik di bagian sebelumnya, ChatGPT sudah menjadi model bahasa berbasis jaringan saraf yang sangat meningkatkan model bahasa berbasis statistik, dan fondasi teknisnya Transformer dan GPT adalah model bahasa generasi terbaru Model ini digabungkan untuk memodelkan bahasa alami dengan cara yang sangat dalam, dan kalimat yang dikembalikan kadang-kadang “omong kosong”, tetapi pada pandangan pertama mereka masih terlihat seperti “tanggapan manusia”, sehingga teknologi ini memiliki berbagai skenario aplikasi dalam skenario yang membutuhkan interaksi manusia-komputer besar-besaran.

Untuk saat ini, ada tiga skenario seperti itu:

Pertama, mesin pencari;

Kedua, mekanisme interaksi manusia-komputer di bank, firma hukum, berbagai perantara, pusat perbelanjaan, rumah sakit, dan platform layanan pemerintah pemerintah, seperti sistem pengaduan pelanggan, navigasi panduan, dan sistem konsultasi urusan pemerintahan di tempat-tempat tersebut di atas;

Ketiga, mekanisme interaksi mobil pintar dan rumah pintar (seperti speaker pintar dan lampu pintar).

Mesin pencari yang menggabungkan teknologi obrolan AI seperti ChatGPT cenderung menghadirkan pendekatan berbasis mesin pencari tradisional + model bahasa berbasis jaringan saraf. Saat ini, raksasa pencarian tradisional seperti Google dan Baidu memiliki akumulasi mendalam teknologi model bahasa berbasis jaringan saraf, misalnya, Google memiliki Sparrow dan Lamda, yang sebanding dengan ChatGPT.

Penerapan teknologi obrolan AI seperti ChatGPT dalam sistem keluhan pelanggan, panduan dan navigasi rumah sakit dan pusat perbelanjaan, dan sistem konsultasi urusan pemerintah dari lembaga pemerintah akan sangat mengurangi biaya sumber daya manusia unit terkait dan menghemat waktu komunikasi, tetapi masalahnya adalah bahwa jawaban berdasarkan statistik dapat menghasilkan respons konten yang sepenuhnya salah, dan risiko pengendalian risiko yang dibawa oleh ini mungkin perlu dievaluasi lebih lanjut.

Dibandingkan dengan dua skenario aplikasi di atas, risiko hukum aplikasi ChatGPT menjadi mekanisme interaksi manusia-komputer dari perangkat yang disebutkan di atas di bidang mobil pintar dan rumah pintar jauh lebih kecil, karena lingkungan aplikasi di bidang ini relatif pribadi, dan konten yang salah diumpankan kembali oleh AI tidak akan menyebabkan risiko hukum yang besar, dan pada saat yang sama, skenario seperti itu tidak memiliki persyaratan tinggi untuk akurasi konten, dan model bisnis lebih matang.

III. Studi Pendahuluan tentang Risiko Hukum dan Jalur Kepatuhan ChatGPT

Pertama, lanskap peraturan keseluruhan kecerdasan buatan di Cina

Seperti banyak teknologi baru, teknologi pemrosesan bahasa alami yang diwakili oleh ChatGPT menghadapi “dilema Collingridge” Dilema ini mencakup dilema informasi, yaitu, konsekuensi sosial dari teknologi yang muncul tidak dapat diprediksi pada tahap awal teknologi, dan apa yang disebut dilema kontrol, yaitu, ketika konsekuensi sosial yang merugikan dari teknologi yang muncul ditemukan, teknologi sering menjadi bagian dari keseluruhan struktur sosial dan ekonomi, sehingga konsekuensi sosial yang merugikan tidak dapat dikendalikan secara efektif.

Pada saat bidang kecerdasan buatan, terutama teknologi pemrosesan bahasa alami, berada dalam tahap perkembangan pesat, teknologi tersebut kemungkinan akan jatuh ke dalam apa yang disebut “dilema Collingridge”, dan peraturan hukum yang sesuai tampaknya tidak “mengimbangi”. Saat ini, tidak ada undang-undang nasional tentang industri kecerdasan buatan di China, tetapi ada upaya legislatif yang relevan di tingkat lokal. Pada bulan September tahun lalu, Shenzhen mengumumkan “Peraturan tentang Promosi Industri Kecerdasan Buatan di Zona Ekonomi Khusus Shenzhen”, yang merupakan undang-undang khusus untuk industri kecerdasan non-buatan nasional, dan kemudian Shanghai juga mengesahkan “Peraturan tentang Mempromosikan Pengembangan Industri Kecerdasan Buatan di Shanghai”.

Dalam hal regulasi etika kecerdasan buatan, Komite Profesional Nasional untuk Tata Kelola Generasi Baru Kecerdasan Buatan juga mengeluarkan “Kode Etik Kecerdasan Buatan Generasi Baru” pada tahun 2021, mengusulkan untuk mengintegrasikan etika ke dalam seluruh siklus hidup R&D dan aplikasi kecerdasan buatan.

Kedua, risiko hukum disinformasi yang ditimbulkan oleh ChatGPT

Mengalihkan fokus dari makro ke mikro, selain dari lanskap peraturan keseluruhan industri AI dan regulasi etis AI, masalah kepatuhan praktis yang ada di dasar obrolan AI seperti ChatGPT juga perlu perhatian mendesak.

Seperti yang disebutkan di Bagian 2 artikel ini, mekanisme kerja ChatGPT memungkinkan balasannya menjadi “omong kosong serius”, yang sangat menyesatkan. Tentu saja, tanggapan palsu terhadap pertanyaan seperti “apa saja tempat wisata di Dalian” mungkin tidak memiliki konsekuensi serius, tetapi jika ChatGPT diterapkan ke mesin pencari, sistem keluhan pelanggan, dan bidang lainnya, informasi palsu yang dibalasnya dapat menimbulkan risiko hukum yang sangat serius.

Faktanya, risiko hukum seperti itu telah muncul, dan Galactica, model bahasa di bidang penelitian ilmiah layanan Meta yang diluncurkan hampir bersamaan dengan ChatGPT pada November 2022, offline setelah hanya 3 hari pengujian karena pertanyaan campuran jawaban benar dan salah. Di bawah premis bahwa prinsip-prinsip teknis tidak dapat ditembus dalam waktu singkat, jika ChatGPT dan model bahasa serupa diterapkan ke mesin pencari, sistem keluhan pelanggan, dan bidang lainnya, mereka harus diubah untuk kepatuhan. Ketika terdeteksi bahwa pengguna dapat mengajukan pertanyaan profesional, pengguna harus diarahkan untuk berkonsultasi dengan profesional yang sesuai alih-alih mencari jawaban dari AI, dan pengguna harus diingatkan secara signifikan bahwa keaslian pertanyaan yang dikembalikan oleh obrolan AI mungkin perlu diverifikasi lebih lanjut untuk meminimalkan risiko kepatuhan yang sesuai.

Ketiga, masalah kepatuhan kekayaan intelektual yang dibawa oleh ChatGPT

Saat mengalihkan fokus dari makro ke mikro, selain keaslian pesan balasan AI, masalah kekayaan intelektual chat AI, terutama model bahasa besar seperti ChatGPT, juga harus menarik perhatian petugas kepatuhan.

Masalah kepatuhan pertama adalah apakah “penambangan data teks” memerlukan lisensi kekayaan intelektual yang sesuai. Seperti yang ditunjukkan di atas, ChatGPT bergantung pada sejumlah besar teks bahasa alami (atau basis data ucapan), ChatGPT perlu menambang dan melatih data dalam korpus, dan ChatGPT perlu menyalin konten dalam korpus ke dalam basis datanya sendiri, dan perilaku yang sesuai sering disebut “penambangan data teks” di bidang pemrosesan bahasa alami. Pada premis bahwa data teks yang sesuai dapat merupakan sebuah karya, masih ada kontroversi mengenai apakah penambangan data teks melanggar hak reproduksi.

Di bidang perbandingan hukum, Jepang dan Uni Eropa telah memperluas cakupan penggunaan wajar dalam undang-undang hak cipta mereka, menambahkan “penambangan data teks” di AI sebagai kasus baru penggunaan wajar. Meskipun beberapa sarjana menganjurkan perubahan sistem penggunaan wajar Tiongkok dari “tertutup” menjadi “terbuka” dalam proses merevisi undang-undang hak cipta Tiongkok pada tahun 2020, proposisi ini akhirnya tidak diadopsi, dan saat ini, undang-undang hak cipta Tiongkok masih mempertahankan ketentuan tertutup dari sistem penggunaan wajar, dan hanya tiga belas keadaan yang diatur dalam Pasal 24 Undang-Undang Hak Cipta yang dapat diakui sebagai penggunaan wajar, dengan kata lain, saat ini, undang-undang hak cipta Tiongkok tidak termasuk “penambangan data teks” di AI Termasuk dalam ruang lingkup aplikasi yang wajar, penambangan data teks masih memerlukan otorisasi kekayaan intelektual yang sesuai di Cina.

Adapun pertanyaan apakah karya yang dihasilkan AI itu asli, tim Sister Sa percaya bahwa kriteria penilaian tidak boleh berbeda dari standar penilaian yang ada, dengan kata lain, apakah respons diselesaikan oleh AI atau manusia, itu harus dinilai sesuai dengan standar orisinalitas yang ada. Jelas, di bawah undang-undang kekayaan intelektual sebagian besar negara, termasuk China, penulis sebuah karya hanya bisa menjadi orang alami, dan AI tidak bisa menjadi penulis sebuah karya.

Terakhir, jika ChatGPT menyambung karya pihak ketiga dalam jawabannya, bagaimana seharusnya hak kekayaan intelektualnya ditangani? Tim Sister Sa percaya bahwa jika balasan ChatGPT menyambung karya berhak cipta dalam korpus (meskipun ini kecil kemungkinannya terjadi sesuai dengan prinsip kerja ChatGPT), maka menurut undang-undang hak cipta Tiongkok saat ini, kecuali jika itu merupakan penggunaan wajar, itu harus disalin tanpa izin dari pemilik hak cipta.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.