「急上昇」しているChatGPTは緊急に「コンプライアンスブレーキ」が必要

コアのヒント:

ChatGPTをはじめとする自然言語処理技術に基づくチャットAIには、短期的に早急に解決すべき3つの主要な法令遵守上の問題があります。

まず、チャットAIが提供する回答の知的財産権についてですが、チャットAIが生成した回答が対応する知的財産権を生むかどうか、知的財産権の許諾が必要かどうかが主なコンプライアンス上の問題となります。

第二に、膨大な量の自然言語処理テキスト(一般にコーパスと呼ばれる)に対するデータマイニングとチャットAIのトレーニングのプロセスでは、対応する知的財産権を取得する必要がありますか?

第3に、ChatGPTなどのチャットAIが答える仕組みの1つとして、既存の大量の自然言語テキストを数学的に統計的に数えることで統計的な言語モデルを得るというものがあり、その結果、チャットAIが「真面目なナンセンスなことを話す」可能性が高くなり、ひいては虚偽の情報が拡散する法的リスクにつながります。

一般的に、現在、中国の人工知能法はまだ研究前の段階にあり、正式な立法計画や関連する動議案はなく、関連部門は人工知能分野の監督に特に慎重です。

1. ChatGPTは「時代を越えた人工知能技術」ではない

ChatGPTは本質的に自然言語処理技術の開発の産物であり、本質的には言語モデルにすぎません。

2023年初頭、世界的なテクノロジー大手であるマイクロソフトの巨額の投資により、ChatGPTはテクノロジー分野の「トップストリーム」となり、サークルから抜け出すことに成功しました。 資本市場におけるChatGPTの概念の急激な台頭に伴い、多くの国内テクノロジー企業もこの分野をレイアウトし始めていますが、資本市場はChatGPTの概念に熱狂していますが、法務担当者として、ChatGPT自体がもたらす可能性のある法的セキュリティリスクと、その法令遵守の道筋を評価せずにはいられません。

ChatGPT の法的リスクとコンプライアンスの道筋を議論する前に、まず ChatGPT の技術的根拠を検討する必要があります – ChatGPT は、ニュースが示唆するように、質問者に必要な質問を提供しますか?

Sister Sa氏のチームから見ると、ChatGPTは一部のニュースで宣伝されているような「神」とは程遠い存在に見え、一言で言えば、TransformerやGPTなどの自然言語処理技術を統合したものであり、「時代を越えたAIの進歩」ではなく、本質的にはニューラルネットワークに基づく言語モデルであることに変わりはありません。

前述したように、ChatGPTは自然言語処理技術の開発の産物であり、技術の開発経緯としては、文法ベースの言語モデル、統計ベースの言語モデル、ニューラルネットワークベースの言語モデルの3つの段階を大まかに経てきました まず、ニューラルネットワークに基づく言語モデルの前身である統計的言語モデルの動作原理と、この原理から生じる可能性のある法的リスクを明確にする必要があります。

統計に基づく言語モデルの段階では、AIエンジニアが膨大な量の自然言語テキストを数えることで単語間の連続的なつながりの確率を判断し、人が質問をすると、AIは問題の構成語が構成されている言語環境においてどの単語の確率が高いかを分析し始め、これらの確率の高い単語をつなぎ合わせて統計に基づいた回答を返します。 この原理は、自然言語処理技術の登場以来、その発展を貫いてきたといえ、その後のニューラルネットワークに基づく言語モデルの出現も、ある意味では統計に基づく言語モデルの修正でもあります。

わかりやすい例を挙げると、シスター・サのチームは、下図に示すように、「大連の観光名所は何ですか?」という質問をChatGPTのチャットボックスに入力しました。

最初のステップでは、AIが「大連、観光、景勝地」という質問の基本的な形態素を分析し、既存のコーパスでこれらの形態素が配置されている自然言語テキストセットを見つけ、このセットで出現確率が最も高いコロケーションを見つけ、これらのコロケーションを組み合わせて最終的な答えを形成します。 例えば、AIは「大連、観光、リゾート」の3つの単語が出現する確率が高いコーパスに「中山公園」という単語があることを発見し、「中山公園」に戻り、「公園」という単語は庭園、湖、噴水、彫像などの単語とのコロケーションの確率が最も高いため、さらに「これは美しい庭園、湖、噴水、彫像のある歴史的な公園です。 」

つまり、AIの背後にすでに存在する自然言語テキスト情報(コーパス)の確率統計に基づいて全体のプロセスが行われているため、返される回答も「統計結果」であり、多くの質問に対するChatGPTの「深刻なナンセンス」につながります。 「大連の観光名所は何ですか」という質問に対する答えとして、大連には中山公園がありますが、中山公園には湖、噴水、彫像はありません。 大連には歴史上「スターリン広場」がありましたが、スターリン広場は商業広場ではなく、ショッピングセンター、レストラン、娯楽施設もありませんでした。 どうやら、ChatGPTによって返される情報は誤りです。

第二に、ChatGPTは現在、言語モデルとして最も適したアプリケーションシナリオです

前編では統計ベースの言語モデルのデメリットを率直に説明しましたが、ChatGPTはすでに統計ベースの言語モデルを大幅に改善するニューラルネットワークベースの言語モデルであり、その技術的基盤であるTransformerとGPTは最新世代の言語モデルです このモデルは、自然言語を非常に深くモデル化するために組み合わされており、返される文章は「ナンセンス」な場合もありますが、一見すると「人間の応答」に見えるため、このテクノロジーは、大規模な人間とコンピューターの相互作用を必要とするシナリオで幅広い応用シナリオを持っています。

今のところ、そのようなシナリオは 3 つあります。

まず、検索エンジンです。

第二に、銀行、法律事務所、さまざまな仲介業者、ショッピングモール、病院、および上記の場所の顧客苦情システム、ガイダンスナビゲーション、政府業務相談システムなどの政府サービスプラットフォームにおける人間とコンピューターの相互作用メカニズム。

第三に、スマートカーとスマートホーム(スマートスピーカーやスマートライトなど)の相互作用メカニズムです。

ChatGPTなどのAIチャット技術を組み合わせた検索エンジンは、従来の検索エンジンベースのアプローチ+ニューラルネットワークベースの言語モデルを提示する可能性があります。 現在、GoogleやBaiduなどの伝統的な検索大手は、ニューラルネットワークベースの言語モデル技術を深く蓄積しており、例えばGoogleにはChatGPTに匹敵するSparrowやLamdaがあります。

ChatGPTなどのAIチャット技術を顧客クレームシステム、病院やショッピングモールの案内・ナビゲーション、政府機関の政務相談システムに適用することで、関連部門の人件費を大幅に削減し、コミュニケーション時間を節約できるが、問題は、統計に基づく回答が全く間違った内容の回答を生む可能性があり、それがもたらすリスクコントロールリスクをさらに評価する必要があるかもしれないということだ。

上記の2つのアプリケーションシナリオと比較して、この分野のアプリケーション環境は比較的プライベートであり、AIによってフィードバックされた間違ったコンテンツは大きな法的リスクを引き起こさないと同時に、そのようなシナリオはコンテンツの正確性に対する高い要件がなく、ビジネスモデルがより成熟しているため、スマートカーやスマートホームの分野でChatGPTアプリケーションが上記のデバイスの人間とコンピューターの相互作用メカニズムになる法的リスクははるかに小さくなります。

III. ChatGPTの法的リスクとコンプライアンスの道筋に関する予備的検討

まず、中国における人工知能の全体的な規制状況

多くの新興技術と同様に、ChatGPTに代表される自然言語処理技術は「コリングリッジのジレンマ」に直面しています このジレンマには、情報のジレンマ、つまり、新興技術の社会的影響は、技術の初期段階では予測できないこと、および、いわゆる制御のジレンマ、つまり、新興技術の悪影響が発見された場合、その技術はしばしば社会的および経済的構造全体の一部になり、悪影響の社会的影響を効果的に制御できないことが含まれます。

人工知能の分野、特に自然言語処理技術が急速に発展する段階にある現在、この技術はいわゆる「コリングリッジのジレンマ」に陥る可能性が高く、対応する法規制は「追いついていない」ようです。 現在、中国には人工知能産業に関する国内法はありませんが、地方レベルで関連する立法の試みが行われています。 昨年9月、深圳市は国家非人工知能産業の特別法である「深圳経済特区における人工知能産業振興条例」を発表し、上海市も「上海市人工知能産業発展促進条例」を可決した。

人工知能の倫理的規制に関しては、新世代の人工知能のガバナンスのための国家専門家委員会も2021年に「新世代の人工知能倫理規定」を発行し、人工知能の研究開発と応用のライフサイクル全体に倫理を統合することを提案しています。

第二に、ChatGPTがもたらす偽情報の法的リスク

マクロからミクロに焦点を移すと、AI業界の全体的な規制状況とAIの倫理的規制は別として、ChatGPTなどのAIチャットの基盤に存在する実用的なコンプライアンスの問題にも緊急の注意を払う必要があります。

この記事のパート2で述べたように、ChatGPTの動作メカニズムにより、その応答が完全に「深刻なナンセンス」になる可能性があり、これは非常に誤解を招くものです。 もちろん、「大連の観光名所は何か」といった質問に虚偽の回答をしたからといって、深刻な結果にはならないかもしれませんが、ChatGPTを検索エンジンや顧客苦情システムなどの分野に応用すれば、回答する虚偽の情報は極めて深刻な法的リスクをもたらす可能性があります。

実際、このような法的リスクはすでに顕在化しており、2022年11月にChatGPTとほぼ同時期にローンチされたメタサービスの科学研究分野の言語モデルであるGalacticaは、正誤問が混在していたため、わずか3日間のテストでオフラインにされました。 技術原理は短期間では突破できないという前提のもと、ChatGPTや類似の言語モデルを検索エンジンや顧客クレームシステムなどの分野に適用すれば、コンプライアンスのために変革する必要があります。 ユーザーが専門的な質問をする可能性があることが検出された場合、ユーザーはAIからの回答を探すのではなく、適切な専門家に相談するように指示されるべきであり、対応するコンプライアンスリスクを最小限に抑えるために、チャットAIによって返される質問の信憑性をさらに検証する必要がある可能性があることをユーザーに大幅に思い出させる必要があります。

第三に、ChatGPTがもたらす知的財産コンプライアンスの問題

マクロからミクロに焦点を移すと、AIの返信メッセージの信憑性に加えて、チャットAI、特にChatGPTのような大規模言語モデルの知的財産の問題もコンプライアンス担当者の注意を引く必要があります。

第1のコンプライアンス問題は、「テキストデータマイニング」に相応の知的財産ライセンスが必要かどうかである。 上記で指摘したように、ChatGPTは膨大な量の自然言語テキスト(または音声データベース)に依存しており、ChatGPTはコーパス内のデータをマイニングしてトレーニングする必要があり、ChatGPTはコーパス内のコンテンツを独自のデータベースにコピーする必要があり、対応する動作は自然言語処理の分野では「テキストデータマイニング」と呼ばれることがよくあります。 対応するテキストデータが著作物を構成する可能性があることを前提として、テキストデータマイニングが複製権を侵害するかどうかについては、依然として論争があります。

比較法の分野では、日本とEUの両国が著作権法におけるフェアユースの範囲を拡大し、フェアユースの新たな事例としてAIにおける「テキストデータマイニング」を追加した。 2020年に中国の著作権法を改正する過程で、中国のフェアユース制度を「クローズド」から「オープン」に変更することを提唱する学者もいましたが、この提案は最終的に採用されず、現在、中国の著作権法は依然としてフェアユース制度のクローズドな規定を維持しており、著作権法第24条に規定されている13の状況のみがフェアユースとして認められています、つまり、現在のところ、中国の著作権法にはAIに「テキストデータマイニング」は含まれていません 合理的な適用範囲に含まれるテキストデータマイニングは、依然として中国で対応する知的財産の承認を必要とします。

AIが生成した作品がオリジナルかどうかという問題については、審査基準は既存の判断基準と変わらず、つまりAIが回答するか人間が完成させるかにかかわらず、既存のオリジナリティ基準で判断すべきだとシスター・サのチームは考えています。 明らかに、中国を含むほとんどの国の知的財産法の下では、著作物の著作者は自然人であることしかできず、AIは著作物の著作者になることはできません。

最後に、ChatGPTが返信で第三者の作品をつなぎ合わせた場合、その知的財産権はどのように扱われるべきでしょうか? Sister Sa氏のチームは、ChatGPTの返信がコーパス内の著作物をつなぎ合わせている場合(ただし、ChatGPTの動作原理によれば、これは起こりにくい)、中国の現在の著作権法によれば、フェアユースを構成しない限り、著作権所有者の許可なしにコピーする必要があると考えています。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
0/400
コメントなし
  • ピン