
2020 年 12 月、Timnit Gebru(Google 倫理 AI チーム共同責任者、時任)さんは休暇中にメールを受け取り、Google に解雇されたと知らされました。理由は、Google が彼女に社員名が掲載された論文を取り下げる、または社員名を削除するよう求めたのに対し、彼女が拒否したことでした。その論文で示された幻覚と無理解、偏見の増幅、環境コスト、訓練データを検証できないこと、言語の中心化――これらは 5 年後には現実の中でそれぞれ裏づけられる事例が見つかっています。
5つの予言の現実対応:確認された事例とデータ
幻覚と無理解:論文は 2021 年に、のちに「幻覚」と呼ばれる現象について記述していました。LLM が確率に従って言語の形をつなぎ合わせているだけで、「意味への参照が何もない」ことを指します。この問題は、すべての主要な AI システムにおける既知の欠陥として、複数の独立した学術評価で検証されています。
偏見の増幅:Amazon は 2014 年から開発した AI 採用ツールを、2018 年に、システムが女性の応募者に対して体系的に差別していたとして廃止しました。モデルは、男性中心の過去の履歴書データから、男性に偏った評価基準を学習してしまっていたのです。Obermeyer らは 2019 年に《Science》で発表した研究で、医療リスクを見積もる広く使われているアルゴリズムが「病状の深刻さ」の代わりに「医療費」を用いており、その結果、同じリスクスコアでも黒人患者の実際の病状がより重くなることを明らかにしました。研究では、修正後に追加のケアが必要と判定される黒人患者の割合が、17.7% から 46.5% に増えることが確認されています。
環境コスト:Google は 2024 年の環境レポートで、2023 年の温室効果ガス排出量が約 1,430 万トン CO₂e で、2019 年のベースラインから 48% 増えたと開示しています。Google が確認した主因は、AI によって引き起こされたデータセンターの電力使用の大幅な増加で、Google が掲げていた 2030 年のカーボンニュートラル目標を直接的に脅かしています。
訓練データを検証できない:2023 年 12 月、スタンフォードのネット観測サイトは、LAION-5B データセット(画像とテキストの 58.5 億ペアを含み、Stable Diffusion の訓練に使われていた)で、3,226 件の児童・少年の虐待に該当する疑いのある内容(CSAM)を発見しました。そのうち 1,008 件は外部機関によって確認されました。LAION-5B は直ちに削除されました。
言語の中心化:Thompson らの 2024 年の研究は、63.8 億の文で構成されるネット上のコーパスを分析し、そのうち 57.1% の文が多言語の平行集合に属していることを見出しました。これは、おそらく機械翻訳によって生成された低品質で重複の多いコンテンツであり、さらにこの割合は低資源言語で特に高いことが分かります。つまり、低資源言語のコーパスが、機械翻訳の劣悪な産物によって汚染されていることを意味しています。
Gebru が解雇されたことの確認された事実と論文の背景
論文には計 6 人の著者がおり、そのうち 4 人は Google の社員です。Gebru が解雇通知を受け取ったとき、彼女は休暇中でした。Google の要求は、社員名が掲載された体裁(名義)を取り下げる、または削除することでした。Gebru が拒否した後、休暇中に解雇の決定が通告されました。
論文は 2021 年 3 月に正式に発表されました。論文は明確に次のように述べています。LLM を作る会社では、その財務上および競争上のインセンティブが構造的に「安全と倫理」が製品のリリース速度を遅らせることを不可能にする、ということです。Gebru が解雇された出来事そのものは、この構造的な主張の具体的な裏づけとして広く引用されています。
よくある質問
〈ランダムなオウム〉論文の核心となる学術的主張は何ですか?
論文それ自体によれば、核心の論点には 2 つの層があります。第 1 の層は技術的なもので、LLM には幻覚、偏見の増幅、環境コスト、データを検証できないこと、言語の中心化という 5 種類のシステム上のリスクがあると指摘しています。第 2 の層はより根本的で、これら 5 種類のリスクが解決されにくいのは、LLM を作る会社が競争と財務上のプレッシャーの下で構造的に「速度を安全より優先する」方向に傾くからだと述べています。論文は ACM FAccT という学会での査読プロセスの中で学術的評価に通過しています。
Amazon の AI 採用ツールの偏見問題はどのように発見され、どう扱われましたか?
公表された報道によれば、Amazon の AI 採用ツールは 2014 年から開発され、モデルは過去 10 年間に男性が中心だった履歴書データを用いて訓練されたことで、男性に偏った評価パターンを自動的に学習し、「women's chess club」などの語を含む履歴書を自動で減点してしまう結果になりました。この偏見問題は 2018 年に発見されると、Amazon は直ちにそのツールを廃棄し、実際の応募者の評価に使っていなかったことを確認しています。
Google 2024 年の環境報告で炭素排出が増えたのは、完全に AI によるものですか?
Google の 2024 年の環境報告によれば、2023 年の温室効果ガス排出量は約 1,430 万トン CO₂e で、2019 年の基準から 48% 増加しました。Google は、主因が AI によってもたらされたデータセンターの電力使用の大幅な増加であることを明確に示しています。Google の説明では、炭素排出の増加が 100% AI によって生じたとは主張していませんが、AI インフラの拡張が増加の最も主要な駆動要因であることが確認されています。