著者:ムーンショット
1947年、アラン・チューリングはある講演で「私たちが欲しいのは経験から学習できる機械です」と述べました。
78年後、チューリング賞と名付けられ、「コンピュータ界のノーベル賞」と呼ばれるチューリング賞が、チューリングの問題を解決するために一生を捧げた2人の科学者に授与されました。
アンドリュー・バート(Andrew Barto)とリチャード・サットン(Richard Sutton)は、2024年のチューリング賞を受賞しました。彼らは9歳離れた師弟であり、AlphaGoとChatGPT技術の基礎を築いた人々であり、機械学習分野の先駆者でもあります。
チューリング賞受賞者アンドリュー・バート(Andrew Barto)とリチャード・サットン(Richard Sutton)
画像来源:チューリング賞公式ウェブサイト
Googleの首席科学者であるJeff Deanは、受賞スピーチで、「BartoとSuttonによって確立された強化学習技術が、チューリングの問いに直接答えました。彼らの仕事は過去数十年のAIの進歩における鍵でした。彼らが開発したツールは、今もAIの繁栄の中核です…Googleは、ACM A.M.チューリング賞をスポンサーできて光栄です。」
チューリング賞100万ドルの賞金の唯一のスポンサーはGoogleです。
そして賞を受賞した後、スポットライトの下に立つ2人の科学者はAIの大手企業を指差し、メディアに「受賞の言葉」を述べました:現在のAI企業は「ビジネスインセンティブに従っており、技術研究に専念していない」、社会には「未検証の橋を架け、人々に橋を渡ってテストさせる」と。
偶然を持って、チューリング賞が人工知能分野の科学者に授与された最後の機会は、2018年の授賞式で、ヨシュア·ベンジオ、ジェフリー·ヒントン、イアン·グッドフェローの3人が深層学習分野での貢献により受賞しました。
2018年のチューリング賞受賞者たち
画像ソース:eurekalert
ジョシュア・ベンジオとジェフリー・ヒントン(また、2024年のノーベル物理学賞受賞者)の2人の「AIの父」は、最近のAIブームで、大企業がAIを乱用することに対して世界社会と科学界に警鐘を鳴らしています。
ジェフリー・シントンは、Googleを辞めて、"言いたいことを自由に言う"ために、受賞したサントンは2017年から2023年までDeepMindの研究科学者も務めていました。
コンピュータ業界の最高栄誉がAIの中核技術の基礎を築いた人々に何度も授与されると、興味深い現象が次第に浮かび上がってきました。
なぜこれらの頂点の科学者たちはいつもスポットライトの下で振り返ってAIの警鐘を鳴らすのでしょうか?
人工知能の「架け橋」
もし、アラン・チューリングが人工知能の案内人であるなら、アンドリュー・バートとリチャード・サットンはその道の「架け橋者」である。
人工知能が急速に進化する中、賞賛された後、彼らは自分たちが築いた橋が人間の安全な通行を支えることができるかを再び検討していますか?
おそらく答えは、彼らが半世紀にわたって築いてきた学術キャリアの中に隠されている可能性があります-「機械学習」をどのように構築したかを振り返ることで、なぜ「技術の失控」に警戒しているのかが理解できます。
写真提供:カーネギーメロン大学
1950年、アラン・チューリングは、著名な論文「計算機と知能」の冒頭で、哲学的かつ技術的な問題を提起しました。
「機械は考えることができますか?」
こうして、チューリングは後に広く知られることになる「チューリングテスト」と呼ばれる「模倣ゲーム」を設計しました。
同時、チューリングは、機械知能は学習によって獲得できると提案し、予めプログラムされるだけでないと述べた。彼は「子供機械(Child Machine)」の概念を想定し、訓練と経験を通じて、機械が徐々に子供のように学習することができると考えた。
人工知能の核心目標は、感知し、より良い行動を取ることができる知能体を構築することであり、知能を測定する基準は、つまり、知能体が「ある行動が他の行動よりも優れている」と判断する能力です。
機械学習の目的は、機械に行動した後のフィードバックを提供し、機械がそのフィードバックの経験から自己学習できるようにすることにあります。言い換えれば、チューリングは報酬と罰に基づく機械学習方法を考案し、パブロフの犬のトレーニングと同じです。
ゲームでプレイするほど弱くなり、強くなる、それも一種の「強化学習」です
画像ソース: zequance.ai
チューリングによって導入された機械学習の道は、30年後になって師弟コンビによって構築された橋、強化学習(Reinforcement Learning、RL)によって完成されました。
1977年、アンドリュー・バートは心理学と神経科学に触発され、人間の知性に関する新しい理論を探求し始めました:ニューロンはまるで「快楽主義者」であり、人間の脳内には何十億ものニューロン細胞があり、それぞれが幸福(報酬)を最大化し、苦痛(罰)を最小化しようとします。また、ニューロンはシグナルを単なる機械的に受信・送信するだけではありません。あるニューロンの活動パターンが正のフィードバックを引き起こすと、そのパターンを繰り返す傾向があり、これが人間の学習プロセスを共同で駆動しています。
1980年代に、バートは彼の博士課程の学生であるリチャード・サットンを連れて、この「継続的な試行、フィードバックに基づいて接続を調整し、最適な行動パターンを見つける」神経元理論を人工知能に応用し、強化学習が誕生しました。
『強化学習:導論』は、クラシックな教科書となり、80000 回近く引用されています
画像ソース: IEEE
師弟2人はマルコフ決定過程の数学的基盤を利用して、多くの強化学習の中核アルゴリズムを開発し、記述しました。強化学習の理論的枠組みを体系的に構築し、『強化学習:イントロダクション』の教科書も記述し、何万人もの研究者が強化学習の分野に参入できるようにしました。この2人は強化学習の父と呼ばれています。
彼らは強化学習を研究する目的は、効率的で正確で、最大の報酬を得るために最適な行動を取る機械学習方法を見つけることです。
強化学習のための「神の手」
機械学習が「詰め込み式」学習であるとすれば、強化学習は「放し飼い式」学習です。
従来の機械学習は、モデルに大量のラベル付きデータを供給し、入力と出力の間に固定されたマッピング関係を構築することです。最も古典的なシナリオは、コンピュータに猫と犬の写真を見せ、どれが猫でどれが犬かを教えることです。十分な数の画像を与えれば、コンピュータは猫と犬を識別するでしょう。
強化学習は、明確な指導がない状況で、機械が試行錯誤と報酬ペナルティのメカニズムを通じて行動を調整し、結果を最適化するプロセスです。まるでロボットが歩くことを学ぶように、常に「このステップは正しい、あのステップは間違っている」と教えられる必要はありません。試行錯誤して転倒し、調整を繰り返すことで、最終的には自分で歩けるようになり、独自の歩行スタイルさえも身につけることができます。
明らかに、強化学習の原理は人間の知能により近いです。まるで、幼児が転んで歩くことを学び、模索して物をつかむことを学び、言葉を捕らえるために喃語を発することを学ぶように。
「回し蹴りロボ」の爆発の裏には、強化学習訓練もあります
画像ソース:Unitree Technology
強化学習の「ハイライト」は、2016年のAlphaGoの「神の一手」でした。当時、AlphaGoは李世乭との対局で37手目に人類を驚かせる白い碁石を打ち、一手で劣勢を覆し、李世石を打ち負かしました。
囲碁界のトップクラスのプレーヤーや解説者たちは、AlphaGoがこの手を打つとは予想していませんでした。なぜなら、人間の棋士の経験では、この手が「理解できない」からです。試合後、李世乭もこの手を考えたことはまったくなかったと認めています。
AlphaGoは、「神の一手」を囲碁の棋譜から覚えたのではなく、何度もの自己対局を経て、試行錯誤し、長期計画を立て、戦略を最適化した結果、自己探索してきたものであり、これが強化学習の本質です。
AlphaGoによってリズムを乱された李世石
画像クレジット: AP
強化学習は、時には逆転攻勢をかけて人間の知能に影響を与えます。まるでAlphaGoが「神の一手」を見せた後、棋士たちがAIによる囲碁の手法を学び研究し始めたようです。科学者たちも強化学習のアルゴリズムと原理を利用して、人間の脳の学習メカニズムを理解しようとしています。バートとサントの研究成果の1つに、人間の意思決定や学習におけるドーパミンの役割を説明する計算モデルが構築されています。
また、強化学習は、特に複雑な規則や多様な状況を処理し、最適な解決策を見つけるのに長けており、囲碁、自動運転、ロボット制御、そして曖昧な会話でも優れた成績を収めています。
これらは現在、最先端で最も人気のあるAIアプリケーション領域であり、特に大規模言語モデルでは、ほぼすべてのトップ言語モデルがRLHF(Human Feedback Reinforcement Learning)トレーニング手法を採用しています。つまり、人間がモデルの回答を評価し、モデルがフィードバックを受けて改善する仕組みです。
しかし、これがバートの懸念の核心です:大手企業が橋を建設した後、人々が橋を行き来する方法で橋の安全性をテストする。
「何の保護措置もなしに、ソフトウェアを何百万人ものユーザーに直接提供することは、責任ある行為ではありません」とバトは受賞後のインタビューで述べています。
「技術の発展は本来、潜在的なネガティブな影響を制御し回避することに伴うべきですが、私はこれらのAI企業が本当にそれを実現しているのを見ていません。」彼は付け加えました。
AI トッププレイヤーは一体何を心配しているのか?
AI脅威論は終わりません、なぜなら科学者たちは自ら創り出した未来が失控することを最も恐れているからです。
バトとサントンの「受賞の言葉」には、現在のAI技術への厳しい非難はなく、AI企業への不満が満ちています。
彼らはインタビューで、現在の人工知能の発展は、大手企業が強力だが誤りやすいモデルを次々に投入し、これによって多額の資金を調達し、数十億ドルをさらに投資して、チップやデータの軍拡競争を展開していることを警告しています。
大手投資銀行がAI業界を再評価
画像出典:ゴールドマン・サックス
確かに、ドイツ銀行の研究によると、現在、テクノロジージャイアントのAI分野への総投資額は約3400億ドルで、この規模はギリシャの年間GDPを超えています。業界のリーダーであるOpenAIは、企業価値が2600億ドルに達し、新たに400億ドルの新しい資金調達ラウンドを展開する準備をしています。
実際、多くのAI専門家は、バートーとサンドンの意見に同感しています。
以前、元マイクロソフトの幹部であるスティーブン・シノフスキーは、AI業界が規模化のジレンマに陥っており、技術の進歩をお金で買おうとしているが、これは技術の開発史において、コストが徐々に下がる傾向にあるべきであり、上昇するべきではない。
3 月 7 日、前 Google CEO エリック・シュミット、Scale AI 創設者アレックス・ワン、AI セキュリティセンター長ダン・ヘンドリックスの3人が共同で警告論文を発表しました。
3人のテクノロジー界のエリートは、現在、人工知能の最前線の発展状況は、マンハッタン計画の原子爆弾競争を思わせると考えています。AI企業は皆、自身の「マンハッタン計画」をひそかに進めており、過去10年間、彼らはAIへの投資を毎年2倍に増やしてきました。規制がなされない限り、AIは核兵器以来最も不安定な技術となる可能性があります。
「スーパーインテリジェンス戦略」と共著
画像ソース:nationalsecurity.ai
2019年にチューリング賞を受賞したヨシュア・ベンジオは、自身のブログで長文を投稿し、深層学習が今やAI産業に数兆ドルの価値をもたらし、資本が追い求め、争奪することを警告し、それが現在の世界秩序に深刻な影響をもたらす可能性があると述べています。
多くの技術系の科学者たちは、現在のAI産業は技術の探求、知性の考察、技術の乱用に対する警戒から逸脱し、資本を投入してチップを積み上げる大規模な利益追求モデルに向かっていると考えています。
「大規模なデータセンターを構築し、ユーザーからお金を集めて、必ずしも安全でないソフトウェアを使用させることは、私が認める動機ではありません。」とバトは受賞後のインタビューで述べました。
そして、30ヵ国、75人のAI専門家によって共同執策された初版『先進人工知能セキュリティ国際科学報告』には、「一般人工知能のリスクを管理する方法は、しばしばこのような仮定に基づいています:人工知能の開発者と政策立案者が、AGIモデルとシステムの能力と潜在的影響を正しく評価できるというものです。しかし、AGIの内部動作、能力、および社会的影響については、実際には非常に限定的に理解されています。」と記載されています。
ヨシュア·ベンオ
写真提供:ヨシュア・ベンジオ
明らかになっているのは、今日の「AI脅威論」が技術から大企業に方向転換したことです。
専門家たちは大企業に警告しています:お金を燃やし、材料を積み上げ、パラメーターを巻き上げていますが、開発した製品を本当に理解していますか?これがバートーとサンドンが「橋を架ける」という比喩を借りる理由でもあります。なぜなら技術は全人類に属している一方、資本は大企業だけに属しているからです。
バトとサントンは、これまでの研究分野である強化学習について。 その原則は人間の知能により適合し、「ブラックボックス」の特性を持ち、特に深層強化学習では、AIの行動パターンが複雑で説明が難しくなります。
これは人類の科学者の懸念でもあります:人工知能の成長を支え、証明していますが、その意図を読み解くのは難しいです。
そして、深層学習と強化学習技術を開発したチューリング賞受賞者たちは、AGI(汎用人工知能)の発展よりも、大手企業間の軍拡競争を懸念しています。AGI領域で「知能爆発」を引き起こし、ASI(スーパー人工知能)を誤って生み出す可能性があります。これら2つの違いは技術的問題だけでなく、人類文明の将来の運命にも関係しています。
人類の理解をはるかに超える情報量、決定速度、自己進化のレベルを持つASI(人工超知能)は、非常に慎重な設計と統治を受けない限り、人類史上最後であり、最も抗えない技術的なシングュラリティになる可能性があります。
AIフィーバーの今、これらの科学者はおそらく最も「冷水を浴びせる」資格がある人々です。 50年前、コンピュータがまだ巨大な存在だった時、彼らはすでに人工知能の研究を始め、過去から現在を形作り、未来を疑う立場にもありました。
AIリーダーは、オーバーホルムのような結末を迎えるのでしょうか?
画像クレジット: エコノミスト
2月の『エコノミスト』のインタビューで、DeepMindとAnthropicのCEOは述べました:
自分が次のオーブンハイマーになるのではないかと心配して、夜通し眠れないことがあります。