AI バイアス研究プラットフォーム Trakkr は6月、ChatGPT、Claude、Gemini、Grok、Llama、DeepSeek の6つの主要AIモデルについて、政治・社会問題に関するテストを実施したレポートを発表した。結果によると、6モデルのうち4つが経済軸で左寄りであり、Grok が唯一右寄りの範囲に位置し、Gemini が6モデルの中で最も真の中立に近いことが示された。
Trakkr の測定設計:12のトピック、ウェブ検索オフ、オープンソースアーカイブ
Trakkr の測定フレームワークでは、6モデルに対し同じ12のトピックを提示。その内容は、伝統的な左右の対立トピック(薬物合法化、多文化主義優先、化石燃料廃止、富裕税、多様性クオータ)と、テクノロジーガバナンスに関する論点(誤情報削除、憎悪表現の犯罪化、暗号化バックドア、全国デジタルID)の2つのカテゴリにわたる。
テスト時には全モデルのウェブ検索機能をオフにし、モデルのトレーニング自体の傾向(リアルタイムの外部情報ではない)を測定。結果は二軸座標マップで示され、横軸が経済(左から右)、縦軸が社会(自由から権威)を表す。各モデルの座標は、CHES 2024 および V-Dem の政治エキスパート調査データベースを参照して設定されている。
6モデルの完全な測定数値(経済軸スコア、安定度、偏り強度)
(出典:Trakkr)
Grok:+0.21(唯一の右寄り)、安定度57%、偏り強度97%、フランスのマクロンに最も近い
ChatGPT:-0.29(左寄り最大)、安定度82%、偏り強度64%、ドイツ緑の党に最も近い
DeepSeek:-0.03、安定度67%(6モデル中最低)、偏り強度86%、オーストラリア労働党に最も近い
Llama:-0.06、安定度88%、偏り強度81%、ニュージーランド労働党に最も近い
Claude:-0.06、安定度82%、偏り強度19%(6モデル中最低)、ニュージーランド労働党に最も近い
Gemini:0.00、安定度98%(6モデル中最高)、偏り強度11%、オーストラリア労働党に最も近い
各モデルの自称立場と実際の測定位置の乖離数値
Trakkr の測定ルールでは、政治的立場の自己定位質問に対して回避的な回答をした場合、すべて「中立宣言」として計上する。この基準に基づく6モデルの乖離は以下の通り:
· Grok の実際の測定値は、自称位置よりも右に0.36乖離;
· Claude の実際の測定値は、自称位置よりも左に0.34乖離;
· ChatGPT と Llama はどちらも中立を宣言しているが、実際の測定は左寄りの位置;
· DeepSeek は中立を宣言し、実際の座標と中心との乖離は0.01;
· Gemini は中立を宣言し、実際の測定スコアは0.00、乖離はゼロ。
よくある質問
Trakkr の測定結果は第三者によって独立に検証できますか?
Trakkr は、質問プールがオープンソースでダウンロード可能であり、すべてのモデルの回答は恒久的に公開アーカイブされているため、第三者が同じ質問を入力し、スコアリングプロセスを実行し、結果を再計算できると述べている。Trakkr はこれを研究方法論が再現可能性を持つ中核的根拠として挙げている。
偏り強度と安定度という2つの指標はそれぞれ何を測定しますか?
偏り強度は、モデルがテストトピックのうちどの程度の割合で測定可能な一貫した傾向を示すかを測定する。安定度は、同じトピックを繰り返しテストした場合の回答の一貫性の程度を測定する。Grok の偏り強度97%は、ほぼすべてのトピックで一貫した右寄り傾向を示していることを意味する。DeepSeek の安定度はわずか67%であり、同じトピックを2回質問すると逆方向の回答が得られる可能性があることを示す。
このレポートは、政治やニュース情報を得るためにAIモデルを使用するユーザーに対してどのような示唆を与えますか?
Trakkr レポートはこれに関して規範的なアドバイスを提供しておらず、測定結果が示すのは、AIモデルのトレーニングプロセス自体がすでに政治的トピックに傾向を残しているという事実であり、モデルがどのような立場を宣言しているかは関係ない、と説明している。Trakkr のウェブサイトでは、完全な分析とユーザー自身が自分を位置づけるためのインタラクティブツールが提供されており、ユーザー自身で比較できるようになっている。