AI玩《文明6》竟選擇丟核彈！最新實驗揭露AI長期戰略推理潛力與利弊

2026-06-24 09:40:42

前英國首相顧問利用《文明6》測試AI長期推理，發現模型因資訊盲點與過度執著，竟放棄外交優勢製造核彈轟炸對手，揭露其應用於現實政務治理的技術局限。

當AI玩文明帝國6，竟投下2枚核彈

AI 玩《文明 6》竟選擇造核彈！一位 AI 開發者最近利用 CivBench 基準測試，讓大型語言模型（LLM）挑戰策略遊戲《文明帝國 6》（Civilization VI）。實驗中，AI 代理人雖在經濟上佔絕對優勢，卻在面臨威脅時，選擇耗費 50 回合製造兩枚核彈轟炸對手，而非採取原本勝券在握的外交勝利手段，不過最終對手法國文明依然贏得勝利。

為何要讓AI玩文明帝國6？

實驗設計者連恩·威爾金森（Liam Wilkinson）曾任英國前首相東尼·布萊爾（Tony Blair）顧問，現任職於東尼布萊爾研究所。之所以選擇《文明帝國 6》來測試，是因為政策制定需要應對不確定性的連鎖反應，這與策略遊戲要做的事情十分相似。

他之前開發的測試工具 GovBench 顯示，即便 GPT-5 能在選擇題中取得 99.26% 高分，也僅代表具備優秀的檢索與記憶能力。為了測試真實推理與長期規劃能力，他利用《文明帝國 6》引擎除錯埠建立模型脈絡協議（MCP）伺服器，讓模型透過文字介面進行遊戲。

圖源：Steam 知名回合制策略遊戲《文明帝國6》

AI操作的葡萄牙，為何做出核武決策

在實驗中，AI 扮演貿易文明葡萄牙，對戰法國時，在經濟與外交上全面領先，距離外交勝利僅剩 2 票。

然而，AI 未能察覺法國默默進行的文化擴張。直到第 280 回合，AI 才發現法國是主要威脅。由於和平反制工具因程式限制無法啟用， AI 決定執行核武反擊。

AI 研發核分裂並開啟曼哈頓計畫，於第 305 回合與第 311 回合向法國文化首都圖盧茲（Toulouse）投下兩枚核彈。雖然此舉凍結了法國文化勝率，但法國仍於第 318 回合的世界議會投票中拿到關鍵 2 票，贏得外交勝利。

圖源：Liam Wilkinson文章

基準測試成形，開發者揭盲點與知行差距

隨後，威爾金森將測試環境拓展為評測基準 CivBench 1.0，結果揭露大型語言模型在長期戰略上的兩大弊端。

**首先是感知效應（sensorium effect），**由於模型必須主動透過工具調用獲取數據，容易對未詢問的資訊產生盲點。統計顯示，在 20 場失敗賽局中，人工智慧有 7 場在落敗前 20 回合內，從未檢查過對手進度。
**其次是知行差距（knowing-doing gap），**模型雖能在日誌中寫下清晰規劃，實際落實率卻偏低，如 Claude 的執行率僅 48.2%，GPT-5.4 為 63.2%。

不過，測試也展現了橫向思考潛力，例如操作馬利文明的 AI ，會利用黃金與信仰機制繞過產能懲罰，奪下科技勝利。

文明5研究同步驗證，AI戰略過度執著

在威爾金森發表研究文章前，今年 4 月也有一組學者透過《文明帝國 5》並基於 CivBench 進行研究，評估 7 種 AI 模型在面對長時間戰略推理的潛力與利弊。

研究指出，雖然沒有模型能超越內建專家級人工智慧（VPAI），但在簡報配置下，部分模型實力與其相當。

然而，這也凸顯了 AI 模型的短板，意即在追求特定路徑時展現出極端的過度執著傾向，例如 Claude Sonnet-4.5 將高達 77.6% 的遊戲時間投入科技勝利。

另外，在局勢適應與戰略切換上，內建專家級 AI 平均每場切換 19.6 次目標，而多數大型語言模型僅切換 2 至 6 次。

研究也發現模型偏好與強項存在錯位，例如部分模型最常追求文化勝利，但在外交勝利路徑上反而擁有最高實力評級。

圖源：研究論文有研究透過CivBench基準測試研究，大型語言模型在遊玩《文明帝國5》的長時間戰略推理能力

這兩項《文明帝國》研究成功揭露了 AI 在長期戰略推理上的雙面刃效應。儘管模型具備橫向思考的潛力，但資訊盲區、知行差距與過度執著，仍是重大的技術限制。

未來 AI 若要應用於現實的政務治理，如何從局部優化跨越到全局長期的戰略規劃，將是不可忽視的核心挑戰。

延伸閱讀：
兩大軍事狂人砸39億投資核新創！背後的AI熱商機與核能革命是什麼？

AI重塑現代戰爭！決策速度從數日壓縮至數秒，但倫理爭議怎麼解？

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

打賞
按讚
回覆
轉發
分享

回覆

請輸入回覆內容

暫無回覆

熱門話題
查看更多
#
0成本拿2股SK海力士
72.77萬熱度
#
以太坊基金會重組降本
9426.93萬熱度
#
蘇格蘭VS巴西
27.38萬熱度
#
TradFiCFD黃金大師賽
219.66萬熱度
#
USD1鏈上質押享年化10.69%
46.9萬熱度

AI玩《文明6》竟選擇丟核彈！最新實驗揭露AI長期戰略推理潛力與利弊

當AI玩文明帝國6，竟投下2枚核彈

為何要讓AI玩文明帝國6？

AI操作的葡萄牙，為何做出核武決策

基準測試成形，開發者揭盲點與知行差距

文明5研究同步驗證，AI戰略過度執著

熱門話題

0成本拿2股SK海力士

以太坊基金會重組降本

蘇格蘭VS巴西

TradFiCFD黃金大師賽

USD1鏈上質押享年化10.69%

已置頂