⚽ 預測世界盃,瓜分 $40,000!Gate 懂王集結令!
2026世界盃燃爆今夏,來 Gate 廣場當預言家,豪華獎池等您來戰!
💥 輕鬆兩步參與:
1️⃣ 帶 #广场预测世界杯赢40000U 發帖,或分享官方活動至廣場發帖
👉️ https://www.gate.com/competition/football-2026
2️⃣ 發帖內容可圍繞賽事結果預測、賽事勝率分析、交易策略/截圖分享等。
💰 三重大獎等您拿:
1️⃣ 日獎:每天評選 10 位“單日預測王”瓜分 $500!
2️⃣ 周獎:每周狂抽 50 名幸運分享錦鯉瓜分 $1,000!
3️⃣ 榜單獎:衝進周/月度排行榜,斬獲 Gate 世界盃限量球衣禮盒、預測市場體驗券!
詳情:https://www.gate.com/announcements/article/51597
AI玩《文明6》竟選擇丟核彈!最新實驗揭露AI長期戰略推理潛力與利弊
前英國首相顧問利用《文明6》測試AI長期推理,發現模型因資訊盲點與過度執著,竟放棄外交優勢製造核彈轟炸對手,揭露其應用於現實政務治理的技術局限。
當AI玩文明帝國6,竟投下2枚核彈
AI 玩《文明 6》竟選擇造核彈!一位 AI 開發者最近利用 CivBench 基準測試,讓大型語言模型(LLM)挑戰策略遊戲《文明帝國 6》(Civilization VI)。實驗中,AI 代理人雖在經濟上佔絕對優勢,卻在面臨威脅時,選擇耗費 50 回合製造兩枚核彈轟炸對手,而非採取原本勝券在握的外交勝利手段,不過最終對手法國文明依然贏得勝利。
為何要讓AI玩文明帝國6?
實驗設計者連恩·威爾金森(Liam Wilkinson)曾任英國前首相東尼·布萊爾(Tony Blair)顧問,現任職於東尼布萊爾研究所。之所以選擇《文明帝國 6》來測試,是因為政策制定需要應對不確定性的連鎖反應,這與策略遊戲要做的事情十分相似。
他之前開發的測試工具 GovBench 顯示,即便 GPT-5 能在選擇題中取得 99.26% 高分,也僅代表具備優秀的檢索與記憶能力。為了測試真實推理與長期規劃能力,他利用《文明帝國 6》引擎除錯埠建立模型脈絡協議(MCP)伺服器,讓模型透過文字介面進行遊戲。
圖源:Steam 知名回合制策略遊戲《文明帝國6》
AI操作的葡萄牙,為何做出核武決策
在實驗中,AI 扮演貿易文明葡萄牙,對戰法國時,在經濟與外交上全面領先,距離外交勝利僅剩 2 票。
然而,AI 未能察覺法國默默進行的文化擴張。直到第 280 回合,AI 才發現法國是主要威脅。由於和平反制工具因程式限制無法啟用, AI 決定執行核武反擊。
AI 研發核分裂並開啟曼哈頓計畫,於第 305 回合與第 311 回合向法國文化首都圖盧茲(Toulouse)投下兩枚核彈。雖然此舉凍結了法國文化勝率,但法國仍於第 318 回合的世界議會投票中拿到關鍵 2 票,贏得外交勝利。
圖源:Liam Wilkinson文章
基準測試成形,開發者揭盲點與知行差距
隨後,威爾金森將測試環境拓展為評測基準 CivBench 1.0,結果揭露大型語言模型在長期戰略上的兩大弊端。
不過,測試也展現了橫向思考潛力,例如操作馬利文明的 AI ,會利用黃金與信仰機制繞過產能懲罰,奪下科技勝利。
文明5研究同步驗證,AI戰略過度執著
在威爾金森發表研究文章前,今年 4 月也有一組學者透過《文明帝國 5》並基於 CivBench 進行研究,評估 7 種 AI 模型在面對長時間戰略推理的潛力與利弊。
研究指出,雖然沒有模型能超越內建專家級人工智慧(VPAI),但在簡報配置下,部分模型實力與其相當。
然而,這也凸顯了 AI 模型的短板,意即在追求特定路徑時展現出極端的過度執著傾向,例如 Claude Sonnet-4.5 將高達 77.6% 的遊戲時間投入科技勝利。
另外,在局勢適應與戰略切換上,內建專家級 AI 平均每場切換 19.6 次目標,而多數大型語言模型僅切換 2 至 6 次。
研究也發現模型偏好與強項存在錯位,例如部分模型最常追求文化勝利,但在外交勝利路徑上反而擁有最高實力評級。
圖源:研究論文有研究透過CivBench基準測試研究,大型語言模型在遊玩《文明帝國5》的長時間戰略推理能力
這兩項《文明帝國》研究成功揭露了 AI 在長期戰略推理上的雙面刃效應。儘管模型具備橫向思考的潛力,但資訊盲區、知行差距與過度執著,仍是重大的技術限制。
未來 AI 若要應用於現實的政務治理,如何從局部優化跨越到全局長期的戰略規劃,將是不可忽視的核心挑戰。
延伸閱讀:
兩大軍事狂人砸39億投資核新創!背後的AI熱商機與核能革命是什麼?
AI重塑現代戰爭!決策速度從數日壓縮至數秒,但倫理爭議怎麼解?