Claude Code 自動化研究拿下黑客松冠軍!得主:我根本不知的怎麼贏的

在 Paradigm 主辦的 Autoresearch Hackathon 中,一名幾乎「沒有親自設計策略」的參賽者,卻最終拿下冠軍。冠軍得主 Ryan Li 同時也是 SurfAI 執行長表示,整個解題過程幾乎完全交由 AI 完成,自己甚至「不知道怎麼贏的」,最終仍在 Prediction Market Challenge 中奪下第一名。

這場競賽要求參賽者在模擬的二元預測市場中設計做市策略,透過限價單在訂單簿中提供流動性,並在「套利者」與「散戶流量」之間取得利潤平衡。最終排名依據策略在 200 次隨機模擬中的平均 edge(利潤優勢)計算。Ryan 的最終成績為 42.32 美元 mean edge(以三組隨機種子中位數計算),在重新評分後登上榜首。

Claude Code + Codex 自動研究,產出 1039 個策略

不同於傳統量化交易或市場做市策略依賴人類專家調參與建模,Ryan 採取的是近年由 Rich Sutton 提出的「Bitter Lesson」思路,讓計算力與搜尋規模擊敗人類經驗。他將整個問題轉化為「自動化研究」(autoresearch)流程,透過多個 AI agent 平行探索解法空間,而非手動優化。

整個過程中,他動用了 8 至 20 個並行運行的 AI agent(主要基於 Claude Code,並輔以 Codex),每個 agent 各自負責不同假設與參數空間,持續生成策略、執行模擬、回報結果。最終累積產出 1,039 個策略變體,進行超過 2,000 次評估,並自動生成 47 個參數掃描腳本。整體搜尋規模,相當於將數週人工實驗壓縮至數小時完成。

AI 產出的 900 行 Python 做市演算法拿下黑客松冠軍

在策略層面,最終勝出方案是一套約 900 行 Python 的做市演算法,核心邏輯並非來自單一設計,而是多個「被驗證有效」的模組疊加。包括避開套利者必勝的極窄價差區間、透過資訊理論估計真實價格、依據套利風險動態調整報價規模,以及在對手訂單簿被吃空時主動進場搶佔高利潤區間等。

其中最關鍵的突破,來自一次「完全拋棄既有策略、從零開始」的 AI agent。當整體優化停滯在約 +25 edge 時,該 agent 獨立發現一套以「套利風險機率」為核心的 sizing 模型,將策略表現一舉推升至 +44,成為整場比賽的轉折點。這一結果也直接印證 Ryan 的方法論:當搜尋陷入局部最優時,重啟比微調更有效。

AI 研究的絕對優勢:自動化試錯

Ryan 在總結中指出,這場比賽的關鍵不在於設計一個「聰明的策略」,而是建立一個可以大規模搜尋、驗證並淘汰想法的系統。與其依賴人類直覺,不如讓 AI 在龐大的解空間中試錯,並透過並行化與自動化放大效率。

這一案例也進一步強化了「Agentic AI」在工程與研究流程中的角色轉變,AI 不再只是輔助工具,而是可以直接承擔探索與決策的核心執行單位。在某些高度結構化、可模擬的問題中,人類甚至可以完全退出「解題者」的位置,轉而設計搜尋框架與評估機制本身。

這篇文章 Claude Code 自動化研究拿下黑客松冠軍!得主:我根本不知的怎麼贏的 最早出現於 鏈新聞 ABMedia。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

預測市場交易量預期到 2030 年將超過 $1 兆美元,伯恩斯坦報告指出

伯恩斯坦的報告預測,預測市場的交易量將從 $51 billion 在 2025 年激增至 $1 trillion,並在 2030 年達到該水平;這一增長受到監管清晰、區塊鏈支援以及主流整合的推動。產業收入預計將從 $400 million 成長至 $10.8 billion,而零售券商將取得競爭優勢。

GateNews11小時前

勝率100%的交易者下注12.3K,押注 MicroStrategy 會在年底前持有超過100萬 BTC

一位名為 epsteinfiles 的交易者已向 Lookonchain 下了 12,300 美元的賭注,預測 MicroStrategy 將在 2026 年 12 月 31 日前持有超過 1,000,000 枚 BTC,並且在過往賭注中有著完美的紀錄。

GateNews21小時前

鼓勵創新!美法官禁止亞利桑那州監管預測市場,暫停對Kalshi起訴

美國聯邦地方法院裁定禁止亞利桑那州依賴博弈法起訴預測市場平台Kalshi,認為聯邦商品期貨交易委員會擁有專屬管轄權。該裁決影響金融市場監管的州與聯邦權限界線,Kalshi則堅持其業務屬於金融商品而非傳統博彩。各州對預測市場的裁定不一,川普家族亦表達對預測市場的支持。

CryptoCity22小時前

21Shares 更新 Hyperliquid ETF 申請,揭露 THYP 代碼

21Shares更新其Hyperliquid ETF申請,確認股票代碼THYP,被視為回應SEC意見的調整,此舉提升了該ETF上市的可能性。與Bitwise的HYPE ETF相比,後者已公布0.67%管理費,為市場最高之一。Hyperliquid平台的強大基本面吸引關注,但面對山寨幣ETF資金流入不確定性,市場需求仍需觀察。

Market Whisper22小時前

主要交易所(CEX)合作夥伴攜手高額玩家技術(High Roller Technologies)進軍預測市場領域

一家大型中心化交易所已與 High Roller Technologies 合作,在美國提供預測市場服務。分析師預測該領域將出現顯著成長,儘管其面臨監管挑戰。

GateNews04-15 00:31

鼓勵創新!美法官禁止亞利桑那州監管預測市場,暫停對Kalshi起訴

美國聯邦地方法院裁定禁止亞利桑那州依賴博弈法起訴預測市場平台Kalshi,認為聯邦商品期貨交易委員會擁有專屬管轄權。該裁決影響金融市場監管的州與聯邦權限界線,Kalshi則堅持其業務屬於金融商品而非傳統博彩。各州對預測市場的裁定不一,川普家族亦表達對預測市場的支持。

CryptoCity04-14 23:41
留言
0/400
暫無留言