在 Paradigm 主辦的 Autoresearch Hackathon 中,一名幾乎「沒有親自设计策略」的參賽者,卻最終拿下冠軍。冠軍得主 Ryan Li 同时也是 SurfAI 執行长表示,整个解題过程幾乎完全交由 AI 完成,自己甚至「不知道怎麼贏的」,最終仍在 Prediction Market Challenge 中奪下第一名。
这场竞赛要求参赛者在模拟的二元预测市场中设计做市策略,通过限价单在订单簿中提供流动性,并在「套利者」与「散户流量」之间取得利润平衡。最终排名依据策略在 200 次随机模拟中的平均 edge(利润优势)计算。Ryan 的最终成绩为 42.32 美元 mean edge(以三组随机种子中位数计算),在重新评分后登上榜首。
Claude Code + Codex 自动研究,产出 1039 个策略
不同于传统量化交易或市场做市策略依赖人类专家调参与建模,Ryan 采取的是近年由 Rich Sutton 提出的「Bitter Lesson」思路,让计算力与搜索规模击败人类经验。他将整个问题转化为「自动化研究」(autoresearch)流程,通过多个 AI agent 并行探索解法空间,而非手动优化。
在整个过程中,他动用了 8 至 20 个并行运行的 AI agent(主要基于 Claude Code,并辅以 Codex),每个 agent 各自负责不同假设与参数空间,持续生成策略、执行模拟、回报结果。最终累积产出 1,039 个策略变体,进行超过 2,000 次评估,并自动生成 47 个参数扫描脚本。整体搜索规模,相当于将数周人工实验压缩至数小时完成。
AI 产出的 900 行 Python 做市算法拿下黑客松冠军
在策略层面,最终胜出方案是一套约 900 行 Python 的做市算法,核心逻辑并非来自单一设计,而是多个「被验证有效」的模块叠加。包括避开套利者必胜的极窄价差区间、通过信息理论估计真实价格、依据套利风险动态调整报价规模,以及在对手订单簿被吃空时主动进场抢占高利润区间等。
其中最关键的突破,来自一次「完全抛弃既有策略、从零开始」的 AI agent。当整体优化停滞在约 +25 edge 时,该 agent 独立发现一套以「套利风险概率」为核心的 sizing 模型,将策略表现一举推升至 +44,成为整场比赛的转折点。这一结果也直接印证 Ryan 的方法论:当搜索陷入局部最优时,重启比微调更有效。
AI 研究的绝对优势:自动化试错
Ryan 在总结中指出,这场比赛的关键不在于设计一个「聪明的策略」,而是建立一个可以大规模搜索、验证并淘汰想法的系统。与其依赖人类直觉,不如让 AI 在庞大的解空间中试错,并通过并行化与自动化放大效率。
这一案例也进一步强化了「Agentic AI」在工程与研究流程中的角色转变,AI 不再只是辅助工具,而是可以直接承担探索与决策的核心执行单位。在某些高度结构化、可模拟的问题中,人类甚至可以完全退出「解题者」的位置,转而设计搜索框架与评估机制本身。
这篇文章 Claude Code 自动化研究拿下黑客松冠军!得主:我根本不知的怎么赢的 最早出现于 链新闻 ABMedia。