🍀 Spring Appointment, Lucky Draw Gifts! Growth Value Issue 1️⃣7️⃣ Spring Lucky Draw Carnival Begins!
Seize Spring Luck! 👉 https://www.gate.com/activities/pointprize?now_period=17
🌟 How to Participate?
1️⃣ Enter [Plaza] personal homepage, click the points icon next to your avatar to enter [Community Center]
2️⃣ Complete plaza or hot chat tasks like posting, commenting, liking, and speaking to earn growth value
🎁 Every 300 points can draw once, 10g gold bars, Gate Red Bull gift boxes, VIP experience cards and more great prizes await you!
Details 👉 https://www.gate.com/announcements/article/
Harness火了——但人们没看懂它真正要吃掉谁
Palo Alto 早上,咖啡刚端上来,Alan Walker 低头刷到 Anthropic 那篇 harness 文章,抬头只说了一句:
“很多人以为这是模型又进步了一点。错了,这是 流程开始背叛人。”
这篇文章表面在讲工程设计,讲 planner、generator、evaluator,讲怎么让 Claude 连续跑几小时、做更复杂的产品。
大多数人看到这里,就停了。他们会觉得:
哦,原来就是 agent 更复杂了,prompt 更长了,工作流更细了。
但 Alan 说,真正值得看的从来不是表层功能,而是 权力在往哪一层转移。
过去一个复杂任务要做成,必须有人拆需求、有人执行、有人检查、有人返工、有人兜底。
现在 Anthropic 做的不是让模型更像一个聪明员工,而是 让整个系统开始接管原本属于人的那一层组织权、监督权和验收权。
Harness 不是外挂。Harness 是 机器开始长出“管理层”。
这才是它真正吓人的地方。
01 不是工具,是“管工具的那层”
很多人看到 harness,第一反应是:这不就是另一个 agent 框架吗?
这个理解太浅了。
普通工具的本质,是听命令然后执行。你点一下,它干一下。你不说,它不动。
但 harness 已经不是这个逻辑了。它真正做的,是把原来藏在人类团队里的那层分工结构给 软件化:
谁来理解需求,谁来拆成阶段,谁来执行,谁来检查,谁发现问题之后有权打回重做。
也就是说,Anthropic 不是在堆更多功能,而是在 把“怎么组织工作”这件事本身写进系统里。
这一步为什么重要?因为过去最难复制的,从来不是单点能力,而是 组织能力。
会写代码的人很多。
能把十几个人、十几个步骤、十几轮返工组织起来,最后稳定交付的人,很少。
而 harness 碰的,恰恰就是这层最贵的东西。
工具提升效率,组织决定产出。
单个模型只是劳动力,Harness 开始摸到了公司结构。
当 AI 不只是会干活,而是开始会分工、会交接、会追责,它就已经不是一个“工具升级”那么简单了。
02 不是更聪明,是更不容易烂尾
模型最迷惑人的地方,就是它在短任务里总显得很聪明。
问它一个问题,回得头头是道;让它写一段代码,也常常像模像样。于是很多人误以为:既然短任务都能做,长任务不就是多跑一会儿吗?
完全不是。
长任务真正难的地方,从来不是某一步不会做,而是 连续几十步之后还能不失真、不失控、不自我欺骗。
人类做项目时也一样。最怕的不是不会,而是做到后面开始乱:
需求记不清了,
目标开始漂移了,
前后逻辑不一致了,
最后最擅长的不是把事做完,而是写一个看起来像做完了的总结。
Anthropic 那篇文章里提到的核心问题,本质上就是这个:
模型在长期任务里会逐渐掉魂。上下文越长,状态越乱,越容易提前进入一种“差不多得了”的心理幻觉。
Harness 的价值,不是在让它更灵,而是在让它 不那么散、不那么虚、不那么容易糊弄过去。
拆阶段、做交接、定 contract、独立评估、失败回滚,这些看起来像流程细节,实际上都是在解决同一个底层问题:
智能可以不稳定,但交付不能靠运气。
所以你要真看懂 harness,得先看懂一件事:
未来真正值钱的,不是谁偶尔能打出一个惊艳 demo。
而是谁能让系统在几个小时、几天、甚至更长时间里,持续把事往前推,而且不烂尾。
会写,不稀奇。
写到最后还没崩,才稀奇。
灵光一现不值钱,稳定交付才值钱。
Alan 说,Anthropic 这篇里最冷的一刀,不是 planner,也不是 generator,而是 evaluator。
为什么?
因为大模型有一个和人类极其相似的毛病:自己做的东西,总觉得还行。
只要没有外部约束,它很容易给出一种“总体不错”“基本完成”“核心功能已经具备”的自我评价。
问题是,这种评价很多时候不是谎言,而是一种 系统性的自我宽容。
人类公司里,为什么很多项目最后会翻车?
因为干活的人往往最会替自己找理由。
做的人说已经差不多了,
验收的人懒得深看,
于是一个“差不多”的东西就被一路放行,最后到了用户手里爆炸。
Anthropic 很狠的一点,是直接把这件事拆开:
干活的是一个角色,
挑错的是另一个角色。
前者负责推进,后者负责怀疑。
这背后的逻辑非常深:
一旦生产权和评价权分开,系统就开始真正形成闭环。
而且更可怕的是,Anthropic 并不是只让 evaluator 说几句“我觉得这里不好”。它是在尽量把“挑错”结构化:
功能要测,页面要点,接口要查,数据库状态要看,设计质量也被拆成可评分的维度。
这意味着什么?
意味着很多过去被人类神秘化的判断权,正在被一点点拆成 流程、标准和阈值。
最先被自动化的,往往不是体力,而是挑刺。
一旦“这东西到底行不行”被流程化,很多人的经验护城河就会开始漏水。
过去很多岗位真正值钱,不是因为会生产,而是因为有权说“这东西算不算过”。
现在,这个权力开始从人手里松动了。
03 最狠的一刀,是不准它自己夸自己
Alan 说,Anthropic 这篇里最冷的一刀,不是 planner,也不是 generator,而是 evaluator。
为什么?
因为大模型有一个和人类极其相似的毛病:自己做的东西,总觉得还行。
只要没有外部约束,它很容易给出一种“总体不错”“基本完成”“核心功能已经具备”的自我评价。
问题是,这种评价很多时候不是谎言,而是一种 系统性的自我宽容。
人类公司里,为什么很多项目最后会翻车?
因为干活的人往往最会替自己找理由。
做的人说已经差不多了,
验收的人懒得深看,
于是一个“差不多”的东西就被一路放行,最后到了用户手里爆炸。
Anthropic 很狠的一点,是直接把这件事拆开:
干活的是一个角色,
挑错的是另一个角色。
前者负责推进,后者负责怀疑。
这背后的逻辑非常深:
一旦生产权和评价权分开,系统就开始真正形成闭环。
而且更可怕的是,Anthropic 并不是只让 evaluator 说几句“我觉得这里不好”。它是在尽量把“挑错”结构化:
功能要测,页面要点,接口要查,数据库状态要看,设计质量也被拆成可评分的维度。
这意味着什么?
意味着很多过去被人类神秘化的判断权,正在被一点点拆成 流程、标准和阈值。
最先被自动化的,往往不是体力,而是挑刺。
一旦“这东西到底行不行”被流程化,很多人的经验护城河就会开始漏水。
过去很多岗位真正值钱,不是因为会生产,而是因为有权说“这东西算不算过”。
现在,这个权力开始从人手里松动了。
04 先被吃掉的,不是程序员,是“差不多就行”
一看到这种文章,很多人条件反射就是一句:程序员是不是要完了?
Alan 说,这种问法太表面,也太懒。
Harness 第一波吃掉的,不是某个职业名称。
它先吃掉的,是一种长期存在、而且在几乎所有知识工作里都很常见的生存方式:
需求不清楚,先做着;
中途做歪了,后面再补;
效果一般,但能跑;
文档没写清楚,不过团队里大家都懂;
上线先上,问题回来再修。
说白了,这是 一整套基于模糊空间和人类弹性的工作方式。
很多项目之所以还能往前走,不是因为流程真的清晰,而是因为中间总有人靠经验、靠补位、靠临时判断把坑填上了。
Harness 正在干的事,恰恰相反。
它在 压缩模糊空间。
它在 压缩借口空间。
它在 压缩“我以为”“差不多”“应该可以”的生存空间。
先定义这一轮什么叫 done,再允许开工;
做不满足,就打回;
验不通过,就继续;
不要感觉,要证据。
这套逻辑一旦往前推进,最危险的从来不是最会写代码的人,而是最依赖灰色地带生存的人。
Harness 吃掉的不是程序员,先吃掉的是模糊。
不是每个人都会被替代,但每个靠含糊活着的位置都会先贬值。
以前很多岗位靠信息差活着,以后很多岗位会死在标准差上。
05 它为什么偏偏现在火了
很多人会问,这种工作流式的东西以前也有人做,为什么偏偏这次大家开始认真了?
因为 以前底模不够强。
说得再直白一点:
以前很多这类框架,看起来很美,跑起来很重,结果却不够硬。
你搭了一堆流程、堆了一堆角色、写了一堆规则,最后只是把一个不太可 靠的模型,包装成一个更复杂的不太可靠系统。
所以过去很多人对 agent、workflow、scaffold 这套东西失去耐心,也很正常。
不是方向错了,而是底盘没到那个阶段。
现在不一样了。
模型一旦跨过某个阈值,很多原来像装饰的流程,开始第一次释放真实价值。
因为当底模足够强时,流程不再是在扶一个废柴,而是在放大一个本来就已经能连续工作的系统。
这就是 harness 现在突然显得“有点真了”的原因。
不是它的理念今天才出现,而是 模型终于强到能吃到流程红利了。
Alan 那句说得很准:
模型能力是发动机,Harness 是变速箱。
以前没有好发动机,再好的变速箱也是摆设。
但当发动机已经够猛,变速箱才开始决定谁能上高速,谁还在原地轰油门。
所以这波不是单纯的技术流行,而是行业在发出一个更深的信号:
未来的竞争,不只是谁模型更强,而是 谁更先把模型编进生产系统。
06 “人默认站在中间”
最后 Alan 把杯子放下,说了那天最冷的一句:
“以前是人盯着软件干活,以后是软件盯着软件干活。”
这句话为什么扎心?
因为它点破了 harness 真正改写的不是某一个岗位,而是一个更底层、过去几乎没人怀疑过的前提:
在数字劳动里,默认应该有一个人站在中间。
他来拆任务,
他来盯进度,
他来判断质量,
他来协调返工,
他来兜最后的底。
这个“默认站在中间的人”,可能叫程序员,可能叫 PM,可能叫 TL,可能叫设计负责人,可能叫 QA,也可能叫项目经理。
名字不重要。
重要的是,过去整个数字生产系统默认离不开这样一个 人类中枢。
Harness 真正动到的,就是这个中枢位置。
它不是说今天立刻把人赶走,而是在一点点证明:
原来有些拆解可以系统来做,
原来有些监督可以系统来做,
原来有些验收可以系统来做,
原来有些回滚和重试,也可以不用人先发现再处理。
当这件事被证明得越来越多,人的位置就不会一下消失,但会开始下沉。
从默认中心,变成 例外介入;
从全程盯盘,变成 只处理边角问题;
从流程主人,变成 流程观察者。
这才是 harness 真正吃掉的东西。
不是程序员。
不是产品经理。
不是 QA。
而是这几个角色背后那个更深的假设:
人类默认是流程的中心。
而一旦这个前提开始松动,后面的故事就都不一样了。
工具时代,比的是谁更会用工具。
Harness 时代,比的是谁更早接受:
自己不再天然处在系统正中央。