最近大半年,很多开发者都有同感:明明用的是最贵的模型,Agent 跑起来还是各种拉胯——重复犯错、做到一半放弃、越跑越蠢。换了更强的模型,效果也没好到哪去。
原因不在模型。Can.ac 做了个实验直接证明了这一点:同一个模型,只换了文件编辑接口的调用方式,编码基准分数从 6.7% 直接跳到 68.3%。模型没变,变的是外围的那套系统。
Harness Engineering 正在成为 AI Agent 开发圈的高频词。Mitchell Hashimoto 在博客里用了这个说法(他原话是“我不知道业界有没有公认的术语,我自己管这叫 harness engineering”),OpenAI 几天后发了一篇百万行代码的实验报告,Birgitta Böckeler 在 Martin Fowler 网站上写了深度分析,Anthropic 在三月份又放出了全新的多智能体架构设计。几周之内,Harness 成了讨论 AI Agent 开发绕不开的概念。

