
你说「让Agent自己判断」,但判断的边界在哪里?丨裁定机制落地,需要回答这三个问题
你说「让Agent自己判断」,但判断的边界在哪里?丨裁定机制落地,需要回答这三个问题 一些读者反馈:判断工程的逻辑我懂了,规则覆盖不了边界情况,需要裁定层。Harness Engineering我也看了,执行环境要搭好,不能只靠调教模型。但看完之后,我还是不知道下一步该做什么。 这个困惑是真实的,也是合理的。前面的文章解决的是"为什么",这篇解决"怎么做"。 ...

你说「让Agent自己判断」,但判断的边界在哪里?丨裁定机制落地,需要回答这三个问题 一些读者反馈:判断工程的逻辑我懂了,规则覆盖不了边界情况,需要裁定层。Harness Engineering我也看了,执行环境要搭好,不能只靠调教模型。但看完之后,我还是不知道下一步该做什么。 这个困惑是真实的,也是合理的。前面的文章解决的是"为什么",这篇解决"怎么做"。 ...

Agent越来越聪明,但翻车率并没有减少丨Harness Engineering 凌晨三点,没有人在盯着屏幕。 Agent已经独立跑了四个小时。任务是爬取一批竞品数据,整理成报告。Prompt写得很细,模型用的是最新的,工具调用逻辑也测试过。 然后它撞上了一个接口限流报错。 它重试了。又报错。又重试。就这样循环了两个小时,直到你早上起来看到账单通知,才发现它还在原地转圈。数据没有,报告没有,Token烧了一大笔。 ...

连Anthropic自己都翻车了,但源码里藏着一份教材 3月31日,Anthropic更新Claude Code的npm包时,顺手把一个60MB的调试文件打包进去发布出去了。 任何人都可以用这个文件还原出Claude Code完整的TypeScript源码。1906个文件,51万行代码,全部暴露。安全研究员Chaofan Shou——Solayer Labs的一位实习生——第一个在X上发出来,帖子很快累积了超过2800万次浏览。几小时内,源码被镜像到GitHub,获得超过8.4万个Star,8.2万次Fork。 ...

光有裁定权还不够:Harness Engineering丨判断工程的另一半 Agent能力越强,一个问题就越绕不开: 你把权力边界划清楚了,裁定机制也设计好了,但Agent在实际执行过程中还是会出问题。不是越界的问题,是跑着跑着跑偏了——工具调用出错、上下文膨胀导致遗忘、多个Agent协作时指令漂移、一个环节的小错误被下一个环节放大成大错误。 ...