HarnessEngineering | AioGeoLab | GEO优化实验室

tgje-95-judgment-engineering-adjudication-in-practice

你说「让Agent自己判断」，但判断的边界在哪里？丨裁定机制落地，需要回答这三个问题

你说「让Agent自己判断」，但判断的边界在哪里？丨裁定机制落地，需要回答这三个问题一些读者反馈：判断工程的逻辑我懂了，规则覆盖不了边界情况，需要裁定层。Harness Engineering我也看了，执行环境要搭好，不能只靠调教模型。但看完之后，我还是不知道下一步该做什么。这个困惑是真实的，也是合理的。前面的文章解决的是"为什么"，这篇解决"怎么做"。 ...

tgje-91-harness-engineering-the-missing-layer

Agent越来越聪明，但翻车率并没有减少丨Harness Engineering

Agent越来越聪明，但翻车率并没有减少丨Harness Engineering 凌晨三点，没有人在盯着屏幕。 Agent已经独立跑了四个小时。任务是爬取一批竞品数据，整理成报告。Prompt写得很细，模型用的是最新的，工具调用逻辑也测试过。然后它撞上了一个接口限流报错。它重试了。又报错。又重试。就这样循环了两个小时，直到你早上起来看到账单通知，才发现它还在原地转圈。数据没有，报告没有，Token烧了一大笔。 ...

tgje-81-claude-code-leak-harness-in-the-wild

连Anthropic自己都翻车了，但源码里藏着一份教材

连Anthropic自己都翻车了，但源码里藏着一份教材 3月31日，Anthropic更新Claude Code的npm包时，顺手把一个60MB的调试文件打包进去发布出去了。任何人都可以用这个文件还原出Claude Code完整的TypeScript源码。1906个文件，51万行代码，全部暴露。安全研究员Chaofan Shou——Solayer Labs的一位实习生——第一个在X上发出来，帖子很快累积了超过2800万次浏览。几小时内，源码被镜像到GitHub，获得超过8.4万个Star，8.2万次Fork。 ...

tgje-80-harness-engineering-the-other-half-of-judgment

光有裁定权还不够：Harness Engineering丨判断工程的另一半

光有裁定权还不够：Harness Engineering丨判断工程的另一半 Agent能力越强，一个问题就越绕不开：你把权力边界划清楚了，裁定机制也设计好了，但Agent在实际执行过程中还是会出问题。不是越界的问题，是跑着跑着跑偏了——工具调用出错、上下文膨胀导致遗忘、多个Agent协作时指令漂移、一个环节的小错误被下一个环节放大成大错误。 ...