tgje-133-task-completion-is-a-design-problem

你是不是以为Agent越聪明,任务完成率就越高丨Agent误解系列

你是不是以为Agent越聪明,任务完成率就越高丨Agent误解系列 这个误解很正常,因为它有合理的来源。 模型能力确实在飞速提升——METR的研究数据显示,前沿AI Agent能稳定完成的任务时长每7个月翻一倍,到2026年初这个速度还在加快。厂商的宣传语也在强化这个感知:更强的推理、更长的上下文、更高的基准测试分数。你很自然地会认为,模型越强,任务就完成得越好。 ...

2026年5月29日 · 5 分钟 · 约 2063 字 · 塔迪Tardi