
让AI全自主接管业务流之前,先想清楚这件事
让AI全自主接管业务流之前,先想清楚这件事 YC刚公布了W26批次的名单,199家公司,其中56家被归类为"AI原生服务"——AI端到端完成一项工作,客户负责监督或审批输出结果。这是这批次里占比最大的单一类别。 医疗、法律、供应链、企业后台——这些行业里,Agent正在从"辅助工具"变成"执行主体"。光是医疗赛道,就有牙科诊所的AI前后台、初级医疗的AI员工、自动化医疗账单系统,以及直接处理保险预授权的Agent。 ...

让AI全自主接管业务流之前,先想清楚这件事 YC刚公布了W26批次的名单,199家公司,其中56家被归类为"AI原生服务"——AI端到端完成一项工作,客户负责监督或审批输出结果。这是这批次里占比最大的单一类别。 医疗、法律、供应链、企业后台——这些行业里,Agent正在从"辅助工具"变成"执行主体"。光是医疗赛道,就有牙科诊所的AI前后台、初级医疗的AI员工、自动化医疗账单系统,以及直接处理保险预授权的Agent。 ...

垂直Agent:为什么通用AI越强,你的机会反而越大 有一个问题,我听到越来越多人在问: 大模型越来越强,ChatGPT能通过司法考试,Claude能写完整的代码工程——这种情况下,还有必要专门做某一个行业的垂直Agent吗?大厂随便出一个通用版本,不就把垂直赛道给覆盖了? 这个担忧听起来合理,但方向是反的。 越来越多的证据表明:通用AI越强,垂直Agent的机会反而越清晰。不是因为垂直Agent比通用更聪明,而是因为它赢的地方,跟模型能力根本不在同一个战场。 ...

Agent能走多远是一回事,应该走多远是另一回事丨Agent发展六阶段论 最近在读一个关于Agent演进的讨论,里面提到了一个六阶段论,让我觉得值得认真对待。 框架是OpenManus核心贡献者张佳钇提出的。 六个阶段依次是:纯粹调用语言模型、Agent for Flow、跨环境的Financial Agent、Agent for Coding、每个人拥有自己的Agent、最后是Agent Network——Agent之间能够自主定价、协作、完成任务。 ...

AI计费的演进-从黑盒走向结果导向丨Token经济学 一个朋友他们公司的Agent每天跑几十万次调用,他想算一算一个月到底要花多少钱。这个问题听起来很基础——Token数量乘以单价乘以调用次数,不就完了吗? 他打开了Anthropic的价格页,然后卡住了。 session runtime按每会话小时收费,cache write和cache hit各有不同的乘数,和Token根本不在一个维度上。他再去看OpenAI,web search按千次调用收费,container按session时长收费,file search storage按GB/天收费,regional processing再叠一层百分之十。Google Gemini稍微收敛一些,但grounding和context caching也各自独立计价。 ...

Agent闯祸了,你却不知道该找谁负责丨因为你从来没给它发过「工牌」 想象一个场景。 你公司来了一个极度勤快的新助理,他不等你吩咐就主动处理事情:帮你整理文件、发邮件、查系统、改配置。你很满意,因为他做的大多数事情都对,还省了你大量时间。 直到有一天,出了一个问题。某个数据库被改了,某封邮件发错了对象,或者某个权限被莫名打开了。你开始回溯:他动过哪些系统?他拿过哪些权限?他的操作有记录吗?谁批准他这么做的? ...

你说「让Agent自己判断」,但判断的边界在哪里?丨裁定机制落地,需要回答这三个问题 一些读者反馈:判断工程的逻辑我懂了,规则覆盖不了边界情况,需要裁定层。Harness Engineering我也看了,执行环境要搭好,不能只靠调教模型。但看完之后,我还是不知道下一步该做什么。 这个困惑是真实的,也是合理的。前面的文章解决的是"为什么",这篇解决"怎么做"。 ...

Token计费的数量黑盒与质量黑盒|你买的Token,买到了什么 三月底开始,GitHub和Reddit上涌现大量投诉。 Claude Code Max 20x计划,200美元一个月,5小时使用窗口之前可以支撑一整天的开发工作,但用户报告额度在不到90分钟内耗尽,有人更极端,19分钟见底。 Anthropic后来在Reddit回应:我们知道用户触达使用上限的速度远超预期,正在调查,这是团队最高优先级。 ...

你在用Agent,Agent也在用你|护城河可以这样建 两个人,同样在用Agent: 第一个人的Agent越用越像个助手。帮他查资料、发消息、整理报告。他的工作效率提高了,但他的判断力、他对领域的理解、他和别人的信任关系——这些东西3个月前是什么样,现在还是什么样。 第二个人的Agent越用越像个搭档。他用它处理的每一个任务,都在喂给它关于他自己的信息——他的偏好、他的工作方式、他踩过的坑。与此同时,他自己也在这个过程里积累:更多的判断、更深的领域理解、更从容的关系维护。 ...

Agent越来越聪明,但翻车率并没有减少丨Harness Engineering 凌晨三点,没有人在盯着屏幕。 Agent已经独立跑了四个小时。任务是爬取一批竞品数据,整理成报告。Prompt写得很细,模型用的是最新的,工具调用逻辑也测试过。 然后它撞上了一个接口限流报错。 它重试了。又报错。又重试。就这样循环了两个小时,直到你早上起来看到账单通知,才发现它还在原地转圈。数据没有,报告没有,Token烧了一大笔。 ...

别再追新了|选第一个Agent,先问自己这三个问题 有个读者跟我说,他最近装过七个Agent。 每次都是看到有人说"这个真的好用",去试了一下,折腾半天配好了,然后又看到新的。 七个里面,现在还在跑的是只有最后那个,不是就此选定了,没有最新的啦。 他问我:到底哪个Agent最值得用? 我说,这个问题问错了。 不是哪个Agent最值得用,是你自己最值得用哪个。 ...