Agent 落地的第一性原理:少一点对话,多一点工具
从追求"全能员工"回归到"自动化脚本"。为什么在企业内部效率场景中,确定性的逻辑串联远胜于拟人化的复杂对话?终结模型之间的"小作文协作",让 AI 回归组件化的软件工程本质。
在过去这段时间的 AI Agent 开发尝试中,我走过了一条从追求“全能员工”到回归“自动化脚本”的曲折道路。最初,我试图从架构上一劳永逸地解决 Agent 的自主学习和管理问题,甚至按照公司职能部门的划分去开发“部门经理级”Agent,寄希望于它们能像人类员工一样理解复杂意图并自主协同工作。然而,现实很快给出了回击:现阶段的大模型技术远未达到能够支撑起这种拟人化管理职能的高度,所谓的 Agent 在本质上依然只是“智能脚本”。这种架构上的过度设计,导致我陷入了一个极其痛苦的死循环——我拿高级模型去开发低级模型,试图让低级模型通过总结信息向我汇报,结果低级模型在汇报时产生的理解偏差或幻觉,迫使我必须带着高级模型频繁下场去修那些本不该存在的 Bug。这种“为了纠正汇报而进行的汇报”让管理成本远超产出,也让我深刻意识到:在内部效率场景下,如果丧失了确定性,再精妙的架构也只是空中楼阁。
在这个过程中我也产生了一个核心反思,即这种“全能型智能体”的设定或许是一个极佳的 ToB 产品方案,因为它能为外部客户提供一种“交付数字员工”的高级感和商业情绪价值。但对于追求极致产出比的 ToC 效率工具或企业内部场景来说,这种拟人化的复杂性简直是灾难。内部场景需要的是路径最短化,任何多余的逻辑跳转都是潜在的故障点,这也让我重新审视了 LangGraph 这类重型框架的定位:它们绝非通用的灵丹妙药,而是为了解决极少数需要多轮状态回溯的特定复杂场景而设计的。对于大多数追求实效的业务逻辑,强行引入这类重框架不仅会增加系统的熵值,更会造成严重的过度工程,导致开发者在解决问题之前,先被架构本身的复杂性所吞没。本质上,在 ToB 或企业内部领域,我们需要的是“工作智能化”但“表达精准化”;而 ToC 场景追求的往往是“表达智能化”。
这次转变的核心逻辑在于从“模拟人类组织”回归到“软件工程本质”。我们不再需要去构思一个万能的、一劳永逸的底层架构,而是回到了最务实的需求导向:有一个具体的痛点,就开发一个对应的原子工具,最后用确定性的逻辑把这些工具串联起来。在交互层面,我们也必须承认“对话”在很多内部场景下其实是效率的累赘。如果点击一个脚本按钮就能瞬间完成任务,那么花几十秒去构思提示词、等待模型吐字、再从一堆废话里找结果,就显得毫无意义。这种从对话界面向自动化动作的回归,实际上是把 LLM 放在了它最该待的位置,即作为一个处理非结构化数据的“翻译插件”。它不再是整个流水线的主宰,而只是流水线上的一个特定环节,负责把乱七八糟的原始信息提取成规整的格式,剩下的事情交给传统的、确定性的代码去跑,这种“傻快”的逻辑比那种“慢腾腾的聪明”要有用得多。
最深刻的教训莫过于终结模型之间的“小作文协作”。让低级模型给高级模型写“工作汇报”,在工程实现上是一件非常低效且危险的事。自然语言的汇报本质上是一种带有主观修饰和幻觉风险的“有损压缩”,高级模型根据这种半真半假的总结去下指令,只会导致错误被层层放大,最终陷入你和高级模型反复修 Bug 的死循环。真正靠谱的做法是彻底终结这种“聊天式汇报”,强制要求低级模型只输出结构化的 JSON 数据。低级模型不再是汇报者,而是数据清洗器,它把非结构化的需求变成一个个标准的参数字段。高级模型不需要听故事,它只需要读取这些参数,然后精准地调用你开发好的工具库。这种“传数据不传废话”的转变,是终结协作乱象、实现工程闭环的唯一解。
最后,我们必须认识到,对于追求效率的内部系统来说,可观测性比模型本身的智商要重要得多。与其死磕如何让 Agent 变得更像人,不如把精力花在打通完整的链路监控上。在内部环境下,一个“偶尔抽风但你能一眼看清在哪儿抽风”的系统,远比一个“平时挺聪明但一旦出错你完全不知道为什么”的系统更有价值。打通可观测性堆栈,意味着你能实时追踪到每一个字段的流转和每一个决策的依据,把 AI 开发重新拉回到可预测、可维护的软件工程轨道上。这种从“拟人幻想”向“工程监控”的转型,才是现阶段实现 AI 生产力真正落地的正确路径。