说起来挺巧的。

上周面试美团,某位面试官在闲聊时提到,美团内部现在 All in AI,认为大模型的能力是没有上限的。他提到了 harness、spec、skill、human in loop 这一套技术体系,认为只要约束设计得足够严密,AI 就能实现”基本所有的事情”。

聊得很自然,我也没有当场反驳。但路上一直在想这件事——他说的这套东西我日常也在用,确实能解决不少问题,但要说它没有上限,这个判断我不太认同。


约束够强就能解决一切问题吗

human in loop 是目前 AI Agent 架构里的常见模式:AI 做决策,但人在关键节点确认或干预。harness 是约束框架,spec 是规格定义,skill 是技能单元。这套体系设计得挺好,我自己也用过。

但我有两个问题,面试官没有给出回应。

第一个问题:权限管理。

当 AI 能够调用工具、执行操作、管理资源时,权限边界在哪里划?

举个例子。如果 AI 要帮你发一封邮件,它需要读取你的邮件内容、获取联系人权限、理解上下文——这些东西一旦授权给 AI,边界在哪里?它会不会在”正常操作”的范围内做超出你预期的事情?

更具体一点:AI 看到了你三个月前的邮件,发现了一些信息,然后在你不知情的情况下把这些信息用在了当前的任务里。这算不算越权?约束能解决这个问题吗?

第二个问题:代码 review。

代码 review 这件事,AI 能做到什么程度?

review 不只是检查语法和风格,还包括判断”这段设计是否符合团队的技术选型”、”这个实现是否埋了潜在的地雷”、”这个改动会不会影响其他模块的兼容性”——这些东西需要的不是规则,是判断力。

而判断力背后是经验、上下文理解、以及对代码库整体架构的把握。给 AI 一套 review 规则,它能检查风格,能找出明显的问题,但”这个设计三个月后会是个坑”这种判断,目前的 AI 做不到。

面试官听完这两个问题,没有回应。


AI 工作流还没有形成完整闭环

这些问题让我回到一个更根本的观点:AI 的输出质量高度依赖输入信息的完整度,而完整度本身是有边界的。

在实际的工作流中,这个问题无处不在:

  • 信息不完整时,AI 会”幻觉”出看似合理但错误的答案。 你问它一个私域问题,它给你编一个听起来很专业的回答,你信了就开始执行。
  • 多步骤任务中,错误会级联传播,一步错步步错。 让 AI 写一个模块,它能写。让它根据运行结果调整,它可能会引入新的错误,或者根本不理解为什么之前的输出不对。
  • 缺乏真正的自我纠错机制,只能依赖人工干预。 AI 能生成方案,但方案到执行之间隔着无数的细节。

human in loop 本意是通过人在环来兜底,但它假设了一个前提:人知道什么时候该干预。但现实往往不是这样的——当你把一个复杂任务交给 AI 跑的时候,人很难判断它走到哪一步应该确认还是不确认。

这件事的根本问题在于:AI 目前缺乏真正意义上的自适应校正能力。


AI 能力存在上限

AI 能力上限的来源,我认为主要有三点:

1. 信息的获取有边界

AI 的知识受限于训练数据。私有领域知识、企业内部信息、实时发生的事件——这些都是 AI 无法触及的盲区。ChatGPT 不知道你公司数据库的 schema,也不知道你上周五才发生的那个 bug。

这不是模型能力的问题,是信息的根本性问题。

2. 推理能力有上限

即便输入信息完整,模型的推理能力也不是无限的。长上下文会稀释关键信息,多跳推理依然困难重重,复杂的因果链条依然难以准确追踪。

你让它做一道一步到位的数学题,它很强。你让它做一个需要二十步推导的系统设计,它开始胡说八道。

这不是”还没做到”,而是推理能力本身有它的天花板。

3. 执行能力有瓶颈

AI 能生成方案,但方案到执行之间隔着无数的细节。

一段能跑的代码,到能上线的服务,中间还有部署、监控、回滚、容错——这些 AI 目前都无法独立完成。它能给你一个 Dockerfile,但不会帮你跑通 CI,不会帮你调试生产环境的网络问题。

生成能力和执行能力是两件事。


写这篇文章不是要唱衰 AI。AI 毫无疑问是划时代的技术革命,美团 All in AI 的战略判断也有其道理。

但我认为,承认 AI 有上限,才能更好地驾驭它。把 AI 当作万能解药,期待它能解决所有问题,反而会在遇到瓶颈时感到失望。

真正有效的 AI 应用,是那些清楚知道 AI 能做什么、不能做什么,并围绕这个边界设计工作流的场景。把 AI 当工具用,而不是当神拜。

这件事想清楚了,用 AI 或许才会更顺手。


美团这轮面试后来没有后续,但这篇文章倒是写出来了。