面试中关于AI能力上限的思考

说起来挺巧的。

上周面试美团，某位面试官在闲聊时提到，美团内部现在 All in AI，认为大模型的能力是没有上限的。他提到了 harness、spec、skill、human in loop 这一套技术体系，认为只要约束设计得足够严密，AI 就能实现”基本所有的事情”。

聊得很自然，我也没有当场反驳。但路上一直在想这件事——他说的这套东西我日常也在用，确实能解决不少问题，但要说它没有上限，这个判断我不太认同。

约束够强就能解决一切问题吗

human in loop 是目前 AI Agent 架构里的常见模式：AI 做决策，但人在关键节点确认或干预。harness 是约束框架，spec 是规格定义，skill 是技能单元。这套体系设计得挺好，我自己也用过。

但我有两个问题，面试官没有给出回应。

第一个问题：权限管理。

当 AI 能够调用工具、执行操作、管理资源时，权限边界在哪里划？

举个例子。如果 AI 要帮你发一封邮件，它需要读取你的邮件内容、获取联系人权限、理解上下文——这些东西一旦授权给 AI，边界在哪里？它会不会在”正常操作”的范围内做超出你预期的事情？

更具体一点：AI 看到了你三个月前的邮件，发现了一些信息，然后在你不知情的情况下把这些信息用在了当前的任务里。这算不算越权？约束能解决这个问题吗？

第二个问题：代码 review。

代码 review 这件事，AI 能做到什么程度？

review 不只是检查语法和风格，还包括判断”这段设计是否符合团队的技术选型”、”这个实现是否埋了潜在的地雷”、”这个改动会不会影响其他模块的兼容性”——这些东西需要的不是规则，是判断力。

而判断力背后是经验、上下文理解、以及对代码库整体架构的把握。给 AI 一套 review 规则，它能检查风格，能找出明显的问题，但”这个设计三个月后会是个坑”这种判断，目前的 AI 做不到。

面试官听完这两个问题，没有回应。

这些问题让我回到一个更根本的观点：AI 的输出质量高度依赖输入信息的完整度，而完整度本身是有边界的。

在实际的工作流中，这个问题无处不在：

信息不完整时，AI 会”幻觉”出看似合理但错误的答案。 你问它一个私域问题，它给你编一个听起来很专业的回答，你信了就开始执行。
多步骤任务中，错误会级联传播，一步错步步错。 让 AI 写一个模块，它能写。让它根据运行结果调整，它可能会引入新的错误，或者根本不理解为什么之前的输出不对。
缺乏真正的自我纠错机制，只能依赖人工干预。 AI 能生成方案，但方案到执行之间隔着无数的细节。

human in loop 本意是通过人在环来兜底，但它假设了一个前提：人知道什么时候该干预。但现实往往不是这样的——当你把一个复杂任务交给 AI 跑的时候，人很难判断它走到哪一步应该确认还是不确认。

这件事的根本问题在于：AI 目前缺乏真正意义上的自适应校正能力。

AI 能力上限的来源，我认为主要有三点：

AI 的知识受限于训练数据。私有领域知识、企业内部信息、实时发生的事件——这些都是 AI 无法触及的盲区。ChatGPT 不知道你公司数据库的 schema，也不知道你上周五才发生的那个 bug。

这不是模型能力的问题，是信息的根本性问题。

即便输入信息完整，模型的推理能力也不是无限的。长上下文会稀释关键信息，多跳推理依然困难重重，复杂的因果链条依然难以准确追踪。

你让它做一道一步到位的数学题，它很强。你让它做一个需要二十步推导的系统设计，它开始胡说八道。

这不是”还没做到”，而是推理能力本身有它的天花板。

AI 能生成方案，但方案到执行之间隔着无数的细节。

一段能跑的代码，到能上线的服务，中间还有部署、监控、回滚、容错——这些 AI 目前都无法独立完成。它能给你一个 Dockerfile，但不会帮你跑通 CI，不会帮你调试生产环境的网络问题。

生成能力和执行能力是两件事。

写这篇文章不是要唱衰 AI。AI 毫无疑问是划时代的技术革命，美团 All in AI 的战略判断也有其道理。

但我认为，承认 AI 有上限，才能更好地驾驭它。把 AI 当作万能解药，期待它能解决所有问题，反而会在遇到瓶颈时感到失望。

真正有效的 AI 应用，是那些清楚知道 AI 能做什么、不能做什么，并围绕这个边界设计工作流的场景。把 AI 当工具用，而不是当神拜。

这件事想清楚了，用 AI 或许才会更顺手。

美团这轮面试后来没有后续，但这篇文章倒是写出来了。