地基本身就是产品

地基本身就是产品
英文版:The Foundation Is the Product

读了 Andrej Karpathy 关于 AI Agent 的提醒,很多人容易得出一个过度简化的结论:别做 Agent 了,等大厂吧,真正的工作不在我们这儿。

但这并非他的本意。

更准确、也更实用的理解是:别把 Agent 本身,误当成让 Agent 真正有用的那套地基。

在 Dwarkesh Patel 的访谈中,Karpathy 并没有否定当下的 Agent。他明确表示自己每天都在用 Claude、Codex 这类工具。他真正担心的是行业对 Agent 可靠性的预期过于乐观:大家太容易把早期的惊艳表现,当作“马上能当员工用”的证据。

他回顾了早期在 OpenAI 的经历:强化学习 Agent、Atari 游戏环境、Universe 项目,都曾让人觉得“完整 Agent”是下一步。他自己也做过用键鼠操作网页的 Agent,想让模型进入真实数字世界处理知识工作。但时机太早了。缺的不是点击按钮的能力,而是更底层的表征能力——模型内部还没有足够强的世界结构,撑不起一个可靠的 Agent。

所以访谈的核心不是“Agent 不行”,而是顺序:先有语言模型,先有表征,先有预训练,再往上叠 Agent 能力。

2026 年 5 月他加入 Anthropic,让这个信号更清晰了。媒体报道称他负责预训练方向,还要组建团队用 Claude 加速预训练研究本身。一个被拿来讨论 Agent 的人,现实中回到了最深的模型地基层。

因此,留给 builder 的问题不是“我到底该不该做 Agent”,而是:

当我说自己在做 Agent 时,有没有在建那套能让 Agent 工作的地基?

这正是前五篇文章一直在探讨的核心。

Agent 只是看得见的那一层

Agent 很容易被看见。

它打开文件、写初稿、调用工具,还会自信地汇报状态。它像产品,因为它是你直接对话的对象。

但在严肃工作流里,看得见的 Agent 只是最上面一层。底下真正支撑它的,是另一套机器:

看得见的 Agent 行为 底下真正的地基
“我知道这是哪个项目” 启动文档、宪法、交接文件、工作区检查
“我能完成这件事” 角色边界、技能、工具、schema、预期产物
“我记得发生过什么” 归档、数据库、结构化报告、向量记忆
“我已经完成了” 验证命令、公开链接检查、manifest、文件存在性校验
“我能和别的 Agent 协作” 合同文件、桥接协议、权限级别、可追溯报告
“我能自我改进” finalize 闭环、自我审计、重复劳动代码化

如果这些层不存在,Agent 就不是员工,只是个拿到了键盘的即兴表演者。

它能做出漂亮 demo,但跑不了一家公司。

Demo 偏爱“Agent 优先”的叙事

“Agent 优先”的故事很诱人,因为 demo 奖励的是表面行为。

给模型一个任务,它打开浏览器、点几个按钮、写几行代码、产出一个文件。旁观者看到了动作,而动作很容易被误认为智能。

问题是,产品不按 demo 级可靠性验收。产品要经受的是枯燥的可靠性考验。

下周系统醒来,还知道规则变了吗?会避免重复发布同一篇文章吗?能判断文章是否真的上线了吗?会拒绝泄露凭证吗?分得清“任务已派发”和“任务已完成”吗?发布失败后,能恢复现场而不是编造成功故事吗?能留下足够证据,让明天醒来的另一个 Agent 知道今天发生了什么吗?

这些问题一出现,“Agent 优先”的叙事就开始崩塌。

自动驾驶证明过同样的道理。一辆车跑完一条干净的 demo 路线显得很神奇,但真正能上路的车面对的是长尾问题:天气、施工、奇怪的路牌、人类驾驶员的诡异行为,以及可靠性那套毫不留情的数学。Demo 证明可能性,产品需要地基。

AI Agent 正在走进同一类陷阱。真正有意思的失败,不是 Agent 完全做不了任务——它当然能偶尔做成。真正的问题是,人们让 Agent 把整个组织的负担都背在当前聊天窗口里。

那不是自治,那是上下文债务。

我们真正在建什么

前五篇文章讲的其实不是提示词,而是地基。

第一篇说,工作流应该像公司一样运营:宪法、角色、技能、工具、归档、审计闭环。第二篇说,工作流要有生命周期:从真实文档启动,收尾时把摩擦转化为学习。第三篇讲,几家独立的 Agent 公司之间要通过客座 CEO 协作,而不是让人类老板充当人肉消息总线。第四篇跨过更硬的边界:两个不同 AI 应用之间只能通过文件合同彼此雇佣。第五篇回到设计哲学:最聪明的模型用来设计公司,便宜模型和确定性函数负责反复运营公司。

Karpathy 的提醒,几乎就是这个模式在研究实验室里的翻版。

别把“Agent”贴在一个薄弱的底座上,然后期待能力凭空出现。先把底座做出来。

在前沿 AI 领域,这个底座是模型本身:表征、预训练、推理、多模态、记忆、持续学习、计算机操作能力,以及足以支撑行动的认知核心。

在应用工作流里,这个底座是模型周围的操作系统:文档、权限、工具层、schema、归档、验证、报告,以及那套决定“何时让模型创造、何时让模型判断、何时交给代码执行”的规则。

层级不同,架构原则一致。

Agent 不是靠召唤出来的。下一层足够强时,Agent 才会自然浮现。

地基优先的 builder

地基优先的 builder 和 Agent 优先的 builder,行为模式截然不同。

Agent 优先的人问:怎么让这个 Agent 做更多?

地基优先的人问:哪些事不应该再让 Agent 现场记住?

这一个问题会改变整个设计。

如果 Agent 必须记住发布流程,就写一个发布命令。如果必须记住封面风格,就从频道设计语言生成一份确定性的封面 brief。如果必须记住任务是否完成,就做一个验证器。如果必须记住上个会话发生了什么,就写交接文件。如果连续几次都用同样方式做同一个判断,这个判断就不该继续活在模型脑子里,而应下沉为规则或函数。

随着系统成熟,Agent 应该携带更少的现场上下文,而不是更多。

这听起来反直觉,因为很多人试图通过“更多工具、更多记忆、更多提示词、更多权限”让 Agent 变强。这些有用,但更深层的进步是把责任从脆弱的即时认知里搬出来,放进耐用的基础设施里。

Agent 会因为周围的公司变强而变强。

三层地基

回看我自己的工作流,地基可以分为三层。

第一层是模型地基

这是 Karpathy 讲的那一层。底层模型需要更好的表征、推理、感知、更扎实的行动 grounding、更长周期的学习能力,以及更好地在训练和研究中使用自身认知的方式。前沿实验室之外的 builder 不能直接解决所有问题,但必须理解它。如果模型不能可靠理解世界,再精巧的提示词编排也造不出可靠员工。

第二层是工作流地基

这是应用 builder 可以掌控的一层。包括宪法、工作流主干、角色注册表、技能、CLI、schema、归档、公开验证、凭证规则、状态文件和复盘闭环。产品就在这一层。不是 Agent 的人格,而是塑造 Agent 行为的组织结构。

第三层是经济地基

Agent 不是漂在云端的免费心智。它们跑在订阅、额度、API、GPU、延迟、上下文窗口和人类注意力上。一个不算单位经济账的工作流,逻辑再漂亮也迟早会碎。最贵的模型留给设计和判断;便宜模型承担边界清楚的岗位;不需要创造和判断的事,交给确定性代码反复执行。一家好的 Agent 公司不仅要聪明,还要会算账。

这三层地基彼此加强。

更好的模型让工作流能力更强。更好的工作流让今天的模型已经有用。更好的经济结构让系统跑得足够久,才有机会学习。

“Agent 不是产品”并非反 Agent

说 Agent 不是产品,听起来像在贬低 Agent。

其实不然。

这就像说员工不是公司。出色的员工当然重要,但公司不能被压缩成某个员工此刻的记忆。公司还包括法律、档案系统、机器、品牌、账本、交接流程、安全规则,以及那些即便员工下班后依然保留的惯例。

严肃的 Agent 工作流需要同样的谦卑。

如果 Agent 是产品,每次会话都从人格开始;如果地基是产品,每次会话都从法律开始。如果 Agent 是产品,成功就是模型说自己做了什么;如果地基是产品,成功就是验证器证明了什么。如果 Agent 是产品,记忆就是当前上下文里侥幸留下的东西;如果地基是产品,记忆就是明天另一个 Agent 也能检索的归档。

这就是那句话的真正分量:

Agent 不是产品。地基本身才是产品。

一旦成立,Agent 就不再神秘,也更有用了。

它们变成了组织里的工人。

对当下 Agent 开发者的意义

如果你现在正在做 Agent,你没有浪费时间。你也许真的站在前沿,但不是因为你在等大厂把完美员工交到你手里。

你站在前沿,是因为你正在学习怎样建一个工作场所,让不完美的 Agent 也能产生真实价值。

这份实践清单一点都不炫:

  • 先写宪法,再写聪明提示词。
  • 先定义角色,再生成 worker。
  • 传文件路径和 ID,别把大段载荷塞进聊天窗口。
  • 把最终产物放到另一个 Agent 明天也能找到的地方。
  • 验证公开结果,不信自报。
  • 把重复步骤变成命令。
  • 把重复判断变成规则。
  • 把凭证当安全边界,而不是麻烦事。
  • 每一次外部委派,都要是一份有痕迹的合同。
  • 每次会话结束都要闭环,让工作流学到东西。

这些事不如 Agent 在浏览器里点来点去那么神奇。

正因如此,它们才重要。

未来真正的 Agent 产品,不会是一个拥有英雄人格的单一聊天窗口。它会是一整套栈:底层是模型能力,外层是工作流基础设施,水面下有经济路由,最上面才浮现出一群看得见的 Agent 工人。

Karpathy 的提醒之所以有用,是因为它穿透了“看起来像 Agent”的表演,逼我们回头问:下面那一层到底够不够强?

对前沿实验室来说,这意味着更好的模型。

对 builder 来说,这意味着更好的地基。

对我自己的这套工作来说,这意味着前五篇文章并不是偏离 Agent 未来的岔路。它们正是那条路的开端。


参考资料: