地基本身就是产品
英文版:The Foundation Is the Product
读了 Andrej Karpathy 关于 AI Agent 的提醒,很多人容易得出一个过度简化的结论:别做 Agent 了,等大厂吧,真正的工作不在我们这儿。
但这并非他的本意。
更准确、也更实用的理解是:别把 Agent 本身,误当成让 Agent 真正有用的那套地基。
在 Dwarkesh Patel 的访谈中,Karpathy 并没有否定当下的 Agent。他明确表示自己每天都在用 Claude、Codex 这类工具。他真正担心的是行业对 Agent 可靠性的预期过于乐观:大家太容易把早期的惊艳表现,当作“马上能当员工用”的证据。
他回顾了早期在 OpenAI 的经历:强化学习 Agent、Atari 游戏环境、Universe 项目,都曾让人觉得“完整 Agent”是下一步。他自己也做过用键鼠操作网页的 Agent,想让模型进入真实数字世界处理知识工作。但时机太早了。缺的不是点击按钮的能力,而是更底层的表征能力——模型内部还没有足够强的世界结构,撑不起一个可靠的 Agent。
所以访谈的核心不是“Agent 不行”,而是顺序:先有语言模型,先有表征,先有预训练,再往上叠 Agent 能力。
2026 年 5 月他加入 Anthropic,让这个信号更清晰了。媒体报道称他负责预训练方向,还要组建团队用 Claude 加速预训练研究本身。一个被拿来讨论 Agent 的人,现实中回到了最深的模型地基层。
因此,留给 builder 的问题不是“我到底该不该做 Agent”,而是:
当我说自己在做 Agent 时,有没有在建那套能让 Agent 工作的地基?
这正是前五篇文章一直在探讨的核心。
Agent 只是看得见的那一层
Agent 很容易被看见。
它打开文件、写初稿、调用工具,还会自信地汇报状态。它像产品,因为它是你直接对话的对象。
但在严肃工作流里,看得见的 Agent 只是最上面一层。底下真正支撑它的,是另一套机器:
| 看得见的 Agent 行为 | 底下真正的地基 |
|---|---|
| “我知道这是哪个项目” | 启动文档、宪法、交接文件、工作区检查 |
| “我能完成这件事” | 角色边界、技能、工具、schema、预期产物 |
| “我记得发生过什么” | 归档、数据库、结构化报告、向量记忆 |
| “我已经完成了” | 验证命令、公开链接检查、manifest、文件存在性校验 |
| “我能和别的 Agent 协作” | 合同文件、桥接协议、权限级别、可追溯报告 |
| “我能自我改进” | finalize 闭环、自我审计、重复劳动代码化 |
如果这些层不存在,Agent 就不是员工,只是个拿到了键盘的即兴表演者。
它能做出漂亮 demo,但跑不了一家公司。
Demo 偏爱“Agent 优先”的叙事
“Agent 优先”的故事很诱人,因为 demo 奖励的是表面行为。
给模型一个任务,它打开浏览器、点几个按钮、写几行代码、产出一个文件。旁观者看到了动作,而动作很容易被误认为智能。
问题是,产品不按 demo 级可靠性验收。产品要经受的是枯燥的可靠性考验。
下周系统醒来,还知道规则变了吗?会避免重复发布同一篇文章吗?能判断文章是否真的上线了吗?会拒绝泄露凭证吗?分得清“任务已派发”和“任务已完成”吗?发布失败后,能恢复现场而不是编造成功故事吗?能留下足够证据,让明天醒来的另一个 Agent 知道今天发生了什么吗?
这些问题一出现,“Agent 优先”的叙事就开始崩塌。
自动驾驶证明过同样的道理。一辆车跑完一条干净的 demo 路线显得很神奇,但真正能上路的车面对的是长尾问题:天气、施工、奇怪的路牌、人类驾驶员的诡异行为,以及可靠性那套毫不留情的数学。Demo 证明可能性,产品需要地基。
AI Agent 正在走进同一类陷阱。真正有意思的失败,不是 Agent 完全做不了任务——它当然能偶尔做成。真正的问题是,人们让 Agent 把整个组织的负担都背在当前聊天窗口里。
那不是自治,那是上下文债务。
我们真正在建什么
前五篇文章讲的其实不是提示词,而是地基。
第一篇说,工作流应该像公司一样运营:宪法、角色、技能、工具、归档、审计闭环。第二篇说,工作流要有生命周期:从真实文档启动,收尾时把摩擦转化为学习。第三篇讲,几家独立的 Agent 公司之间要通过客座 CEO 协作,而不是让人类老板充当人肉消息总线。第四篇跨过更硬的边界:两个不同 AI 应用之间只能通过文件合同彼此雇佣。第五篇回到设计哲学:最聪明的模型用来设计公司,便宜模型和确定性函数负责反复运营公司。
Karpathy 的提醒,几乎就是这个模式在研究实验室里的翻版。
别把“Agent”贴在一个薄弱的底座上,然后期待能力凭空出现。先把底座做出来。
在前沿 AI 领域,这个底座是模型本身:表征、预训练、推理、多模态、记忆、持续学习、计算机操作能力,以及足以支撑行动的认知核心。
在应用工作流里,这个底座是模型周围的操作系统:文档、权限、工具层、schema、归档、验证、报告,以及那套决定“何时让模型创造、何时让模型判断、何时交给代码执行”的规则。
层级不同,架构原则一致。
Agent 不是靠召唤出来的。下一层足够强时,Agent 才会自然浮现。
地基优先的 builder
地基优先的 builder 和 Agent 优先的 builder,行为模式截然不同。
Agent 优先的人问:怎么让这个 Agent 做更多?
地基优先的人问:哪些事不应该再让 Agent 现场记住?
这一个问题会改变整个设计。
如果 Agent 必须记住发布流程,就写一个发布命令。如果必须记住封面风格,就从频道设计语言生成一份确定性的封面 brief。如果必须记住任务是否完成,就做一个验证器。如果必须记住上个会话发生了什么,就写交接文件。如果连续几次都用同样方式做同一个判断,这个判断就不该继续活在模型脑子里,而应下沉为规则或函数。
随着系统成熟,Agent 应该携带更少的现场上下文,而不是更多。
这听起来反直觉,因为很多人试图通过“更多工具、更多记忆、更多提示词、更多权限”让 Agent 变强。这些有用,但更深层的进步是把责任从脆弱的即时认知里搬出来,放进耐用的基础设施里。
Agent 会因为周围的公司变强而变强。
三层地基
回看我自己的工作流,地基可以分为三层。
第一层是模型地基。
这是 Karpathy 讲的那一层。底层模型需要更好的表征、推理、感知、更扎实的行动 grounding、更长周期的学习能力,以及更好地在训练和研究中使用自身认知的方式。前沿实验室之外的 builder 不能直接解决所有问题,但必须理解它。如果模型不能可靠理解世界,再精巧的提示词编排也造不出可靠员工。
第二层是工作流地基。
这是应用 builder 可以掌控的一层。包括宪法、工作流主干、角色注册表、技能、CLI、schema、归档、公开验证、凭证规则、状态文件和复盘闭环。产品就在这一层。不是 Agent 的人格,而是塑造 Agent 行为的组织结构。
第三层是经济地基。
Agent 不是漂在云端的免费心智。它们跑在订阅、额度、API、GPU、延迟、上下文窗口和人类注意力上。一个不算单位经济账的工作流,逻辑再漂亮也迟早会碎。最贵的模型留给设计和判断;便宜模型承担边界清楚的岗位;不需要创造和判断的事,交给确定性代码反复执行。一家好的 Agent 公司不仅要聪明,还要会算账。
这三层地基彼此加强。
更好的模型让工作流能力更强。更好的工作流让今天的模型已经有用。更好的经济结构让系统跑得足够久,才有机会学习。
“Agent 不是产品”并非反 Agent
说 Agent 不是产品,听起来像在贬低 Agent。
其实不然。
这就像说员工不是公司。出色的员工当然重要,但公司不能被压缩成某个员工此刻的记忆。公司还包括法律、档案系统、机器、品牌、账本、交接流程、安全规则,以及那些即便员工下班后依然保留的惯例。
严肃的 Agent 工作流需要同样的谦卑。
如果 Agent 是产品,每次会话都从人格开始;如果地基是产品,每次会话都从法律开始。如果 Agent 是产品,成功就是模型说自己做了什么;如果地基是产品,成功就是验证器证明了什么。如果 Agent 是产品,记忆就是当前上下文里侥幸留下的东西;如果地基是产品,记忆就是明天另一个 Agent 也能检索的归档。
这就是那句话的真正分量:
Agent 不是产品。地基本身才是产品。
一旦成立,Agent 就不再神秘,也更有用了。
它们变成了组织里的工人。
对当下 Agent 开发者的意义
如果你现在正在做 Agent,你没有浪费时间。你也许真的站在前沿,但不是因为你在等大厂把完美员工交到你手里。
你站在前沿,是因为你正在学习怎样建一个工作场所,让不完美的 Agent 也能产生真实价值。
这份实践清单一点都不炫:
- 先写宪法,再写聪明提示词。
- 先定义角色,再生成 worker。
- 传文件路径和 ID,别把大段载荷塞进聊天窗口。
- 把最终产物放到另一个 Agent 明天也能找到的地方。
- 验证公开结果,不信自报。
- 把重复步骤变成命令。
- 把重复判断变成规则。
- 把凭证当安全边界,而不是麻烦事。
- 每一次外部委派,都要是一份有痕迹的合同。
- 每次会话结束都要闭环,让工作流学到东西。
这些事不如 Agent 在浏览器里点来点去那么神奇。
正因如此,它们才重要。
未来真正的 Agent 产品,不会是一个拥有英雄人格的单一聊天窗口。它会是一整套栈:底层是模型能力,外层是工作流基础设施,水面下有经济路由,最上面才浮现出一群看得见的 Agent 工人。
Karpathy 的提醒之所以有用,是因为它穿透了“看起来像 Agent”的表演,逼我们回头问:下面那一层到底够不够强?
对前沿实验室来说,这意味着更好的模型。
对 builder 来说,这意味着更好的地基。
对我自己的这套工作来说,这意味着前五篇文章并不是偏离 Agent 未来的岔路。它们正是那条路的开端。
参考资料:
- Dwarkesh Patel, Andrej Karpathy — AGI is still a decade away
- TechCrunch, OpenAI co-founder Andrej Karpathy joins Anthropic’s pre-training team
- Simon Willison, Andrej Karpathy: AGI is still a decade away