By 王利杰 in Wiki4what — 08 Jun 2026

什么是注意力机制

二十个人围着一张大圆桌吃饭，所有人同时在说话。你左边聊股票，你右边聊孩子，对面在讲段子，斜对面在吐槽老板。声音混成一锅粥，你一个字都听不清。但就在这时候，桌子另一头，有人提了一嘴你的名字。你的耳朵，唰的一下就锁定了那个方向。周围所有的噪音瞬间被压低，你整个注意力，全部聚焦到那一个...

二十个人围着一张大圆桌吃饭，所有人同时在说话。你左边聊股票，你右边聊孩子，对面在讲段子，斜对面在吐槽老板。声音混成一锅粥，你一个字都听不清。但就在这时候，桌子另一头，有人提了一嘴你的名字。你的耳朵，唰的一下就锁定了那个方向。周围所有的噪音瞬间被压低，你整个注意力，全部聚焦到那一个声音上。你甚至能听清他说的每一个字。

这个现象，心理学上叫"鸡尾酒会效应"。你的大脑，在一片混乱中，精准地抓住了最重要的那一条信息。

而今天我要讲的这个东西，就是让 AI 学会了同样这件事。它的名字，叫注意力机制。

哈喽，大家好，我是王利杰。欢迎来到 Wiki for What。我们这里是元知识学前班，在你自学任何东西之前，先用第一性原理，把那块最该先搞懂的底层概念，彻底整明白。

注意力机制，英文叫 Attention Mechanism。你现在用的所有大语言模型，不管是 Claude、GPT、还是国内的各种大模型，它们的底层，全都站在同一个技术基座上。这个基座叫 Transformer，而 Transformer 的核心引擎，就是注意力机制。

你可以说，没有注意力机制，就没有今天的 AI 时代。

但别急，我们一步一步来。先从一个最基本的问题开始：AI 在注意力机制出现之前，到底卡在了什么地方？

回到那张大圆桌。假设你不是一个正常人，你是一台早期的 AI。有人让你把这桌二十个人说的话全部翻译成英文。你的做法是什么呢？你先老老实实地，从第一个人开始，把每个人说的每句话，按顺序一个字一个字地听完，然后把这整桌的内容，硬压缩成一张小纸条，最后拿着这张小纸条去翻译。

问题来了。二十个人说了两个小时，内容堆成山。但你的小纸条就那么大。越到后面，前面的话就越记不住了。到你开始翻译的时候，第一个人讲的什么，你已经彻底忘了。

这就是 2014 年之前，AI 处理语言时的核心困境。那时候最流行的架构叫循环神经网络，简称 RNN。它的致命弱点就是这个：把所有信息硬塞进一个固定大小的容器里，序列越长，前面的信息丢得越多。就好比你拿一个水杯去接一条河。杯子就那么大，水是接不完的。

2014 年，一位来自蒙特利尔的研究者巴赫丹瑙，提出了一个改变一切的想法。他的思路非常简单：既然一张小纸条记不住所有内容，那就别压缩了。把每个人说的话都单独记着，等到翻译某一句的时候，再回头看看，这句话跟之前谁说的哪些话最相关，然后重点去参考那几句。

这就是注意力机制的起源。AI 不再是把所有信息硬压成一坨，而是学会了"回头看"——翻译到哪句，就回头扫一遍之前所有人的发言，找出跟当前最相关的那几条，重点参考。

打个更直接的比方。你在图书馆写一篇关于气候变化的论文。你面前摆了一百本书。一种做法是，先把一百本书从头到尾全看完，然后合上所有书，凭记忆写。另一种做法是，写到哪一段，就回头翻一翻那些书，找出跟这一段最相关的几本，重点看那几页。

第一种做法就是传统的 RNN。第二种做法，就是加了注意力机制之后的 AI。

但巴赫丹瑙的注意力机制，还只是一个开始。它虽然学会了"回头看"，但有一个局限：它只能在翻译的时候回头看原文。原文内部的词和词之间，它并没有互相看。

这就好比，你虽然学会了写论文时翻参考书，但你参考书上的那些章节之间，谁跟谁有关系，你并不清楚。

2017 年，真正的革命来了。

谷歌的八位研究者发表了一篇论文，标题只有五个英文单词：Attention Is All You Need。翻译过来就是，你需要的只有注意力。

这篇论文有多猛呢？截止到目前，它在学术数据库里的被引用次数超过了二十万次。要知道，普通的学术论文能被引用几十次就算不错了，被引用几百次算经典。超过二十万次是什么概念？它是 AI 领域被引用最多的论文之一。

这八个人提出了一个全新的架构，叫 Transformer。Transformer 的革命性在于，它把注意力机制的思路往前推了关键一步：不仅在翻译的时候要回头看，在理解原文本身的时候，每一个词，都要去看看自己跟其他所有词的关系。

回到那张大圆桌。以前的 AI，是你在听别人说话。现在的 Transformer 做了一件更聪明的事：它让桌上的每一个人，都同时扫一遍其他所有人在说什么，然后自己判断"我现在说的这句话，跟在座哪几位最相关"。

这个"自己看自己"的机制，就叫自注意力，英文是 Self-Attention。它是 Transformer 的核心中的核心。

现在我来拆解一下自注意力到底在做什么。别怕，我不讲数学，我们还是用那张圆桌来说。

假设桌上坐了五个人，分别叫小明、小红、小刚、小美、小李。现在轮到小明发言。自注意力要做的事情是：小明要判断一下，自己现在说的这句话，跟其他四个人之前说的内容，分别有多大的关联。

这里面有三个关键角色，它们在技术上有三个专门的名字：查询、键、和值。英文分别是 Query、Key、Value。

我用一个更贴近生活的场景来解释。你走进一家巨大的图书馆，想找一本关于"如何训练小狗"的书。你脑子里那个问题——"如何训练小狗"——就是查询 Query。图书馆里每本书的书名和简介，就是键 Key。而书里面的具体内容，就是值 Value。

你做的事情是什么？拿着你的 Query，跟每一本书的 Key 对比一下，看哪些书跟你的问题最匹配。匹配度高的书，你会多花时间去看它的 Value；匹配度低的书，你扫一眼就跳过。

自注意力做的事情完全一样。句子里的每一个词，都会同时扮演这三个角色：它既是提问者，也是被查询的标签，也是具体的内容。每个词都对其他所有词打一个"相关性分数"。分数高的，就多关注；分数低的，就少关注。

这就是为什么它叫注意力——它在模拟你大脑的那个能力：在一堆信息里，自动判断哪些重要、哪些不重要，然后把注意力分配到最重要的地方。

举个具体的例子。"小明牵着他的狗去公园散步"这句话里，"他"这个字，指的是谁？你一秒就知道，"他"指的是小明。但 AI 怎么知道？靠的就是自注意力。"他"这个词作为 Query 去查询整个句子，发现跟"小明"这个 Key 的匹配分数最高，于是它就明白了：哦，"他"等于"小明"。

这件事看起来简单，但在 2017 年之前，AI 做这件事是非常吃力的。

好，现在你已经懂了注意力机制的核心逻辑。但更精彩的在后面——为什么 Transformer 能彻底取代之前所有的架构？

答案是两个字：并行。

还记得之前说的 RNN 吗？它处理语言的方式，是一个词一个词地顺序处理。就像你排队买奶茶，前面一个人买完了，下一个人才能点单。队伍有一百个人，你就得等一百轮。

Transformer 不一样。因为自注意力机制让每个词同时去看其他所有词的关系，它不需要等前面的词处理完。所有的词，可以同时开工。就像奶茶店开了一百个窗口，一百个人同时点单。

这对 AI 意味着什么？训练速度可以爆炸式提升。以前需要几个月才能训练好的模型，现在用 GPU 并行计算，可能几天就搞定了。所以 2017 年之后，大语言模型突然开始爆发式增长——不是因为人们突然变聪明了，而是 Transformer 让 AI 终于能高效地处理超大规模的文本数据。

现在你知道了：Transformer 是骨架，自注意力是引擎，而 GPU 并行是燃料。三样东西凑齐了，AI 这辆车才真正跑了起来。

最后再讲一个特别有意思的事实。

那篇论文的八位作者，写完之后发生了什么？八个人后来全部离开了谷歌，几乎每个人都创办了自己的公司。其中一位叫诺姆·沙泽尔的，创办了 Character.AI，后来谷歌花了二十七亿美元把他请了回去。另一位叫艾丹·戈麦斯的，创办了 Cohere，现在估值七十亿美元。还有一位叫利安·琼斯的，跑到东京创办了 Sakana AI，估值二十多亿。剩下的人，有的做 AI 制药，有的做区块链，有的去了 OpenAI。这些人创办的公司，合计估值超过一百五十亿美元。

八个人，一篇论文，催生了一整个产业。

所以，注意力机制到底是什么？用一句话说就是：它是 AI 学会"集中注意力"的那一刻。在那之前，AI 像一个拼命记笔记但越记越糊涂的学生。在那之后，AI 学会了你大脑一直在做的事：不是记住所有东西，而是知道什么时候该看什么。

这件事为什么跟你有关？因为你现在每天在用的所有 AI 工具——跟 AI 对话、让 AI 写文案、让 AI 改代码、让 AI 帮你做 PPT——它们之所以能理解你说的话、记住你前面说的上下文、给出靠谱的回答，靠的全是注意力机制。

你不需要自己去造一个 Transformer，你只需要知道它在做什么。当你知道 AI 是怎么"听懂"你的话的，你就能更好地跟它协作。比如，你给 AI 一段特别长的文字让它总结，如果它漏掉了某个关键信息，你现在能理解：它的注意力可能被其他内容分散了。你只需要把关键信息提到前面、或者单独强调一下，效果就会完全不一样。

这就是元知识的力量——你不需要变成专家，你只需要理解底层逻辑，就能比大多数人更聪明地使用 AI。

好了，说到这里，我想问你一个问题：你觉得 AI 的"注意力"，跟你大脑的注意力，到底是不是同一回事？它们之间差的是什么？欢迎在评论区告诉我你的想法。然后去各大视频平台，搜索 Transformer、注意力机制、自注意力这几个关键词，开始你的打怪升级之旅。

我是王利杰，我们下期见。

📺 更多元知识视频，搜索「Wiki4What」| 🌐 blog.wiki4what.com

什么是注意力机制

什么是偈示词

什么是大语言模型

什么是偈示词

什么是大语言模型

You might also like...