By 王利杰 in Wiki4what — 08 Jun 2026

什么是大语言模型

你有没有发现，这两年所有人嘴里都挂着一个词——大模型。今天这个公司发布了一个大模型，明天那个手机里又塞进了一个大模型。它好像无所不能，能写代码、能翻译、能陪你聊天、能帮你写情书，聪明得有点吓人。可你要是停下来问一句：这个所谓的大语言模型，到底是个什么东西？多半还是说不上来。

哈喽，大家好，我是王利杰。欢迎来到 Wiki for What。我们这里是元知识学前班，在你自学任何东西之前，先用第一性原理，把那块最该先搞懂的底层概念，彻底整明白。

今天这块底层概念，就是被全世界天天念叨、却很少有人真正搞懂的——大语言模型，英文叫 Large Language Model，所以大家也常常把它简称成三个字母的缩写：LLM。

我先把那个最反直觉的答案，直接甩给你：这个聪明得吓人的东西，它会的本事，其实只有一个——猜下一个字。

别急着不信，我们做个游戏。我说半句话，你来接。我说：清明时节雨——你脑子里是不是"唰"地就蹦出来"纷纷"两个字？我说：床前明月——你大概率会接"光"。我再说：今天天气真不——你会接"错"，或者接"好"。看，你刚刚做的这件事，就是猜下一个字。你不是在背一本标准答案手册，你是凭着这辈子听过、读过的海量句子，在你脑子里算了一下：在这个语境下，下一个字最有可能是什么。

现在，请你想象这样一个画面。有一个人，被关在一个房间里。这个人从生下来到现在，什么别的事都没干过，就干了一件事：读字。他把人类有史以来写下来的几乎所有文字，全都读了一遍——所有的书、所有的网页、所有的论坛帖子、所有的代码、所有的维基百科词条，全都读进去了。他不睡觉、不吃饭、不出门，就是一刻不停地读。

读完之后，他练就了一身什么本事呢？就一样：你给他递进去一张纸条，上面写着任何半截话，他都能立刻在后面接上他认为最该出现的下一个字。接完一个字，他把这个字也算进去，再接下一个，再接下一个。就这么一个字一个字地往后吐，最后吐出一整段通顺、像模像样、甚至闪着智慧光芒的话。

这个被关在房间里、读遍了人类所有文字、唯一本事就是接话茬的"狠人"——它就是大语言模型。它的全部魔法，拆到最底层，就是这么一件朴素到让你不敢相信的事：根据前面的内容，猜出最可能的下一个字。

讲到这，你心里肯定会冒出第一个"那……？"——就这么个猜字游戏，凭什么能聪明成那样？

关键就在"大"这个字上。你想，一个只读过一本书的人，跟一个读遍了全人类藏书的人，接话的水平能一样吗？当一个东西把人类几乎所有的文字都读进去、并且把里面藏着的规律全都记下来之后，量变就发生了质变。它接的已经不只是字面，而是字面背后的逻辑、常识、风格、甚至推理。你问它一道数学题，它"猜"出来的下一个字，恰好就是正确答案；你让它写一段代码，它"猜"出来的下一行，恰好就能跑通。猜到了极致，看上去就成了懂。

那这个"大",到底大在哪？这就要讲清楚围绕它的几个关键词了，搞懂这几个，你就算真入门了。

第一个词，叫参数。你可以把参数，理解成这个房间里那个人脑子里的"记忆旋钮"。他每读到一点规律——比如"清明"后面常跟"时节"——就在脑子里拧动一个小旋钮，把这条规律的强弱记下来。一个旋钮记不了多少东西，可要是有几千亿个旋钮一起拧呢？今天的大模型，参数动不动就是几千亿个。这是什么概念？我们人脑里负责连接的突触，大约是一百万亿个量级；而最大的那些模型，参数已经摸到万亿这个门槛了。所以你别看它本事单一，它的"脑容量"是真的大。参数越多，能记下的规律越细，接话就越聪明。这就是"大语言模型"那个"大"字的硬指标。

第二个词，叫训练，更准确地说，叫预训练。刚才说那个人"读遍了所有文字"，这个读的过程，就叫训练。怎么读的呢？说出来你会觉得有点好笑：就是反复玩填空题。把一句完整的话，盖住最后一个字，让它猜；猜对了，奖励一下，把相关的旋钮拧紧一点；猜错了，惩罚一下，把旋钮往回拧。就这么一句一句、一遍一遍，拿整个互联网的文字当填空题，做了不知道多少亿遍。这个过程极其烧钱、烧电、烧时间，得用成千上万块专门算数的芯片，也就是 GPU，连着跑上好几个月。这个"读遍天下、打基础"的阶段，就叫预训练——"预"就是预先的预，意思是它在见到你之前，功课早就做完了。

第三个词，叫 token。我前面一直偷懒说"猜下一个字"，其实更准确的说法，是猜下一个 token。token 你可以理解成模型眼里的"文字最小积木块"——有时候是一个字，有时候是半个词，有时候是一个标点。它不是一个字一个字地看世界，而是把文字切成一块一块的积木，再一块一块地往后拼。你为什么有时候觉得它回答得一卡一卡、一个词一个词往外蹦？那就是它正在一块一块地拼 token 给你看。

把这三个词串起来，那个房间里的人就立体了：他靠几千亿个参数当记忆，靠预训练读遍天下打底，靠一个一个 token 往外吐来答你的话。这，就是大语言模型的全貌。

讲到这，你可能会问第二个"那……？"——这么个东西，是从哪冒出来的？为什么偏偏是这两年突然就成了？

它其实没那么突然。这条路，是一步一步、靠"把模型往大里堆"堆出来的。最早那个引爆点系列叫 GPT，这三个字母本身就把它的身世讲清楚了。第一个字母 G，是生成式的意思——说的就是它一个字一个字往外"生"内容，而不是从一个题库里给你挑答案。第二个字母 P，就是我们刚说的预训练，先读遍天下再上岗。第三个字母 T，是一种叫 Transformer 的底层引擎——这台引擎到底怎么工作的，是另一个专门的大话题，今天先按下不表，你只要知道它是让整台机器跑起来的发动机就够了。

而真正神奇的事情，是当工程师们把这台机器一次次往大里堆的时候发生的。最早的版本，参数才一亿多，只会把句子补完整；往大堆了十倍，它就能写出一整段通顺的话；再往大堆，参数冲到一千多亿，它突然就会做多步骤的推理题了，你给它举几个例子，它当场就能照葫芦画瓢办新事——没人专门教过它，它自己"涌现"出来了。这就是那两年最让人后背发凉的发现：很多本事，不是被一条一条教会的，而是当规模大到某个临界点，自己就冒出来了。当然，这事到今天也还有争议——也有搞研究的科学家泼冷水，说这未必是真冒出来的，可能只是我们换了把尺子去量，才显得像是一下子蹦出来的。但不管怎么说，猜字猜到一定规模，竟然猜出了智能的影子，这件事本身，就够让人浮想联翩了。

好，现在到了最关键的转折。你可能心里一直犯嘀咕：你把它讲得这么神，那我一个普通人，是不是得搞懂这一整套才敢用它？

恰恰相反。这正是我想让你带走的那个核心观点。

过去你不懂它，一点事都没有，因为它还没真正长出来；可往后你要还把它当成一个看不懂的黑盒子，躲着不碰，那就真要吃亏了。但"搞懂它怎么造出来"和"会用它"，是两码事。你今天不需要会拧那几千亿个旋钮，就像你开车不需要会造发动机，你做饭不需要会种水稻。

你真正需要懂的，就是今天这一层最底的认知：它本质是个被全人类文字喂大的、超级强的猜字机器。懂了这一层，很多事你一下就通了。比如，你就明白了它为什么偶尔会一本正经地胡说八道——因为它的本能是把话接得"像那么回事"，而不是去核对"是不是真的"，接得顺不等于接得对。比如，你也就明白了为什么你把话说得越清楚、给的上下文越足，它接得就越准——因为你是在给它递一张更清楚的纸条。

这就是这个频道一直想跟你讲的那件事：AI 时代，你不需要把自己逼成一个能造大模型的专家，那是天才和巨头们烧几十亿美金去干的事。你只需要掌握最小的那一块底层认知，然后学会怎么去指挥这个猜字巨人替你干活。学会怎么指挥一个专家，永远比把自己逼成那个专家，要划算一万倍。而指挥它最好的工具，恰恰也是一个大模型驱动的助手，比如 Claude Code，你把想干的事用人话说清楚，剩下的脏活累活，它替你一个 token 一个 token 地接出来。

所以下次再有人在你面前神乎其神地聊大模型，你可以淡淡地补一句：说到底，它就是个读遍了天下文章、然后拼命猜下一个字的家伙——只不过，它猜得实在是太好了。

那么问题来了，一个只会"猜下一个字"的机器，你觉得它到底算不算真的"懂"了它说的话？它是真的理解，还是一场极其逼真的模仿？这个问题，连最顶尖的科学家都还在吵。你的答案是什么，来评论区聊聊。然后去各大视频平台，搜索这几个关键词，开始你的打怪升级之旅。我是王利杰，我们下期见。

📺 更多元知识视频，搜索「Wiki4What」| 🌐 blog.wiki4what.com

什么是注意力机制

You might also like...