什么是大语言模型
你有没有发现,这两年所有人嘴里都挂着一个词——大模型。今天这个公司发布了一个大模型,明天那个手机里又塞进了一个大模型。它好像无所不能,能写代码、能翻译、能陪你聊天、能帮你写情书,聪明得有点吓人。可你要是停下来问一句:这个所谓的大语言模型,到底是个什么东西?多半还是说不上来。
你有没有发现,这两年所有人嘴里都挂着一个词——大模型。今天这个公司发布了一个大模型,明天那个手机里又塞进了一个大模型。它好像无所不能,能写代码、能翻译、能陪你聊天、能帮你写情书,聪明得有点吓人。可你要是停下来问一句:这个所谓的大语言模型,到底是个什么东西?多半还是说不上来。
哈喽,大家好,我是王利杰。欢迎来到 Wiki for What。我们这里是元知识学前班,在你自学任何东西之前,先用第一性原理,把那块最该先搞懂的底层概念,彻底整明白。
今天这块底层概念,就是被全世界天天念叨、却很少有人真正搞懂的——大语言模型,英文叫 Large Language Model,所以大家也常常把它简称成三个字母的缩写:LLM。
我先把那个最反直觉的答案,直接甩给你:这个聪明得吓人的东西,它会的本事,其实只有一个——猜下一个字。
别急着不信,我们做个游戏。我说半句话,你来接。我说:清明时节雨——你脑子里是不是"唰"地就蹦出来"纷纷"两个字?我说:床前明月——你大概率会接"光"。我再说:今天天气真不——你会接"错",或者接"好"。看,你刚刚做的这件事,就是猜下一个字。你不是在背一本标准答案手册,你是凭着这辈子听过、读过的海量句子,在你脑子里算了一下:在这个语境下,下一个字最有可能是什么。
现在,请你想象这样一个画面。有一个人,被关在一个房间里。这个人从生下来到现在,什么别的事都没干过,就干了一件事:读字。他把人类有史以来写下来的几乎所有文字,全都读了一遍——所有的书、所有的网页、所有的论坛帖子、所有的代码、所有的维基百科词条,全都读进去了。他不睡觉、不吃饭、不出门,就是一刻不停地读。
读完之后,他练就了一身什么本事呢?就一样:你给他递进去一张纸条,上面写着任何半截话,他都能立刻在后面接上他认为最该出现的下一个字。接完一个字,他把这个字也算进去,再接下一个,再接下一个。就这么一个字一个字地往后吐,最后吐出一整段通顺、像模像样、甚至闪着智慧光芒的话。
这个被关在房间里、读遍了人类所有文字、唯一本事就是接话茬的"狠人"——它就是大语言模型。它的全部魔法,拆到最底层,就是这么一件朴素到让你不敢相信的事:根据前面的内容,猜出最可能的下一个字。
讲到这,你心里肯定会冒出第一个"那……?"——就这么个猜字游戏,凭什么能聪明成那样?
关键就在"大"这个字上。你想,一个只读过一本书的人,跟一个读遍了全人类藏书的人,接话的水平能一样吗?当一个东西把人类几乎所有的文字都读进去、并且把里面藏着的规律全都记下来之后,量变就发生了质变。它接的已经不只是字面,而是字面背后的逻辑、常识、风格、甚至推理。你问它一道数学题,它"猜"出来的下一个字,恰好就是正确答案;你让它写一段代码,它"猜"出来的下一行,恰好就能跑通。猜到了极致,看上去就成了懂。
那这个"大",到底大在哪?这就要讲清楚围绕它的几个关键词了,搞懂这几个,你就算真入门了。
第一个词,叫参数。你可以把参数,理解成这个房间里那个人脑子里的"记忆旋钮"。他每读到一点规律——比如"清明"后面常跟"时节"——就在脑子里拧动一个小旋钮,把这条规律的强弱记下来。一个旋钮记不了多少东西,可要是有几千亿个旋钮一起拧呢?今天的大模型,参数动不动就是几千亿个。这是什么概念?我们人脑里负责连接的突触,大约是一百万亿个量级;而最大的那些模型,参数已经摸到万亿这个门槛了。所以你别看它本事单一,它的"脑容量"是真的大。参数越多,能记下的规律越细,接话就越聪明。这就是"大语言模型"那个"大"字的硬指标。
第二个词,叫训练,更准确地说,叫预训练。刚才说那个人"读遍了所有文字",这个读的过程,就叫训练。怎么读的呢?说出来你会觉得有点好笑:就是反复玩填空题。把一句完整的话,盖住最后一个字,让它猜;猜对了,奖励一下,把相关的旋钮拧紧一点;猜错了,惩罚一下,把旋钮往回拧。就这么一句一句、一遍一遍,拿整个互联网的文字当填空题,做了不知道多少亿遍。这个过程极其烧钱、烧电、烧时间,得用成千上万块专门算数的芯片,也就是 GPU,连着跑上好几个月。这个"读遍天下、打基础"的阶段,就叫预训练——"预"就是预先的预,意思是它在见到你之前,功课早就做完了。
第三个词,叫 token。我前面一直偷懒说"猜下一个字",其实更准确的说法,是猜下一个 token。token 你可以理解成模型眼里的"文字最小积木块"——有时候是一个字,有时候是半个词,有时候是一个标点。它不是一个字一个字地看世界,而是把文字切成一块一块的积木,再一块一块地往后拼。你为什么有时候觉得它回答得一卡一卡、一个词一个词往外蹦?那就是它正在一块一块地拼 token 给你看。
把这三个词串起来,那个房间里的人就立体了:他靠几千亿个参数当记忆,靠预训练读遍天下打底,靠一个一个 token 往外吐来答你的话。这,就是大语言模型的全貌。
讲到这,你可能会问第二个"那……?"——这么个东西,是从哪冒出来的?为什么偏偏是这两年突然就成了?
它其实没那么突然。这条路,是一步一步、靠"把模型往大里堆"堆出来的。最早那个引爆点系列叫 GPT,这三个字母本身就把它的身世讲清楚了。第一个字母 G,是生成式的意思——说的就是它一个字一个字往外"生"内容,而不是从一个题库里给你挑答案。第二个字母 P,就是我们刚说的预训练,先读遍天下再上岗。第三个字母 T,是一种叫 Transformer 的底层引擎——这台引擎到底怎么工作的,是另一个专门的大话题,今天先按下不表,你只要知道它是让整台机器跑起来的发动机就够了。
而真正神奇的事情,是当工程师们把这台机器一次次往大里堆的时候发生的。最早的版本,参数才一亿多,只会把句子补完整;往大堆了十倍,它就能写出一整段通顺的话;再往大堆,参数冲到一千多亿,它突然就会做多步骤的推理题了,你给它举几个例子,它当场就能照葫芦画瓢办新事——没人专门教过它,它自己"涌现"出来了。这就是那两年最让人后背发凉的发现:很多本事,不是被一条一条教会的,而是当规模大到某个临界点,自己就冒出来了。当然,这事到今天也还有争议——也有搞研究的科学家泼冷水,说这未必是真冒出来的,可能只是我们换了把尺子去量,才显得像是一下子蹦出来的。但不管怎么说,猜字猜到一定规模,竟然猜出了智能的影子,这件事本身,就够让人浮想联翩了。
好,现在到了最关键的转折。你可能心里一直犯嘀咕:你把它讲得这么神,那我一个普通人,是不是得搞懂这一整套才敢用它?
恰恰相反。这正是我想让你带走的那个核心观点。
过去你不懂它,一点事都没有,因为它还没真正长出来;可往后你要还把它当成一个看不懂的黑盒子,躲着不碰,那就真要吃亏了。但"搞懂它怎么造出来"和"会用它",是两码事。你今天不需要会拧那几千亿个旋钮,就像你开车不需要会造发动机,你做饭不需要会种水稻。
你真正需要懂的,就是今天这一层最底的认知:它本质是个被全人类文字喂大的、超级强的猜字机器。懂了这一层,很多事你一下就通了。比如,你就明白了它为什么偶尔会一本正经地胡说八道——因为它的本能是把话接得"像那么回事",而不是去核对"是不是真的",接得顺不等于接得对。比如,你也就明白了为什么你把话说得越清楚、给的上下文越足,它接得就越准——因为你是在给它递一张更清楚的纸条。
这就是这个频道一直想跟你讲的那件事:AI 时代,你不需要把自己逼成一个能造大模型的专家,那是天才和巨头们烧几十亿美金去干的事。你只需要掌握最小的那一块底层认知,然后学会怎么去指挥这个猜字巨人替你干活。学会怎么指挥一个专家,永远比把自己逼成那个专家,要划算一万倍。而指挥它最好的工具,恰恰也是一个大模型驱动的助手,比如 Claude Code,你把想干的事用人话说清楚,剩下的脏活累活,它替你一个 token 一个 token 地接出来。
所以下次再有人在你面前神乎其神地聊大模型,你可以淡淡地补一句:说到底,它就是个读遍了天下文章、然后拼命猜下一个字的家伙——只不过,它猜得实在是太好了。
那么问题来了,一个只会"猜下一个字"的机器,你觉得它到底算不算真的"懂"了它说的话?它是真的理解,还是一场极其逼真的模仿?这个问题,连最顶尖的科学家都还在吵。你的答案是什么,来评论区聊聊。然后去各大视频平台,搜索这几个关键词,开始你的打怪升级之旅。我是王利杰,我们下期见。
📺 更多元知识视频,搜索「Wiki4What」| 🌐 blog.wiki4what.com