大模型中的Token:概念、分词器作用及详解

笔记哥 / 04-01 / 13点赞 / 0评论 / 707阅读
“**大模型**中的 **Token** 究竟是什么?” 这确实是一个很有代表性的问题。许多人听说过 Token 这个概念,但未必真正理解它的作用和意义。思考之后,我决定写篇文章,详细解释这个话题。 ![](https://cdn.res.knowhub.vip/c/2504/01/85c589d4.gif?G1cAAMTa3Djp359q2jYa9AmWgTYDFmkElRLW69n7X6dIf41g8NfXxrT14TdtTBMqUkEUggkBLrCSWhGZ6TRrKCzIh7d%2bAw%3d%3d) 我说:像 **DeepSeek** 和 **ChatGPT** 这样的超大语言模型,都有一个“刀法精湛”的小弟——**分词器(**Tokenizer**)**。 ![](https://cdn.res.knowhub.vip/c/2504/01/1ae0dd08.png?G1YAAMTsdJxI8gm026hD2jvFHc2ARBZBpYT1es9Z%2byb6fgdD4zNan74%2f%2fKX16QThVNkIjMSK4HEBmgVWSlDTbKwmcQ0H) 当**大模型**接**收到一段文字**。 ![](https://cdn.res.knowhub.vip/c/2504/01/18c3cd5f.png?G1cAAMT0bJxoHapsox%2f6n3gkNAMWaQSVEtbrvXefRvT9Bkb0z%2bxj2fnwmz6WEQJn5URgZI5wARVIhbOW6oJAVFhF%2fZ4G) 会让**分词器**把它**切成很多个小块**。 ![](https://cdn.res.knowhub.vip/c/2504/01/1e9f2615.png?G1YAAMTXsx8n2j7qt41u6F3ikNAMSGQRVEpYr%2ffefRrR9xsYwT%2bzj2Xnw1%2f6WEYQ1sKRwFAOcB4ViFVEU3ZJaklBS%2fZ7Gg%3d%3d) 这切出来的每一个小块就叫做一个 **Token**。 ![](https://cdn.res.knowhub.vip/c/2504/01/6432472f.png?G1cAAMTsdJzIJxGl26hD2jvFHc2ARRpBpYT1es9Z%2byb6fheIxme0Pn1%2f%2bE3r00kYVpBIIAZFCFJFuWq%2bNAeGosCSpbiGAw%3d%3d) 比如这段话(**我喜欢唱、跳、Rap和篮球**),在大模型里可能会被切成这个样子。 ![](https://cdn.res.knowhub.vip/c/2504/01/8a06681d.png?G1cAAER17rxgXQcifice0wSBBJsBizSCSgnr9fz%2f2pfI%2bzlBi%2fdoffr%2b8JvWpwsV%2bUQSghmGEFipljWpadCCwnKgWlzDAQ%3d%3d) 像**单个汉字**,可能是一个 **Token**。 ![](https://cdn.res.knowhub.vip/c/2504/01/c6a295c4.png?G1cAAMR0rnGCXj8DbiMO1QSBBJoBizSCSgnr9Z6z9k30%2fSEQzc9ofcb%2b8JvWZ5AwvMBIIA5FClKFtVrlYolxwdWNOa8R) **两个汉字**构成的**词语**,也可能是一个 **Token**。 ![](https://cdn.res.knowhub.vip/c/2504/01/40e308f7.png?G1YAAMTsdJxI8gml26hD2jvFHc2ARBZBpYT1es9Z%2byb6fgdD4zNan74%2f%2fKX16QThVNgIjMSK4FEhJiyX1QC1qtlyiWs4) **三个字**构成的**常见短语**,也可能是一个 **Token**。 ![](https://cdn.res.knowhub.vip/c/2504/01/2e68936f.png?G1YAAMT0bJxoXWnUNvqh%2f4lHQjMgkUVQKWG93nv3aUTf72BIfGYfy8%2bHv%2fSxnJC4VM4ERmFB8DCkLGBTC6pQiGqNezo%3d) **一个标点符号**,也可能是一个 **Token**。 ![](https://cdn.res.knowhub.vip/c/2504/01/45a38dc9.png?G1cAAMTsdJxI8kKq26hD2jvFHc2ARRpBpYT1es9Z%2byb6fgcjxWe0Pn1%2f%2bE3r0wnC%2bWIlMDInhIAKUWXTakEswVCyaVzDAQ%3d%3d) **一个单词**,或者是**几个字母**组成的一个**词缀**,也可能是一个 **Token**。 ![](https://cdn.res.knowhub.vip/c/2504/01/a6a8ae5c.png?G1YAAER17rxgo2WIfice0wSBBJsBiSyCSgnr9fz%2f2pfI%2bzkUjPdoffr%2b8JfWpwuSWtUsUJgSweNEyoU8iMCaq9FKims4) 大模型在输出文字的时候,也是一个 Token 一个 Token 的往外蹦,所以看起来可能有点像在打字一样。 ![](https://cdn.res.knowhub.vip/c/2504/01/f321224e.gif?G1YAAER17rxgpWOKficmThIUE2gGJLIIKiWs17PWP0%2bR9jpBjddX%2b%2fD54S%2b1DxcmWEEWggZF8Dyo3BKL7qFkA1SN0dsN) 朋友听完以后,好像更疑惑了: ![](https://cdn.res.knowhub.vip/c/2504/01/aa30a3f7.png?G1YAAER17rxgpQOcfice0wSBBJsBiSyCSgnr9fz%2f2pfI%2bzlBjfdoffr%2b8JfWpwsTiiELwQJF8AokrcmoRzBaUeSzxjUc) 于是,我决定换一个方式,给他通俗解释一下。 大模型的Token究竟是啥,以及为什么会是这样。 首先,请大家快速读一下这几个字: ![](https://cdn.res.knowhub.vip/c/2504/01/7747874c.png?G1cAAMTydJz4c%2b%2bFbqMO3yaKRJsBizSCSgnr9fz%2fPpfI%2bzlBjffsY%2fn58Js%2blgsTrCILQYMiBAVSJtQKQiqFzVqlxT0d) 是不是有点没有认出来,或者是需要愣两秒才可以认出来? 但是如果这些字出现在**词语**或者**成语**里,你**瞬间**就可以念出来。 ![](https://cdn.res.knowhub.vip/c/2504/01/4deaea6a.png?G1YAAMR0rnGCXh8e3UYcqgkCCTQDElkElRLW6z1n7Zvo%2b10gGp%2fR%2bvT94S%2btTydhpAojgSQogleAE5vWK4cirDAuFtdw) 那之所以会这样,是因为我们的**大脑在日常生活中**,**喜欢**把这些有含义的**词语**或者**短语**,优先作为**一个整体**来对待。 ![](https://cdn.res.knowhub.vip/c/2504/01/f7ed5393.png?G1YAAMTsdJzIJxG026hD2jvFHc2ARBZBpYT1es9Z%2byb6fheIxme0Pn1%2f%2bEvr00kYVpFIIAZF8AqwFYbCgmjNV05W4xoO) 不到万不得已,不会去一个字一个字的抠。 ![](https://cdn.res.knowhub.vip/c/2504/01/fd9d0b9c.png?G1YAAETn9LyUAiPovtMdbIlTE20GJLIIKiWs13vO2jfR94dAND%2bj9Rn7w19an0HCsIKLBGJQJK%2bAMJjVkbyiVDW3vEYA) 这就导致我们对这些**词语还挺熟悉**,**单看**这些字(旯妁圳侈邯)的时候,反而会觉得**有点陌生**。 而大脑🧠之所以要这么做,是因为这样可以节省脑力,咱们的大脑还是非常懂得偷懒的。 ![](https://cdn.res.knowhub.vip/c/2504/01/20364b21.png?G1cAAMTsdJzIJ5Gi26hD2jvFHc2ARRpBpYT1es9Z%2byb6fheIxme0Pn1%2f%2bE3r00kYVpBIIAZFCAooslzKFjhXRtHMNa7h) 比如 “**今天天气不错**” 这句话,如果一个字一个字的去处理,一共需要有**6个部分**。 ![](https://cdn.res.knowhub.vip/c/2504/01/d8be9c44.png?G1cAAER17rxgXSc6%2fU48pgkCCTYDFmkElRLW6%2fn%2fuS6R9wuClu9e24j14Te1jRAqimMTggWGFAww7HoUIqm7g6cq8uwB) 但是如果划分成**3个**、**常见**且**有意义的词**。 ![](https://cdn.res.knowhub.vip/c/2504/01/bc5ab902.png?G1YAAMTydJz4c98Xuo06fJsoEpoBiSyCSgnr9Z6z9i3y%2fU5Q4zNan74%2f%2fKX16cIEK7iEoEERvAKKyoKcQwIswazGNRw%3d) 就只需要处理**3个**部分**之间的关系**,从而**提高效率**,**节省脑力**。 既然人脑可以这么做,那人工智能也可以这么做。 ![](https://cdn.res.knowhub.vip/c/2504/01/22737549.png?G1cAAMTsdJxIfIS026hD2jvFHc2ARRpBpYT1es9Z%2byb6fgdD4jNan74%2f%2fKb16YTEapwJDGVBCMIsucJKLSGVC1oNsLiGAw%3d%3d) 所以就有了**分词器**,专门**帮大模型**把大段的文字,**拆解成大小合适**的一个个 **Token**。 ![](https://cdn.res.knowhub.vip/c/2504/01/eb520cb8.png?G1YAAMTsdJzIS0Sj26hD2jvFHc2ARBZBpYT1es9Z%2byb6fmewxGe0Pn1%2f%2bEvr04kT1JCJwQpB8AJIrkhmCBVXUVNJcQ0H) 不同的分词器,它的分词方法和结果不一样。 ![](https://cdn.res.knowhub.vip/c/2504/01/d477473a.png?G1YAAETn9LyUChDmvtMdbIlTE20GJLIIKiWs13vO2jfR9weDJT%2bj9Rn7w19an0FcYBeUGGwQJC%2bAGMxr0aTVHHC3vEYA) 分得越合理,大模型就越轻松。这就好比餐厅里负责切菜的切配工,它的刀功越好,主厨做起菜来当然就越省事。 ![](https://cdn.res.knowhub.vip/c/2504/01/27b445eb.png?G1YAAER17rxgpWPT%2bJ14TBMEEmwGJLIIKiWs1%2fP%2fa18i7xcENd%2bj9Rn7w19anyEssBNVCBoUySugpjAtnvxweiVKXiMA) 分词器究竟是怎么分的词呢? 其中一种方法大概是这样,分词器统计了大量文字以后,发现 **“苹果”** 这两个字,**经常一起出现**。 ![](https://cdn.res.knowhub.vip/c/2504/01/dda2d79a.png?G1cAAER17rxgpWOKfice0wSBBJoBizSCSgnr9e491y3y%2fU5Q49NrG74%2b%2fKa24cIEK8hC0KAIQQG1nAlaSCcIPdJV4uwO) 就把它们打包成一个 **Token**,给它一个**数字编号**,比如 **19416**。 ![](https://cdn.res.knowhub.vip/c/2504/01/0882afd1.png?G1cAAMTsdJzIJ5Gi26hD2jvFHc2ARRpBpYT1es9Z%2byb6fheIxme0Pn1%2f%2bE3r00kYVpBIIAZFCAqomVq9amArOafMsLiGAw%3d%3d) 然后丢到一个大的**词汇表**里。 ![](https://cdn.res.knowhub.vip/c/2504/01/617f53e3.png?G1YAAMTW3DgpD0Rh22gDdWfqnTYDElkElRLW6917rpvo%2b0Mgmp9e24j14S%2b1jSBhmOMggRgUySugdoqaXokLChd2z7MH) 这样下次再看到 **“苹果”** 这两个字的时候,就可以直接认出这个组合就可以了。 然后它可能又发现 **“鸡”** 这个字**经常出现**,并且**可以搭配不同的其他字**。 ![](https://cdn.res.knowhub.vip/c/2504/01/96f10892.png?G1YAAER17rxgtWOIfice0wSBBJoBiSyCSgnr9e491y3y%2fU5Q49NrG74%2b%2fKW24cIDVpCEoEERvAJqpzHTgqUraS6GOLsD) 于是它就把 **“鸡”** 这个字,打包成一个 **Token**,给它**配一个数字编号**,比如 **76074**。 ![](https://cdn.res.knowhub.vip/c/2504/01/744dee74.png?G1YAAMR0rnGCHj353EYcqgkCCTQDElkElRLW6z1n7Vvk%2b02h9M9ofdr%2b8JfWp4kGxIJLFBpBOE%2bAsTKFkhyrkrnm4tcw) 并且丢到**词汇表**里。 ![](https://cdn.res.knowhub.vip/c/2504/01/8541762a.png?G1cAAMR0rnGCXh%2fqs404VBMEEmgGLNIIKiWs17v3XDfR94dAND%2b9thHrw29qG0HCKCeMBFKgSEEBg5o7S2K2Q8X90jx7AA%3d%3d) 它又发现 **“ing”** 这三个字母**经常一起出现**。 ![](https://cdn.res.knowhub.vip/c/2504/01/0e2d065b.png?G1cAAMS22TiVp1pI29gP%2fkNfQTUDFmkElRLW6713n0b0%2fSEQzc%2fsY8X58Js%2bVpAwisNIIAWKFBQwmBlXSyy1Mhzuec8A) 于是又把 **“ing”** 这**三个字母**打包成一个 **Token**,给它**配一个数字编号**,比如 **288**。 ![](https://cdn.res.knowhub.vip/c/2504/01/7c58e9da.png?G1cAAER17rxgpduM%2bp14TBMEEmgGLNIIKiWs17v3XLfI9wdBzU%2bvbcT68JvaRggL%2fIQJQYciBQUM7jygqRhwEe7Mswc%3d) 并且收录到**词汇表**里。 ![](https://cdn.res.knowhub.vip/c/2504/01/99fbed93.png?G1YAAER17rxgpRuIfice0wSBBJsBiSyCSgnr9fz%2f2pfI%2bzlBjfdoffr%2b8JfWpwsTcoUJwQxF8AoYipWacjirGtMBxjUc) 它又发现 **“逗号”** 经常出现。 ![](https://cdn.res.knowhub.vip/c/2504/01/be80104a.png?G1cAAETn9LyUChhw3%2bkOtsSpiWsGLNIIKiWs1%2fP%2f%2b1xE7xcMlnzPPlacD7%2fpYwVxQXUoMbhCkIIACpNm2hIXrWzu5nnPAA%3d%3d) 于是又把 **“逗号”** 也打包作为一个 **Token**,给它**配一个数字编号**,比如 **14**。 ![](https://cdn.res.knowhub.vip/c/2504/01/aaeb412a.png?G1cAAMTXsx8n%2brTqt41u6F3ikNAMWKQRVEpYr%2ffefRrR9xuDxT%2bzj2Xnw2%2f6WEYcoAWRGKwQuCBARNYKri6kklVEE%2fyeBg%3d%3d) 收录到**词汇表**里。 ![](https://cdn.res.knowhub.vip/c/2504/01/20fc7b0b.png?G1YAAETd9Ly0WarQ7jvd0Q2cCtoMSGQRVEpYr%2fectW%2bR7w%2bCmp%2fR%2boz94S%2btzxBeqIYiBCsUyStQ4HAYktPNCSt5jQA%3d) 经过**大量统计**和**收集**,分词器就可以得到**一个庞大的Token表**。 ![](https://cdn.res.knowhub.vip/c/2504/01/fa8f863f.png?G1cAAMTydJz4%2b3tKuo06fJsoEpoBizSCSgnr9Z6z9i3y%2fU7Q4jNan74%2f%2fKb16UJFrkhCMMMQggFJwWJqgSioV4UhruE%3d) 可能有**5万个**、**10万个**,甚至**更多Token**,可以**囊括**我们日常见到的各种**字**、**词**、**符号**等等。 ![](https://cdn.res.knowhub.vip/c/2504/01/3b283708.png?G1YAAER17rxgpRuCfice0wSBBJsBiSyCSgnr9fz%2f2pfI%2bzlBjfdoffr%2b8JfWpwsTcoUJwQxF8ApYIliSBcNh9SxZ4xoO) 这样一来,大模型在**输入**和**输出**的时候,都只需要**面对一堆数字编号**就可以了。 ![](https://cdn.res.knowhub.vip/c/2504/01/f0da572d.png?G1cAAMTydJz4%2bz8auo06fJsoEpoBizSCSgnr9Z6z9i3y%2fW4wxme0Pn1%2f%2bE3r08UUuSCJwTKIEAgkpWbyCkpjIVBrXMMB) 再由分词器**按照Token表**,转换成**人类可以看懂**的**文字**和**符号**。 ![](https://cdn.res.knowhub.vip/c/2504/01/38ccd4d5.png?G1cAAETd9Ly0aVpB%2fE53dAOngjYDFmkElRLW6713nyby%2fUHQ8jP7WHE%2b%2fKaPFUJFqXAhWGBIwQBXh6GWpDC4sirzngE%3d) 这样一分工,工作效率就非常高。 ![](https://cdn.res.knowhub.vip/c/2504/01/9e11fbe1.png?G1YAAMR0rnGCXj%2bCbiMO1QSBBJoBiSyCSgnr9Z6z9k30%2fSEQzc9ofcb%2b8JfWZ5AwvMJIIA5F8goYO6vVki43ZQN7XiMA) 有这么一个网站 **Tiktokenizer**:![](https://cdn.res.knowhub.vip/c/2504/01/d40701d0.app?Cw%2bAaHR0cHM6Ly90aWt0b2tlbml6ZXIudmVyY2VsLmFwcAM%3d) ![](https://cdn.res.knowhub.vip/c/2504/01/59819690.png?G1cAAER17rxg3cqC%2bp14TBMEEmwGLNIIKiWs1%2fP%2fa18i7xcGY75H6zP2h9%2b0PkNM4QeKGMxBpECgaCVPZdJSK13dNK8R) 输入一段话,它就可以告诉你,这段话是**由几个Token构成**的,分别是什么,以及这几个**Token的编号分别是多少**。 ![](https://cdn.res.knowhub.vip/c/2504/01/cb2ff753.png?G1YAAMTsdJzIJxG026hD2jvFHc2ARBZBpYT1es9Z%2byb6fheIxme0Pn1%2f%2bEvr00kYVpFIIAZF8AqWlK1qKSGxIOOCxTUc) 我来演示一下,这个网站有很多模型可以选择,像 **GPT-4o**、**DeepSeek**、**LLaMA** 等等。 ![](https://cdn.res.knowhub.vip/c/2504/01/be51a430.png?G1cAAMT0bJzotZDWNvqh%2f4lHQjNgkUZQKWG93nv3aUTf7wJJ8Zl9LD8fftPHchJGUWQSSEFCCAksWTMbNDC0VjWzEvd0) 我选的是 **DeepSeek**,我输入 **“哈哈”**,显示是**一个 Token**,编号是 **11433**: ![](https://cdn.res.knowhub.vip/c/2504/01/98dbaa0e.png?G1cAAMTsdJzIJyG026hD2jvFHc2ARRpBpYT1es9Z%2byb6fheIxme0Pn1%2f%2bE3r00kYuSKRQDIUIShY0pWQiwWGWRXTYnENBw%3d%3d) **“哈哈哈”**,也是**一个 Token**,编号是 **40886**: ![](https://cdn.res.knowhub.vip/c/2504/01/3efe7025.png?G1cAAMT0bJzo9WiIbfRD%2fxOPhGbAIo2gUsJ6vffu00S%2b3wmm%2bMw%2blp8Pv%2bljuVBhFVkIGhJCSEAmLSs0aCGUpZrFPR0%3d) **4**个 **“哈”**,还是**一个 Token**,编号是 **59327**: ![](https://cdn.res.knowhub.vip/c/2504/01/de7457b4.png?G1YAAMTsdJxIPhG026hD2jvFHc2ARBZBpYT1es9Z%2byb6fhcWjc9offr%2b8JfWp5OArXIiYTFWBK8MsZyuLDVAkwFAiWs4) 但是**5**个 **“哈”**,就变成了**两个Token**,编号分别是 **11433**, **40886**: ![](https://cdn.res.knowhub.vip/c/2504/01/b1ddb45f.png?G1YAAMTydJz4c%2b8buo06fJsoEpoBiSyCSgnr9Z6z9i3y%2fU5Q4zNan74%2f%2fKX16cIEK8hC0KAIXpEU2Uq6NBhAVpQa13A%3d) 说明大家平常用两个 **“哈”** 或者**三个**的更多。 再来,“一心一意” 是三个 Token。 ![](https://cdn.res.knowhub.vip/c/2504/01/e2375f86.png?G1YAAMTmtHFSTsB3G%2b1Am1g10WZAIougUsJ6vffu04i%2b3xgs%2fpl9LDsf%2ftLHMuKAWKDE4AiB84IgSJwV2eVaU0xFxe9p) “鸡蛋” 是一个 Token。 ![](https://cdn.res.knowhub.vip/c/2504/01/febabb62.png?G1YAAMTsdJzIS6Sk26hD2jvFHc2ARBZBpYT1es9Z%2byb6fmewxGe0Pn1%2f%2bEvr04kTtCITgxWC4AVJUKAVFi4uZhDVuIYD) 但是 “鸭蛋” 是两个 Token。 ![](https://cdn.res.knowhub.vip/c/2504/01/fc51d5ff.png?G1cAAMR0rnGCXq98cRtxqCYIJNgMWKQRVEpYr%2bf%2f97lE3s8JWrxnH8vPh9%2f0sVyoyA1JCGYYQjCooVoqLQVtRIGCNe7p) “关羽” 是一个 Token。 ![](https://cdn.res.knowhub.vip/c/2504/01/d42b5a11.png?G1YAAETn9LyUApLhvtMdbIlTE20GJLIIKiWs13vO2jfR94dAND%2bj9Rn7w19an0HCMEchgRgUyStY4VzkslStejVmy2sE) “张飞” 是两个 Token。 ![](https://cdn.res.knowhub.vip/c/2504/01/136cbf43.png?G1YAAMR0rnGCXh8e3UYcqgkCCTQDElkElRLW6z1n7Zvo%2b10gGp%2fR%2bvT94S%2btTydhpAojgSQoglewoprmgsAouNQMcQ0H) “孙悟空” 是一个 Token。 ![](https://cdn.res.knowhub.vip/c/2504/01/8c57971b.png?G1YAAMTW3DgpD4RR22gDdWfqnTYDElkElRLW6917rpvo%2b0Mgmp9e24j14S%2b1jSBhmOMggRgUyStYcbGV4ul0iLMq59kD) “沙悟净” 是三个 Token。 ![](https://cdn.res.knowhub.vip/c/2504/01/428b46a9.png?G1YAAER17rxgXcei%2bp14TBMEEmgGJLIIKiWs17v3XLfI9wdBy0%2bvbcT68JfaRggVfqIIQYcheYMaLneSSb3Y4VY0zx4%3d) 另外,正如前面提到的,不同模型的分词器可能会有不同的切分结果。比如,“**苹果**” 中的 “**苹**” 字,在 **DeepSeek** 中被拆分成两个 Token。 ![](https://cdn.res.knowhub.vip/c/2504/01/4ecce362.png?G1YAAETn9LyUArLIvtMdbIlTE20GJLIIKiWs13vO2jfR94dAND%2bj9Rn7w19an0HCsIpCAjEoklewsqi7W9KrspfiltcI) 但是在 `Qwen` 模型里却是一个 Token。 ![](https://cdn.res.knowhub.vip/c/2504/01/c5e0cdcc.png?G1YAAMTsdJxI8gml26hD2jvFHc2ARBZBpYT1es9Z%2byb6fgdD4zNan74%2f%2fKX16QThVNgIjMSK4JVFRQ25IhS7ajGtEtdw) 所以回过头来看,**Token** 到底是什么? 它就是构建大模型世界的一块块积木。 ![](https://cdn.res.knowhub.vip/c/2504/01/ab0ce85e.png?G1YAAMTydJz4%2bz%2bkuo06fJsoEpoBiSyCSgnr9Z6z9i3y%2fW4wxme0Pn1%2f%2bEvr08UU%2bUISg2UQwRNKKqupBuaKQhSNazg%3d) 大模型之所以能理解和生成文本,就是通过计算这些 Token 之间的关系,来预测下一个最可能出现的 Token。 ![](https://cdn.res.knowhub.vip/c/2504/01/cb4d7c5c.png?G1YAAER17rxgXeeM%2bJ14TBMEEmgGJLIIKiWs17v3XLfI9wdBy0%2bvbcT68JfaRggVfuEQgg5D8gY1o1Jdk3opfsKYZw8%3d) 这就是为什么几乎所有大模型公司都按照 **Token** 数量计费,因为 Token 数量直接对应背后的计算成本。 ![](https://cdn.res.knowhub.vip/c/2504/01/81447467.png?G1YAAMTydJz48%2bcbuo06fJsoEpoBiSyCSgnr9Z6z9i3y%2fa5Qxme0Pn1%2f%2bEvr00UTrCCLQg1E8EQiyUIg1CsrtZrFNRw%3d) “**Token**” 这个词不仅用于**人工智能**领域,在其他领域也经常出现。其实,它们只是**恰好**都叫这个名字而已。![](https://cdn.res.knowhub.vip/c/2504/01/6bbaf66b.png?G1YAAMS22TiV6iVJ29gP%2fkNfQTUDElkElRLW6713n0b0%2faGsyM%2fsY8X58Jc%2bVpAKm3MhZTUGkgcLUASAJnOvtbpZ3jMA) 就像同样都是 **“车模”**,**汽车模型**和**车展模特**,虽然用词相同,但含义却**截然不同**。 ![](https://cdn.res.knowhub.vip/c/2504/01/8b15e1d8.png?G1YAAETd9Ly0aapQ953u6AZOBdcMSGQRVEpYr%2bf%2f97lE3i8IWr5nHyvOh7%2f0sUKoqI4iBCsMyRvUtKk3airu8Oosec8A) # FAQ ## 1. 苹为啥会是2个? 因为“苹” 字单独出现的概率太低,无法独立成为一个 Token。 ## 2. 为什么张飞算两个 Token? “张” 和 “飞” 一起出现的频率不够高,或者“ 张” 字和 “飞” 字的搭配不够稳定,经常与其他字组合,因此被拆分为两个 Token。 Token 在大模型方面最好的翻译是 '词元' 非常的信雅达。