Skip to content

你有没有遇到过这种情况:

  • 想让AI帮你总结一篇长长的中文报告,结果输到一半,提示“超出最大长度限制”。
  • 用某个AI工具的API接口,感觉没调用几次,账单就噌噌往上涨。

这些背后,都有一个共同的“操盘手”——Token

它就像AI世界的“货币”和“砖块”,我们付费按它算,模型思考用它想。但1个Token,到底等于多少个汉字?

这个问题,不仅藏着省钱的秘密,更是一部波澜壮阔的、从被“收智商税”到国产模型崛起的AI中文进化史。

今天,我们把这个事儿,一次性聊透。

首先,AI眼里的“Token”到底是个啥?

在深入探讨中文之前,我们必须先建立一个共识:AI模型不认识“字”,也不认识“词”,它只认识“Token”。

你可以把Token理解成AI用来阅读和思考的“最小单位”。它不是简单粗暴地把一个字或一个单词当成一个单位,而是一种更高效、更智能的“切分”方式。

  • 对于英文,这比较好理解。一个Token通常是一个单词或一个有意义的词根。比如单词"unbelievable",就可能被切分成"un""believe""able"三个Token。

这样做的好处是,模型不必死记硬背所有单词,只需掌握核心词根词缀,就能灵活组合,极大提升了效率和理解能力。

但对于没有天然空格的中文,如何“切分”,就成了一门大学问,也谱写了一部中文用户的“辛酸史”。

第一阶段:混沌初开,中文用户的“智商税”时代

在GPT-2和早期GPT-3的蛮荒时代,大部分由西方主导的大模型对中文的理解约等于零。它们处理中文的方式,简单粗暴到令人发指:直接按计算机底层的字节(Byte)来计算。

一个汉字在UTF-8编码下,通常由3个字节组成。

  • 例子: “人工智能”这四个字。
  • 当时的AI视角: 它看到的是12个乱码般的字节,于是就算成了 12个Token

这意味着,我们用中文和AI交流,成本是英文用户的数倍,效率极其低下。模型看中文就像在看一堆毫无关联的马赛克,自然也谈不上什么深度理解。

第二阶段:略有开窍,国际巨头的“识字”时代

随着GPT-3.5等模型的出现,情况有了巨大改善。AI公司们终于开始用海量的中文数据来训练,让模型学会了“认字”。

在这个阶段,模型基本能做到把一个汉字识别成一个独立的Token。

  • 例子: “人工智能”这四个字。
  • AI视角: 它能认出这是四个独立的汉字,于是算成 4个Token

虽然这依然没有理解到“人工”和“智能”是词语,但相较于字节时代,已经是天壤之别。大部分时候,你可以粗略地认为“字数 ≈ Token数”。

第三阶段:融会贯通,中文“词汇”成为主流

到了GPT-4时代,Token的效率再次大幅提升。模型不仅认识“字”,还认识了海量的“词”。它在切分时,会优先把一个完整的、常见的词语,当成一个整体Token。

  • 例子: “人工智能”这四个字。
  • AI视角: 它发现“人工智能”是高频词,于是把它切分成“人工”和“智能”两个部分,只算作 2个Token

在这个阶段,平均下来,大约1.5个汉字才会消耗1个Token,中文交流变得越来越“划算”。

第四阶段:炉火纯青,国产模型与世界巨头并驾齐驱

如果说之前的进步是国际巨头在“补课”,那么现在,以阿里通义千问(Qwen)为代表的国产大模型,已经不仅仅是追赶者,更是在中文处理上,展现出了“母语者”级别的优势。

通义千问(Qwen)在设计之初,就将中文语料放在了核心位置。其Tokenizer(分词器)对中文进行了深度优化,拥有一个极其庞大的中文词库。

我们来对比一下:

输入文本GPT-4 TokenizerQwen Tokenizer结果分析
人工智能“人工”、“智能” (2 Tokens)“人工智能” (1 Token)Qwen更懂中文高频词
魑魅魍魉“魑”、“魅”、“魍”、“魉” (4 Tokens)“魑魅魍魉” (1 Token)Qwen对中文成语识别更优
中华人民共和国“中华”、“人民”、“共和国” (3 Tokens)“中华人民共和国” (1 Token)对专有名词的识别能力更强

同时,最新的GPT-4o也发布了全新的分词器,同样大幅优化了中文处理效率。

结论: 在这个阶段,无论是顶尖的国产模型还是国际模型,中文Token的压缩效率都达到了史无前例的高度。“1个Token ≈ 1.5个汉字”甚至都是一个保守的说法。对于常见词汇和表达,我们已经迈入了“1个Token ≈ 2~3个汉字”的时代。

中文用户,终于在AI世界里,拥有了与英文用户平起平坐、甚至在某些场景下更优的“汇率”。

总结:为什么我们必须关心Token?

搞懂Token,不仅仅是为了省钱,它直接关系到你使用AI的效果上限

  1. 成本:绝大多数API服务按Token计费。越高效的分词器,意味着你花同样的钱,能办更多的事。在这一点上,像通义千问这样的国产模型,凭借其本土化优势,为中文开发者和用户提供了极具性价比的选择。

  2. 上下文窗口(Context Window):每个模型都有“记忆”上限,比如8K、128K Token。这个窗口决定了AI一次能处理多少信息。同样是128K的窗口,用Qwen或GPT-4o处理中文长文,能“装进去”的内容远比老模型多得多,这意味着你能让AI处理更复杂、更长的任务。

  3. 理解质量:一个能把“魑魅魍魉”看成一个整体的AI,显然比把它看成四个生僻字的AI,更懂中文的精髓。更优的Tokenization,能带来更精准的语义理解和更高质量的生成结果。

从被当成“乱码”,到被拆成“单字”,再到被理解为“词汇”,Token的进化史,就是AI对中文理解不断加深的缩影。

返回专题 · AI 工程落地上一篇:混合异构算力集群:大模型时代的趋势和挑战下一篇:PagedAttention实战分析

持续沉淀企业 AI 技术内容。