可以说大模型已经融入了我们日常的工作生活,不管你是不是技术人员,随着现在大模型产品的演进,都可能得到他的帮助,这就从侧面再次印证了,降低技术的使用成本门槛,就可能带来突破性的冲击。
谈到大模型,尤其针对一些需要本地搭建模型的场景,token是个非常重要的词汇,到底什么是token?
Token是自然语言文本的最小单位,可以是单词、子词或字符,具体取决于模型使用的分词器。例如,1个数字或1个符号计为1个token,在英语中,一个单词通常是一个token,而在中文中,一个字符或一个词语可以是一个token。
Token的作用,
文本分割:将输入文本分割成模型可以理解和处理的单位。
模型输入:模型通过处理这些token生成输出。
计算效率:token化帮助模型高效处理文本,避免处理过长的字符串。
每个token通常用一个整数表示,这个整数对应于模型的词表中的一个位置。例如,token"hello"可能表示为整数1024。
大多数模型对输入的token数量有限制,通常为512个token。超过限制的文本需要截断或分段处理。
Token更加实际的一个作用就是计费,作为计费单元,计算使用大模型的成本,如下是DeepSeek关于Token用量计算的介绍,
https://api-docs.deepseek.com/zh-cn/quick_start/token_usage
一般情况下模型中 token 和字数的换算比例大致如下:
1 个英文字符 ≈ 0.3 个 token。 1 个中文字符 ≈ 0.6 个 token。
但因为不同模型的分词不同,所以换算比例也存在差异,每一次实际处理 token数量以模型返回为准,这可以从返回结果的usage
中查看,e.g.
tokens used: 10521, model: Deepseek(deepseek-r1)
另外,ds提供一个可以进行离线计算Tokens用量的工具(python),可以通过下载压缩包中的代码来运行tokenizer,以离线计算一段文本的Token用量,
https://cdn.deepseek.com/api-docs/deepseek_v3_tokenizer.zip
综上来讲,Token是大模型处理文本的基本单位,通过分词器将文本分割成token,模型根据这些token生成输出,理解token化过程有助于优化模型性能和处理复杂文本。

热文鉴赏:
《推荐一篇Oracle RAC Cache Fusion的经典论文》
文章分类和索引: