深蓝笔记

中英文语料差异如何影响 Token 输入

LLM 输入笔记 · 2026-05-25T03:54:00.000Z · views 7
LLMToken中文英文语料LLMToken中文英文语料

讨论 Token 输入,不能只问“中文更省还是英文更省”。更准确的问题是:一段文本进入模型之前,会被 tokenizer 怎样切开;切开之后,哪些信息已经显式写进 Token,哪些信息还要模型从上下文里恢复。

Token:模型处理文本的基本片段。它不等于汉字,也不等于英文单词。Tokenization:把文本切成 Token 的过程。不同模型使用的 tokenizer 不同,所以没有一个永远成立的换算公式。但中英文语料本身的结构差异,会稳定影响输入长度、上下文压力和提示词写法。

1. Word Boundary:词边界。

英文天然用空格分词。比如 the model reads text,空格让 tokenizer 更容易识别单词和 subword 边界。中文没有天然空格。“模型读取文本”必须先隐式判断哪里是词,哪里只是字的组合。比如“研究生命起源”通常可切成“研究 / 生命 / 起源”,但在不同上下文里也可能出现不同边界。中文输入因此多了一层隐式分词压力。

2. Subword:子词。

英文有大量词根、前缀、后缀。unbelievable 可能被切成 un / believe / able 这样的片段。这个机制有利于处理新词,也会让长英文单词占多个 Token。中文常见切法则可能在单字、双字词、固定短语之间摆动。“上下文窗口”可能是一个整体 Token,也可能被拆成多个片段。结果是:英文的 Token 数常被长词和专业术语拉高,中文的 Token 数常被 tokenizer 对词组的熟悉程度影响。

3. Compression:信息压缩。

中文单位字符的信息密度通常更高。比如“先核验,再结论”六个字能表达一个完整操作顺序。英文往往需要更多显式结构:verify first, then conclude。看起来中文更短,但这不代表它一定更少 Token。因为 Token 不是字符数。某些中文词如果不是 tokenizer 的高频片段,也会被拆得更细。

4. Morphology:词形变化。

英文通过 walked、walking、dogs、better 这类形式,把过去、进行、复数、比较等信息写进词形。中文普通话通常不靠动词变形表达 Grammatical Tense,语法时态;更多依靠时间词、语境和 Aspect Markers,体标记,如了、过、着。这里要小心:“了”不是英文 past tense,过去时,它更接近 perfective aspect,完成体。结果是英文 Token 里常带着外显语法信号;中文输入可能更短,但模型要从上下文补足时间、数量、状态和主语。

5. Context Dependence:上下文依赖。

中文省略多。“看过了,不行。”这句话没有明说谁看、看什么、哪里不行。英文更常写成 I reviewed it, and it does not work。中文输入可能更省 Token,但省掉的信息不会消失,它转移到了上下文推断里。如果前文没有给足,模型就更容易误补。中文提示词的关键不是越短越好,而是把责任、对象、标准写清楚。

6. Ambiguity:歧义。

中文短句常承载多个可能关系。“做完再发我”里,谁做、做什么、发什么,都依赖任务场景。英文也有歧义,但语法标记和介词结构常给出更多边界。Token 输入层面的结果是:中文可以用更少片段进入模型,但需要更强的任务框架来约束解释空间。

7. Code-switching:语码混用。

中文技术文本经常写成“这个 pipeline 的 bottleneck 在 tokenizer,不在 inference”。这种混合输入对模型很自然,因为许多 LLM 语料里本来就有大量中英混写。但它会让 Token 分布变得不均匀:中文短语、英文术语、代码符号、标点会交替出现。对技术文章和提示词来说,保留英文专业名词通常更准确,但要给中文简释,避免概念边界漂移。

这些差异会带来四个实际影响。

第一是 Cost,费用。输入费用按 Token 算,不按字数算。中文短文本不一定便宜,英文长句也不一定昂贵,具体取决于 tokenizer。真正可靠的方法是用目标模型的计数工具核验。

第二是 Context Window,上下文窗口。窗口装的是 Token,不是页数。中文可以把大量意思压进短句,但如果省略过多,模型会用窗口里的其他信息补洞。写给模型的中文材料,应优先保留实体、动作、约束、证据,而不是追求文学式压缩。

第三是 Retrieval,检索切分。英文材料可以按段落、标题、句号和空格较稳定切块。中文材料更需要注意语义完整性,不能只按固定字数硬切。否则一个概念可能被拆在两个 chunk,中间失去指代关系。

第四是 Prompt Design,提示词设计。中文提示词适合短,但不能空。应该明确任务、输入范围、输出格式、判断标准和不确定时的处理方式。英文提示词则常用更显式的逻辑连接和格式约束。两者不是谁优谁劣,而是信息显式程度不同。

结论是:中英文对 Token 输入的影响,不是简单的“哪个语言更省”。英文的边界更外显,中文的语义更压缩;英文常把语法信号写在词形里,中文常把关系留给上下文;中文技术文本还会自然吸收英文术语。对 LLM 协作来说,最好的做法不是强行翻译成某一种语言,而是让 Token 承载必要信息:实体清楚,动作清楚,约束清楚,证据清楚。

省 Token 的高级方法,不是删字,而是删掉不产生约束的信息。