Claude Opus 4.7 升级引发“中文税”讨论:分词器差异如何影响模型成本与理解?
01 中文税
Opus 4.7 发布后,X 上怨声载道,英文开发者账单震荡,而中文用户因新 tokenizer 升级通胀几乎只发生在英文上,躲过涨价。在 Claude 和 GPT 上,中文一直比英文贵;在 Qwen 和 DeepSeek 上,中文反而比英文便宜。token 消耗差异还影响工作空间大小,中文用户付更多钱却得到更小工作空间,根源在于 tokenizer 词表对中文的不同处理。
02 一个汉字,可以切成几块?
模型通过 tokenizer 把输入切成 token,英文切法符合直觉,中文则因 BPE 算法在不同 tokenizer 下切法不同。GPT - 2 时代中文被拆成字节,后来 GPT - 4 词表扩大,中文效率提升,而 Qwen 和 DeepSeek 从设计之初就把中文当作默认语言,中文效率更高。
03 古文真的更便宜吗?
测试证实古文比现代汉语更省 token,因其用字精炼且常用字在词表有独立位置。但古文省 token 却增加模型推理负担,降低理解准确度。
04 碎片里长出偏旁
论文研究发现,汉字拆成多 token 时,模型识别共享部首准确率更高,编码为单个 token 时准确率下降。虽整字 / 整词分词器能提升模型整体性能,但也可能抹掉意外的语义通道。
05 林语堂
2025 年失踪近 80 年的林语堂“明快打字机”原型机重见天日,它和如今的分词器都面临中文适配西方技术基础设施的问题。明快打字机技术突破但商业失败,却奠定了现代中文输入法底层逻辑。
