当前位置：首页 > news >正文

Claude Opus 4.7 升级引发“中文税”讨论：分词器差异如何影响模型成本与理解？

news 2026/5/3 20:08:45

01 中文税

Opus 4.7 发布后，X 上怨声载道，英文开发者账单震荡，而中文用户因新 tokenizer 升级通胀几乎只发生在英文上，躲过涨价。在 Claude 和 GPT 上，中文一直比英文贵；在 Qwen 和 DeepSeek 上，中文反而比英文便宜。token 消耗差异还影响工作空间大小，中文用户付更多钱却得到更小工作空间，根源在于 tokenizer 词表对中文的不同处理。

02 一个汉字，可以切成几块？

模型通过 tokenizer 把输入切成 token，英文切法符合直觉，中文则因 BPE 算法在不同 tokenizer 下切法不同。GPT - 2 时代中文被拆成字节，后来 GPT - 4 词表扩大，中文效率提升，而 Qwen 和 DeepSeek 从设计之初就把中文当作默认语言，中文效率更高。

03 古文真的更便宜吗？

测试证实古文比现代汉语更省 token，因其用字精炼且常用字在词表有独立位置。但古文省 token 却增加模型推理负担，降低理解准确度。

04 碎片里长出偏旁

论文研究发现，汉字拆成多 token 时，模型识别共享部首准确率更高，编码为单个 token 时准确率下降。虽整字 / 整词分词器能提升模型整体性能，但也可能抹掉意外的语义通道。

05 林语堂

2025 年失踪近 80 年的林语堂“明快打字机”原型机重见天日，它和如今的分词器都面临中文适配西方技术基础设施的问题。明快打字机技术突破但商业失败，却奠定了现代中文输入法底层逻辑。

http://www.jsqmd.com/news/746462/

相关文章：

为OpenClaw智能体工作流配置Taotoken作为其AI提供商

Conformer模型在脑磁图语音解码中的应用与优化

Arm Corstone SSE-320 FVP开发环境搭建与调试指南

FP4量化训练中的均值偏差问题与Averis算法解析

终极免费PLC编程工具：OpenPLC Editor完全指南

【等保三级强制要求】：Python Web服务国密HTTPS零改造接入方案——Nginx+uWSGI+PyCryptodome联动部署实录

终极免费暗黑2存档编辑器：5分钟掌握游戏角色定制与装备管理

手把手教你为ESP32/STM32配置SimpleFOC库：基于VSCode和PlatformIO的保姆级教程

别再复制粘贴了！用Python GMSSL库搞定SM2国密算法的完整避坑指南（含ID签名）

在 Node.js 服务中集成 Taotoken 实现异步 AI 功能调用

用VS Code/Dev C++刷谭浩强C语言习题：环境配置与高效调试实战

创业团队如何利用Taotoken统一管理多个AI模型的API密钥与成本

从FPGA到ASIC：偶数分频器的那些‘坑’与实战调试技巧（附Modelsim仿真波形分析）

Fluent动网格实战：用6DOF模拟石子入水全过程（附网格文件与避坑点）

别光看引脚表了！STM32F103RCT6这8个复用引脚，新手最容易用错（附排查思路）

保姆级教程：在CentOS 7.9上从零搭建Linpack测试环境（含MPICH、GotoBLAS2避坑指南）

别扔！用树莓派系统让Surface RT一代重获新生（保姆级刷机教程）

FanControl终极指南：5分钟彻底掌控Windows风扇控制

别再只学OpenLayers了！用Vue和免费高德API，30分钟搞定你的第一个WebGIS页面

保姆级教程：用Python和Paho-MQTT库5分钟搞定你的第一个MQTT客户端连接

ShowHiddenChannels插件：Discord隐藏频道可视化实践路径

避坑指南：Petalinux 2022.1配置SD卡启动，我踩过的那些‘雷’都帮你填平了

八大网盘直链下载助手终极指南：免费快速获取真实下载链接

开源信息聚合系统架构设计：从爬虫到数据清洗的工程实践

“解剖”物理信息神经网络：基于解析解自检的PINN物理信息神经网络方程构造正确性验证及NTK递归分析（附MATLAB代码）

逆向分析效率翻倍：手把手教你用IDA Pro的类型修复功能优化伪代码（附实战案例）

别再截图了！用Matlab的print函数保存高清矢量图，论文插图直接搞定

仅剩最后217份！《Python医疗影像优化白皮书》v3.2（含3家三甲医院匿名验证数据集+ONNX量化部署模板）

从“飞鸽传书”到“5G+AI”：一张图看懂信息技术发展史（附高清脉络图）

告别VBA！用Python+PyWin32搞定SolidWorks 2018自动化（附完整代码）