当前位置: 首页 > news >正文

Claude Opus 4.7 升级引发“中文税”讨论:分词器差异如何影响模型成本与理解?

01 中文税

Opus 4.7 发布后,X 上怨声载道,英文开发者账单震荡,而中文用户因新 tokenizer 升级通胀几乎只发生在英文上,躲过涨价。在 Claude 和 GPT 上,中文一直比英文贵;在 Qwen 和 DeepSeek 上,中文反而比英文便宜。token 消耗差异还影响工作空间大小,中文用户付更多钱却得到更小工作空间,根源在于 tokenizer 词表对中文的不同处理。

02 一个汉字,可以切成几块?

模型通过 tokenizer 把输入切成 token,英文切法符合直觉,中文则因 BPE 算法在不同 tokenizer 下切法不同。GPT - 2 时代中文被拆成字节,后来 GPT - 4 词表扩大,中文效率提升,而 Qwen 和 DeepSeek 从设计之初就把中文当作默认语言,中文效率更高。

03 古文真的更便宜吗?

测试证实古文比现代汉语更省 token,因其用字精炼且常用字在词表有独立位置。但古文省 token 却增加模型推理负担,降低理解准确度。

04 碎片里长出偏旁

论文研究发现,汉字拆成多 token 时,模型识别共享部首准确率更高,编码为单个 token 时准确率下降。虽整字 / 整词分词器能提升模型整体性能,但也可能抹掉意外的语义通道。

05 林语堂

2025 年失踪近 80 年的林语堂“明快打字机”原型机重见天日,它和如今的分词器都面临中文适配西方技术基础设施的问题。明快打字机技术突破但商业失败,却奠定了现代中文输入法底层逻辑。

http://www.jsqmd.com/news/746462/

相关文章:

  • 为OpenClaw智能体工作流配置Taotoken作为其AI提供商
  • Conformer模型在脑磁图语音解码中的应用与优化
  • Arm Corstone SSE-320 FVP开发环境搭建与调试指南
  • FP4量化训练中的均值偏差问题与Averis算法解析
  • 终极免费PLC编程工具:OpenPLC Editor完全指南
  • 【等保三级强制要求】:Python Web服务国密HTTPS零改造接入方案——Nginx+uWSGI+PyCryptodome联动部署实录
  • 终极免费暗黑2存档编辑器:5分钟掌握游戏角色定制与装备管理
  • 手把手教你为ESP32/STM32配置SimpleFOC库:基于VSCode和PlatformIO的保姆级教程
  • 别再复制粘贴了!用Python GMSSL库搞定SM2国密算法的完整避坑指南(含ID签名)
  • 在 Node.js 服务中集成 Taotoken 实现异步 AI 功能调用
  • 用VS Code/Dev C++刷谭浩强C语言习题:环境配置与高效调试实战
  • 创业团队如何利用Taotoken统一管理多个AI模型的API密钥与成本
  • 从FPGA到ASIC:偶数分频器的那些‘坑’与实战调试技巧(附Modelsim仿真波形分析)
  • Fluent动网格实战:用6DOF模拟石子入水全过程(附网格文件与避坑点)
  • 别光看引脚表了!STM32F103RCT6这8个复用引脚,新手最容易用错(附排查思路)
  • 保姆级教程:在CentOS 7.9上从零搭建Linpack测试环境(含MPICH、GotoBLAS2避坑指南)
  • 别扔!用树莓派系统让Surface RT一代重获新生(保姆级刷机教程)
  • FanControl终极指南:5分钟彻底掌控Windows风扇控制
  • 别再只学OpenLayers了!用Vue和免费高德API,30分钟搞定你的第一个WebGIS页面
  • 保姆级教程:用Python和Paho-MQTT库5分钟搞定你的第一个MQTT客户端连接
  • ShowHiddenChannels插件:Discord隐藏频道可视化实践路径
  • 避坑指南:Petalinux 2022.1配置SD卡启动,我踩过的那些‘雷’都帮你填平了
  • 八大网盘直链下载助手终极指南:免费快速获取真实下载链接
  • 开源信息聚合系统架构设计:从爬虫到数据清洗的工程实践
  • “解剖”物理信息神经网络:基于解析解自检的PINN物理信息神经网络方程构造正确性验证及NTK递归分析(附MATLAB代码)
  • 逆向分析效率翻倍:手把手教你用IDA Pro的类型修复功能优化伪代码(附实战案例)
  • 别再截图了!用Matlab的print函数保存高清矢量图,论文插图直接搞定
  • 仅剩最后217份!《Python医疗影像优化白皮书》v3.2(含3家三甲医院匿名验证数据集+ONNX量化部署模板)
  • 从“飞鸽传书”到“5G+AI”:一张图看懂信息技术发展史(附高清脉络图)
  • 告别VBA!用Python+PyWin32搞定SolidWorks 2018自动化(附完整代码)