当前位置：首页 > news >正文

15天学会AI应用开发（四）根据Token长度截断历史对话

news 2026/7/26 15:30:56

上一篇文章说到按照消息数量来截断历史对话，这种方式有个问题，就是每次对话的内容可长可短，导致固定消息数量的对话内容忽长忽短。

历史对话内容不光要存入数据库，还要作为初始提示词发给下次新会话的大模型。太长的提示词不仅冗余，还会消耗大量Token，让用户钱包快速缩水。太短的提示词容纳的信息量不足，难以起到充分记忆的功能。

一、为什么统计Token个数而非文字个数

改进方式是按照文字长度来截断历史对话，不过字跟字又有所不同，不如“猪”是个单字词，而“鹦鹉”是个双字词。对于大模型来说，“猪”和“鹦鹉”具有同等权重，它们都占用一个Token，也就是词元。所以，更好的办法是统计Token数量，而非统计文字数量。

Token不是单个字、也不是单个字母，而是大模型训练时固定好的“最小词块”。早期的AI库主要适配英文，常用单词、词根、词缀直接就是一个Token。对于中文则没有完整常用中文预制词块，大多只能拆成偏旁、笔画、字节片段。

原因是传统的Token分词器采用BPE算法，该算法属于字节级对子压缩，它的底层是按UTF-8编码的字节来切分，不是按中文语义切分。由于每个中文的UTF-8编码固定占用3个字节，而BPE分词器是按字节流拆分、合并成词块，因此3字节的中文很难刚好凑成1个Token。常用汉字还能凑成1个Token，生僻字、复杂字基本拆成2个Token。

可见传统的Token分词器极其违背常识，竟然还能将1个中文拆成两个Token，如此倒翻天罡，敢情是歧视中文用户吧？所以我们的国内开发者挺身而出，开发了中文分词库，能够依据习惯把中文句子切分为各个词语，使得Token数量小于文字数量，这才提高了中文大模型的效率。

二、传统的Token数量统计方式

传统的Token分词器依赖于tiktoken库，在编写Python代码前，要先在命令行执行下面的pip安装命令：

pip install tiktoken

然后编写下面的Python分词测试代码：

import tiktokentext = "猪和鹦鹉两种动物，你更喜欢哪个？"
len_text = len(text)
print("文字长度为", len_text)
encoder = tiktoken.encoding_for_model("gpt-3.5-turbo")
len_token = len(encoder.encode(text))
print("token长度为", len_token)

运行上面的Python代码，输出日志结果如下：

文字长度为 16
token长度为 25

总共16个字符的中文，使用传统的Token分词器，竟然统计得到25个token，不合理简直太不合理了。

三、中文Token数量的统计方式

中文的Token分词器依赖于jieba库，在编写Python代码前，要先在命令行执行下面pip安装命令：

pip install jieba

然后编写下面的Python分词测试代码：

import jiebatext = "猪和鹦鹉两种动物，你更喜欢哪个？"
len_text = len(text)
print("文字长度为", len_text)
words = jieba.lcut(text)
words = [w for w in words if w.strip()]
len_token = len(words)
print("token长度为", len_token)
print(words)

运行上面的Python代码，输出日志结果如下：

文字长度为 16
token长度为 11
['猪', '和', '鹦鹉', '两种', '动物', '，', '你', '更', '喜欢', '哪个', '？']

总共16个字符的中文，中文传统的Token分词器，精简后统计得到11个Token，可见相较传统分词器大幅瘦身。

四、根据Token数量精简上下文

接下来将以Python代码演示如何按照Token数量来截断早期的上下文（即问答内容）。下面是只保留100个Token的Python代码例子：

import jiebaclass ContextManager:
    def __init__(self):
        # 对话历史上下文
        self.context = []
        # 上下文的最大Token数量，设小一点，方便看到截断效果
        self.MAX_TOKENS = 50    # 计算单条消息的Token数
    def count_tokens(self, text):
        words = jieba.lcut(text)
        words = [w for w in words if w.strip()]
        return len(words)    # 计算整个上下文总Token
    def total_context_tokens(self):
        return sum(self.count_tokens(msg["content"]) for msg in self.context)    # 核心：按Token自动截断（删掉最早的，直到不超限）
    def truncate_context(self):
        while self.total_context_tokens() > self.MAX_TOKENS and len(self.context) > 0:
            removed_msg = self.context.pop(0)  # 删除最早一条
            print(f"[截断] 删掉最早对话：{removed_msg['content'][:20]}...")    # 添加新消息 → 自动截断 → 返回完整上下文
    def add_message(self, role, content):
        self.context.append({"role": role, "content": content})
        self.truncate_context()  # 截断！
        return self.context    # 拼接成给模型的完整Prompt
    def get_full_prompt(self):
        prompt = ""
        for msg in self.context:
            prompt += f"{msg['role']}：{msg['content']}\n"
        return prompt# 模拟多轮对话测试
if __name__ == "__main__":
    ai = ContextManager()    # 连续发长文本，观察自动截断
    chat_records = [
        ("user", "推荐一本关于历史的书，要内容详细、适合入门"),
        ("ai", "推荐《明朝那些事儿》，通俗好读"),
        ("user", "有没有国外历史的？比如欧洲史"),
        ("ai", "推荐《欧洲通史上下两千年》"),
        ("user", "太长了有没有更短的？我只想快速了解核心脉络"),
        ("ai", "那看《极简欧洲史》精简版，100页搞定"),
        ("user", "好，再推荐一本类似风格的美国历史书"),
    ]    print("=== 开始对话 ===")
    for role, content in chat_records:
        ai.add_message(role, content)
        print(f"\n[{role}] {content}")
        print(f"当前总Token：{ai.total_context_tokens()} / {ai.MAX_TOKENS}")
        print("--- 当前保留的上下文 ---")
        print(ai.get_full_prompt())

运行上面的Python代码，观察到最后一轮的输出日志：

[user] 好，再推荐一本类似风格的美国历史书
当前总Token：44 / 50
--- 当前保留的上下文 ---
ai：推荐《欧洲通史上下两千年》
user：太长了有没有更短的？我只想快速了解核心脉络
ai：那看《极简欧洲史》精简版，100页搞定
user：好，再推荐一本类似风格的美国历史书

可见最后一轮根据Token限制删去了较早的对话记录，使得总Token数维持在50以内，这就节约了下次会话的初始Token消耗。

本系列的AI应用开发文章目录为《15天学会AI应用开发全目录（零基础小白，零Token消耗）》。

查看全文

http://www.jsqmd.com/news/961545/

2026沈阳城市建设学院多少分能上?录取线怎么样，高吗？ - 品牌2026

Obsidian Excel插件：在笔记中构建数据管理新范式

SPT-AKI存档编辑器终极指南：简单快速掌握塔科夫单机版角色管理

Horos开源医学影像查看器：macOS上免费的DICOM处理终极指南

程明律师：专注离婚财产分割与继承纠纷，十年经验守护原配权益 - 品牌推荐官

从QQ在线状态代码到现代客服系统：网页即时沟通技术演进与实践

CSDN博客下载器：技术学习者的本地化知识管理利器

迪庆宝珀+宝玑+伯爵手表专业回收，26年精选回收店铺排行榜推荐 - 莘州文化

避坑指南：STM32CubeMX配置PWR低功耗模式，这3个细节没做好代码白写

2026年搪锡机/搪锡设备/去金搪锡厂家推荐：高精度除金洗金与焊杯搪锡工艺优选品牌 - 品牌企业推荐师（官方）

如何下载Claude并接入GLM

调查研究-159 Apple WWDC 2026 定档 6/8-12：Siri 与 AI 升级，可能是苹果最关键的一次

给终端开发者的USIM文件结构速查手册：从EFDIR到5GS，那些你必须知道的EF文件

002：安装与登录全平台实战——Node.js 环境、认证配置与常见故障排查

Python实战：用遗传算法搞定外卖骑手路径规划（附完整代码）

微型移动终端设计：极限体积下的蜂窝通信与低功耗实现

Python气温预测全流程：爬虫抓数据、LSTM建模、可视化出图一键跑通

赣州宝珀+宝玑+伯爵手表专业回收，26年精选回收店铺排行榜推荐 - 莘州文化

2026甄选：北京环宇圣源商贸——红木与高档家具回收领域的专业服务公司 - 品牌企业推荐师（官方）

中兴ZXR10-3928A交换机端口镜像配置全流程（附命令详解与保存技巧）

PHP与MySQL交互最佳实践

AI辅助开发新思路：让快马AI帮你打造智能版网站故障诊断助手

3步拯救机械键盘：告别连击困扰的智能解决方案

Github Actions Schedule不准时？试试这个‘曲线救国’方案：用IFTTT或Cronhub免费触发workflow

别再只用plot了！用Matlab的hilbert和envelope函数，3步搞定信号包络线分析

2026年6月鞍山金价走高，老旧黄金、投资金条安全变现全科普 - 余生黄金回收

一、为什么统计Token个数而非文字个数

二、传统的Token数量统计方式

三、中文Token数量的统计方式

四、根据Token数量精简上下文

相关文章：