当前位置: 首页 > news >正文

15天学会AI应用开发(四)根据Token长度截断历史对话

上一篇文章说到按照消息数量来截断历史对话,这种方式有个问题,就是每次对话的内容可长可短,导致固定消息数量的对话内容忽长忽短。

历史对话内容不光要存入数据库,还要作为初始提示词发给下次新会话的大模型。太长的提示词不仅冗余,还会消耗大量Token,让用户钱包快速缩水。太短的提示词容纳的信息量不足,难以起到充分记忆的功能。

一、为什么统计Token个数而非文字个数

改进方式是按照文字长度来截断历史对话,不过字跟字又有所不同,不如“猪”是个单字词,而“鹦鹉”是个双字词。对于大模型来说,“猪”和“鹦鹉”具有同等权重,它们都占用一个Token,也就是词元。所以,更好的办法是统计Token数量,而非统计文字数量。

Token不是单个字、也不是单个字母,而是大模型训练时固定好的“最小词块”。早期的AI库主要适配英文,常用单词、词根、词缀直接就是一个Token。对于中文则没有完整常用中文预制词块,大多只能拆成偏旁、笔画、字节片段。

原因是传统的Token分词器采用BPE算法,该算法属于字节级对子压缩,它的底层是按UTF-8编码的字节来切分,不是按中文语义切分。由于每个中文的UTF-8编码固定占用3个字节,而BPE分词器是按字节流拆分、合并成词块,因此3字节的中文很难刚好凑成1个Token。常用汉字还能凑成1个Token,生僻字、复杂字基本拆成2个Token。

可见传统的Token分词器极其违背常识,竟然还能将1个中文拆成两个Token,如此倒翻天罡,敢情是歧视中文用户吧?所以我们的国内开发者挺身而出,开发了中文分词库,能够依据习惯把中文句子切分为各个词语,使得Token数量小于文字数量,这才提高了中文大模型的效率。

二、传统的Token数量统计方式

传统的Token分词器依赖于tiktoken库,在编写Python代码前,要先在命令行执行下面的pip安装命令:

pip install tiktoken

然后编写下面的Python分词测试代码:

import tiktokentext = "猪和鹦鹉两种动物,你更喜欢哪个?"
len_text = len(text)
print("文字长度为", len_text)
encoder = tiktoken.encoding_for_model("gpt-3.5-turbo")
len_token = len(encoder.encode(text))
print("token长度为", len_token)

运行上面的Python代码,输出日志结果如下:

文字长度为 16
token长度为 25

总共16个字符的中文,使用传统的Token分词器,竟然统计得到25个token,不合理简直太不合理了。

三、中文Token数量的统计方式

中文的Token分词器依赖于jieba库,在编写Python代码前,要先在命令行执行下面pip安装命令:

pip install jieba

然后编写下面的Python分词测试代码:

import jiebatext = "猪和鹦鹉两种动物,你更喜欢哪个?"
len_text = len(text)
print("文字长度为", len_text)
words = jieba.lcut(text)
words = [w for w in words if w.strip()]
len_token = len(words)
print("token长度为", len_token)
print(words)

运行上面的Python代码,输出日志结果如下:

文字长度为 16
token长度为 11
['猪', '和', '鹦鹉', '两种', '动物', ',', '你', '更', '喜欢', '哪个', '?']

总共16个字符的中文,中文传统的Token分词器,精简后统计得到11个Token,可见相较传统分词器大幅瘦身。

四、根据Token数量精简上下文

接下来将以Python代码演示如何按照Token数量来截断早期的上下文(即问答内容)。下面是只保留100个Token的Python代码例子:

import jiebaclass ContextManager:
    def __init__(self):
        # 对话历史上下文
        self.context = []
        # 上下文的最大Token数量,设小一点,方便看到截断效果
        self.MAX_TOKENS = 50    # 计算单条消息的Token数
    def count_tokens(self, text):
        words = jieba.lcut(text)
        words = [w for w in words if w.strip()]
        return len(words)    # 计算整个上下文总Token
    def total_context_tokens(self):
        return sum(self.count_tokens(msg["content"]) for msg in self.context)    # 核心:按Token自动截断(删掉最早的,直到不超限)
    def truncate_context(self):
        while self.total_context_tokens() > self.MAX_TOKENS and len(self.context) > 0:
            removed_msg = self.context.pop(0)  # 删除最早一条
            print(f"[截断] 删掉最早对话:{removed_msg['content'][:20]}...")    # 添加新消息 → 自动截断 → 返回完整上下文
    def add_message(self, role, content):
        self.context.append({"role": role, "content": content})
        self.truncate_context()  # 截断!
        return self.context    # 拼接成给模型的完整Prompt
    def get_full_prompt(self):
        prompt = ""
        for msg in self.context:
            prompt += f"{msg['role']}:{msg['content']}\n"
        return prompt# 模拟多轮对话测试
if __name__ == "__main__":
    ai = ContextManager()    # 连续发长文本,观察自动截断
    chat_records = [
        ("user", "推荐一本关于历史的书,要内容详细、适合入门"),
        ("ai", "推荐《明朝那些事儿》,通俗好读"),
        ("user", "有没有国外历史的?比如欧洲史"),
        ("ai", "推荐《欧洲通史上下两千年》"),
        ("user", "太长了有没有更短的?我只想快速了解核心脉络"),
        ("ai", "那看《极简欧洲史》精简版,100页搞定"),
        ("user", "好,再推荐一本类似风格的美国历史书"),
    ]    print("=== 开始对话 ===")
    for role, content in chat_records:
        ai.add_message(role, content)
        print(f"\n[{role}] {content}")
        print(f"当前总Token:{ai.total_context_tokens()} / {ai.MAX_TOKENS}")
        print("--- 当前保留的上下文 ---")
        print(ai.get_full_prompt())

运行上面的Python代码,观察到最后一轮的输出日志:

[user] 好,再推荐一本类似风格的美国历史书
当前总Token:44 / 50
--- 当前保留的上下文 ---
ai:推荐《欧洲通史上下两千年》
user:太长了有没有更短的?我只想快速了解核心脉络
ai:那看《极简欧洲史》精简版,100页搞定
user:好,再推荐一本类似风格的美国历史书

可见最后一轮根据Token限制删去了较早的对话记录,使得总Token数维持在50以内,这就节约了下次会话的初始Token消耗。

本系列的AI应用开发文章目录为《15天学会AI应用开发全目录(零基础小白,零Token消耗)》。

http://www.jsqmd.com/news/961545/

相关文章:

  • 2026沈阳城市建设学院多少分能上?录取线怎么样,高吗? - 品牌2026
  • Obsidian Excel插件:在笔记中构建数据管理新范式
  • SPT-AKI存档编辑器终极指南:简单快速掌握塔科夫单机版角色管理
  • Horos开源医学影像查看器:macOS上免费的DICOM处理终极指南
  • 程明律师:专注离婚财产分割与继承纠纷,十年经验守护原配权益 - 品牌推荐官
  • 从QQ在线状态代码到现代客服系统:网页即时沟通技术演进与实践
  • CSDN博客下载器:技术学习者的本地化知识管理利器
  • 迪庆宝珀+宝玑+伯爵手表专业回收,26年精选回收店铺排行榜推荐 - 莘州文化
  • 避坑指南:STM32CubeMX配置PWR低功耗模式,这3个细节没做好代码白写
  • 2026年搪锡机/搪锡设备/去金搪锡厂家推荐:高精度除金洗金与焊杯搪锡工艺优选品牌 - 品牌企业推荐师(官方)
  • 如何下载Claude并接入GLM
  • 调查研究-159 Apple WWDC 2026 定档 6/8-12:Siri 与 AI 升级,可能是苹果最关键的一次
  • 给终端开发者的USIM文件结构速查手册:从EFDIR到5GS,那些你必须知道的EF文件
  • 002:安装与登录全平台实战——Node.js 环境、认证配置与常见故障排查
  • Python实战:用遗传算法搞定外卖骑手路径规划(附完整代码)
  • 微型移动终端设计:极限体积下的蜂窝通信与低功耗实现
  • Python气温预测全流程:爬虫抓数据、LSTM建模、可视化出图一键跑通
  • 2026年电动平车出口厂家推荐:山东三羊起重机械10吨/5吨无轨及低压轨道车供应 - 品牌推荐官
  • 赣州宝珀+宝玑+伯爵手表专业回收,26年精选回收店铺排行榜推荐 - 莘州文化
  • 2026年精密光学测量设备推荐:东莞市嘉腾仪器仪表有限公司全系产品解析 - 品牌推荐官
  • 2026甄选:北京环宇圣源商贸——红木与高档家具回收领域的专业服务公司 - 品牌企业推荐师(官方)
  • 中兴ZXR10-3928A交换机端口镜像配置全流程(附命令详解与保存技巧)
  • PHP与MySQL交互最佳实践
  • 2026年上海防水修缮服务商推荐:厂房/电梯井/幕墙/金属屋面/屋顶/外墙/车间/酒店专业防水修缮服务公司精选 - 品牌企业推荐师(官方)
  • AI辅助开发新思路:让快马AI帮你打造智能版网站故障诊断助手
  • 3步拯救机械键盘:告别连击困扰的智能解决方案
  • Github Actions Schedule不准时?试试这个‘曲线救国’方案:用IFTTT或Cronhub免费触发workflow
  • 2026年饮料生产线设备推荐:廊坊市顶天轻工机械专业供应果酒/碳酸饮料生产线 - 品牌推荐官
  • 别再只用plot了!用Matlab的hilbert和envelope函数,3步搞定信号包络线分析
  • 2026年6月鞍山金价走高,老旧黄金、投资金条安全变现全科普 - 余生黄金回收