当前位置: 首页 > news >正文

2026年1月14日学习计划

文章目录

  • 本周计划
  • GPT-2 BPE匹配规则

本周计划

  1. 学透BPE算法,动手构建,优化2部分 1 更新算法 2 多线程训练
    为什么去空格
    优化更新函数
    优化多线程计算
    GPT-2 官方实现 https://github.com/openai/gpt-2/blob/master/src/encoder.py
  2. 收尾happy_llm,小批量训练tokenizer
  3. 小参数预训练happy_llm 目标:能够对话 看到loss收敛
  4. 开始minimind的学习,快过预训练,尽快开始SFT和强化学习。
  5. 周三:今天必须开始看李宏毅强化学习课!

GPT-2 BPE匹配规则

importregexasre GPT2_PATTERN=r"""'(?:[sdmt]|ll|ve|re)| ?\p{L}+| ?\p{N}+| ?[^\s\p{L}\p{N}]+|\s+(?!\S)|\s+"""compiled_pattern=re.compile(GPT2_PATTERN,re.UNICODE)pretokenized=[]forsegmentindoc_segments:ifnotsegment.strip():continuepre_tokens=compiled_pattern.findall(segment)print(f"pretokens:{pre_tokens}")# breakforptinpre_tokens:ifnotpt.strip():continue# byte_seq = tuple(pt) #.encode("utf-8"))# pt = pt.strip()byte_seq=tuple(char.encode("utf-8")forcharinpt)# 此步直接将单词拆分成数字序列pretokenized.append(byte_seq)returnpretokenized

当我打印出来pre_token才发现,每个单词前面都有一个空格 ater’, ’ to’, ’ make’, ’ it’, ’ nice’, ’ and’, ’ bubbly’, ‘.’, ’ He’, ’ relaxed’, ’ again’, ’ and’, ’ felt’, ’ all’, ’ the’, ’ worries’, ’ wash’, ’ away’, ‘.’, ‘\n’, ‘The’, ’ king’, ’ was’, ’ so’, ’ happy’, ’ that’, ’ he’, ’ had’, ’ been’, ’ able’, ’ to’, ’ clean’, ’ up’, ’ the’, ’ mess’, ’ he’, ’ had’, ’ made’, ’ and’, ’ enjoy’, ’ a’, ’ nice’, ’ soak’, ‘.’, ’ He’, ’ dried’, ’ off’, ’ and’, ’ wrapped’, ’ himself’, ’ up’, ’ in’, ’ a’, ’ big’, ’ towel’, ‘.’, ’ Then’, ‘,’, ’ the’, ’ king’, ’ wen这是因为我使用了GPT-2的pattern进行切分的对吗?GPT-2如此做的更深层次原因是什么呢

二、核心优化方向 2:多线程 / 多进程并行(针对独立序列)
你的判断是对的:每个预分词后的序列(如单个单词 / 短语)的合并逻辑完全独立,因此可以并行处理。但注意:
❌ 合并规则(选最高频best_pair)是全局的,必须单线程确定;
✅ 合并best_pair到各序列的过程(_merge_byte_pair)、统计各序列内的字节对频次,均可并行。

http://www.jsqmd.com/news/245608/

相关文章:

  • 大数据领域数据标注的行业应用案例分享
  • Keil MDK C语言编译器设置:完整示例说明
  • 亲测有效!10款免费降低AI率的工具盘点,让论文有效降低AIGC痕迹,轻松通过检测。
  • 基于UNet的卡通化用户激励体系:分享得积分机制设计
  • FRCRN语音降噪参数详解:推理脚本配置最佳实践
  • 不用额外缓存!英伟达开源大模型记忆压缩方案,128K上下文提速2.7倍
  • 2026实测推荐:10大免费降AI工具全测评,轻松应对AI检测与论文降AI需求!
  • Qwen2.5-0.5B-Instruct供应链优化:需求预测AI系统实战
  • Z-Image-ComfyUI单卡部署教程:16G显存轻松运行指南
  • 【RabbitMQ】消息确认机制 持久化 发布确认机制
  • 降AI工具哪家强?2026年最新免费平台盘点,这10款高效好用别错过!
  • 麦橘超然Flux能否替代Stable Diffusion?对比分析
  • DeepSeek-V4蓄势待发!梁文锋署名论文或开启第二个DeepSeek时刻
  • 制造业企业如何构建高效数据采集系统:从挑战到实践
  • 免费降AI工具精选:2026年10大平台横向评测,教你高效降低AI率!
  • 1.什么是电子签名?
  • 2026年免费降AI神器盘点:10款工具亲测对比,轻松应对各类AI检测系统!
  • Claude自己写出Claude!2小时干完两月活,人类在工位上多余了?
  • VSCode函数级开发与代码审计——核心操作全解析与落地实践
  • Qwen模型快速选型指南:3小时试遍主流方案不超30元
  • 企业级开发环境中STM32CubeMX下载安装标准化流程
  • 实现订单自动关闭机制——电商系统中的定时任务设计与实践
  • 改进A星算法:剔除冗余节点与光滑转折点
  • 2.Java实现电子签名的两种工具
  • Mac系统如何批量命名,Mac批量重命名软件工具
  • 基于拉丁超立方采样与自适应核密度估计的电力系统概率潮流精准计算
  • GBDT 生态的未来演化:从技术竞争到协同标准的形成
  • adb 远程连接设备
  • Mac文件批量重命名工具:A Better Finder Rename
  • 从 RPA 迈向智能自治,开启企业外部群运营的“自动驾驶”时代