当前位置: 首页 > news >正文

为啥slmbuild的cutoff不能设得很大

在sim_slmbuilder.cpp的CSlmBuilder::AddNGram里:

if (fr > cut[nlevel]) {TLeafLevel& v = *(TLeafLevel*)(level[nlevel]);v.push_back(TLeaf(ngram[nlevel - 1], fr));
} else {nr[nlevel][0] += fr;nr[nlevel][fr] += fr;
}

相关代码:

FREQ_TYPE(*nr)[SLM_MAX_R]; //nr[1][SLM_MAX_R] is for 1-gram...
typedef unsigned int FREQ_TYPE;
typedef CSIMSlm::FREQ_TYPE FREQ_TYPE;
static const int SLM_MAX_R = 16;
nr = new FREQ_TYPE[n + 1][SLM_MAX_R];还有:
typedef unsigned int TWCHAR;
typedef TWCHAR TSIMWordId;

先别急着训练。

mmseg用fgetwc()读文件。getwc是fgetwc的宏版,应该更快。setvbuf也能加快读取速度。

字的n-gram,token ID不超过65536,可以输出uint_16而不是uint_32.

mmseg输出到stdout,用管道送给ids2ngram可取消中间文件。文件名为-时代表输出到stdout和从stdin读是标准做法。

所有的程序都没有开-O,-O2总该试一试吧。


 

比如语料是五个句号。。。。。 。的token id是71 (0x47). mmseg把每行看作一个句子,在最前和最后面插入了<stok>,其id为10 (0x0a)

mmseg再id2ngram后,得到一串uint_32,下面只显示它的最低字节并换了行:

0a 47 47 01
47 47 0a 01
47 47 47 03

01 02 03是频次。


 

slminfo可以把语言模型以文本文件模式导出。"thread"好像是sunpinyin独有的说法。tslminfo处理被slmthread加工过了的。

省事的方法是重新训练,瞎鼓捣已有的语言模型,动不动触发assert.

1.6GB的百科问答,8G内存的电脑的内存盘,就带不动了(尚未试验mmseg | ids2ngram).

上次的wiki_zh,是分目录处理再merge的,百科问答是一个大文件,wiki_zh是[a..m]×99个文件。

Linux命令行可以很长,wiki_zh/a/* 一句话搞定。


 

http://www.jsqmd.com/news/29285/

相关文章:

  • 团队项目1-团队展示选题-图书管理系统
  • 第二天,学习部分快捷键位(重点加粗)
  • windows terminal 配置文件
  • 第二章算法作业
  • Linux模板机优化实操
  • 渗透知识靶场实战
  • 第179-180天:横向移动篇入口切换SMB共享WMI管道DCOM组件Impacket套件CS插件
  • 游记 CSP-S2025
  • VRP基本配置命令
  • 2025 年 11 月 CBN 砂轮厂家最新推荐:结合剂迭代 + 精度优化,高耐用产品选购指南
  • Newton迭代法-----牛顿迭代法求解高次方函数的近似根
  • 2025 年 11 月 CBN 砂轮厂家最新推荐:磨料优化 + 工艺升级,高适配产品选购指南
  • 解码LVGL样式
  • 设备调试基础实验
  • 20231302邱之钊密码系统设计实验二一
  • 2025 年 11 月运动木地板厂家最新推荐,成分焕新与效能强化!—— 精准检测与稳定性能深度解析
  • 【软考】信安中级密码学专题
  • 算法 第二次作业
  • JavaScript异步编程:从回调地狱到优雅解决方案
  • 使用JavaScript和Node.js构建简单的RESTful API
  • JavaScript中的闭包:原理、应用与代码
  • 2025 年 11 月 PVC 地板厂家最新推荐,聚焦原料安全与功效稳定的专业产品解析
  • 2025 年 11 月 PVC 地板厂家最新推荐,聚焦原料合规与功效持久的专业产品解析
  • 2025 年 11 月 PVC 地板厂家最新推荐,聚焦成分安全与功效持续的优质产品解析
  • 2025 年 11 月 PVC 地板厂家最新推荐,聚焦原料品质与功效长效性的优质产品解析
  • React Hooks:提升前端开发效率的关键
  • 网络设备命令行
  • 基于BESO方法实现MBB梁一体化拓扑优化
  • 究极干货 —— 用最纯粹的语言,解析 DeepSeek OCR
  • 【图文详细】用HBuilder X写PHP并且能够在浏览器运行打开 - 昵