当前位置: 首页 > news >正文

拼音输入法开发告一段落

[来龙去脉]

语料:wiki_zh 1.2GB

词典:74001行 sysdic,其中字约17,000个,来自googlepinyin (不是所有的GB18030汉字都能用UNICODE表示)。

词是googlepinyin+sunpinyin合并去重。

mmseg时只用了字。

118M lm_sc.t3g

This is a 3-gram back-off model, using -log(pr)
1 items in 0-level
10876 items in 1-level
1945235 items in 2-level
12444533 items in 3-level

训练时间:不到半小时。

效果:输入自然流畅。

TODO:

  • 往userdict里加词太慢,不断copy数据库,改成加词前自己备份文件,加词时不copy.
  • 把县可读xuan之类删掉。

用到的极其乱的程序:

#!/usr/bin/python

d = {}
def merge_all_w(f, s):d[f[0]] = ' '.join(f[1:])def get_all_g_w(f, s):w = f[0]if len(w) <= 1: returnf[1:] = f[3:]print(' '.join(f))def get_all_s_w(f, s):w = f[0]if len(w) <= 1: returnf[1:] = f[2:]print(' '.join(f))d = {}
def get_g_zi (f, s):w = f[0]if len(w) > 1: returnd.setdefault(w, []).append(f[3])d = {}
def sort_g_by_freq (f, s): # 按词频降序排列w = f[0]if len(w) <= 1: returnfreq = int(float(f[1]))f[1:] = f[3:]d.setdefault(freq, []).append(' '.join(f))wid = 16563
def get_g_23 (f, s): # 高频词里的二三字词global widxx = len(f[0])if xx != 2 and xx != 3: returnf[1] = str(wid); wid += 1f[2:] = f[3:]print(' '.join(f))def get_s_zi (f, s): #if int(f[1]) >= 100 and len(f[0]) == 1:f[1:] = f[2:]; print(' '.join(f))def all_minus_sys(f, s):if not f[0] in st: print(s)def sys_dic_pie(f, s):if int(f[1]) > 100 and len(f[0]) > 1:print(f[0], f[1], "'".join(f[2:]))else: print(s)wid = 58005
def usr_dic_pie(f, s):global widprint(f[0], wid, "'".join(f[1:]))wid += 1def do_ (cb):try:while True: s = input(); cb(s.split(), s)except EOFError: passexcept Exception as e : print('ERROR:', e)do_(usr_dic_pie)'''
do_(sys_dic_pie)
st = set()
for s in open('/t/sysdic', 'r'): st.add(s.split()[0])
do_(all_minus_sys)
do_(merge_all_w)
for k,v in d.items(): print(f'{k} {v}')
do_(get_all_s_w)
do_(get_all_g_w)
do_(get_g_23)
do_(get_g_zi)
n = 100
for k,v in d.items(): print(f'{k} {n}', ' '.join(v)); n += 1
#噷 16562 hm
do_(sort_g_by_freq)
for k in sorted(d.keys(), reverse=True):print('\n'.join(d[k]))do_(get_s_zi)
'''
# grep -v '%' 多音字
View Code

 

http://www.jsqmd.com/news/26711/

相关文章:

  • Fluid 正式入驻青云 KubeSphere Marketplace,共建云原生数据加速新生态
  • 博客园第二次作业
  • 2025年口碑好的防水三防灯用户好评厂家排行
  • 深入解析:2025 最新 Docker 镜像源加速列表与使用指南(10月更新)
  • revit api选择selection class
  • IT岗位求职记录系统 - 呓语
  • 单独学智能体,是永远无法变现的
  • 2025年可靠的公园音乐喷泉行业内知名厂家排行榜
  • 对数log讲解
  • 2025年质量好的半自动真空贴体机最新TOP品牌厂家排行
  • 2025 年小型高压氧舱,单人高压氧舱,民用高压氧舱,进口高压氧舱厂家最新推荐,聚焦资质、案例、售后的五家机构深度解读!
  • 基于小波变换的图像特征提取与畸变校正实现
  • 完整教程:3.0 labview使用SQLServer
  • 2025 年包装机源头厂家最新推荐排行榜:覆盖多品类设备,精选 实力企业助企业高效采购给袋包装机/宠物食品包装机/宠物饲料包装机/预制袋包装机/水平包装机公司推荐
  • 2025年5轴CNC加工源头厂家爱权威推荐榜单:插针/电极 /航空插头源头厂家精选
  • playphrase
  • .net开源acadsharp库读取dwg读取特定名称的块
  • 2025年知名的液压缸厂家最新TOP实力排行
  • Metasploit基础使用教程
  • 2025年绞吸式抽沙船厂家权威推荐榜单:绞吸式清淤船/绞吸挖泥船 /绞吸抽沙船源头厂家精选
  • 2025年评价高的暗影缓冲铰链厂家推荐及选购参考榜
  • Java服务启动报session相关Redis错误 - Commissar
  • 2025年胶纸封箱机厂家爱权威推荐榜单:两侧驱动封箱机/全自动胶带封箱机 /全自动角边封箱机源头厂家精选
  • 2025年绞吸式抽沙船厂家权威推荐榜单:绞吸式清淤船/绞吸挖泥船 /绞吸抽沙船厂家精选
  • 2025年天然气脱硫消泡剂订做厂家权威推荐榜单:活化剂/二氧化碳脱除 /天然气脱碳剂厂家精选
  • 基于Qt框架开发智能停车场管理系统
  • 2025年耐用的粉料包装机厂家最新TOP实力排行
  • 2025 年 10 月蓝牙耳机厂家最新推荐,产能、专利、环保三维数据透视
  • 虚幻版Pico大空间VR入门教程 04 —— PicoOpenXR和PicoXR插件对于PDC串流、SteamVR串流、OpenXR串流对比 和 手势追踪对比 - 指南
  • 2025年口碑好的饺子皮切皮机厂家最新权威推荐排行榜