独立研究者开发的土耳其语“形态大脑“
这项由独立研究者完成的研究以预印本形式发布于2026年6月17日,论文编号为arXiv:2606.18717,有兴趣深入了解的读者可以通过该编号在arXiv平台查询完整论文。
土耳其语有一种神奇的"积木特性"。一个最基本的词根,可以通过不断往后面粘贴小模块(语言学家叫它"词缀"或"语素"),最终变成一个信息量超级丰富的长词。以"ev"(房子)这个简单的词根为例,经过一系列拼接之后,它可以变成"evlerimizdekiler",意思是"在我们房子里的那些人"。一个词根,几十上百种变形,每一种都携带着精确的含义。
正是这种特性,让土耳其语的计算机处理面临一个棘手的困境。现代语言模型(就是驱动ChatGPT这类AI的底层技术)在处理文字之前,需要先把文字切割成小块,这个过程叫做"分词"。目前最主流的分词方式,是根据词语在大量文字中出现的频率来决定怎么切割,这就像是一个完全不懂中文的外国人,通过统计哪些汉字经常连在一起出现,来决定词语的边界——他可能正好切对了,但更多时候会切出一些莫名其妙的结果。
对土耳其语来说,这种频率驱动的切割方式造成了两个具体的麻烦。第一,现有的一些分词工具在把切割结果还原成原始文字时,会发生信息损失。比如有一种叫WordPiece的工具,它会悄悄删掉土耳其语特有的字符(比如"c""s""g"这类带有特殊符号的字母),还有一种规则驱动的TurkishTokenizer,则会把词语改写成一种"标准化"的形式,导致还原后的文字跟原来不一样。在一个需要生成文字的AI里,分词工具输出的每一个小块最终都必须被还原成真实文字,一旦还原失败,AI输出的内容就会悄悄出错,而且这种错误极难察觉。第二,语义明确的词缀被随意切断,一个词被分成了过多的碎片,导致计算机需要处理更长的序列,消耗更多的计算资源和内存。
另一方面,处理词语"含义理解"的技术,也面临类似的困境。现有的系统(比如BERTurk这类大型语言模型)能够产生不错的词语表示(也叫词向量,可以理解为用一串数字来代表一个词的含义),但这些系统体型庞大(超过1.1亿个参数),而且依赖于它们自己的那套存在问题的分词体系,并不能从结构上理解词根与词缀之间的关系。更根本的问题在于,分词和词义理解目前是两个完全分离的系统:一个负责切割文字,一个负责理解含义,二者各干各的。
这篇论文的核心目标,就是为土耳其语打造一个叫做Morpheus的神经网络模型,让它同时承担这两个角色——既是一个忠实还原原始文字的分词工具,又是一个能产生有意义词向量的词语表示模型。接下来我们就来看看它是怎么做到的。
一、分词这件事,为什么"忠实还原"比什么都重要
要理解为什么"能还原回原文"这件事如此关键,可以用一个日常生活中的类比来体会。假设你把一句话翻译成摩尔斯电码,然后再翻译回来,如果翻译回来的内容跟原来一模一样,这个过程就是"可逆的";如果回来的内容少了几个字或者改了几个字,那这个翻译过程就是"有损的"。
对于生成型AI来说,它在生成文字时的过程是这样的:先产生一系列代表词块的数字编号,然后把这些编号还原成文字显示给用户看。如果这个还原过程是有损的,那AI生成的文字就会悄悄出现错误,而用户和AI本身都很难发现这种错误。
研究者对30,204个土耳其语变形词进行了测试,看看各种分词工具能不能把切割后的结果完整还原成原始词语。结果显示,Morpheus以及常见的BPE、字节级BPE和Unigram这几种工具,都能100%地还原原始词语。然而,WordPiece只能还原58.2%,因为它在处理过程中把土耳其语特有的字符都剥掉了。TurkishTokenizer能还原95.4%,但失败的那4.6%背后有一个系统性的问题:它会把词语改写成"标准发音形式",举个具体例子,"saatlerde"(在各小时里)会被它改写成"saat | lar | da",还原后变成了"saatlarda",这是一个在土耳其语里根本不存在的词。这就好比一个文字转换工具把"颜色"改写成了"颜彩",字面上看起来差不多,但实际上已经是另一个词了。
这个"能不能还原"的测试,就像一道入场门槛。只有能100%还原原始文字的工具,才有资格参与后续的比较——因为只有它们才能安全地用在需要生成文字的AI系统中。
二、模型的内部构造:一套积木式的字符处理流水线
Morpheus的工作原理,可以用"流水线加工"来理解。一个词语进入模型后,会经历三个依次衔接的处理阶段,最终输出两样东西:词语被切割成语素的方案,以及代表这个词语含义的一串数字(即词向量)。
第一个阶段是字符编码。模型把词语里的每一个字符,都转换成一个带有上下文信息的数字向量。在这个阶段,模型还专门处理了大小写信息,因为土耳其语的大小写规则比较特殊(比如大写"I"对应小写"i",大写"I"对应小写"?")。为了捕捉字符之间的局部组合规律,模型使用了一种能同时看2到6个连续字符的"多尺度卷积"(可以理解为用不同大小的窗口扫描词语)。接着,3层自注意力机制(一种能让字符之间互相"参考"彼此信息的技术)让每个字符的表示变得更加丰富和有上下文感。
关键在于,这个编码阶段特别引入了一种叫做"旋转位置嵌入"(RoPE)的技术。为什么需要这个?因为土耳其语词缀的含义取决于它在词语中的相对位置,而不是绝对位置。在"evlerimizdekiler"里,"-ler"在词根后第一个位置表示复数,"-imiz"在第二个位置表示"我们的","-de"在第三个位置表示"在……里"。旋转位置嵌入让模型能直接感知字符之间的相对距离,使它学到的规律(比如"距离上一个边界两个字符处")能在不同长度的词根上通用。
第二个阶段是边界检测。基于第一阶段产生的字符向量,4层带有旋转位置嵌入的自注意力层,再加上一个评分机制,为词语中每相邻两个字符之间的间隙,计算出一个0到1之间的概率值——这个值代表"这里是一个语素边界"的可能性有多大。所有这些概率值组合在一起,就构成了模型对"哪里该切"的判断。
第三个阶段是最巧妙的部分:可微分的泊松二项式动态规划。这是整个模型的数学核心,也是解决"如何在训练时让梯度信号顺畅流通"这一难题的关键。
三、数学魔法:让"切割"变得可以学习
训练一个神经网络,本质上是不断调整它内部的参数,让它的输出越来越好。这个调整过程依赖于"梯度"——一种衡量"如果改变某个参数,输出会怎么变"的信号。问题在于,"切割"这个动作本身是不连续的:一个词要么在这里切,要么不切,没有中间状态。不连续的操作会阻断梯度信号的传递,就像一条河流突然遇到了断崖,水流无法继续流下去。
泊松二项式动态规划巧妙地解决了这个问题。它的核心思想是:在训练期间,不做"切还是不切"的硬性决定,而是计算每个字符"软性地"属于第几个语素的概率分布。
具体来说,假设词语里有若干个"可能是边界"的位置,每个位置都有一个概率值。泊松二项式分布能精确计算"在某个字符之前,恰好有k个边界出现"的概率。这样,每个字符就拥有了一个概率分布:它有多大概率属于第1个语素、多大概率属于第2个语素,以此类推。这个分布用一个矩阵来表示,矩阵里的每一行(对应一个字符)加起来等于1。
这套设计有三个绝妙的特性。首先,它是完全可微分的,梯度信号可以顺畅地从词义学习目标流回到边界检测器,让边界的划定既受到语素标注数据的指导,也受到"产生好的词向量"这一目标的塑造。其次,它具备软硬双态:在训练期间,矩阵里的值是连续的概率分布;在推理阶段,只需把模型设置为"推理模式",每一行就自动变成了一个确定的选择(属于哪个语素),切割结果变得完全确定,不需要任何额外的结构变化。第三,也是最重要的一点:这套操作只是在对字符进行分组,从不插入、删除或改写任何字符。因此,把分好的组重新拼接起来,必然能得到原始词语,"忠实还原"的保证由数学结构本身确保,而不依赖任何额外规则。
这个矩阵不仅用于确定切割位置,还直接用于生成词向量:每个语素的向量,是它所包含的字符向量的加权平均(权重由矩阵中的概率值决定);最终的词向量,是所有语素向量的均值再经过一个小型前馈网络处理后得到的。这就是为什么说"分词"和"词向量"是同一次计算的两个产出——它们共享同一套内部表示。
四、怎么教会模型:四种学习信号的协同作用
Morpheus的训练数据来自一个规模约10GB的土耳其语语料库,涵盖了四种不同风格的文字来源:Eksisozlük(类似论坛的非正式口语风格)、Dergipark(学术期刊文章)、土耳其新闻网站(标准新闻文体),以及土耳其语维基百科(百科全书式的宽泛词汇)。多样化的来源,是为了让模型见识到土耳其语在不同语境下的各种词法构造。
模型的学习过程由四种信号共同驱动,这四种信号既有监督学习的成分,也有自监督学习的成分。
第一种是边界教师信号。研究者使用了一种叫Morfessor的无监督语素切割工具,让它先对训练语料里的词语进行切割,产生"参考答案"。模型需要学会让自己的边界预测结果尽量接近Morfessor给出的答案。不过,Morfessor有时候会把词根切碎,所以研究者还额外构建了一个词根词典,当词典确认一个词的词根时,就把词根内部那些多余的边界从参考答案里删掉。这个修正操作只影响训练标签,绝不改写字符本身。这种信号的权重在训练初期占主导地位(权重0.50),随着训练推进,它的比重按照一个固定曲线缓慢下降到0.08,把主导权逐渐让给后面几种信号——这是一种"先由老师带着学,再靠自己悟"的课程式训练策略。
第二种是跳字模型信号。这来自经典的词向量训练方法——如果两个词经常出现在彼此附近的文字中,它们的词向量就应该彼此靠近。这种信号让模型学会语义相似的词在向量空间中距离相近。
第三种是词根对比学习信号。这是让Morpheus在词向量质量上脱颖而出的关键设计。训练时,模型被要求把同一个词根的所有变形词(比如"kitap"、"kitaplar"、"kitab?m?z",都含有词根"kitap"表示"书")的向量,在高维空间里聚拢到一起;同时,把不同词根的词语向量推开。这种方式让词向量的几何结构直接反映词根关系,而不仅仅是语义相似度。
第四种是字符级掩码语言模型信号。随机选取句子中20%的词语,把它们遮住,然后让模型逐字符地重建这些词语。这种训练方式强迫模型形成对词语内部字符结构的深刻理解。
五、分词效果:在忠实还原的前提下,形态对齐最强
在形态对齐方面,Morpheus和TurkishTokenizer都远超频率驱动的分词工具,但两者的本质差异在于:TurkishTokenizer通过改写词语表面形式来实现对齐,而Morpheus完全不改写任何字符。
研究者用UD Turkish-Kenet数据集(包含真实土耳其语语素标注的语言学数据集)来测量各工具切割结果与真实语素的吻合程度,这个指标叫做MorphScore,用F1分数衡量(F1是精确率和召回率的综合,100%表示完美)。Morpheus得到0.61,约为频率驱动工具(约0.32)的两倍,与TurkishTokenizer(0.65)接近,但TurkishTokenizer的0.65是建立在改写词语表面形式的代价之上的。
研究者还设计了一个更细致的"表面忠实度"测试,用50个倾向于生僻词的土耳其语词语,从四个维度评分:词根正确率(切出来的第一块是不是正确的词根)、分块数量正确率(切出来的块数是否和真实语素数量一致)、边界位置正确率(切割位置是否和真实语素边界吻合)、以及字符串精确匹配率(切割出来的字符串是否和真实语素的表面形式完全一致)。
Morpheus在词根识别上最准确(66%),在边界位置正确率和字符串精确匹配率上完全一致(都是38%)——这个一致性本身就是无损性的直接体现,边界切对了,字符串必然精确。相比之下,TurkishTokenizer的边界正确率高达78%,但字符串精确匹配率骤降到10%,两者相差68个百分点。原因很简单:TurkishTokenizer把词语改写了,把正确位置上的字符替换成了标准化形式,比如把"saatlerde"切成"saat | lar | da"——切割位置基本正确,但"-ler/-de"被改成了"-lar/-da",还原后变成了不存在的词"saatlarda"。
六、语言模型效果:相同计算量下,哪个分词工具让AI学得更好
为了公平比较不同分词工具对语言模型训练效果的影响,研究者做了一个控制变量实验:用每种分词工具,分别训练一个参数量相同(约5800万参数)的GPT语言模型,训练步数完全相同(1万步),训练数据完全相同。这样,最终的语言模型性能差异,就只能归因于分词工具的好坏。
衡量指标是"每字符比特数"(BPC,Bits Per Character),这个值越低,说明语言模型对文字的理解越好,预测能力越强。在可逆分词工具这个范围内,Morpheus以1.425的BPC排名第一,略低于BPE(1.436)、Unigram(1.437)、字节级BPE(1.449)和Morfessor(1.446)。WordPiece的BPC看起来最低(1.384),但这是因为它删掉了土耳其语特有字符,相当于在一个信息量更少的"残缺版土耳其语"上做建模,比较没有意义。TurkishTokenizer的1.442也被排除在有效比较之外,因为它不可逆。
在内存效率上,Morpheus在批量生成时占用约3020MB的峰值GPU内存,而64K词表的频率驱动工具(BPE、ByteBPE、Unigram、WordPiece)都占用3723MB,Morpheus节省了约19%。
不过,Morpheus有一个明确的代价:它平均每个词语切出1.73个词块,比频率驱动工具的约1.5个多,这意味着同样一段文字,Morpheus生成的词块序列更长,AI需要处理更多步骤,端到端的生成速度约慢1.6倍。这是分词粒度更细(更贴近语素)的直接成本,研究者对此直言不讳,认为这是一个值得接受的权衡,前提是系统的优先目标是忠实解码和形态对齐,而非极致的生成速度。
在TR-MMLU数据集上的测试(这个数据集专门用来评估土耳其语分词质量)中,Morpheus的"纯净词块率"(%Pure,切割出来的词块在多大比例上符合土耳其语词法)达83.5%,"土耳其语词块率"(%TR)达91.8%,均为所有工具中最高,说明它在实际文本上切割出来的词块,最贴近土耳其语真实的语素单位。
七、词向量效果:强在词根关系,弱在上下文理解
由于Morpheus是神经网络,它在完成分词计算的同时,也产生了一个320维的词向量(320个数字的列表,代表这个词在某个含义空间中的"坐标")。研究者把这个词向量与两个更强大的模型进行了比较:BERTurk(768维词向量,约1.1亿参数的大型语言模型)和BGE-M3(1024维词向量,一个强大的多语言检索模型)。比较在五个任务上展开。
在词根家族检索任务上(给定一个词,从词库里找出所有与它同词根的词),Morpheus以平均精度均值0.85领先,BGE-M3为0.80,BERTurk仅为0.49。在同词根验证任务上(给定两个词,判断它们是否来自同一词根),Morpheus以ROC-AUC指标1.00(满分)领先,BGE-M3为0.98,BERTurk为0.70。这两个结果的解释非常直接:词根对比学习信号把同一词根的所有变形词推向向量空间的同一区域,所以在所有词向量模型里,Morpheus的词向量空间是按词根最清晰地组织起来的。用t-SNE可视化(一种把高维向量投影到二维平面便于观察的技术)可以直接看到这一点:Morpheus的图里,同词根的词语形成了紧密的簇,三个模型中最清晰。
然而,在数量探针和格探针任务上(通过一个简单的线性分类器,从词向量中读取词语的数(单数/复数)和格(主格/宾格/属格等)信息),Morpheus表现明显偏弱,数量探针准确率0.59对比BERTurk的0.95,格探针0.22对比BERTurk的0.89。在WikiANN-tr命名实体识别任务上(识别文字中的人名、地名、机构名等),Morpheus的宏F1分数为0.48,而BERTurk达到0.79。
这两组反差结果的原因是同一个设计决策的两面:词根对比学习让"kitap"、"kitaplar"(书的复数)、"kitab?m?z"(我们的书)的向量相互靠近,这对于找同词根的词非常有用,但同时也意味着"单数"和"复数"的信号在向量里被刻意淡化了,线性探针当然读不出来。另外,Morpheus产生的是静态词向量,对一个词的理解与它所在的句子无关,而命名实体识别需要理解上下文(同一个词在不同句子里可能是人名也可能是普通词语),BERTurk和BGE-M3是上下文感知的模型,在这类任务上有结构性优势。
说到底,Morpheus的定位是一个廉价、形态感知的词汇级编码器,而不是大型语言模型的替代品。它适合做的事情是:在信息检索系统中负责词根匹配和关键词索引,在文本去重场景中快速判断两个词是否同词根,以及在内存有限的情况下为语言模型提供形态对齐的词汇表。对于需要理解上下文和精细语法特征的任务,BERTurk或BGE-M3仍然是更合适的选择,而Morpheus恰好可以与它们互补,在同一个系统里各司其职。
归根结底,这项研究做了一件看起来简单但实际上颇有难度的事:在土耳其语这个分词和词义理解都格外棘手的语言上,用一套统一的神经网络结构,同时把这两个问题都解决到了相当不错的程度,而且没有走任何"改写词语表面形式"的捷径。
泊松二项式动态规划这个技术选择尤其值得关注,因为它优雅地消除了"训练时需要软操作,推理时需要硬操作"这个通常需要两套结构来处理的矛盾,让同一个模型在训练和推理两种状态下都能正常工作,只需切换一个标志位。这种设计思路在其他需要"软决策训练、硬决策推理"的场景中,同样具有参考价值。
当然,Morpheus也有明确的局限:模型的监督信号来自Morfessor,Morfessor本身并不完美,在处理罕见的派生词链和超长黏着词时,Morpheus偶尔会把相邻词缀合并;训练和评估的黄金标准数据以屈折形态为主,派生形态相对覆盖不足;词向量维度较低(320维),在某些需要高维向量的场景下可能需要扩展。这些都是后续改进的方向。
若你对这项研究的具体实现细节、实验数据或数学推导感兴趣,可以在arXiv平台通过论文编号arXiv:2606.18717查阅完整论文,代码、模型权重和在线演示也均已公开发布。
Q&A
Q1:Morpheus分词工具为什么一定要保证"忠实还原原文",这个要求有多重要?
A:在生成型AI(比如文字生成助手)里,AI产生的每一个词块编号,最终都要被还原成真实文字显示给用户。如果还原过程有损失——比如某些字符被删掉或改写——AI输出的内容就会悄悄出错,而且这种错误极难被发现和追踪。WordPiece只能还原58.2%的土耳其语变形词,TurkishTokenizer会把词语改写成标准化形式(如"saatlerde"变成"saatlarda",一个不存在的词),两者都不适合用于生成型AI系统。Morpheus通过数学结构从根本上保证了这一点。
Q2:泊松二项式动态规划解决了什么问题,为什么不直接用简单的阈值来决定切不切?
A:直接用阈值(比如概率超过0.5就切,否则不切)的问题在于,这个判断是不连续的——参数稍微变化一点,决策可能突然翻转,导致没有平滑的梯度信号可以用来训练网络。泊松二项式动态规划的做法是在训练期间不做硬性决断,而是用软概率分布来表示"字符属于第几个语素",让梯度信号可以顺畅地从词义学习目标流回到边界检测器,使边界学习和词向量学习可以相互促进。到推理阶段,这个软分布自然收敛成确定答案,不需要任何额外的结构切换。
Q3:Morpheus词向量在命名实体识别任务上表现差,是模型的缺陷还是设计取舍?
A:这是一个明确的设计取舍,不是意外的缺陷。Morpheus的词根对比学习目标,刻意把同一词根的所有变形词(不管单复数、格、时态)的向量拉到同一个区域,这让词根检索任务表现极佳,但同时也意味着区分单数和复数、不同格的信息被故意压缩了。命名实体识别还需要理解上下文(同一个词在不同句子里可能扮演不同角色),而Morpheus产生的是与上下文无关的静态词向量。这两个特点共同导致了它在命名实体识别上的劣势,而这两个特点恰恰也是它在词根检索和去重任务上领先的原因。
