当前位置：首页 > news >正文

中文复述生成：融合词性与指针网络的Transformer模型实践

news 2026/7/15 8:19:02

1. 项目概述与核心价值

在中文自然语言处理（NLP）的实际应用中，我们常常会遇到一个看似简单却异常棘手的问题：如何让机器像人一样，用不同的方式说同一件事？这就是复述生成（Paraphrase Generation）的核心任务。想象一下，你正在构建一个智能客服系统，用户问“怎么重置密码？”，系统如果能用“密码找回的操作步骤是什么？”或者“如何重新设置登录密码？”等多种方式理解并回应，其鲁棒性和用户体验将大大提升。又或者，在进行数据增强时，你手头只有有限的标注语料，通过高质量的复述生成，可以“无中生有”地创造出语义一致但表达多样的新数据，这对于训练更强大的模型至关重要。

然而，中文的复述生成面临着独特的挑战。与英语等有明确空格分隔的语言不同，中文分词本身就是一道坎。更重要的是，中文的语法灵活，词序变化和虚词运用对句意影响微妙，同一个词在不同语境下可能承担不同的语法角色（词性）。例如，“领导”这个词，在“他领导团队”中是动词，在“他是我们的领导”中是名词。如果模型无法准确捕捉这种词性信息，就很可能生成“他是我们的领导团队”这样语法错乱的句子。因此，单纯依赖词语序列的模型，在中文上往往表现不佳。

本文要探讨的，正是这样一个针对中文特性“量身定制”的复述生成模型。它没有满足于现成的Transformer架构，而是做了两项关键改进：一是引入了词性（Part-of-Speech, POS）特征作为额外的理解维度，让模型能“看懂”句子结构；二是集成了指针生成网络（Pointer Generator Network, PGN），让模型在遇到生僻词、专有名词或低频词时，能聪明地从原句中“抄”过来，而不是强行生成一个可能错误的词。这套组合拳的目标很明确：在确保生成句子流畅、自然的前提下，最大限度地保留原句语义，同时提升表达的多样性。接下来，我将为你深入拆解这个模型的每一个技术细节、实现步骤以及我在复现和实验过程中积累的一手经验。

2. 模型整体架构与设计思路拆解

2.1 为什么是Transformer + 词性 + PGN？

要理解这个模型的设计，我们需要先看看它的“前辈们”和它们的局限。传统的序列到序列（Seq2Seq）模型，尤其是基于LSTM的，在处理长距离依赖时容易遗忘信息，且训练无法并行，效率较低。Transformer凭借其自注意力机制彻底改变了这一局面，它能同时关注输入序列的所有部分，并行计算能力强，迅速成为NLP的基石模型。

但是，标准的Transformer在处理复述生成，特别是中文复述时，存在两个痛点：

对语法结构不敏感：它主要学习词与词之间的语义关联，但对词性所代表的语法功能（如名词作主语、动词作谓语）的显式建模能力较弱。这可能导致生成的句子语义通顺但语法别扭。
封闭词汇表问题：模型只能从预先定义的、固定大小的词汇表中生成词语。对于中文中层出不穷的新词、网络用语、专业术语或低频词，模型要么将其统一映射为<UNK>（未知词标记），导致信息丢失；要么强行生成一个错误的词，损害句子的可读性和准确性。

本模型的创新点就在于精准地针对这两个痛点下药：

引入词性特征（多编码器架构）：我们不是简单地把词性标签当成普通文本喂给模型。而是为文本序列和词性序列分别设立一个独立的Transformer编码器。这就好比让两个专家分工合作：一个专家（文本编码器）专注于理解每个词的“意思”；另一个专家（词性编码器）则专注于分析句子的“骨架”和语法结构。最后，将两个专家理解的信息（即它们的隐藏状态）通过一个线性层进行融合。这样，模型在解码生成每一个新词时，既能考虑语义连贯性，也能兼顾语法正确性。
集成指针生成网络（PGN）：PGN为模型提供了一个“选择性抄袭”的能力。在每一个生成步骤，模型会计算一个生成概率（Pgen），这是一个介于0到1之间的值。Pgen决定了当前步骤是应该从庞大的词汇表中“创造”一个新词（Pgen趋近于1），还是应该从输入句子的对应位置“复制”一个词过来（Pgen趋近于0）。这个机制完美解决了低频词和专有名词的问题。例如，输入句中有“元宇宙”这个新潮词，词汇表里可能没有，PGN就能让模型直接把它复制到输出中。

注意：这里的设计哲学是“特征分离与融合”。将不同性质的信息（语义 vs. 语法）用不同的通道进行处理，再在高层进行融合，往往比将所有信息混在一起输入模型更能让模型学习到清晰、有区分度的表示。这在多模态学习、多任务学习中也是常见思路。

2.2 核心架构图与信息流

整个模型的流程可以清晰地分为几个阶段：

输入与预处理：原始中文句子经过分词和词性标注，得到两个并行的序列：词序列（Tokens）和词性标签序列（POS Tags）。
双编码器编码：
- 词序列经过词嵌入层和位置编码，送入文本编码器。
- 词性序列经过同样的嵌入和位置编码（但使用独立的嵌入矩阵），送入词性编码器。
- 两个编码器内部都是标准的Transformer编码器层（多头自注意力 + 前馈网络）。
特征融合：将两个编码器输出的隐藏状态序列进行拼接（Concatenation），然后通过一个可学习的线性变换层（W_fusion）进行融合，得到最终的融合隐藏状态。这个状态同时蕴含了语义和语法信息。
解码与生成：解码器是标准的Transformer解码器，但在每个时间步，它需要做三件事： a. 基于之前的输出和融合隐藏状态，计算解码器自身的隐藏状态。 b. 计算注意力分布：解码器当前状态对融合隐藏状态所有位置的关注程度。 c. 计算上下文向量：用注意力分布对融合隐藏状态进行加权求和，得到一个浓缩了当前所需源信息的向量。 d. 计算生成概率Pgen：基于上下文向量、解码器当前状态和当前输入词，通过一个Sigmoid函数计算。 e. 计算最终输出概率：将词汇表分布的概率（由解码器状态经线性层得到）与注意力分布（指向输入词）按Pgen进行加权混合，得到下一个词的最终概率分布。

这个过程确保了生成过程的每一刻，模型都在“创造”和“复制”之间做动态的、精细的权衡。

3. 核心模块深度解析与实现要点

3.1 词性特征的嵌入与编码

词性特征的引入是这个模型适应中文的关键。但如何将“名词”、“动词”这样的符号标签转化为模型能理解的数值向量呢？

实现细节：

词性标注工具的选择：原文使用的是CKIP Tagger，这是针对中文（特别是繁体中文）非常优秀的词性标注工具。如果你处理简体中文，可以考虑使用Jieba（结合其词性标注功能）、LTP（哈工大语言技术平台）或THULAC（清华大学）等。选择时需考虑标注体系的丰富度和准确性。
标签对齐：中文分词后，一个词可能对应多个字。但词性标签是以“词”为单位分配的。在构建序列时，需要确保词性标签序列与分词后的词序列严格等长。例如，对于句子“我爱北京天安门”，分词为[‘我’， ‘爱’， ‘北京’， ‘天安门’]，词性标注应为[‘PN’， ‘VV’， ‘NR’， ‘NR’]（这里仅为示例标签）。
词性嵌入层：我们需要一个独立的nn.Embedding层来处理词性标签。这个嵌入层的词汇表大小就是所有可能词性标签的数量（例如，CTB标签集约有30多个）。词性嵌入的维度通常可以比词嵌入维度小一些，因为信息量相对较少，实验中可以设置为64或128维。
位置编码：和词序列一样，词性序列也需要加入位置编码（Positional Encoding），因为Transformer本身没有递归或卷积结构，需要显式告知模型每个词性在序列中的位置。

实操心得：词性标签的颗粒度选择很重要。过于粗略的标签（如仅分名词、动词、形容词）提供的信息有限；过于精细的标签（如区分不同子类的名词）可能会引入噪声，并增加过拟合风险。通常使用中等颗粒度的标准标签集（如CTB、PKU）即可。在训练初期，可以观察一下词性编码器的注意力权重，看看它是否真的学到了有意义的语法结构（例如，动词是否更关注其前后的名词）。

3.2 指针生成网络（PGN）的动态复制机制

PGN是整个模型的“安全网”和“灵活阀”。其核心公式如下：

P(w) = Pgen * P_vocab(w) + (1 - Pgen) * Σ_i (a_i * I{w_i == w})

P(w)：生成词w的最终概率。
P_vocab(w)：从词汇表生成词w的概率。
a_i：解码器对输入序列第i个位置的注意力得分。
I{w_i == w}：指示函数，当输入位置i的词是w时为1，否则为0。
Pgen：生成概率，由Sigmoid函数计算得出。

Pgen的计算是关键：Pgen = σ(W_h^T * h_t^* + W_s^T * s_t + W_x^T * x_t + b_ptr)其中，h_t^*是上下文向量，s_t是解码器当前状态，x_t是解码器当前输入（通常是上一个生成的词）。W_h, W_s, W_x, b_ptr是可学习参数。

这个机制如何工作？

当输入句子中有明显的专有名词、数字或低频词时，模型在这些词对应的位置会产生很高的注意力得分a_i。同时，这些词在词汇表概率P_vocab中通常很低。此时，Sigmoid层的输入会倾向于使Pgen变小，模型更倾向于选择“复制”路径，将a_i的高得分直接贡献给最终概率P(w)。
当需要生成常见的、语法功能性的词汇（如“的”、“了”、“在”）或根据语义组合新短语时，词汇表概率P_vocab会很高，而注意力分布可能比较分散。此时Pgen会变大，模型更依赖自身的语言模型进行“生成”。

注意事项：PGN的引入可能会让模型产生“惰性”，即过度依赖复制而减少有意义的改写，导致生成多样性下降。在训练时，需要监控生成文本中复制词的比例。可以在损失函数中尝试加入轻微的“多样性鼓励”正则项，或者在采样时对复制行为进行温度调节，以在忠实度和多样性之间取得平衡。

3.3 多编码器信息融合策略

文本编码器和词性编码器的输出如何融合？简单拼接（Concatenation）后接一个线性层是最直接有效的方法：

H_fusion = Linear(Concat(H_token, H_pos))

这里H_token和H_pos的维度通常是[batch_size, seq_len, d_model]。拼接后维度变为[batch_size, seq_len, 2*d_model]，线性层将其投影回d_model维。

为什么不用更复杂的方式，比如注意力融合？在模型设计的早期，我也尝试过让两个编码器的输出通过交叉注意力（Cross-Attention）相互交互，或者在解码器端为两者分别计算注意力再融合。但实验发现，对于复述生成这个任务，简单的拼接+线性变换在效果和效率上取得了最好的平衡。更复杂的融合方式容易引入额外的参数和计算量，却未必带来显著的性能提升，有时甚至会让训练不稳定。这提醒我们，在模型设计中，“如无必要，勿增实体”的奥卡姆剃刀原则常常适用。

4. 从零到一的完整实现流程

4.1 数据预处理与语料构建

高质量的数据是模型的基石。本文使用了LCQMC和Phoenix Paraphrasing两个中文复述数据集。

数据预处理流水线：

数据清洗与过滤：
- 去除无效数据：删除包含乱码、无法解码字符（如某些特殊符号）的句子对。
- 长度控制：过滤掉过长（如超过50个词）或过短的句子。过长的句子训练效率低且容易梯度爆炸，过短的句子信息量不足。可以根据GPU内存设置一个最大长度，并对超长句子进行截断。
- 语言统一：如果源数据是简体中文，而你的词性标注工具或下游任务需要繁体，可以使用OpenCC进行转换。注意，转换可能引入细微的语义变化，需评估影响。

分词与词性标注：

# 以Jieba为例（简体中文场景） import jieba.posseg as pseg def tokenize_and_tag(sentence): words = pseg.cut(sentence) token_list = [] pos_list = [] for word, flag in words: token_list.append(word) pos_list.append(flag) # flag即为词性标签，如 ‘n’， ‘v’ return token_list, pos_list

构建词汇表：
- 词表：统计所有训练数据中出现的词，保留最高频的N个（如50000个），其余替换为<UNK>。务必加入特殊标记：<PAD>,<SOS>,<EOS>,<UNK>。
- 词性表：统计所有出现的词性标签，每个标签对应一个ID。词性表通常较小，无需截断。
序列化与批处理：
- 将词和词性标签分别转换为ID序列。
- 对每个批次内的序列进行填充（Padding）至相同长度，并记录有效的序列长度，以便在注意力计算中屏蔽填充位置。

踩坑记录：一个常见的错误是词性序列与词序列长度不匹配。这通常发生在分词工具和词性标注工具对某些词（如“了”、“的”）的处理不一致时。务必在预处理后添加严格的断言检查，确保两个序列等长。此外，对于Phoenix这类从网络爬取的语料，含有大量非正式表达和错别字，需要更精细的清洗规则，否则会严重影响模型对规范语法的学习。

4.2 模型搭建核心代码剖析

以下是用PyTorch搭建模型核心部分的关键代码片段，重点关注双编码器和PGN部分。

import torch import torch.nn as nn import torch.nn.functional as F class MultiEncoderTransformerPGN(nn.Module): def __init__(self, vocab_size, pos_vocab_size, d_model=512, nhead=8, num_layers=6, dropout=0.1): super().__init__() self.d_model = d_model # 嵌入层 self.token_embedding = nn.Embedding(vocab_size, d_model) self.pos_embedding = nn.Embedding(pos_vocab_size, d_model // 2) # 词性嵌入维度减半 self.pos_encoder = PositionalEncoding(d_model) # 标准Transformer位置编码 # 双编码器 encoder_layer = nn.TransformerEncoderLayer(d_model, nhead, dim_feedforward=2048, dropout=dropout, batch_first=True) self.token_encoder = nn.TransformerEncoder(encoder_layer, num_layers) self.pos_encoder = nn.TransformerEncoder(encoder_layer, num_layers) # 特征融合层 self.fusion_layer = nn.Linear(d_model + d_model//2, d_model) # 拼接后降维 # 解码器 decoder_layer = nn.TransformerDecoderLayer(d_model, nhead, dim_feedforward=2048, dropout=dropout, batch_first=True) self.decoder = nn.TransformerDecoder(decoder_layer, num_layers) # 输出层与PGN参数 self.vocab_proj = nn.Linear(d_model, vocab_size) self.pgen_linear = nn.Linear(d_model * 2 + d_model, 1) # 输入: [h*, s_t, x_t] def forward(self, src_tokens, src_pos, tgt_tokens, src_mask=None, tgt_mask=None, memory_mask=None): # 1. 源序列编码 src_token_emb = self.token_embedding(src_tokens) * math.sqrt(self.d_model) src_token_emb = self.pos_encoder(src_token_emb) memory_token = self.token_encoder(src_token_emb, src_key_padding_mask=src_mask) src_pos_emb = self.pos_embedding(src_pos) * math.sqrt(self.d_model // 2) # 需要将pos_emb投影到d_model维以便与token编码器结构一致，或者调整编码器输入维度 src_pos_emb_projected = F.linear(src_pos_emb, torch.eye(self.d_model//2, self.d_model)) # 简单投影示例 src_pos_emb_projected = self.pos_encoder(src_pos_emb_projected) memory_pos = self.pos_encoder(src_pos_emb_projected, src_key_padding_mask=src_mask) # 2. 特征融合 memory_fused = self.fusion_layer(torch.cat([memory_token, memory_pos], dim=-1)) # 3. 目标序列嵌入 tgt_emb = self.token_embedding(tgt_tokens) * math.sqrt(self.d_model) tgt_emb = self.pos_encoder(tgt_emb) # 4. 解码（这里简化了自回归过程，实际训练需用teacher forcing） output = self.decoder(tgt_emb, memory_fused, tgt_mask=tgt_mask, memory_key_padding_mask=src_mask) # 5. 计算词汇表分布 vocab_dist = F.softmax(self.vocab_proj(output), dim=-1) # 6. 计算注意力分布 (此处需自定义，因标准TransformerDecoder输出不直接提供encoder-decoder注意力权重) # 假设我们通过修改decoder forward或hook方式获得了每个时间步的encoder-decoder注意力权重 `attn_weights` [batch, tgt_len, src_len] # 7. 计算Pgen (简化示意，实际需按时间步循环) # context_vector = sum(attn_weights * memory_fused, dim=1) # pgen_input = torch.cat([context_vector, decoder_hidden_state, target_embedding], dim=-1) # pgen = torch.sigmoid(self.pgen_linear(pgen_input)).squeeze(-1) # 8. 混合概率分布 (简化示意) # final_dist = pgen.unsqueeze(-1) * vocab_dist + (1 - pgen).unsqueeze(-1) * attn_weights_sum_over_vocab # 其中 attn_weights_sum_over_vocab 需要将注意力权重按词聚合 return final_dist # 返回最终的概率分布 # 位置编码实现 class PositionalEncoding(nn.Module): def __init__(self, d_model, max_len=5000): super().__init__() pe = torch.zeros(max_len, d_model) position = torch.arange(0, max_len, dtype=torch.float).unsqueeze(1) div_term = torch.exp(torch.arange(0, d_model, 2).float() * (-math.log(10000.0) / d_model)) pe[:, 0::2] = torch.sin(position * div_term) pe[:, 1::2] = torch.cos(position * div_term) pe = pe.unsqueeze(0) # [1, max_len, d_model] self.register_buffer('pe', pe) def forward(self, x): x = x + self.pe[:, :x.size(1)] return x

关键点解析：

投影层：由于词性嵌入维度可能与文本编码器维度不同，在送入相同的TransformerEncoder层之前，可能需要一个投影层将其调整到统一维度d_model。上例中使用了简单的线性投影。
注意力权重的获取：标准PyTorchTransformerDecoder不会在forward中直接返回encoder-decoder的注意力权重。为了实现PGN，你需要自定义DecoderLayer或在forward中注册hook来提取每一层的注意力权重。这是实现中最容易出错的地方之一。
训练与推理的区别：在训练时，我们使用Teacher Forcing，将完整的目标序列右移一位后作为解码器输入。在推理（生成）时，则是自回归的，每一步将上一步的输出作为下一步的输入，直到生成<EOS>标记。

4.3 训练策略与损失函数

模型的损失函数采用标准的负对数似然损失（Negative Log Likelihood Loss），对于序列生成任务，即对每个时间步的单词预测损失求和或求平均。

loss = - Σ_t log(P(w_t^* | w_{<t}, src))

其中w_t^*是时间步t的真实目标词。

训练技巧：

梯度裁剪：Transformer模型容易产生梯度爆炸，设置梯度裁剪（如torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)）是必要的。
学习率调度：使用带热启动的余弦退火或Transformer原文中的学习率调度器（随步数平方根倒数变化）效果很好。
标签平滑：在计算词汇表分布的交叉熵损失时，使用标签平滑（Label Smoothing）可以缓解模型对预测的过度自信，提升泛化能力。
预热步数：在训练初期（如前4000步），使用一个较小的学习率线性增长到预设值，有助于稳定训练。

关于损失函数的思考：原文提到未来工作可以设计更复杂的损失函数，同时考虑语义保持和句子多样性。一个可行的方向是多任务学习或强化学习。例如，可以添加一个辅助任务，如训练一个判别器来区分生成的复述句和原始句，将判别器的反馈作为奖励信号融入损失。或者，直接在损失函数中加入基于BERTScore的语义相似度项和基于自BLEU或Distinct-n的多样性惩罚项，但这会大大增加训练的计算复杂度和调参难度。

5. 实验评估、问题排查与调优实录

5.1 评估指标的选择与解读

评估复述生成模型的好坏，需要从**忠实度（Faithfulness）和多样性（Diversity）**两个维度衡量。本文使用了多种指标：

指标	全称	衡量维度	原理简述	优缺点
BLEU	Bilingual Evaluation Understudy	忠实度（表面形式）	计算生成句与参考句之间n-gram的重合度。	快，但与人类评价相关性较弱，对同义词不敏感。
BERTScore	-	忠实度（语义）	用BERT模型提取词向量，计算生成句与参考句词之间的余弦相似度加权和。	与人类对语义相似度的判断更相关，但计算较慢。
PINC	Paraphrase In N-gram Changes	多样性	计算生成句与输入句（非参考句）之间不共享的n-gram比例。	直接衡量相对于输入的改变程度，值越高越多样。
ParaScore	-	综合（忠实+多样）	ParaScore = BERTScore + ω * DS，其中DS由NED或PINC归一化得到。	设计上更全面，但超参数ω和γ需要根据人工评价调整。

核心经验：不要只看BLEU！在复述生成任务中，一个愚蠢的模型如果总是原封不动地输出输入句，它的BLEU和BERTScore会很高，但多样性为0，毫无用处。因此，必须将PINC（或NED）与语义指标结合看。一个理想的模型应该在BERTScore保持较高水平的同时，拥有较高的PINC值。

5.2 实验结果分析与问题诊断

根据论文中的实验结果（表7，表8），我们可以得出一些观察和推论：

“复制”陷阱：在LCQMC数据集上，纯Transformer模型的BLEU-1/2分数有时反而最高。结合PINC分数分布图（图5）来看，这是因为该数据集中许多句子对本身相似度就极高，模型倾向于“偷懒”直接复制输入句，从而获得了虚假的高BLEU分数。这警示我们，评估模型时必须结合多样性指标，并仔细检查生成样例。
词性特征的有效性：Multi-Encoder Transformer（MET）相比纯Transformer，在Phoenix数据集上BLEU分数略有下降，但PINC分数有提升。这说明引入词性特征确实鼓励了模型进行更多样化的句式改写，虽然可能在一些非常字面匹配的评估上失分，但生成了更不相同的句子。
PGN的威力：Transformer + PGN模型在两项指标上通常表现均衡。而**MET + PGN（本文模型）**在Phoenix数据集上取得了最好的人工评价结果。这表明，词性特征和PGN机制是互补的：词性特征指导模型进行更合乎语法的改写，而PGN则确保在改写过程中不丢失关键实体信息。

人工评价的重要性：自动指标只能作为参考。最终，我们仍然需要人工从流畅性（生成的句子是否通顺自然）、忠实度（是否准确表达了原意）、多样性（用词和句式是否新颖）三个维度进行打分。论文中人工评价的结果是验证模型有效性的黄金标准。

5.3 常见问题与调优技巧

在复现和实验过程中，你可能会遇到以下典型问题：

问题1：模型生成重复的词语或短句。

可能原因：解码策略问题（如贪婪搜索容易导致重复）；训练数据中存在大量重复模式；注意力机制陷入局部循环。
解决方案：
- 使用束搜索（Beam Search）并配合长度惩罚：length_penalty=((5+len)/6)**α（α通常取0.6-1.0），鼓励生成长度适中的句子。
- 使用核采样（Nucleus Sampling）或温度采样：在推理时引入随机性，避免确定性搜索的重复问题。
- 在训练数据中过滤掉过于相似的句子对。
- 尝试在损失中加入“重复惩罚”，或在解码时屏蔽最近生成的token。

问题2：生成句子语法混乱，词序奇怪。

可能原因：词性特征学习不充分；位置编码可能有问题；模型容量不足或训练不充分。
解决方案：
- 可视化词性编码器的注意力权重，检查它是否学到了合理的语法关系（如动词关注其宾语名词）。
- 确保位置编码被正确添加，并且训练和推理时保持一致。
- 增加模型深度/宽度，或使用预训练的语言模型（如BERT）来初始化词嵌入层，甚至作为编码器的一部分（即采用预训练-微调范式）。
- 检查并清洗训练数据，确保其中的句子语法基本正确。

问题3：PGN几乎总是选择复制，导致改写程度很低。

可能原因：Pgen计算层的参数初始化或学习率不合适；损失函数中未对多样性进行约束。
解决方案：
- 监控Pgen的平均值。在训练初期，它应该在0.5附近波动。如果长期偏向0或1，可能需要调整Pgen线性层的初始化方式。
- 尝试在损失函数中加入多样性目标。例如，可以添加一个与PINC分数负相关的辅助损失项（需可微化近似），鼓励模型生成与输入不同的n-gram。
- 在推理时，可以尝试对Pgen施加一个偏置，例如设置一个最小生成概率阈值，强制模型进行一定程度的生成。

问题4：在特定领域（如医疗、法律）效果差。

可能原因：通用语料训练的模型无法掌握领域专有术语和句式。
解决方案：领域适应。收集或构造该领域的复述句对（即使数量不多），在通用模型的基础上进行继续预训练或微调。同时，可以扩充词汇表，并利用PGN机制来保证领域术语的正确复制。

6. 总结与个人实践心得

回顾整个项目，将Transformer、词性特征和指针生成网络三者结合，是一个在工程和理论上都相当优雅的方案。它直击了中文复述生成的几个要害：语法结构、低频词处理和生成多样性。从实验结果看，这套组合拳确实比单一的基线模型更有竞争力。

在我自己的实践中，有几点深刻的体会：第一，数据质量决定上限。无论模型多精巧，如果喂给它的是噪声大、质量低的复述对（比如很多只是近义词替换），模型永远学不到真正深刻的“改写”能力。在数据清洗和构造阶段多花一倍的时间，可能在模型调优上节省十倍精力。第二，评估指标需要精心设计。复述生成没有一个完美的自动指标。最好的做法是建立一个包含多种指标（BLEU, BERTScore, PINC, Distinct-n）的评估面板，并结合定期的人工抽查。我会随机采样100-200个生成结果，从流畅、忠实、多样三个维度打分，这个分数是调整模型方向和参数的最终依据。第三，PGN是一把双刃剑。它解决了OOV问题，但也容易让模型变懒。一个实用的技巧是，在推理完成后，对生成句子做一个后处理：如果复制比例超过某个阈值（比如70%），并且句子长度变化很小，则可以考虑触发一个回退机制，比如用纯生成模式（强制Pgen=1）重新生成一次，或者直接提示“未能有效改写”。最后，这个方向还有很多可探索的空间。例如，如何引入更丰富的语言学特征（如句法依存树）？如何设计一个端到端的、无需平行句对的复述生成模型（通过回译或对比学习）？如何让模型具备可控性，即根据指令生成“更简洁”或“更正式”的复述？这些都是非常有趣且具有实用价值的问题。这个融合了词性特征的Transformer-PGN模型，为我们提供了一个坚实而灵活的起点。

查看全文

http://www.jsqmd.com/news/890400/