当前位置：首页 > news >正文

GTE模型多任务学习：同时优化多个文本相关任务

news 2026/3/26 22:21:12

GTE模型多任务学习：同时优化多个文本相关任务

让一个模型同时学会多种文本处理技能，就像培养一个全能型选手

1. 引言

你是否遇到过这样的困扰：需要一个模型做文本分类，另一个模型做相似度计算，还要一个模型做文本聚类？每个模型都需要单独训练、部署和维护，既费时又费力。

多任务学习就像是为AI模型设计的"综合训练营"，让一个模型同时掌握多种技能。GTE（General Text Embedding）模型通过多任务学习技术，能够同时处理文本分类、相似度计算和聚类等多个任务，不仅节省资源，还能提高整体性能。

今天，我们就来深入探讨GTE模型的多任务学习技术，看看它是如何实现"一专多能"的。

2. 多任务学习的基本概念

2.1 什么是多任务学习

多任务学习（Multi-Task Learning）是机器学习中的一个范式，让单个模型同时学习多个相关任务。就像一个人同时学习数学、物理和化学，这些学科之间相互关联，学习一门学科的知识有助于理解其他学科。

在NLP领域，多任务学习特别有用，因为很多文本处理任务都是相互关联的。文本分类需要理解文本语义，文本相似度计算也需要理解语义，这两个任务可以互相促进。

2.2 为什么选择多任务学习

多任务学习有以下几个显著优势：

资源效率：只需要训练和部署一个模型，而不是多个单一任务模型性能提升：相关任务之间可以共享知识，互相促进，提高整体性能泛化能力：学习多个任务使模型更能捕捉数据的本质特征，提高泛化能力避免过拟合：多个任务共同训练相当于一种正则化，减少过拟合风险

3. GTE模型的多任务学习架构

3.1 整体架构设计

GTE模型采用基于Transformer的编码器架构，通过共享底层表示，为不同任务提供统一的文本向量表示。模型的核心思想是：先用一个共享的编码器将输入文本转换为高维向量表示，然后针对不同任务使用特定的输出层。

import torch import torch.nn as nn from transformers import AutoModel, AutoTokenizer class GTEMultiTaskModel(nn.Module): def __init__(self, model_name="damo/nlp_gte_sentence-embedding_chinese-large"): super().__init__() # 共享的文本编码器 self.encoder = AutoModel.from_pretrained(model_name) self.tokenizer = AutoTokenizer.from_pretrained(model_name) # 任务特定的输出层 self.classification_head = nn.Linear(1024, 10) # 假设10个分类类别 self.similarity_head = nn.CosineSimilarity(dim=1) self.clustering_projection = nn.Linear(1024, 256) # 降维用于聚类 def forward(self, input_texts, task_type): # 编码文本 inputs = self.tokenizer(input_texts, padding=True, truncation=True, return_tensors="pt", max_length=128) outputs = self.encoder(**inputs) # 取[CLS]位置的向量作为文本表示 text_embeddings = outputs.last_hidden_state[:, 0, :] # 根据任务类型选择不同的输出 if task_type == "classification": return self.classification_head(text_embeddings) elif task_type == "similarity": # 对于相似度任务，需要两个文本的嵌入 if len(text_embeddings) % 2 != 0: raise ValueError("相似度任务需要偶数个文本输入") emb1 = text_embeddings[0::2] # 奇数位置 emb2 = text_embeddings[1::2] # 偶数位置 return self.similarity_head(emb1, emb2) elif task_type == "clustering": return self.clustering_projection(text_embeddings) else: return text_embeddings # 返回原始嵌入

3.2 任务关系分析

在设计多任务学习系统时，首先要分析任务之间的关系。GTE模型主要处理以下三类任务：

文本分类：判断文本属于哪个预定义类别相似度计算：计算两个文本之间的语义相似度文本聚类：将相似文本聚集到一起，无需预定义类别

这三个任务都依赖于良好的文本表示，因此可以共享底层的文本编码器。分类和相似度计算都是监督任务，而聚类通常是无监督的，这种组合可以互相补充。

4. 共享表示设计策略

4.1 层次化共享机制

GTE模型采用层次化的共享机制，底层参数完全共享，高层参数部分共享。这种设计既保证了知识共享，又保持了任务特异性。

底层Transformer编码器完全共享，为所有任务提供基础的文本表示能力。中间层根据不同任务的相似程度进行分组共享，相似的任务共享更多参数。顶层的任务特定头部完全独立，确保每个任务都能获得最优的输出。

4.2 动态权重共享

为了进一步优化共享效果，GTE模型实现了动态权重共享机制。模型会根据当前训练的任务动态调整共享程度，相似的任务共享更多参数，差异大的任务共享较少参数。

class DynamicWeightSharing(nn.Module): def __init__(self, base_model, num_tasks): super().__init__() self.base_model = base_model self.num_tasks = num_tasks # 为每个任务创建特定的适配器 self.adapters = nn.ModuleList([ nn.Linear(1024, 1024) for _ in range(num_tasks) ]) # 注意力机制决定共享程度 self.attention = nn.MultiheadAttention(1024, num_heads=8) def forward(self, x, task_id): # 基础模型输出 base_output = self.base_model(x) # 任务特定适配 task_specific = self.adapters[task_id](base_output) # 计算注意力权重，决定共享程度 attn_output, _ = self.attention( task_specific.unsqueeze(0), base_output.unsqueeze(0), base_output.unsqueeze(0) ) return attn_output.squeeze(0)

5. 多任务损失函数设计

5.1 损失函数组合

多任务学习的核心挑战是如何平衡不同任务的损失函数。GTE模型采用加权求和的方式组合多个损失函数：

def multi_task_loss(losses, weights=None): """ 多任务损失函数组合 losses: 各任务的损失值字典 weights: 各任务的权重，如果为None则自动平衡 """ if weights is None: # 自动平衡权重：根据任务难度和损失幅度动态调整 weights = {task: 1.0 / (losses[task].item() + 1e-8) for task in losses} # 归一化权重 total = sum(weights.values()) weights = {task: weights[task] / total for task in weights} total_loss = 0 for task, loss in losses.items(): total_loss += weights[task] * loss return total_loss

5.2 动态损失平衡

为了更好平衡不同任务，GTE模型实现了动态损失平衡机制。模型会根据每个任务的训练进度自动调整权重，难的任务获得更多关注，容易的任务权重降低。

class DynamicLossBalancer: def __init__(self, num_tasks): self.task_losses = [[] for _ in range(num_tasks)] self.task_weights = [1.0] * num_tasks def update_weights(self, current_losses, moving_average=0.9): for i, loss in enumerate(current_losses): # 更新损失记录 if len(self.task_losses[i]) == 0: self.task_losses[i].append(loss.item()) else: new_avg = moving_average * self.task_losses[i][-1] + (1 - moving_average) * loss.item() self.task_losses[i].append(new_avg) # 计算相对难度 avg_losses = [losses[-1] if losses else 1.0 for losses in self.task_losses] max_loss = max(avg_losses) # 更新权重：损失越高的任务权重越大 self.task_weights = [loss / max_loss for loss in avg_losses] return self.task_weights

6. 实践案例：同时优化三个文本任务

6.1 数据准备

首先准备多任务训练数据，包括分类标注、相似度对和聚类文本：

import json from datasets import Dataset # 示例数据格式 multi_task_data = { "texts": [ "深度学习在自然语言处理中的应用", "机器学习算法介绍", "神经网络基本原理", "计算机视觉技术发展", "文本分类方法综述" ], "classification_labels": [0, 0, 0, 1, 0], # 0:NLP, 1:CV "similarity_pairs": [ (0, 1, 0.8), # 文本0和文本1的相似度为0.8 (0, 2, 0.7), (3, 4, 0.3) ], "clustering_required": [True, True, True, False, True] # 哪些文本用于聚类 } # 转换为模型输入格式 def prepare_multi_task_batch(batch): texts = batch["texts"] # 分类任务数据 classification_data = { "texts": texts, "labels": batch["classification_labels"] } # 相似度任务数据 similarity_data = [] for i, j, score in batch["similarity_pairs"]: similarity_data.append({ "text1": texts[i], "text2": texts[j], "score": score }) # 聚类任务数据 clustering_texts = [texts[i] for i, required in enumerate(batch["clustering_required"]) if required] return { "classification": classification_data, "similarity": similarity_data, "clustering": clustering_texts }

6.2 多任务训练流程

实现完整的多任务训练流程：

def train_multi_task_model(model, data_loader, optimizer, num_epochs=10): model.train() loss_balancer = DynamicLossBalancer(num_tasks=3) for epoch in range(num_epochs): total_loss = 0 task_losses = {"classification": 0, "similarity": 0, "clustering": 0} for batch_idx, batch in enumerate(data_loader): optimizer.zero_grad() # 准备多任务数据 multi_task_batch = prepare_multi_task_batch(batch) # 计算各任务损失 losses = {} # 分类任务损失 if multi_task_batch["classification"]: cls_output = model(multi_task_batch["classification"]["texts"], "classification") cls_loss = nn.CrossEntropyLoss()( cls_output, torch.tensor(multi_task_batch["classification"]["labels"]) ) losses["classification"] = cls_loss # 相似度任务损失 if multi_task_batch["similarity"]: sim_texts = [] for pair in multi_task_batch["similarity"]: sim_texts.extend([pair["text1"], pair["text2"]]) embeddings = model(sim_texts, "embedding") pred_scores = [] true_scores = [] for i, pair in enumerate(multi_task_batch["similarity"]): emb1 = embeddings[2*i] emb2 = embeddings[2*i + 1] pred_score = torch.cosine_similarity(emb1.unsqueeze(0), emb2.unsqueeze(0)) pred_scores.append(pred_score) true_scores.append(pair["score"]) sim_loss = nn.MSELoss()(torch.stack(pred_scores), torch.tensor(true_scores)) losses["similarity"] = sim_loss # 聚类任务损失（使用对比学习） if multi_task_batch["clustering"]: cluster_embeddings = model(multi_task_batch["clustering"], "clustering") # 使用对比学习损失 cluster_loss = contrastive_loss(cluster_embeddings) losses["clustering"] = cluster_loss # 动态平衡损失 current_weights = loss_balancer.update_weights([losses.get(task, 0) for task in ["classification", "similarity", "clustering"]]) balanced_loss = multi_task_loss(losses, current_weights) # 反向传播 balanced_loss.backward() optimizer.step() total_loss += balanced_loss.item() for task in losses: task_losses[task] += losses[task].item() if batch_idx % 100 == 0: print(f"Epoch {epoch}, Batch {batch_idx}, Loss: {balanced_loss.item():.4f}") print(f"Epoch {epoch} completed:") print(f"Total Loss: {total_loss/len(data_loader):.4f}") for task, loss in task_losses.items(): print(f"{task} Loss: {loss/len(data_loader):.4f}")

6.3 模型评估与比较

训练完成后，评估多任务模型在各任务上的表现：

def evaluate_multi_task_model(model, test_data): results = {} # 评估分类任务 cls_accuracy = evaluate_classification(model, test_data["classification"]) results["classification_accuracy"] = cls_accuracy # 评估相似度任务 sim_accuracy = evaluate_similarity(model, test_data["similarity"]) results["similarity_accuracy"] = sim_accuracy # 评估聚类任务 clustering_score = evaluate_clustering(model, test_data["clustering"]) results["clustering_score"] = clustering_score # 与单任务模型对比 single_task_results = get_single_task_baselines(test_data) print("多任务模型表现:") for metric, value in results.items(): print(f"{metric}: {value:.4f}") print("\n与单任务模型对比:") for task in ["classification", "similarity", "clustering"]: multi_score = results.get(f"{task}_accuracy", results.get(f"{task}_score", 0)) single_score = single_task_results.get(task, 0) improvement = (multi_score - single_score) / single_score * 100 print(f"{task}: 多任务{multi_score:.4f} vs 单任务{single_score:.4f} ({improvement:+.2f}%)") return results

7. 优化技巧与最佳实践

7.1 任务调度策略

多任务学习的效果很大程度上取决于任务调度策略。GTE模型采用以下几种策略：

交替训练：每个batch只训练一个任务，轮流进行混合训练：每个batch包含所有任务的数据课程学习：先易后难，逐步增加任务难度

class TaskScheduler: def __init__(self, tasks, strategy="alternate"): self.tasks = tasks self.strategy = strategy self.current_task = 0 self.batch_count = 0 def get_next_task(self): self.batch_count += 1 if self.strategy == "alternate": task = self.tasks[self.current_task] self.current_task = (self.current_task + 1) % len(self.tasks) return task elif self.strategy == "mixed": return self.tasks # 返回所有任务 elif self.strategy == "curriculum": # 课程学习：前期侧重简单任务，后期增加复杂任务 if self.batch_count < 1000: return [self.tasks[0]] # 只训练第一个任务 elif self.batch_count < 2000: return self.tasks[:2] # 训练前两个任务 else: return self.tasks # 训练所有任务 return self.tasks