当前位置：首页 > news >正文

用GLM4-9B-Chat和LoRA微调，我让大模型学会了从新闻里精准“抓取”人名地名

news 2026/5/12 18:36:43

GLM4-9B大模型实战：用LoRA微调打造高精度新闻实体提取工具

当面对海量非结构化文本时，如何快速准确地提取关键信息一直是NLP领域的核心挑战。传统命名实体识别（NER）方法往往受限于标注数据质量和模型泛化能力，而大语言模型的出现为这一领域带来了全新可能。本文将展示如何基于GLM4-9B-Chat模型，通过LoRA微调技术构建一个能自动从新闻文本中提取人名、地名、机构名等关键信息的智能工具，其准确率远超传统方法，且能无缝集成到现有业务系统中。

1. 为什么选择GLM4进行实体识别微调

在自然语言处理领域，命名实体识别一直是个"看似简单实则复杂"的任务。传统基于BERT的NER模型虽然效果尚可，但面临三个主要瓶颈：实体类型定义僵化（如无法灵活适应"地缘政治实体"等细分类型）、领域迁移成本高（金融新闻和医疗报告需要分别训练），以及对长文本的上下文理解有限。

GLM4-9B作为千亿参数级大模型，其核心优势在于：

语义理解深度：能捕捉"亚太经合组织"这类复合型实体与简单组织机构名的区别
零样本能力：即使未经微调，对"网红品牌""新兴科技公司"等非标准实体也有一定识别能力
指令跟随：通过精心设计的prompt，可以动态调整识别策略而无需重新训练

我们实测发现，原始GLM4-9B在CCFBDCI测试集上的F1值约为78%，而经过LoRA微调后的版本可达92%以上，接近专业标注团队的水平。更重要的是，当遇到训练集未覆盖的实体类型（如"元宇宙项目"）时，微调后的模型仍能通过指令引导给出合理归类。

2. 微调前的关键准备工作

2.1 硬件与环境配置

GLM4-9B的微调对硬件有一定要求，但通过量化技术和LoRA可以大幅降低资源消耗。我们的实验环境配置如下：

组件	最低配置	推荐配置
GPU	RTX 3090 (24GB)	A100 40GB
内存	32GB	64GB
存储	100GB SSD	200GB NVMe

# 创建Python虚拟环境 conda create -n glm4-ner python=3.10 conda activate glm4-ner # 安装核心依赖 pip install torch==2.1.2 --index-url https://download.pytorch.org/whl/cu118 pip install modelscope transformers datasets peft accelerate pandas

提示：使用bf16精度可减少约30%显存占用，且对最终精度影响极小（<0.5%）

2.2 数据准备与增强

原始CCFBDCI数据集包含约5万条标注数据，涵盖新闻、论坛、报告等多种文体。为提高模型在业务场景中的表现，我们建议进行以下数据增强：

实体替换：保持句子结构不变，替换实体内容
- 原句："腾讯宣布在深圳建立新总部"
- 增强："阿里巴巴宣布在杭州建立新园区"
句式改写：用不同表达方式描述相同事实
- 原句："外交部长王毅出席峰会"
- 改写："在本次峰会上，王毅作为中国外交部长发表了讲话"
负样本注入：添加10%不含任何实体的文本，避免模型过拟合

处理后的数据集应包含以下字段的JSONL格式：

{ "text": "特斯拉上海工厂年产能突破50万辆", "entities": [ { "start_idx": 0, "end_idx": 2, "entity_text": "特斯拉", "entity_label": "ORG" }, { "start_idx": 3, "end_idx": 5, "entity_text": "上海", "entity_label": "GPE" } ] }

3. LoRA微调实战步骤

3.1 模型加载与适配器配置

使用ModelScope加载基础模型，并注入LoRA适配器：

from modelscope import snapshot_download from transformers import AutoModelForCausalLM, AutoTokenizer from peft import LoraConfig, get_peft_model model_dir = snapshot_download("ZhipuAI/glm-4-9b-chat") tokenizer = AutoTokenizer.from_pretrained(model_dir, trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained( model_dir, device_map="auto", torch_dtype=torch.bfloat16 ) lora_config = LoraConfig( task_type="CAUSAL_LM", target_modules=["query_key_value", "dense"], r=16, lora_alpha=32, lora_dropout=0.05, bias="none" ) model = get_peft_model(model, lora_config)

关键参数说明：

target_modules：选择GLM4中Key-Value权重矩阵进行适配
r=16：LoRA秩维度，平衡效果与计算开销
lora_alpha=32：缩放系数，影响适配器输出的权重

3.2 训练策略优化

与传统NLP模型不同，大模型微调需要特别注意学习率和批大小的设置：

training_args = TrainingArguments( output_dir="./output", per_device_train_batch_size=8, gradient_accumulation_steps=4, num_train_epochs=3, learning_rate=2e-5, warmup_ratio=0.1, logging_steps=50, save_strategy="steps", save_steps=500, fp16=True, optim="adamw_torch", report_to="none" )

我们采用两阶段训练策略：

通用实体识别：用全部数据训练1个epoch
领域强化：针对业务相关数据（如金融新闻）再训练1-2个epoch

注意：避免超过3个epoch以防止灾难性遗忘基础能力

3.3 提示工程设计

微调时的prompt模板直接影响模型学习方式。我们采用多轮对话格式：

<|system|> 你是一个专业的信息提取专家，需要从文本中识别以下实体类型： - 人名（PER） - 地点（LOC） - 组织（ORG） - 地缘实体（GPE） 输出要求： 1. 每个实体用JSON格式表示 2. 只输出确认的实体，不要解释 <|user|> 文本：{input_text} <|assistant|> {entity_json}

这种设计带来两个优势：

明确界定实体类型和输出格式
减少模型生成无关内容的风险

4. 业务系统集成方案

4.1 性能优化技巧

将微调后的模型投入生产环境时，需要解决推理速度问题。我们验证有效的优化手段包括：

技术	实现方式	加速效果	精度损失
vLLM	使用PagedAttention	3-5倍	<1%
量化	bitsandbytes 8-bit	2倍	1-2%
剪枝	移除非LoRA参数	1.5倍	3-5%

# 使用vLLM加速推理 from vllm import LLM, SamplingParams llm = LLM(model="glm4-9b-ner", tensor_parallel_size=2) sampling_params = SamplingParams(temperature=0, max_tokens=256) def extract_entities(text): prompt = build_prompt(text) # 构建上述对话prompt outputs = llm.generate([prompt], sampling_params) return parse_json(outputs[0].text)

4.2 与现有系统对接

常见的三种集成模式：

API服务化：

graph LR A[业务系统] --> B(NER API服务) B --> C[GLM4推理集群] C --> D[Redis缓存]

批量处理管道：

def process_documents(docs): # 文档预处理 texts = [clean_text(doc) for doc in docs] # 并行推理 with ThreadPoolExecutor() as executor: results = list(executor.map(extract_entities, texts)) # 后处理 return [format_output(r) for r in results]

实时流处理：

# 使用Kafka连接 kafka-console-consumer --topic news_stream \ | python ner_processor.py \ | kafka-console-producer --topic ner_results

5. 效果评估与持续改进

5.1 量化评估指标

在金融新闻测试集上的表现对比：

模型	精确率	召回率	F1	推理速度(字/秒)
BERT-CRF	86.2	82.7	84.4	1200
GLM4-zero-shot	76.5	80.1	78.3	180
GLM4-LoRA(本文)	91.8	92.5	92.1	350

特别在复合实体识别上（如"中国人民银行上海分行"），我们的方法展现出明显优势：

传统模型：常错误分割为"中国/人民/银行/上海/分行"
GLM4-LoRA：准确识别为完整组织机构

5.2 常见问题排查

问题1：模型将非实体内容识别为实体

解决方案：增加负样本比例，在prompt中强调"只输出确认的实体"

问题2：长文本中遗漏部分实体

优化方案：采用滑动窗口策略，以512token为单位分段处理

问题3：领域专业词汇识别不准

改进流程：
1. 收集领域高频术语
2. 生成包含这些术语的合成数据
3. 进行1个epoch的增量训练

在实际电商舆情监控项目中，经过持续优化的GLM4-NER系统使人工审核工作量减少了73%，关键事件发现时效从小时级提升到分钟级。一个有趣的发现是，模型甚至能识别"李佳琦直播间"这类新兴实体类型，而传统方法需要重新标注数据才能处理。

查看全文

http://www.jsqmd.com/news/549751/

Intel RealSense D435i数据采集进阶：手把手教你用Python实现多模态图像同步对齐与保存

通义千问1.8B模型效果展示：实测对话生成与代码编写能力

深入解析JLink与SWD接口：从引脚定义到实际调试应用

Qwen3-ASR-0.6B部署实战：supervisorctl status查看服务状态+异常定位方法

别再手动审合同了！用Dify+GLM4-32B模型，10分钟搭建你的专属AI法务助手

深入电机内部：为什么FOC里的前馈解耦对高速PMSM至关重要？（附耦合影响对比仿真）

终极指南：如何用BongoCat桌面虚拟助手提升你的电脑使用体验

从环境变量到.mexw64：一步步拆解Amesim与Simulink的‘对话’原理

Spring Boot 2.3.2项目实战：手把手教你给SnakeYAML 1.26打上2.0安全补丁（含Maven私服部署）

大语言模型+进化算法：LLM-LNS如何解决传统MILP优化难题？

成都正规老酒名酒回收专业指南，成都久诚酒业：全城免费上门，高价透明，靠谱变现 - 资讯焦点

聊聊福建好的多片锯生产线源头厂家，价格和口碑如何 - 工业推荐榜

北斗网格位置码实战：从编码原理到Java实现（非极地）

JavaScript DXF Writer：革命性的一站式浏览器端CAD图纸生成方案

避开误区：用MATLAB分析闭环频率特性时，关于谐振峰值和带宽的3个常见错误

从‘伪代码’到‘可运行代码’：一步步调试理解ByteTrack的Python实现与状态管理

无root权限玩转容器：nerdctl+containerd-rootless实战教程（附CNI网络自定义配置技巧）

别再死磕公式了！用MATLAB从零复现SAR后向投影(BP)算法，附完整可运行代码

如何在Mac上免费解锁百度网盘SVIP会员：5步实现高速下载体验

避坑指南：CentOS 7内网离线部署雷池WAF时，docker-compose插件安装失败的几种解决方案

2026LED导光板优质厂家推荐指南 - 资讯焦点

CS1.6游戏内存修改实战：从无限金钱到无限手雷

Megatron-LM重计算实战：如何用recompute-activations节省50%显存（附配置对比）

2026年3月拖链10大品牌盘点匠会BOTHSIX拖链系统领跑国产智造 - 资讯焦点

告别单调！5种CSS文字背景色创意玩法，新手也能轻松上手

滤波器设计避坑指南：为什么你的有源滤波器总是不工作？

Docker离线部署利器：AnythingLLM与Open WebUI镜像本地化实战指南

osgverse浏览器端编译实战：从WSL到WASM的完整指南

魔百和CM211-1机顶盒s905l3b芯片刷机实战：从安卓到Armbian全流程解析