当前位置：首页 > news >正文

终极指南：使用bert-fa-base-uncased-ner-arman-openmind实现99.84% F1分数的波斯NER系统

news 2026/6/5 17:52:51

终极指南：使用bert-fa-base-uncased-ner-arman-openmind实现99.84% F1分数的波斯NER系统

【免费下载链接】bert-fa-base-uncased-ner-arman-openmind项目地址: https://ai.gitcode.com/hf_mirrors/jeffding/bert-fa-base-uncased-ner-arman-openmind

bert-fa-base-uncased-ner-arman-openmind是一款基于Transformer架构的波斯语命名实体识别（NER）模型，在ARMAN数据集上实现了99.84%的F1分数，显著超越了mBERT、MorphoBERT等主流模型。本指南将帮助新手快速掌握这一高性能波斯NER系统的核心功能、安装方法和实际应用技巧。

📊 波斯NER任务与ARMAN数据集解析

什么是波斯NER？

命名实体识别（NER）是自然语言处理中的关键任务，旨在从文本中提取并分类命名实体，如人名、组织、地点等。波斯语NER采用IOB标注格式：

O：非实体 token
B-XXX：实体开头 token（XXX为实体类别）
I-XXX：实体中间 token（XXX为实体类别）

ARMAN数据集详解

ARMAN数据集包含7,682个句子、250,015个标注token，涵盖6种实体类型：

实体类别	数量
Organization	30,108
Location	12,924
Facility	4,458
Event	7,557
Product	4,389
Person	15,645

🏆 业界领先的性能表现

在ARMAN数据集上，本模型性能全面超越现有技术：

模型	F1分数
bert-fa-base-uncased-ner-arman-openmind	99.84%
ParsBERT v1	98.79%
mBERT	95.89%
MorphoBERT	89.9%
BiLSTM-CRF	77.45%

🚀 快速开始：3步实现波斯NER

1️⃣ 环境准备

首先克隆项目仓库并安装依赖：

git clone https://gitcode.com/hf_mirrors/jeffding/bert-fa-base-uncased-ner-arman-openmind cd bert-fa-base-uncased-ner-arman-openmind pip install -r examples/requirements.txt

依赖项包括：transformers>=4.37.0、psutil、accelerate等。

2️⃣ 基础使用示例

通过OpenMind pipeline实现一键NER：

from openmind import pipeline from transformers import AutoTokenizer, AutoModelForTokenClassification # 加载模型和分词器 model_path = "jeffding/bert-fa-base-uncased-ner-arman-openmind" tokenizer = AutoTokenizer.from_pretrained(model_path) model = AutoModelForTokenClassification.from_pretrained(model_path) # 创建NER pipeline ner_pipeline = pipeline("ner", model=model, tokenizer=tokenizer, aggregation_strategy="simple") # 处理波斯语文本 persian_text = "محمد احمدی nejād در سال ۱۳۸۸ در تهران به عنوان رئيس جمهور ایران انتخاب شد." results = ner_pipeline(persian_text) print(results)

3️⃣ 使用命令行工具

项目提供了便捷的推理脚本examples/inference.py：

python examples/inference.py --model_name_or_path jeffding/bert-fa-base-uncased-ner-arman-openmind

脚本将自动检测硬件环境（支持NPU加速）并输出实体识别结果及推理时间。

💡 实用技巧与最佳实践

实体聚合策略选择

根据文本特点选择合适的聚合策略：

simple：基本实体合并（默认）
first：取第一个实体片段
average：基于分数平均合并
max：取分数最高的实体片段

性能优化建议

硬件加速：在支持NPU的设备上可获得更快推理速度
批量处理：通过batch_size参数提高处理效率
模型量化：使用INT8量化减少内存占用

📚 技术背景与引用

本模型基于ParsBERT v2架构，通过重构词汇表和优化训练流程实现了卓越性能。相关研究引用：

@article{ParsBERT, title={ParsBERT: Transformer-based Model for Persian Language Understanding}, author={Mehrdad Farahani, Mohammad Gharachorloo, Marzieh Farahani, Mohammad Manthouri}, journal={ArXiv}, year={2020}, volume={abs/2005.12515} }