当前位置：首页 > news >正文

韩语BERT模型详解[特殊字符]——KcBERT实战指南

news 2026/7/4 15:22:21

韩语BERT模型详解🔥——KcBERT实战指南

在自然语言处理领域，预训练语言模型已经成为不可或缺的工具。随着BERT模型在英语世界的成功应用，各种语言的BERT变体也相继涌现。在韩语自然语言处理领域，KcBERT模型以其针对韩语评论数据优化的特点，为韩语NLP任务提供了强大的支持。

KcBERT简介

KcBERT是一个专门针对韩语评论数据优化的预训练BERT模型，由Beomi团队开发。与大多数使用韩语维基、新闻文章、书籍等精心整理数据训练的韩国语BERT模型不同，KcBERT采用了大量韩语网络评论数据作为训练语料，使其更能够捕捉韩语口语化表达、新造词和拼写错误等非正式语言特点。

值得注意的是，KcBERT团队后来还推出了KcELECTRA模型，该模型通过使用更大的数据集和通用词汇表，在所有任务上都展现了比KcBERT更优的性能。如果您追求更高的模型性能，可以考虑使用KcELECTRA，其代码可在GitHub仓库找到。

KcBERT性能表现

KcBERT在多种韩语NLP任务上都展现了优异的性能。以下是在不同任务上的表现对比：

模型	大小	NSMC(准确率)	Naver NER(F1)	PAWS(准确率)	KorNLI(准确率)	KorSTS(Spearman)	问题对(准确率)	KorQuaD(Dev)(EM/F1)
KcBERT-Base	417M	89.62	84.34	66.95	74.85	75.57	93.93	60.25/84.39
KcBERT-Large	1.2G	90.68	85.53	70.15	76.99	77.49	94.06	62.16/86.64
KoBERT	351M	89.63	86.11	80.65	79.00	79.64	93.93	52.81/80.27
XLM-Roberta-Base	1.03G	89.49	86.26	82.95	79.92	79.09	93.53	64.70/88.94
HanBERT	614M	90.16	87.31	82.40	80.89	83.33	94.19	78.74/92.02
KoELECTRA-Base	423M	90.21	86.87	81.90	80.85	83.21	94.20	61.10/89.59
KoELECTRA-Base-v2	423M	89.70	87.02	83.90	80.61	84.30	94.72	84.34/92.58
DistilKoBERT	108M	88.41	84.13	62.55	70.55	73.21	92.48	54.12/77.80

从表中可以看出，KcBERT-Large在大多数任务上表现优异，特别是在NSMC情感分析任务上达到了90.68%的准确率。如果您需要更详细的实验结果，可以在GitHub仓库中找到KcBERT-finetune项目的完整代码。

安装与使用

环境要求

在使用KcBERT之前，需要确保安装了以下依赖：

pytorch <= 1.8.0 transformers ~= 3.0.1 emoji ~= 0.6.0 soynlp ~= 0.0.493

模型加载

KcBERT可以通过HuggingFace Transformers库轻松加载：

fromtransformersimportAutoTokenizer,AutoModelWithLMHead# Base模型 (108M)tokenizer=AutoTokenizer.from_pretrained("beomi/kcbert-base")model=AutoModelWithLMHead.from_pretrained("beomi/kcbert-base")# Large模型 (334M)tokenizer=AutoTokenizer.from_pretrained("beomi/kcbert-large")model=AutoModelWithLMHead.from_pretrained("beomi/kcbert-large")

预训练与微调资源

KcBERT团队提供了丰富的资源来帮助用户进行预训练和微调：

预训练数据：可以在Kaggle数据集或GitHub发布页面获取预训练数据
预训练代码：TPU预训练教程提供了在Google Colab上使用TPU进行预训练的完整代码
微调示例：提供了NSMC数据集上的微调代码，包括Base模型和Large模型两个版本

数据处理与预处理

原始数据

KcBERT的训练数据是从2019年1月1日至2020年6月15日期间评论较多的新闻文章中收集的评论和回复。原始数据大小约为15.4GB，包含超过1.1亿个句子。

数据预处理

为了提高模型性能，KcBERT团队对原始数据进行了以下预处理步骤：

保留韩语、英语、特殊字符和表情符号：通过正则表达式确保这些元素都被包含在训练数据中
缩短重复字符序列：如将"ㅋㅋㅋㅋㅋ"简化为"ㅋㅋ"
保留大小写：KcBERT是一个区分大小写的模型
过滤短文本：删除10个字符以下的文本
去重：移除重复的评论

importreimportemojifromsoynlp.normalizerimportrepeat_normalize emojis=list({yforxinemoji.UNICODE_EMOJI.values()foryinx.keys()})emojis=''.join(emojis)pattern=re.compile(f'[^ .,?!/@$%~％·∼()\x00-\x7Fㄱ-ㅣ가-힣{emojis}]+')url_pattern=re.compile(r'https?:\/\/(www\.)?[-a-zA-Z0-9@:%._\+~#=]{1,256}\.[a-zA-Z0-9()]{1,6}\b([-a-zA-Z0-9()@:%_\+.~#?&//=]*)')defclean(x):x=pattern.sub(' ',x)x=url_pattern.sub('',x)x=x.strip()x=repeat_normalize(x,num_repeats=2)returnx

经过预处理后的最终数据大小为12.5GB，包含8900万个句子。预处理后的数据可以在Kaggle数据集中获取。

分词器训练

KcBERT使用HuggingFace的Tokenizers库训练了BertWordPieceTokenizer，词汇表大小为30,000。分词器的训练使用了1/10的采样数据，并通过分层抽样确保数据的均匀性。

fromtokenizersimportBertWordPieceTokenizer# 初始化分词器tokenizer=BertWordPieceTokenizer()# 训练分词器tokenizer.train(files=["train.txt"],vocab_size=30000,min_frequency=2,special_tokens=["[PAD]","[UNK]","[CLS]","[SEP]","[MASK]"],limit_alphabet=1000,wordpieces_prefix="##",)

模型配置与训练

模型配置

KcBERT Base和Large模型的基本配置如下：

// KcBERT Base配置{"max_position_embeddings":300,"hidden_dropout_prob":0.1,"hidden_act":"gelu","initializer_range":0.02,"num_hidden_layers":12,"type_vocab_size":2,"vocab_size":30000,"hidden_size":768,"attention_probs_dropout_prob":0.1,"directionality":"bidi","num_attention_heads":12,"intermediate_size":3072,"architectures":["BertForMaskedLM"],"model_type":"bert"}// KcBERT Large配置{"type_vocab_size":2,"initializer_range":0.02,"max_position_embeddings":300,"vocab_size":30000,"hidden_size":1024,"hidden_dropout_prob":0.1,"model_type":"bert","directionality":"bidi","pad_token_id":0,"layer_norm_eps":1e-12,"hidden_act":"gelu","num_hidden_layers":24,"num_attention_heads":16,"attention_probs_dropout_prob":0.1,"intermediate_size":4096,"architectures":["BertForMaskedLM"]}

训练过程

KcBERT模型使用Google Cloud Platform的TPU v3-8进行训练，Base模型训练约2.5天，Large模型训练约5天。模型在100万步后达到最佳性能。

以下是Base模型和Large模型的训练损失曲线：

从图中可以看出，模型损失在初始20万步内快速下降，之后逐渐趋于平稳。

实际应用示例

掩码语言模型

KcBERT可以用于掩码语言建模任务。例如，我们可以使用KcBERT预测"오늘은 날씨가 "中的掩码词：

fromtransformersimportpipeline# 加载KcBERT模型fill_mask=pipeline("fill-mask",model="beomi/kcbert-base")# 预测掩码词results=fill_mask("오늘은 날씨가 ")forresultinresults:print(result)

同样，我们可以使用KcBERT-Large进行相同的任务：

NSMC情感分析

KcBERT在NSMC(네이버 영화평 코퍼스)情感分析任务上表现优异。以下是使用PyTorch-Lightning进行微调的示例：

importpytorch_lightningasplfromtransformersimportBertForSequenceClassification,BertTokenizerfromtorch.utils.dataimportDataset,DataLoaderimporttorch# 数据集类classNSMCDataset(Dataset):def__init__(self,tokenizer,data,max_len=128):self.tokenizer=tokenizer self.data=data self.max_len=max_lendef__len__(self):returnlen(self.data)def__getitem__(self,idx):text=self.data.iloc[idx]['document']label=self.data.iloc[idx]['label']encoding=self.tokenizer.encode_plus(text,add_special_tokens=True,max_length=self.max_len,return_token_type_ids=False,padding='max_length',truncation=True,return_attention_mask=True,return_tensors='pt',)return{'text':text,'input_ids':encoding['input_ids'].flatten(),'attention_mask':encoding['attention_mask'].flatten(),'labels':torch.tensor(label,dtype=torch.long)}# LightningModuleclassKcBERTClassifier(pl.LightningModule):def__init__(self,n_classes=2):super().__init__()self.model=BertForSequenceClassification.from_pretrained('beomi/kcbert-base',num_labels=n_classes)self.n_classes=n_classesdefforward(self,input_ids,attention_mask,labels=None):output=self.model(input_ids=input_ids,attention_mask=attention_mask,labels=labels)returnoutputdeftraining_step(self,batch,batch_idx):outputs=self(**batch)loss=outputs.loss self.log('train_loss',loss)returnlossdefvalidation_step(self,batch,batch_idx):outputs=self(**batch)loss=outputs.loss logits=outputs.logits _,preds=torch.max(logits,dim=1)labels=batch['labels']acc=(preds==labels).float().mean()self.log('val_loss',loss)self.log('val_acc',acc)return{'val_loss':loss,'val_acc':acc}defconfigure_optimizers(self):returntorch.optim.AdamW(self.parameters(),lr=2e-5)

使用KcBERT-Base模型进行微调，验证准确率达到89.05%：

而使用KcBERT-Large模型，验证准确率进一步提升到90.89%：

引用与致谢

如果您在研究中使用了KcBERT，请使用以下引用格式：

@inproceedings{lee2020kcbert, title={KcBERT: Korean Comments BERT}, author={Lee, Junbum}, booktitle={Proceedings of the 32nd Annual Conference on Human and Cognitive Language Technology}, pages={437--440}, year={2020} }

KcBERT模型的训练得到了TensorFlow Research Cloud(TFRC)项目的支持。在模型开发过程中，Monologg提供了宝贵的建议和指导。