当前位置：首页 > news >正文

终极指南：LLM Universe多语言支持的中文分词与跨语言嵌入技术全解析

news 2026/6/21 7:25:37

终极指南：LLM Universe多语言支持的中文分词与跨语言嵌入技术全解析

【免费下载链接】llm-universe本项目是一个面向小白开发者的大模型应用开发教程，在线阅读地址：https://datawhalechina.github.io/llm-universe/项目地址: https://gitcode.com/datawhalechina/llm-universe

Datawhale / llm-universe 是一个面向小白开发者的大模型应用开发教程，提供了从基础到进阶的完整学习路径，帮助开发者快速掌握LLM应用开发技能。本文将深入探讨如何在该项目中实现多语言支持的中文分词与跨语言嵌入技术，为构建全球化的大模型应用奠定基础。

多语言支持在LLM应用中的重要性

在全球化的今天，大语言模型（LLM）的多语言支持能力变得越来越重要。LLM可以用于多种语言，不仅限于英语，它们的多语言能力使得跨文化和跨语言的应用变得更加容易。无论是构建跨语言情感分析模型、开发多语言问答系统，还是实现全球化的知识库检索，都离不开高效的中文分词和跨语言嵌入技术。

图：LLM多语言能力示意图，展示了不同语言在向量空间中的分布

中文分词技术：LLM理解中文的基础

中文分词是将连续的中文文本分割成有意义的词语序列的过程，是中文自然语言处理的基础。与英文等拼音文字不同，中文句子中没有明显的词语边界，因此分词对于LLM理解中文至关重要。

中文分词的挑战与解决方案

中文分词面临着诸多挑战，如歧义消解、未登录词识别等。在LLM Universe项目中，我们可以利用LangChain等工具来处理中文分词任务。虽然项目中没有直接提供中文分词的代码实现，但我们可以通过以下方式来集成中文分词功能：

使用 Jieba、THULAC 等成熟的中文分词库
利用 Hugging Face Transformers 中的中文预训练模型
结合 LLM 的上下文理解能力进行动态分词

中文分词在项目中的应用

在构建中文知识库时，合理的分词策略可以显著提高检索效果。例如，在处理南瓜书等中文文档时，我们可以先进行分词，再将分词结果用于文本向量化：

# 伪代码：中文分词与文本向量化流程 import jieba from langchain.text_splitter import RecursiveCharacterTextSplitter # 中文文本分词 def chinese_tokenize(text): return " ".join(jieba.cut(text)) # 读取中文文档 loader = UnstructuredMarkdownLoader("../../data_base/knowledge_db/prompt_engineering/1. 简介 Introduction.md") documents = loader.load() # 对文档进行分词处理 tokenized_docs = [chinese_tokenize(doc.page_content) for doc in documents] # 使用递归字符文本分割器 text_splitter = RecursiveCharacterTextSplitter( chunk_size=500, chunk_overlap=50 ) split_docs = text_splitter.create_documents(tokenized_docs)

跨语言嵌入技术：连接不同语言的桥梁

跨语言嵌入技术能够将不同语言的文本映射到统一的向量空间中，使得语义相似的文本无论使用何种语言，其向量表示都非常接近。这为实现多语言知识库检索、跨语言文本分类等应用提供了可能。

向量嵌入基础

在机器学习和自然语言处理（NLP）中，词向量（word embedding）是一种以单词为单位将每个单词转化为实数向量的技术。这些实数向量可以被计算机更好地理解和处理。词向量背后的主要理念是相似或相关的对象在向量空间中的距离应该很近。

图：向量嵌入示意图，展示了文本如何转化为向量空间中的点

在RAG（Retrieval Augmented Generation，检索增强生成）应用中使用的向量技术一般为通用文本向量(Universal text embedding)，该技术可以对一定范围内任意长度的文本进行向量化，与词向量不同的是向量化的单位不再是单词而是输入的文本，输出的向量会捕捉更多的语义信息。

多语言嵌入模型选择

LLM Universe项目中提供了多种嵌入模型的使用示例，包括OpenAI、文心千帆、讯飞星火和智谱等API。对于跨语言场景，我们可以选择专门的多语言嵌入模型，如：

text-embedding-3-large：OpenAI的最新嵌入模型，支持多语言，MTEB得分为64.6，MIRACL得分为54.9
bge-large-zh：中文优化的多语言嵌入模型，在中文任务上表现优异
xlm-roberta-base：支持100多种语言的预训练模型，适合跨语言迁移学习

以下是使用OpenAI API获取多语言嵌入的示例代码：

def openai_embedding(text: str, model: str=None): # 获取环境变量 OPENAI_API_KEY api_key=os.environ['OPENAI_API_KEY'] client = OpenAI(api_key=api_key) # embedding model：'text-embedding-3-small', 'text-embedding-3-large', 'text-embedding-ada-002' if model == None: model="text-embedding-3-large" # 推荐使用支持多语言的large模型 response = client.embeddings.create( input=text, model=model ) return response

跨语言相似性计算

跨语言嵌入的核心在于不同语言的语义相似性计算。通过计算不同语言文本向量之间的余弦相似度，我们可以判断它们在语义上的接近程度：

图：跨语言文本相似性示意图，展示了不同语言中语义相似的文本在向量空间中的接近程度

以下是计算中文和英文文本相似度的示例代码：

import numpy as np from sklearn.metrics.pairwise import cosine_similarity # 中文文本 chinese_text = "人工智能正在改变世界" # 英文文本 english_text = "Artificial intelligence is changing the world" # 获取嵌入向量 chinese_embedding = openai_embedding(chinese_text, model="text-embedding-3-large").data[0].embedding english_embedding = openai_embedding(english_text, model="text-embedding-3-large").data[0].embedding # 计算余弦相似度 similarity = cosine_similarity([chinese_embedding], [english_embedding]) print(f"中文和英文文本的相似度：{similarity[0][0]}")

实战：构建多语言知识库

结合中文分词和跨语言嵌入技术，我们可以构建一个支持多语言检索的知识库系统。以下是实现步骤：

1. 数据准备

收集多语言文档，如中文的南瓜书和英文的Prompt Engineering教程：

# 获取folder_path下所有文件路径，储存在file_paths里 file_paths = [] folder_path = '../../data_base/knowledge_db' for root, dirs, files in os.walk(folder_path): for file in files: file_path = os.path.join(root, file) file_paths.append(file_path)

2. 文本预处理

对不同语言的文本进行分词和清洗：

# 遍历文件路径并把实例化的loader存放在loaders里 loaders = [] for file_path in file_paths: file_type = file_path.split('.')[-1] if file_type == 'pdf': loaders.append(PyMuPDFLoader(file_path)) elif file_type == 'md': loaders.append(UnstructuredMarkdownLoader(file_path)) # 下载文件并存储到texts texts = [] for loader in loaders: texts.extend(loader.load()) # 文本清洗和分词 cleaned_texts = [] for text in texts: # 根据语言类型选择不同的分词方法 if is_chinese(text.page_content): cleaned_text = chinese_tokenize(text.page_content) else: cleaned_text = text.page_content # 英文等语言可直接使用空格分词 cleaned_texts.append(cleaned_text)

3. 文档分割

使用递归字符文本分割器将长文档分割成合适大小的块：

图：文档分割示例，展示了如何将长文本分割成重叠的块

# 使用递归字符文本分割器 text_splitter = RecursiveCharacterTextSplitter( chunk_size=500, chunk_overlap=50 ) split_docs = text_splitter.create_documents(cleaned_texts)

4. 向量化与存储

将分割后的文档块向量化并存储到向量数据库：

from langchain.vectorstores import Chroma from langchain.embeddings import OpenAIEmbeddings # 初始化嵌入模型 embeddings = OpenAIEmbeddings(model="text-embedding-3-large") # 创建向量数据库 db = Chroma.from_documents( documents=split_docs, embedding=embeddings, persist_directory="../../data_base/vector_db/chroma" ) db.persist()

5. 多语言检索

使用不同语言的查询词进行知识库检索：

# 中文查询 chinese_query = "什么是提示工程？" chinese_docs = db.similarity_search(chinese_query) print("中文查询结果：", chinese_docs[0].page_content) # 英文查询 english_query = "What is prompt engineering?" english_docs = db.similarity_search(english_query) print("英文查询结果：", english_docs[0].page_content)

优化与最佳实践

嵌入模型选择策略

根据项目需求和预算选择合适的嵌入模型：

模型	每美元页数	MTEB得分	MIRACL得分	多语言支持
text-embedding-3-large	9,615	64.6	54.9	优秀
text-embedding-3-small	62,500	62.3	44.0	良好
text-embedding-ada-002	12,500	61.0	31.4	一般

对于多语言应用，推荐使用text-embedding-3-large，它在跨语言任务上表现最佳。如果预算有限，可以选择text-embedding-3-small，在性能和成本之间取得平衡。

文档分割参数调整

根据文档语言和类型调整分割参数：

# 中文文档分割参数 chinese_splitter = RecursiveCharacterTextSplitter( chunk_size=400, # 中文通常需要更小的块大小 chunk_overlap=60, # 更大的重叠以保持上下文 separators=["\n\n", "\n", "。", "！", "？", "，", " "] # 中文专用分隔符 ) # 英文文档分割参数 english_splitter = RecursiveCharacterTextSplitter( chunk_size=500, chunk_overlap=50, separators=["\n\n", "\n", ". ", "! ", "? ", ", ", " "] # 英文专用分隔符 )

混合检索策略

结合词法检索和向量检索的优势，提高多语言检索效果：

# 混合检索示例 from langchain.retrievers import HybridRetriever from langchain.retrievers.self_query.base import SelfQueryRetriever from langchain.chains.query_constructor.base import AttributeInfo # 定义元数据属性 metadata_field_info = [ AttributeInfo( name="source", description="文档的来源路径", type="string", ), AttributeInfo( name="language", description="文档的语言，可能是中文或英文", type="string", ), ] # 创建自查询检索器 self_query_retriever = SelfQueryRetriever.from_llm( llm, # 你的LLM模型 db, "文档内容", metadata_field_info, ) # 创建混合检索器 hybrid_retriever = HybridRetriever( retrievers=[self_query_retriever, db.as_retriever()], weights=[0.3, 0.7] # 调整权重 ) # 使用混合检索器进行查询 results = hybrid_retriever.get_relevant_documents("什么是RAG技术？")

总结与展望

中文分词和跨语言嵌入技术是构建多语言LLM应用的关键。通过本文介绍的方法，你可以在LLM Universe项目中实现高效的多语言支持，为全球用户提供更好的服务。

随着大语言模型技术的不断发展，未来的多语言支持将更加自然和高效。我们可以期待：

更强大的多语言嵌入模型，支持更多语言和更精准的语义映射
实时跨语言翻译与嵌入融合，打破语言壁垒
基于多模态的跨语言理解，结合文本、图像等多种信息

通过持续学习和实践，你将能够构建出更加智能、更加包容的多语言AI应用，为全球化时代贡献力量！

要开始你的多语言LLM应用开发之旅，只需克隆Datawhale / llm-universe项目：

git clone https://gitcode.com/datawhalechina/llm-universe

祝你的多语言LLM应用开发之路顺利！🚀

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

查看全文

http://www.jsqmd.com/news/755837/

2026年天然黄白鹅卵石费用分析 - myqiye

别再死记硬背了！用‘存储器金字塔’的视角，重新理解你的电脑为什么卡

KMS_VL_ALL_AIO：Windows和Office终极免费激活解决方案

终极指南：如何用GSYVideoPlayer打造专业级移动端视频体验

终极DeepCTR部署指南：从零构建点击率预测模型的完整教程

大模型微调实战指南：从LoRA原理到应用部署

表面处理管理系统多少钱一套 - myqiye

AndroidSlidingUpPanel错误处理终极指南：解决8大常见Exception的实用方案

MAA明日方舟助手：跨平台自动化游戏解决方案终极指南

LingBot-Depth效果对比展示：lingbot-depth-dc在稀疏点云补全中的精度提升

新手零门槛：在快马平台用AI指引完成你的第一个bun项目

2026年做外泌体动物实验的公司推荐及研究价值解析 - 品牌排行榜

终极指南：LangExtract如何实现模糊匹配与精确定位的完美结合

AI辅助开发：让快马平台智能优化OpenSpec设计与代码实现

生物信号空间超分辨率技术：CAFE方法解析与应用

2026年斑痘敏治疗推荐，缔辉之恋好用吗？ - mypinpai

强化学习在图像编辑中的应用与优化策略

手机号定位查询工具：3秒精准定位陌生来电地理位置

SenseVoice Small语音活动检测（VAD）实战：提升长音频识别连贯性

终极指南：如何用React Native Elements打造完美Header导航栏

告别重复造轮子：用快马AI一键生成标准化软件安装程序

2026年做细胞治疗的动物实验公司行业分析及选择 - 品牌排行榜

基于信息论的LLM上下文智能压缩：Selective Context原理与实践

nli-MiniLM2-L6-H768实操手册：中文标签支持与标点兼容性处理技巧

2026年好用的板材割裁服务排名 - mypinpai

关联交易（Intercompany）模块 4A 架构设计分析（对标 SAP/Oracle EBS）

2026国内运输靠谱公司推荐，专业服务企业精选 - 品牌排行榜

为小型创业团队搭建统一的 AI 助手开发环境与密钥管理

3个实战场景解密Seraphine如何提升你的英雄联盟游戏体验

基于OpenClaw插件实现Google Chat与Pub/Sub双向消息集成实战