当前位置：首页 > news >正文

如何利用LLM处理非结构化数据

news 2026/7/7 16:34:27

大型语言模型（LLMs）解决了非结构化数据（如文本、图片和音频文件）带来的重大挑战，使得从大量数据中提取有价值的见解或信息成为可能。

非结构化数据的挑战

非结构化数据与结构化数据相反，结构化数据具有预定义的格式或模式。文本文档、社交媒体帖子、电子邮件，甚至音频和视频录音，都是非结构化数据的例子。处理这类数据可能耗时且劳动密集，通常需要人工干预以提取有意义的信息。

大型语言模型如何提供帮助

LLM已经在大量文本数据上进行了训练，能够识别数据中的模式、关系和上下文。通过将这些能力应用于非结构化文本数据，LLM可以执行以下任务：

提取关键词和短语：从大量文本中识别相关术语和概念。
分类和分类：根据内容、情感或意图将无结构文本组织成预设的类别或类别。
总结与摘要：将冗长文本浓缩为简明摘要，保留最重要的信息。
计算主观指标：计算诸如“专业素养”或呼叫中心客服对特定话术执行的程度等指标。这些都是主观指标，没有理解文本模式和关系的模型，很难量化。

将非结构化数据转化为结构化数据

利用大型语言模型的一个极其强大的方法是将非结构化数据转化为结构化数据，使其更容易分析和用于其他应用、机器学习模型、仪表盘等。以下是一些常见的使用场景：

情绪分析：分析客户从社交媒体帖子或评论中获得的反馈，以评估情绪并识别趋势。

主题建模：在大量文本（如新闻文章或研究论文）中识别主要主题和子主题。

实体提取：从非结构化文本数据中提取特定实体，如名称、位置和组织。

音频转录：将口述音频录音转换为文字转录，便于分析。

例子：呼叫中心分析

MLRun呼叫中心演示是使用LLM处理非结构化数据的一个绝佳例子。它基于银行客户的真实用例，将呼叫中心坐席与客户之间的音频录音分析为结构化数据，这些数据可以在仪表盘中可视化，并用于其他下游应用。

呼叫分析工作流程

调用分析工作流程包含多个步骤，所有主要功能都从MLRun函数中心导入。您可以通过点击以下列表中的函数名称查看每个集线器函数的docstring、代码和示例：

将调用数据插入数据库 —将调用元数据插入到 MySQL 数据库。

进行语音记录——中心功能：分析每个人在通话时的发言时间，以便后续改进转录和分析。日语化为LLM提供了上下文，并产生更好的结果。该函数采用silero-VAD模型。语音解析基于呼叫中心录音中每个音频声道属于不同扬声器的假设，按每个通道进行。

转录——枢纽功能：使用 Hugging Face 的 ASR 流水线与 OpenAI 的 Whisper 模型。该函数将通话转录并翻译成文本，并保存为文本文件。它是OpenAI的Whisper软件包的优化版本——支持批处理、CPU向多处理工作者卸载，并可通过MLRun和OpenMPI在多个GPU上分发。

识别个人身份信息——枢纽功能：采用三种技术识别个人身份信息：RegEx、Flair以及Microsoft的Presidio分析器和匿名化器。该功能清除已识别的个人数据，并生成多个工件以审查和理解识别过程。

分析——枢纽功能：使用大型语言模型分析给定文本。它期望一个提示模板和问题发送给LLM，然后从回答中构建一个数据帧数据集。本演示使用了GPTQ量化版的Mistral-7B来分析通话内容。提取以下特征有助于：

topic: str——从给定主题列表中选出通话的一般主题。

summary: str——简短几句总结了整个通话内容。

concern_addressed: bool——客户的关切是否在通话结束时得到回应。可能是{是，不是}。

customer_tone: str——通话中的一般客户语气。可以是{正、中性、负}之一。

agent_tone:&

查看全文

http://www.jsqmd.com/news/162843/