当前位置: 首页 > news >正文

如何利用LLM处理非结构化数据

大型语言模型(LLMs)解决了非结构化数据(如文本、图片和音频文件)带来的重大挑战,使得从大量数据中提取有价值的见解或信息成为可能。

非结构化数据的挑战

非结构化数据与结构化数据相反,结构化数据具有预定义的格式或模式。文本文档、社交媒体帖子、电子邮件,甚至音频和视频录音,都是非结构化数据的例子。处理这类数据可能耗时且劳动密集,通常需要人工干预以提取有意义的信息。

大型语言模型如何提供帮助

LLM已经在大量文本数据上进行了训练,能够识别数据中的模式、关系和上下文。通过将这些能力应用于非结构化文本数据,LLM可以执行以下任务:

  1. 提取关键词和短语:从大量文本中识别相关术语和概念。
  2. 分类和分类:根据内容、情感或意图将无结构文本组织成预设的类别或类别。
  3. 总结与摘要:将冗长文本浓缩为简明摘要,保留最重要的信息。
  4. 计算主观指标:计算诸如“专业素养”或呼叫中心客服对特定话术执行的程度等指标。这些都是主观指标,没有理解文本模式和关系的模型,很难量化。

将非结构化数据转化为结构化数据

利用大型语言模型的一个极其强大的方法是将非结构化数据转化为结构化数据,使其更容易分析和用于其他应用、机器学习模型、仪表盘等。以下是一些常见的使用场景:

情绪分析:分析客户从社交媒体帖子或评论中获得的反馈,以评估情绪并识别趋势。

主题建模:在大量文本(如新闻文章或研究论文)中识别主要主题和子主题。

实体提取:从非结构化文本数据中提取特定实体,如名称、位置和组织。

音频转录:将口述音频录音转换为文字转录,便于分析。

例子:呼叫中心分析

MLRun呼叫中心演示是使用LLM处理非结构化数据的一个绝佳例子。它基于银行客户的真实用例,将呼叫中心坐席与客户之间的音频录音分析为结构化数据,这些数据可以在仪表盘中可视化,并用于其他下游应用。

呼叫分析工作流程

调用分析工作流程包含多个步骤,所有主要功能都从MLRun函数中心导入。您可以通过点击以下列表中的函数名称查看每个集线器函数的docstring、代码和示例:

调用数据插入数据库 —将调用元数据插入到 MySQL 数据库。

进行语音记录——中心功能:分析每个人在通话时的发言时间,以便后续改进转录和分析。日语化为LLM提供了上下文,并产生更好的结果。该函数采用silero-VAD模型。语音解析基于呼叫中心录音中每个音频声道属于不同扬声器的假设,按每个通道进行。

转录——枢纽功能:使用 Hugging Face 的 ASR 流水线与 OpenAI 的 Whisper 模型。该函数将通话转录并翻译成文本,并保存为文本文件。它是OpenAI的Whisper软件包的优化版本——支持批处理、CPU向多处理工作者卸载,并可通过MLRun和OpenMPI在多个GPU上分发。

识别个人身份信息——枢纽功能:采用三种技术识别个人身份信息:RegEx、Flair以及Microsoft的Presidio分析器和匿名化器。该功能清除已识别的个人数据,并生成多个工件以审查和理解识别过程。

分析——枢纽功能:使用大型语言模型分析给定文本。它期望一个提示模板和问题发送给LLM,然后从回答中构建一个数据帧数据集。本演示使用了GPTQ量化版的Mistral-7B来分析通话内容。提取以下特征有助于:

topic: str——从给定主题列表中选出通话的一般主题。

summary: str——简短几句总结了整个通话内容。

concern_addressed: bool——客户的关切是否在通话结束时得到回应。可能是{是,不是}。

customer_tone: str——通话中的一般客户语气。可以是{正、中性、负}之一。

agent_tone:&

http://www.jsqmd.com/news/162843/

相关文章:

  • 超详细版2025机顶盒刷机包下载与镜像签名绕过方案
  • 注意!选 AI 智能体开发公司,玄微子 AI 智能体这几点太关键
  • Speculative Decoding提升大模型推理吞吐量
  • ZDT-I 伺服电机测试系统
  • InfiniBand网络提升分布式训练速度实测
  • 新手必看:Keil5汉化包基础配置步骤
  • DeepSpeed与PyTorch集成实现超大规模模型训练
  • AI智能体 - 评估与监控 初探
  • ResNet50训练吞吐量测试:每秒处理多少张图片?
  • 蓝丝带智能产后养护:以科技温情,伴你蜕变新生
  • 面向开发者的大模型服务平台架构设计
  • SSH登录PyTorch容器后如何启动后台训练进程?
  • 从零实现同步整流buck电路图及其原理分析
  • Altium Designer元件库大全实战:PLC模块化设计指南
  • Multisim仿真电路图课程作业常见问题通俗解释
  • DC-DC转换器PSpice建模:项目应用全流程解析
  • nohup运行PyTorch脚本防止终端断开中断训练
  • Windows驱动仓库管理:Driver Store Explorer快速理解
  • TorchDynamo初体验:让PyTorch程序自动优化
  • 照片to谷歌地球/奥维地图 v2.0.0 正式发布桌面离线版,支持多平台下载安装,保护用户隐私和图片数据安全
  • 按Token计费的GPU算力平台如何控制成本?
  • 模型水印技术追踪非法分发的PyTorch权重文件
  • PyTorch Eager Mode vs TorchScript性能对比测试
  • Zero Redundancy Optimizer减少内存占用技巧
  • ioctl接口设计要点:核心要点一文说清
  • React集成PyTorch模型预测服务构建智能网页
  • 图解说明:家用电视服务机顶盒固件官网下载步骤
  • HuggingFace每周精选:最受欢迎的PyTorch模型榜单
  • SiFive HiFive1板载RISC-V指令执行性能分析深度剖析
  • 生成论:一个基于《易经》状态空间的跨学科范式及其在人工智能与物质生成中的统一框架