当前位置: 首页 > news >正文

PP-Structure的在提取图片文字转markdown的局限;媒体流接口响应体(Response);会议内容实时转文字中说话人分离(Diarization);

PP-Structure的在提取图片文字转markdown的局限;

之前使用PP-Structure提取pdf文档又快又好,后面也顺势用PP-Structure提取图像的文字,但是出现了ocr能识别到文字,但文字不会转为markdown的问题

为什么用PP-Structure,而不是纯ocr

由于转结构化数据的需求,Markdown格式与ocr提取的纯文本,主要优势体现在以下几个方面:

  1. 保留语义层级: Markdown 的 # (标题)、- (列表)、** (加粗) 能告诉 LLM 哪些是核心字段,哪些是附属说明。纯 OCR 只是散乱的行,LLM 需要耗费额外的算力去猜测“谁是谁的标题”。
  2. 表格处理: 这是 Markdown 最大的优势。纯 OCR 识别表格通常会变成一串乱序的数字和文字,LLM 极难还原。而 Markdown 的表格格式(|---|)能完美保留行列关系。
  3. Token效率: 相比于带坐标的 JSON(纯 OCR 原始输出),Markdown 去掉了冗余的像素位置信息,只保留结构。这能节省 50%-80% 的 Token,同时降低 LLM 的推理成本和幻觉概率。

PP-Structure出现的问题

在结构化模型里,“image”块默认被当作非文本区域处理。

在提取银行卡和身份证时,往往是人手拍图,与pdf文档不同的是:身份证和银行卡会被打上image标签。就会产生以下问题:

  • 即使 OCR 模型在图片区域内识别到了文字坐标和内容,也提取不到其中的文字。
  • 它担心如果把图里的文字也转成 Markdown,会造成排版混乱(比如流程图、架构图里的文字乱序堆叠)。

Markdown 生成器在处理 image 类型的块时,优先级是保留图像引用,而不是提取其中的文字。

现在的解决方案

由于数据量不大,我现在是直接将图像扔给多模态模型,让多模态模型直接提取结构化数据。

媒体流接口响应体(Response)

现在需要将文本转换为音频,实时播放给前端,响应方式与之前的Web API(JSON 接口)有些不同

  1. FastAPI 默认的 return JSON 行为(JSONResponse)
    把Python对象转成JSON,JSON序列化
    设置响应头:Content-Type: application/json
  2. 文件接口响应体(Response)
    传统的“全量交付”文件,HTTP需要明确Content-Type。
    音频文件是二进制流,尽量不让 FastAPI自动推断,通过以下代码指定:
    return Response(content=audio_bytes, media_type="audio/wav")
  3. 媒体流接口响应体(StreamingResponse)
    高效的“分块传输”文件。
    服务器开启一个迭代器(Generator) 👉 产生一块数据(Chunk) 👉 立即发送给客户端 👉 重复直到结束。
    return StreamingResponse(BytesIO(audio_bytes),media_type="audio/wav")
    内存占用极低。无论文件多大,服务器内存里通常只存当前发送的那一小块数据。

会议内容实时转文字中说话人分离(Diarization)

今天准备部署一个能让说话人分离的模型,发现funasr框架中本身就支持说话人分离,于是开始学习

从funasr文档中得知,cam ++(Diarization)模型使用非常简单,

model = AutoModel(model="paraformer-zh",punc_model="ct-punc", spk_model="cam++" 👈说话人分离模型)

阅读funasr得知,通常模型输入限制时长30s以下,组合vad_model后,才能支持任意时长音频输入,所以这个会议记录场景中vad模型是必须的。

以上暂时是初步学习funasr除了语音转文字以外的其他功能。

http://www.jsqmd.com/news/411537/

相关文章:

  • 2026年2月四川焊机/空压机/发电机/二保焊机/激光焊机/租赁公司竞争格局深度分析:从设备提供商向综合服务商的范式转移 - 2026年企业推荐榜
  • RAG系统优化
  • 2026年无害化设备厂家联系电话推荐:精选推荐与使用指南 - 品牌推荐
  • 2026年无害化设备厂家联系电话推荐:专业服务直达 - 品牌推荐
  • 2026 西北建筑拆除加固领域实力甄选:五大专业服务商深度解析 - 深度智识库
  • 2026车库门优质厂家推荐指南:自动车库门/车库门价格/车库门厂家/车库门厂家推荐/铝合金卷帘门/防火车库门/选择指南 - 优质品牌商家
  • SCI 论文数据可视化:核心 “语言” 的高效工具推荐
  • 水雨情监测设备技术原理与应用分析
  • 小白速通AI大模型:2026年三个月极简学习路线,从零基础到能干活
  • 板刷AGC001の题解
  • 2026年诚信的碳纤维注塑件,LFT碳纤维注塑,碳纤维注塑制品厂家用户好评榜单 - 品牌鉴赏师
  • 2026年比较好的注塑LFT材料,增强LFT材料,耐高温LFT材料厂家选购选型指南 - 品牌鉴赏师
  • 【无标题】【干货收藏】0 基础网络安全学习指南:大学生高薪就业必备通关攻略
  • LORA无线数传终端:工业宽温稳定运行,代替485通讯
  • 2026宜宾不锈钢水塔优质厂家实力推荐榜:宜宾卧式水箱、宜宾平底保温水塔、宜宾方形水箱、宜宾方形消防水箱选择指南 - 优质品牌商家
  • 2026年2月四川发电机/逆变焊机/直流焊机/气刨机租赁公司选型指南:五强深度解析,谁能成为企业电力保障核心伙伴 - 2026年企业推荐榜
  • Why does Hindi have a large number of vowels。
  • LINQ 常用方法(按场景分类)
  • 工业级LORA无线数传终端:5KM无线传输,一对多通讯
  • 渗透测试学习路线全解析:零基础如何成长为专业渗透工程师?
  • 2026年口碑好的经颅磁治疗仪,经颅磁理疗仪,家用经颅磁刺激仪厂家优质推荐 - 品牌鉴赏师
  • 英文期刊推荐——当天录用 | 各种检索/快速见刊 |教育、经济、管理等多学科方向 | 英文期刊征稿通知 | 征稿开启,职称晋升/硕博毕业
  • 深度测评 10个 AI论文工具:自考毕业论文+开题报告高效写作指南
  • 防霉片优质厂家排行榜 高性价比推荐 - 优质品牌商家
  • 2026年正规的增强LFT材料,轻量化LFT材料,长碳纤LFT材料厂家优质推荐名录 - 品牌鉴赏师
  • 渗透工程师成长路线:从零到精通,完整学习路径与就业指南
  • 写论文省心了!千笔,顶流之选的AI论文平台
  • MySQL数据库开启远程访问权限(转)
  • 【复现】基于自适应控制的多智能体系统的自适应双连通时变编队控制Matlab仿真、有向拓扑
  • 2026年社交破冰工具深度测评:从“匹配成功”到“线下奔现”,普通人究竟卡在了哪一步?