当前位置: 首页 > news >正文

手把手教你构建建筑规范多模态知识库:文本+表格+图集大模型实战

文章介绍了一种构建建筑设计规范多模态知识库的方法,包括将规范文本切片、表格转为HTML格式、图片通过多模态模型生成描述文本,然后统一向量化存储。通过FAISS索引实现语义检索,结合大模型实现智能问答,可同时检索并返回相关的文本、表格和图集信息。这种方法有效解决了建筑设计规范中多模态数据的处理和检索问题,提升了AI回答的准确性和完整性。


前言

通过前两篇文章,我们已经对RAG有了一个基本认识。这篇文章主要介绍建筑设计规范图集表格的处理方式。

处理完成后,使图片、表格、规范正文可以同时被储存在知识库中,那么AI回答问题时,相关的图集和表格都会根据语义被检索并附在最终回答之后。

具体实现分为三步:
第一步:数据整理与数据清洗
第二步:将整理好的数据统一向量化并储存
第三步:搭建AI大模型问答流程

实战解析

第一步:数据整理

建筑师都知道,一份完整的规范是图文并茂的,其中也夹杂了大量的表格。想要做出好的问答效果,不同类型的数据需要不同的处理方式。

文本处理方式

规范文本内容一般非常多,在向量化时需要先进行切片处理。因此我将所有规范原文提取,以markdown格式保存。

表格处理方式

将规范原文中的每一个表格单独抽取出来,以html格式保存。后续每一个表格可以单独作为一个切片,最大化保留表格语义。

图片处理方式

将图片用多模态大模型进行详细的描述,保存为对应的图片描述文本。其实就是给图片打了一个文字标签。

数据结构

  • • description文件夹中保存的是图片描述
  • • images文件夹中保存的是原图片
  • • table文件夹中保存的是规范中所有表格
  • • 最后是纯文字版的《民用建筑设计统一标准》
knowledge_base/├── description/│ ├── 1. 建筑基地,道路红线,用地红线,建筑控制线.txt│ ├── 2. 建筑密度.txt│ ├── ... (共10个txt文件)├── images/│ ├── 1. 建筑基地,道路红线,用地红线,建筑控制线.png│ ├── 2. 建筑密度.png│ ├── ... (共10个png文件)├── table/│ ├── 1. 厕所和浴室隔间的平面尺寸.html│ ├── 2. 独立瓶组间与建筑的防火间距(m).html│ ├── ... (共8个html文件)└── 民用建筑设计统一标准GB50352-2019 - 无表格.txt

以上内容构成了一个完整的《民用建筑统一标准》知识库数据集。图片来自和《民用建筑统一标准》配套的图集。但整个图集页数太多,所以我只选取了前10页来做演示。

第二步:数据向量化并储存

数据向量化我选择的是文本嵌入模型,因此在前一步中,所有数据都需要处理成文本格式。

当然也可以选择使用多模态嵌入模型,这样就不用对图片打标签,可以直接对图片进行向量化。但我个人觉得这种方法缺少对图片语义的精确控制。

文本向量化

对长文本进行切片的方式有很多种,但是对于建筑规范问答这种场景,还是要尽量保证上下文语义。以下图片我处理过后的规范文本的一个片段展示。

我在数据处理的阶段,已经有意识的将合适的小节以空行隔开。因此切片时是以两个换行符作为分隔标志。

文本切片的元数据如下所示:

  • • id:所有知识条目的统一编号
  • • source:本条知识的来源
  • • type:本条知识的类型
  • • chunk_index:文本切片的编号
  • • content:本条知识的具体内容
"id": 44,"source": "民用建筑设计统一标准GB50352-2019 - 无表格.txt","type": "norm_text","chunk_index": 44,"content": xxxx

表格向量化

通常我们看到的表格是数据及数据结构的图形化表达。但是,html可以用编码的形式准确的描述这种图形化表达,这也最大程度的还原了表格的语义。

另外,如果一个表格被切片成两段,那么他的语义完整性会被严重破坏,因此我们会将一个单独的表格视为一个独立的知识切片进行向量化。

表格的元数据如下所示:

  • • id:所有知识条目的统一编号
  • • source:本条知识的来源
  • • type:本条知识的类型
  • • table_file:表格文件的目录
  • • table_name:表格的名称
  • • content:表格的具体内容
"id": 60, "source": "HTML表格: 各场所的照明评价指标.html", "type": "html_table", "table_file": "knowledge_base\\table\\各场所的照明评价指标.html", "table_name": "各场所的照明评价指标.html", "content":xxxx

图片向量化

本质是将图片的文本描述向量化,然后再将文本描述与图片关联。检索时,是将问题与图片描述进行相似度比较,如果相似度较高,再根据元数据中记录的图片位置将图片取出并附在回答之后。

以下图片选自《民用建筑统一标准图示》

图片的元数据如下所示:

  • • id:所有知识条目的统一编号
  • • source:本条知识的来源
  • • type:本条知识的类型
  • • description_file:描述文本的目录
  • • image_path:图片的目录
  • • image_name:图片的名字
  • • content: 图片的具体内容(这里的内容就是图片描述)
"id": 54, "source": "图片描述: 6_建筑层高.txt", "type": "image_description", "description_file": "knowledge_base\\description\\6_建筑层高.txt", "image_path": "knowledge_base\\images\\6_建筑层高.png", "image_name": "6_建筑层高.png", "content":xxxx

第三步:搭建问答流程

用户输入查询问题时,代码会生成查询向量,在FAISS索引中获取所有相似结果并排序;同时也会对用户意图进行检测,看是否需要附上相关图片或表格。

根据意图筛选结果来构建最终提示词。最终提示词包含系统提示词检索到的知识切片信息原始用户问题。最后将组合后的提示词再发送给大模型生成回答,如果有需求则整合图片或表格文件到最终回答中。

我测试了两个问题,都可以成功检索出相应图片或表格
问题1:解释一下避难层的含义,并附上相应图集

问题2:楼梯踏步的尺寸要求是什么?请提供相关表格

总结

  • • 向量数据库:FAISS
  • • 嵌入模型:text-embedding-v4
  • • 视觉理解模型:qwen3-vl-plus
  • • 大模型:DeepSeek-V3
  • • 知识形式:规范文本、规范图集、HTML规范表格

将表格转换为HTML格式,本质是将数据及数据结构的图形化表达转化为纯文本格式的表达。将图集转换为文本描述,本质是对图片打标签。

当然也可以选择多模态嵌入模型直接对表格、规范图集进行向量化,但是该如何对语义进行校准呢?应用层应该比较难实现了,估计要涉及微调及模型的训练了。

​最后

我在一线科技企业深耕十二载,见证过太多因技术更迭而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包:

  • ✅AI大模型学习路线图
  • ✅Agent行业报告
  • ✅100集大模型视频教程
  • ✅大模型书籍PDF
  • ✅DeepSeek教程
  • ✅AI产品经理入门资料

完整的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇
​​

为什么说现在普通人就业/升职加薪的首选是AI大模型?

人工智能技术的爆发式增长,正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议,到全国两会关于AI产业发展的政策聚焦,再到招聘会上排起的长队,AI的热度已从技术领域渗透到就业市场的每一个角落。


智联招聘的最新数据给出了最直观的印证:2025年2月,AI领域求职人数同比增幅突破200%,远超其他行业平均水平;整个人工智能行业的求职增速达到33.4%,位居各行业榜首,其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张,也让人才供需矛盾愈发突出。麦肯锡报告明确预测,到2030年中国AI专业人才需求将达600万人,人才缺口可能高达400万人,这一缺口不仅存在于核心技术领域,更蔓延至产业应用的各个环节。

​​

资料包有什么?

①从入门到精通的全套视频教程⑤⑥

包含提示词工程、RAG、Agent等技术点

② AI大模型学习路线图(还有视频解说)

全过程AI大模型学习路线

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了,这些是我精选出来的

④各大厂大模型面试题目详解

⑤ 这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频教程由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。


智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌,构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

​​​​

如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓**

http://www.jsqmd.com/news/345656/

相关文章:

  • 稀有金属深加工哪家强?纯钴颗粒、钨板、钽板厂家TOP5实力大比拼 - 深度智识库
  • 无人机视角智慧电力风力发电机叶片中心识别分割数据集labelme格式798张2类别
  • RAG2.0引擎设计挑战与实现:构建高效大模型应用的关键步骤
  • 2026年上海婚姻纠纷律所联系电话推荐:核心区域服务一览 - 十大品牌推荐
  • 2026年航空地面电源厂家哪家好?聚焦变频电源、中频静变电源与交直流负载系统选型指南 - 深度智识库
  • 2026年离婚律师联系电话推荐:专业靠谱榜单揭晓 - 十大品牌推荐
  • 说说南昌建筑水泥砖,水泥砖来样定制服务靠谱吗 - 工业设备
  • 2026年中国离婚财产律师联系电话推荐:关键联系信息与建议 - 十大品牌推荐
  • Claude Code 从入门到精通(八):MCP连接外部真实系统
  • GEO产业能力构建研究报告(2026):培训的价值、挑战与未来路径 - 短商
  • 2026口碑好的喂料机厂家直供,专业失重式喂料机厂家怎么选择 - 工业品牌热点
  • Vibe 编程:当下与未来
  • 大航海时代ol台服找Call记(五)终于找到海上的跟随Call
  • Claude Code 2.1:智能体操作系统
  • 2026年电力巡检无人机培训机构排名,揭秘陕西新华电脑学校优势 - 工业推荐榜
  • 当菜单选择变得危险:揭露Zomato小部件中的XSS漏洞
  • 2026年上海婚姻纠纷律所联系电话推荐:高效解决家事法律难题 - 十大品牌推荐
  • 【CDA案例】招聘软件大数据揭秘:数据分析岗的行业机会、薪资密码与能力要求
  • 基于SpringBoot的小区物业管理系统毕设源码
  • 2026年上海离婚房产律师联系电话推荐:高效解决房产分割 - 十大品牌推荐
  • 收藏!从“田垄”到“政务”,小白也能看懂的AI赋能日常(附大模型落地案例)
  • 让AI帮你消灭一整类重复劳动 - Skill能力模块化实战指南,从小白到高手的进阶之路
  • 【案例】京东如何靠数据驱动打用户留存战?解锁长期价值
  • 总结沈阳农村劳动力技工学校排名,美妆形象设计等短期专业受关注 - 工业品网
  • 基于SpringBoot的智慧社区管理系统毕设源码
  • 236_尚硅谷_客户管理系统-程序框架图(2)
  • 现代 CMake 最佳实践
  • 应对175℃地下高温:随钻测井系统DC-DC电源模块选型技术要点
  • 2026年一千京东卡回收多少钱(附全面值价格表) - 京回收小程序
  • 零开始构建企业级RAG应用:Dify与LangChain v1.0集成实战指南(含代码+收藏必备)