当前位置：首页 > news >正文

手把手教你构建建筑规范多模态知识库：文本+表格+图集大模型实战

news 2026/7/10 10:54:18

文章介绍了一种构建建筑设计规范多模态知识库的方法，包括将规范文本切片、表格转为HTML格式、图片通过多模态模型生成描述文本，然后统一向量化存储。通过FAISS索引实现语义检索，结合大模型实现智能问答，可同时检索并返回相关的文本、表格和图集信息。这种方法有效解决了建筑设计规范中多模态数据的处理和检索问题，提升了AI回答的准确性和完整性。

前言

通过前两篇文章，我们已经对RAG有了一个基本认识。这篇文章主要介绍建筑设计规范图集和表格的处理方式。

处理完成后，使图片、表格、规范正文可以同时被储存在知识库中，那么AI回答问题时，相关的图集和表格都会根据语义被检索并附在最终回答之后。

具体实现分为三步：
第一步：数据整理与数据清洗
第二步：将整理好的数据统一向量化并储存
第三步：搭建AI大模型问答流程

实战解析

第一步：数据整理

建筑师都知道，一份完整的规范是图文并茂的，其中也夹杂了大量的表格。想要做出好的问答效果，不同类型的数据需要不同的处理方式。

文本处理方式

规范文本内容一般非常多，在向量化时需要先进行切片处理。因此我将所有规范原文提取，以markdown格式保存。

表格处理方式

将规范原文中的每一个表格单独抽取出来，以html格式保存。后续每一个表格可以单独作为一个切片，最大化保留表格语义。

图片处理方式

将图片用多模态大模型进行详细的描述，保存为对应的图片描述文本。其实就是给图片打了一个文字标签。

数据结构

• description文件夹中保存的是图片描述
• images文件夹中保存的是原图片
• table文件夹中保存的是规范中所有表格
• 最后是纯文字版的《民用建筑设计统一标准》

knowledge_base/├── description/│ ├── 1. 建筑基地,道路红线,用地红线,建筑控制线.txt│ ├── 2. 建筑密度.txt│ ├── ... (共10个txt文件)├── images/│ ├── 1. 建筑基地,道路红线,用地红线,建筑控制线.png│ ├── 2. 建筑密度.png│ ├── ... (共10个png文件)├── table/│ ├── 1. 厕所和浴室隔间的平面尺寸.html│ ├── 2. 独立瓶组间与建筑的防火间距(m).html│ ├── ... (共8个html文件)└── 民用建筑设计统一标准GB50352-2019 - 无表格.txt

以上内容构成了一个完整的《民用建筑统一标准》知识库数据集。图片来自和《民用建筑统一标准》配套的图集。但整个图集页数太多，所以我只选取了前10页来做演示。

第二步：数据向量化并储存

数据向量化我选择的是文本嵌入模型，因此在前一步中，所有数据都需要处理成文本格式。

当然也可以选择使用多模态嵌入模型，这样就不用对图片打标签，可以直接对图片进行向量化。但我个人觉得这种方法缺少对图片语义的精确控制。

文本向量化

对长文本进行切片的方式有很多种，但是对于建筑规范问答这种场景，还是要尽量保证上下文语义。以下图片我处理过后的规范文本的一个片段展示。

我在数据处理的阶段，已经有意识的将合适的小节以空行隔开。因此切片时是以两个换行符作为分隔标志。

文本切片的元数据如下所示：

• id：所有知识条目的统一编号
• source：本条知识的来源
• type：本条知识的类型
• chunk_index：文本切片的编号
• content：本条知识的具体内容

"id": 44,"source": "民用建筑设计统一标准GB50352-2019 - 无表格.txt","type": "norm_text","chunk_index": 44,"content": xxxx

表格向量化

通常我们看到的表格是数据及数据结构的图形化表达。但是，html可以用编码的形式准确的描述这种图形化表达，这也最大程度的还原了表格的语义。

另外，如果一个表格被切片成两段，那么他的语义完整性会被严重破坏，因此我们会将一个单独的表格视为一个独立的知识切片进行向量化。

表格的元数据如下所示：

• id：所有知识条目的统一编号
• source：本条知识的来源
• type：本条知识的类型
• table_file：表格文件的目录
• table_name：表格的名称
• content：表格的具体内容

"id": 60, "source": "HTML表格: 各场所的照明评价指标.html", "type": "html_table", "table_file": "knowledge_base\\table\\各场所的照明评价指标.html", "table_name": "各场所的照明评价指标.html", "content":xxxx

图片向量化

本质是将图片的文本描述向量化，然后再将文本描述与图片关联。检索时，是将问题与图片描述进行相似度比较，如果相似度较高，再根据元数据中记录的图片位置将图片取出并附在回答之后。

以下图片选自《民用建筑统一标准图示》

图片的元数据如下所示：

• id：所有知识条目的统一编号
• source：本条知识的来源
• type：本条知识的类型
• description_file：描述文本的目录
• image_path：图片的目录
• image_name：图片的名字
• content: 图片的具体内容（这里的内容就是图片描述）

"id": 54, "source": "图片描述: 6_建筑层高.txt", "type": "image_description", "description_file": "knowledge_base\\description\\6_建筑层高.txt", "image_path": "knowledge_base\\images\\6_建筑层高.png", "image_name": "6_建筑层高.png", "content":xxxx

第三步：搭建问答流程

用户输入查询问题时，代码会生成查询向量，在FAISS索引中获取所有相似结果并排序；同时也会对用户意图进行检测，看是否需要附上相关图片或表格。

根据意图筛选结果来构建最终提示词。最终提示词包含系统提示词、检索到的知识切片信息、原始用户问题。最后将组合后的提示词再发送给大模型生成回答，如果有需求则整合图片或表格文件到最终回答中。

我测试了两个问题，都可以成功检索出相应图片或表格
问题1：解释一下避难层的含义，并附上相应图集

问题2：楼梯踏步的尺寸要求是什么？请提供相关表格

总结

• 向量数据库：FAISS
• 嵌入模型：text-embedding-v4
• 视觉理解模型：qwen3-vl-plus
• 大模型：DeepSeek-V3
• 知识形式：规范文本、规范图集、HTML规范表格

将表格转换为HTML格式，本质是将数据及数据结构的图形化表达转化为纯文本格式的表达。将图集转换为文本描述，本质是对图片打标签。

当然也可以选择多模态嵌入模型直接对表格、规范图集进行向量化，但是该如何对语义进行校准呢?应用层应该比较难实现了，估计要涉及微调及模型的训练了。

最后

我在一线科技企业深耕十二载，见证过太多因技术更迭而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包：

✅AI大模型学习路线图
✅Agent行业报告
✅100集大模型视频教程
✅大模型书籍PDF
✅DeepSeek教程
✅AI产品经理入门资料

完整的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

为什么说现在普通人就业/升职加薪的首选是AI大模型？

人工智能技术的爆发式增长，正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议，到全国两会关于AI产业发展的政策聚焦，再到招聘会上排起的长队，AI的热度已从技术领域渗透到就业市场的每一个角落。

智联招聘的最新数据给出了最直观的印证：2025年2月，AI领域求职人数同比增幅突破200%，远超其他行业平均水平；整个人工智能行业的求职增速达到33.4%，位居各行业榜首，其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张，也让人才供需矛盾愈发突出。麦肯锡报告明确预测，到2030年中国AI专业人才需求将达600万人，人才缺口可能高达400万人，这一缺口不仅存在于核心技术领域，更蔓延至产业应用的各个环节。

资料包有什么？

①从入门到精通的全套视频教程⑤⑥

包含提示词工程、RAG、Agent等技术点

② AI大模型学习路线图（还有视频解说）

全过程AI大模型学习路线

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

④各大厂大模型面试题目详解

⑤ 这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频教程由智泊AI老师录制，且资料与智泊AI共享，相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌，通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌，构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论，还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

如果说你是以下人群中的其中一类，都可以来智泊AI学习人工智能，找到高薪工作，一次小小的“投资”换来的是终身受益！

应届毕业生‌：无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌：非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈：传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。