当前位置: 首页 > news >正文

Enhancing Building Semantics Preservation in AI Model Training with Large Language Model Encodings

Enhancing Building Semantics Preservation in AI Model Training with Large Language Model Encodings

Authors:Suhyung Jang, Ghang Lee, Jaekun Lee, Hyunjun Lee

Deep-Dive Summary:

利用大语言模型编码增强 AI 模型训练中的建筑语义保护

作者:Suhyung Jang, Chang Lee, Jaekun Lee, Hyunjun Lee
机构:延世大学建筑工程系(韩国);慕尼黑工业大学高等研究院(德国)

1. 引言

AI 在 AECO 行业的有效应用取决于建筑项目信息在机器可理解格式中的准确表示。以往研究多关注数据格式(如照片、点云、BIM 图),但往往忽视了编码方法的选择,默认使用 one-hot 或标签编码。虽然 LLM 嵌入在捕获领域特定语境方面表现出色,但其在 AI 模型训练中作为编码工具的潜力尚未得到充分开发。

本研究提出使用 LLM 嵌入作为编码(即“LLM 编码”),并在建筑对象子类型分类任务中通过 GraphSAGE 模型进行验证。实验对比了 one-hot 编码与 OpenAI 的 ‘text-embedding-3’ 系列及 Meta 的 ‘llama3’ 生成的嵌入,并探讨了维度压缩对语义保留的影响。

3. LLM 编码与 Matryoshka 表示模型

3.1 LLM 编码

在神经网络训练中,使用 LLM 编码需要修改损失计算方法。由于 LLM 嵌入处于高维空间,传统的 Sigmoid 函数会稀释语义特征。本研究将神经网络最后一层的维度设置为与目标 LLM 嵌入一致,并使用**余弦嵌入损失(Cosine Embedding Loss)**计算输出嵌入e p e_pep与目标嵌入e t e_tet之间的差异:

L ( e p , e t ) = 1 − e p ⋅ e t ∥ e p ∥ ∥ e t ∥ ( 1 ) L(\mathbf{e}_p,\mathbf{e}_t) = 1 - \frac{\mathbf{e}_p\cdot\mathbf{e}_t}{\|\mathbf{e}_p\|\|\mathbf{e}_t\|} \quad (1)L(ep,et)=1ep∥∥etepet(1)

3.2 Matryoshka 表示模型

为了应对高维嵌入带来的计算效率问题,研究采用了 Matryoshka 表示模型,将高维嵌入投影到低维空间(如 1,024 维),同时保留关键语义特征。

5. 结果

如表 2 所示,随着 LLM 嵌入性能的提升,加权平均 F1 分数也随之增加。

表 2. 不同编码类型的加权平均 F1 分数

编码类型维度加权平均 F1 分数
One-hot 编码420.8475
One-hot 编码1,0240.8705
text-embedding-3-small1,536 (原始)0.8498
text-embedding-3-small1,0240.8655
text-embedding-3-large3,072 (原始)0.8529
text-embedding-3-large1,024 (压缩)0.8766
llama-34,096 (原始)0.8714

5.1 One-hot 与 LLM 编码对比

统计分析显示,压缩后的 ‘text-embedding-3-large’ 相比 one-hot 编码具有显著的性能提升 (p = 0.006596 p = 0.006596p=0.006596)。这表明压缩过程可能在去除噪声的同时保留了关键语义线索。

5.2 LLM 编码之间的对比

在压缩格式下,不同 LLM 编码之间表现出显著差异(表 6)。‘llama-3 (compacted)’ 得益于其庞大的训练基数和参数量,表现优异。结果还显示,压缩后的嵌入往往优于原始高维嵌入,这可能是因为当前使用的 AI 模型(GraphSAGE)规模尚不足以充分捕捉极高维度的全部语义。

7. 结论

本研究通过引入 LLM 嵌入作为编码,解决了 AI 模型中建筑语义的保留与丰富问题。实验证明 “llama-3 (compacted)” 等编码在 BIM 对象分类中显著优于 one-hot 编码。这一框架为 AECO 领域的从业者和研究人员提供了一个提升 AI 模型准确性和语义忠实度的可行方案。


致谢

本项目由韩国国土交通部(KAIA)和德国慕尼黑工业大学高等研究院(TUM-IAS)汉斯·费舍尔高级奖学金项目资助。

Original Abstract:Accurate representation of building semantics, encompassing both generic object types and specific subtypes, is essential for effective AI model training in the architecture, engineering, construction, and operation (AECO) industry. Conventional encoding methods (e.g., one-hot) often fail to convey the nuanced relationships among closely related subtypes, limiting AI’s semantic comprehension. To address this limitation, this study proposes a novel training approach that employs large language model (LLM) embeddings (e.g., OpenAI GPT and Meta LLaMA) as encodings to preserve finer distinctions in building semantics. We evaluated the proposed method by training GraphSAGE models to classify 42 building object subtypes across five high-rise residential building information models (BIMs). Various embedding dimensions were tested, including original high-dimensional LLM embeddings (1,536, 3,072, or 4,096) and 1,024-dimensional compacted embeddings generated via the Matryoshka representation model. Experimental results demonstrated that LLM encodings outperformed the conventional one-hot baseline, with the llama-3 (compacted) embedding achieving a weighted average F1-score of 0.8766, compared to 0.8475 for one-hot encoding. The results underscore the promise of leveraging LLM-based encodings to enhance AI’s ability to interpret complex, domain-specific building semantics. As the capabilities of LLMs and dimensionality reduction techniques continue to evolve, this approach holds considerable potential for broad application in semantic elaboration tasks throughout the AECO industry.

PDF Link:2602.15791v1

部分平台可能图片显示异常,请以我的博客内容为准

http://www.jsqmd.com/news/392103/

相关文章:

  • 导师又让重写?8个降AI率软件降AIGC网站:本科生必看的降重测评与推荐
  • Emergent Morphing Attack Detection in Open Multi-modal Large Language Models
  • UMAMI 如何做 私有化部署 在winserver 2022 上
  • 横评后发现,一键生成论文工具更适配本科生,千笔·专业论文写作工具 VS 灵感风暴AI
  • KingbaseES数据库MongoDB兼容模式实战:协议级兼容实现业务平滑迁移深度解析:原理、实战与踩坑记录
  • 苏州无人机培训破局:龙埔航空‘全链路实战赋能’方法论如何解决‘有证不会飞’难题? - 速递信息
  • 2026塑料药瓶深度选型指南:智能溯源与合规安全下的匹配策略 - 速递信息
  • 2026阀门电动装置厂家推荐:常州天勤等5家综合实力品牌测评 - 速递信息
  • 2026年质感岩板选华岩品致:从肌理到交付的全维升级方案 - 速递信息
  • 新生儿纸尿裤排行榜10强|2026年度专业选购指南 - 速递信息
  • Claude Sonnet 4.6空降!Office性能干翻旗舰模型,软件股哀嚎一片
  • 分账系统选型避坑指南:持牌机构VS四方系统,企业该如何选择? - 速递信息
  • Moxan工业服介绍
  • 线上A-Level课程辅导选购指南:不同学习目标下的机构对比与产品解析 - 品牌测评鉴赏家
  • 无人机全自动巡田分析,输入航拍图,处理,拼接+长势分析,输出,农田健康地图。
  • 剪映专业版实战:用百度AI制作《三月里的小雨》养生音乐MV
  • 2026年不锈钢天沟厂家大盘点,选对不踩雷, 304 不锈钢冷热轧板材/排水系统/不锈钢角钢,不锈钢天沟生产加工哪个好 - 品牌推荐师
  • 深入解析:长沙西贝莜面村的门店都分布在哪些位置?纯Java实现一个POI下载器一探究竟
  • 从PHP后端转Java后端代码 实现获取当前登录信息 - 教程
  • 基于遗传优化算法优化蚁群算法关键参数。 Ga-ACO,解决蚁群优化受参数影响较大的问题,将阿尔...
  • LLM大模型开发核心-LangChain框架实战
  • 美通卡闲置别闲!回收变现解锁生活新可能 - 京顺回收
  • eScan杀毒软件供应链攻击剖析和解读:一次针对信任链的精准打击
  • P4514 学习笔记
  • Web3学习笔记:Day2-Solidity基础语法
  • 别再瞎找了!千笔,行业天花板级的降AI率网站
  • 亲测好用! AI论文平台 千笔ai写作 VS 锐智 AI 本科生专属
  • 少走弯路:AI论文软件,专科生首选!千笔AI VS 万方智搜AI
  • 如何使用 Sugar Calendar 插件打造一个可销售活动门票的 WordPress 网站
  • 放弃QQ截图后,我被这款免费神器拿捏了,F1截图+F3贴图太香了