当前位置：首页 > news >正文

Phi-3-vision-128k-instruct精彩案例：同一张建筑图纸多轮追问——结构/材料/造价逐层解析

news 2026/7/11 18:51:32

Phi-3-vision-128k-instruct精彩案例：同一张建筑图纸多轮追问——结构/材料/造价逐层解析

1. 模型简介

Phi-3-Vision-128K-Instruct是一个轻量级的多模态模型，专注于高质量的文本和视觉数据处理能力。这个模型最突出的特点是支持长达128K的上下文长度，能够处理复杂的图文交互任务。

作为Phi-3模型家族的一员，它经过了严格的训练过程：

使用合成数据和精选公开网站数据训练
经过监督微调和直接偏好优化
具备精确的指令遵循能力
内置强大的安全措施

2. 部署与验证

2.1 部署确认

使用以下命令检查模型是否部署成功：

cat /root/workspace/llm.log

成功部署后，日志会显示模型已就绪并等待请求。

2.2 前端调用验证

模型通过Chainlit前端进行交互验证：

打开Chainlit前端界面
等待模型完全加载
上传图片并提问

示例验证过程：

上传建筑图纸图片
提问："图片中是什么？"
模型应能准确识别图纸内容

3. 建筑图纸多轮解析案例

3.1 初始识别

上传一张建筑平面图，进行基础识别：

用户提问：这张图片展示的是什么内容？

模型回答：这是一张商业建筑的平面设计图，展示了二层办公区域的布局，包括会议室、办公区和公共空间的位置关系。

3.2 结构分析追问

用户提问：请分析这张图纸中的主要承重结构设计

模型回答：从图纸可以看出：

采用框架剪力墙结构体系
核心筒位于建筑中部，包含电梯和楼梯间
外围柱网间距约8米
楼板厚度标注为150mm
主要梁高600mm

3.3 材料规格询问

用户提问：图纸中使用了哪些主要建筑材料？规格如何？

模型回答：根据图纸标注：

结构部分：
- 混凝土强度C30用于主体结构
- 钢筋采用HRB400级
围护部分：
- 外墙为200mm厚加气混凝土砌块
- 玻璃幕墙采用6+12A+6中空玻璃
装饰部分：
- 地面主要为800×800mm瓷砖
- 吊顶为600×600mm矿棉板

3.4 造价估算探讨

用户提问：基于这张图纸，估算每平方米的建造成本大约是多少？

模型回答：根据当前市场行情和图纸信息，初步估算：

土建部分：约1800-2200元/㎡
安装工程：约400-500元/㎡
装饰装修：约800-1000元/㎡
总计：3000-3700元/㎡

注：实际造价需考虑地区差异、施工条件和具体材料品牌等因素。

4. 技术亮点解析

4.1 多轮对话能力

Phi-3-Vision在此案例中展现了出色的多轮对话能力：

能记住前文讨论的图纸内容
每次回答都基于之前对话的上下文
逐步深入分析不同专业层面的问题

4.2 专业术语理解

模型准确理解并使用了大量建筑专业术语：

结构体系类型识别
材料规格表述
造价构成分析
尺寸标注解读

4.3 跨领域关联

模型展现了跨领域知识关联能力：

将图纸信息与建筑材料关联
将设计参数与工程造价关联
将结构形式与施工工艺关联

5. 使用建议

5.1 最佳实践

清晰提问：明确说明需要分析的具体方面
逐步深入：从整体到细节分层提问
验证关键数据：重要数据建议交叉验证
结合专业判断：将模型输出与专业知识结合

5.2 注意事项

超大图纸可能需要分段处理
非常规设计可能需要额外说明
造价估算仅供参考，需结合当地实际
关键结构问题建议咨询专业工程师

6. 总结

通过这个建筑图纸多轮解析案例，我们看到了Phi-3-Vision-128K-Instruct模型在专业图文对话方面的强大能力：

精准识别：能准确理解建筑图纸内容
深度分析：可逐层解析结构、材料、造价等专业问题
连贯对话：保持多轮对话的上下文一致性
专业表达：使用恰当的行业术语和表述方式

这种能力不仅适用于建筑领域，也可扩展至机械设计、电气图纸、工艺流程等多个专业领域的图文分析场景。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

查看全文

http://www.jsqmd.com/news/492735/

图表替代文字降AI率不会？看完这篇5分钟学会 - 还在做实验的师兄

基于立创开发板（R7FA6E2BB3CNE）的MS5611气压传感器I2C驱动移植与数据读取实战

Youtu-VL-4B-Instruct WebUI稳定性压测：100并发持续2小时无内存泄漏报告

基于TI MSPM0G3507的土壤湿度传感器模块移植与自动浇花应用实战

Face3D.ai Pro开源大模型：基于ModelScope的cv_resnet50_face-reconstruction可商用方案

动态卷积避坑指南：从原理到实现的5个关键问题解析

GD32VW553开发板I2C驱动SHT20温湿度传感器移植实战

AFSim 2.9任务处理器实战：从零配置有限状态机到任务分配

22潘长栋

解决 VS2026 使用卡顿的问题

Cascade R-CNN实战：如何用PyTorch一步步实现高精度目标检测（附完整代码）

亲测好用 9个降AIGC平台全场景通用测评，哪款最能帮你降AI率？

Phi-3-vision-128k-instruct开源可部署：轻量多模态模型本地化实践指南

League Akari：基于LCU API的英雄联盟智能辅助工具全攻略

Dify评估系统插件安装终极 checklist，含OpenSSL版本冲突修复、CUDA驱动适配表及Judge模型权重校验密钥

2026年AI率从88%降到1.6%是怎么做到的？分享我的降AI经验 - 还在做实验的师兄

Phi-3-vision-128k-instruct智能助手：基于Chainlit的私有图文问答平台

大数据领域数据分片：优化数据传输的策略

零基础上手通义千问3-Reranker-0.6B：手把手教你搭建本地语义搜索裁判

Web安全实战：揭秘JetBrains IDE目录信息泄露漏洞的攻防策略

做了一个办公龙虾：自动生成Word，还能按指定模板填充（小白也能上手）

Havocs无感渗透实战解析

Phi-3-vision-128k-instruct部署教程：vLLM + Chainlit 在国产信创环境验证

告别白边！Windows窗口自定义的终极指南：保留阴影+可拖动+可调整大小

STK航空仿真：坐标系选择与转换实战指南

Qwen3-14B-Int4-AWQ入门：Python环境快速配置与模型调用第一行代码

【软件开发】在Ubuntu 18.04虚拟机上快速部署Python 3.12.2开发环境

Mathcad实战：LLC谐振电路公式推导全流程（附完整计算步骤）

STM32定时器输入捕获实战：从HAL库配置到精准脉宽与频率测量

Lingbot-Depth-Pretrain-ViTL-14 生成高质量深度图集：涵盖四大类经典视觉数据集