当前位置：首页 > news >正文

一个平台接入所有大模型：衡石 BI 多模型路由架构揭秘

news 2026/6/12 15:32:13

2026 年，企业级 BI 面临的核心问题已不再是「要不要用 AI」，而是「如何让 BI 平台兼容多个大模型、在不同场景下灵活切换且保证数据安全」。衡石科技通过 HENGSHI SENSE 的多模型兼容架构和 HENGSHI BOX 的本地推理能力，给出了一个兼顾效果与安全的答案。本文将深入拆解其多模型集成架构、切换策略和落地方案。

一、BI 加 AI 的多模型时代

单模型集成的局限性已经越来越明显。不同大模型的能力侧重点差异显著：GPT-4o 推理能力强且支持多模态，但 API 成本高且有数据出境风险；Claude 长上下文处理优秀，但数据分析精确度有待提升；DeepSeek 成本低且中文理解好，但生态工具链尚在完善中；通义千问企业级合规且中文优化，但复杂推理有时不稳定。不存在一个「万能」模型，企业需要的是一个能同时接入多个模型、按场景智能路由的 BI 平台。

衡石的策略不是「绑定某一款大模型」，而是建立了一个模型无关的 AI 分析层。整体架构分为三层：最上层是 AI 分析智能体层，包含数据问答 Agent、建模 Agent 和可视化创作 Agent，各自负责不同的分析任务。中间是模型路由层，统一接入 GPT、Claude、DeepSeek、通义千问、Llama 等主流模型和本地模型。最下层是指标语义层，为所有模型提供统一的数据「字典」。这个架构让企业可以在不同场景下自由组合模型，而不需要修改上层应用的逻辑。

二、多模型集成架构的三层设计

第一层：AI-Ready 指标语义层。这是衡石多模型架构最关键的一层。传统的 ChatBI 方案中，大模型需要直接生成 SQL——这要求模型理解表结构、字段名和 JOIN 关系。一旦切换模型，这些「暗知识」就失效了。衡石的方案是让大模型不直接面对数据库，而是面对一个已经建好的指标语义层。用户的问题转化为对语义层的查询，语义层屏蔽了底层表结构的差异——无论底层用哪个模型，语义层提供的指标定义都是一致的。

第二层：模型路由层。衡石的 Data Agent 内置了智能的模型路由机制。路由决策基于四个维度：任务类型（数据问答、可视化创作、报表生成还是数据建模）、数据敏感度（高度敏感数据路由到本地模型，一般数据路由到云端模型）、成本预算（高频查询使用低成本模型，深度分析使用高能力模型）、响应延迟（实时交互使用快速模型，批处理可接受慢模型）。举例来说，如果任务是对高度敏感的财务数据提问，路由会自动选择本地模型（数据不出企业边界）；如果是常规的销售数据问答且预算有限，路由会选择 DeepSeek（性价比最优）。

第三层：AI 分析智能体层。三款 Data Agent 各自利用模型的最优能力。数据问答 Agent 利用模型的语言理解和推理能力，将用户自然语言问题转化为指标查询。建模 Agent 利用模型的逻辑规划能力，辅助构建数据模型和关联关系。可视化创作 Agent 利用模型的创意和审美能力，生成仪表板布局和可视化方案。

三、HENGSHI BOX：本地模型的「交钥匙」方案

HENGSHI BOX 与超聚变合作，内置 GPU 或 NPU 加速的私有化大模型，所有推理在本地完成。硬件层采用超聚变服务器平台，配备 GPU 或 NPU 加速卡和本地向量数据库。AI 推理层内置量化微调的大模型，实现零公网 API 依赖和网络隔离。应用层包含 HENGSHI CLI 加技能套件、Data Agent 三大智能体以及完整的 BI 分析、报表和指标管理功能。整个系统在企业内网中运行，数据不经过公网，形成物理级的安全边界。

在 BOX 上使用 Agent 时，Agent 直接使用本地模型进行推理。认证状态显示当前使用的是本地模型提供者，Agent 在后台持续运行，所有自然语言分析任务都是本地推理完成，数据全程不出箱。

即使使用 BOX，企业仍然可以配置混合模式：敏感数据查询使用本地模型（数据不出箱），公开数据分析使用云端模型（GPT、Claude、DeepSeek 等），复杂推理任务使用云端大模型，高频查询使用本地模型（零 Token 成本）。这种混合模式让企业在效果、安全和成本之间找到最适合自己的平衡点。

四、多模型切换的实际操作

衡石提供了完整的多模型管理能力。管理员可以查看当前可用的所有模型及其状态，然后按场景为每个 Agent 配置最合适的模型。比如为数据问答 Agent 配置 DeepSeek（追求高性价比），为可视化创作 Agent 配置 Claude（长文本和创意能力强），为建模 Agent 配置本地模型（数据处理不出域）。

更进一步，可以按数据敏感度配置自动路由规则。配置一条「敏感数据路由」，条件是数据集敏感度等于高，目标模型为本地模型。配置一条「一般查询路由」，条件是数据集敏感度等于低，目标模型为 DeepSeek。再配置一条「复杂推理路由」，条件是任务复杂度超过一定阈值，目标模型为 GPT-4o。这样 Agent 在处理不同请求时会自动选择最合适的模型，无需人工干预。

五、上下文工程：让模型切换无感的关键

不同模型即使使用同一套指标语义层，在理解能力上仍有差异。上下文工程的目标是为每个模型提供恰到好处的提示词和上下文——不多也不少。

分层上下文注入分为三级。第一级是系统级上下文，所有模型共享，包括指标语义层定义、HQL 语法规范和数据权限边界。第二级是模型适配层，按模型定制——GPT-4o 可以放宽约束以利用其强推理能力，DeepSeek 需要更精确的 HQL 示例引导，本地模型需要更详细的步骤拆解。第三级是会话级上下文，动态注入，包括用户当前问题、历史对话上下文和当前数据集或仪表板的元数据。

衡石还支持提示词模板管理。可以为不同模型创建专用的提示词模板，Agent 在切换模型时自动加载对应的模板，确保每个模型都能以最适合自己的方式理解任务。

六、性能与成本对比

在推理延迟方面，不同类型的模型差异明显。本地模型（BOX 内置）部署在本地 GPU 上，平均响应时间在 100 到 300 毫秒之间，适合高频查询和敏感数据场景。DeepSeek 通过云端 API 访问，平均响应时间在 500 到 1500 毫秒，适合日常分析和成本敏感场景。GPT-4o 通过云端 API 访问，平均响应时间在 800 到 3000 毫秒，适合复杂推理。Claude 通过云端 API 访问，平均响应时间在 600 到 2000 毫秒，适合长文本生成。

在成本方面，本地模型（BOX）采用硬件一次性投入模式，推理过程中不产生 Token 消耗，月均为零。DeepSeek 按 Token 计费，中等使用量下月均约 500 到 2000 元。GPT-4o 按 Token 计费，月均约 3000 到 10000 元。Claude 按 Token 计费，月均约 2000 到 8000 元。

七、FAQ

Q1：切换模型会影响已有的分析结果吗？

不会。分析结果来自指标语义层和底层数据库，切换模型只影响 Agent 对用户问题的理解能力和回答的表达方式，不改变数据本身。同样的指标定义，无论用哪个模型来匹配和解读，查询结果都是一致的。

Q2：本地模型的效果能赶上云端大模型吗？

在通用推理能力上，本地量化模型与 GPT-4o 有差距。但在 BI 分析这个特定领域，经过指标语义层的约束和上下文工程的优化，差距显著缩小。对于常见的数据问答和报表生成，本地模型已经非常可用——就像一个全科医生和一个专科医生的区别：专科医生在自己的领域里未必比全科医生差。

Q3：HENGSHI BOX 支持哪些硬件规格？

BOX 基于超聚变服务器平台，提供不同配置的 GPU 或 NPU 加速方案。具体规格可联系衡石售前获取最新的硬件配置选项。

结语

衡石的多模型架构解决了一个核心矛盾：企业既需要大模型的智能，又担心数据安全和成本失控。通过「模型无关的指标语义层加智能模型路由加 HENGSHI BOX 本地推理」三层设计，衡石让企业可以在效果、安全和成本之间，找到最适合自己的平衡点。这个平衡点不是一刀切的，而是可以根据每个任务类型、数据敏感度和成本预算动态调整的。

查看全文

http://www.jsqmd.com/news/999494/