当前位置：首页 > news >正文

149期目录黄大年茶思屋“难题揭榜”第149期--云核心网领域第四期

news 2026/6/30 3:12:07

难题 1：视频通话场景下的基于 3DGS 的人体重建

一、技术背景

沉浸式视频通话要实现更强的空间感和临场体验，本质上需要依托空间计算等技术，比如对人和环境进行三维重建和呈现，这类能力显著提升远程交流的体验上限。当前微软、谷歌、苹果纷纷推出了相关技术原型和产品，进一步验证了行业发展方向。但目前方案对设备形态和算力条件仍具有较高要求，难以在大众家庭场景普及。

谷歌 Beam：基于定制裸眼 3D 屏幕和多摄像头快速 3D 重建算法，可支持双目视差 + 移动端的 3D 效果，但造价高昂，面向高端 To C。
苹果 VR：Vision Pro 支持，基于 3DGS + 机器学习算法快速对人脸等区域重建，接近 95% 相似度，但头显普及率极低，且佩戴体验是痛点。
微软 VoluMe（原型）：在单张 RTX 4090 上端到端实现，基于前馈 3DGS 算法还原人脸区域，端到端处理速度 28fps，对终端算力要求高。

业务启发：当前 3DGS 和视觉大模型等技术发展迅猛，已具备基于单目视频流的实时 3D 重建和渲染潜力。依托云核心网网络的超低时延和稳定传输等核心能力，这类计算和呈现可以在网络侧完成，从而将原来依赖高算力终端的自由视角 3D 视频通话体验下沉至普通终端，实现真正的大众化可用。

二、技术挑战

单目场景下的几何一致性和语义稳健性不足：在单目条件下缺乏多视角约束，前馈 3DGS 或 3DGS 数字人等技术都容易出现几何漂移，语义结构错位等问题，从而出现不符合真实生理结构的结果，破坏通话体验。
面向视频通话场景的泛化能力有限：在家庭视频通话等高即时 + 高动态场景下，用户会做出快速头动，丰富的表情和手势变化等，且环境在光照和背景布局等上面具有高速随机性，导致训练数据难以充分覆盖，影响算法泛化性。
实时交互的端到端时延要求极其苛刻：现有技术实际端到端处理速度难以满足沉浸式通话的低延迟需求（>30fps）。

三、技术诉求

整体场景分为三个：一。对人脸和肩部以上区域重建；二。对人体全身重建；三。对人体和背景进行联合重建，基于 3DGS 提供有限角度内的人体重建方案。

可视范围要求：阶段一支持左右 40 度的可视范围；阶段二和阶段三支持左右 15 度的可视范围。
精度要求：重建结果要实现 PSNR>30dB，SSIM>0.95，LPIPS (VGG)<0.1，同时满足以下评分要求：
1. 身份一致性 (结构 / 动作 / 表情)：采用 5 分制，从 “明显不是本人” 到 “全程角度完全一致”，需要达到 4 分以上（可视角度内保持一致，边缘角度偶尔出现细微身份偏差）。
2. 无恐怖谷效应：采用 5 分制，从 “强烈不适” 到 “全程无任何不适”，需要达到 5 分。
3. 清晰度 (纹理和边缘细节)：采用 5 分制，从 “极度模糊” 到 “纹理清晰，边缘锐利”，需要达到 3 分以上 (皮肤、衣服、头发等纹理大体可辨，边缘较为清楚)。
4. 时序稳定性：采用 5 分制，从 “频繁闪烁跳动” 到 “全程连贯完全稳定”，需要达到 4 分以上 (动作、表情持续顺畅，跳动和闪烁极少且不易察觉)。
采样要求：如果存在离线采样建模阶段，用户数据采集时长需控制在 3min 以内（不含训练时间）；如果在视频通话开始前的一次性更新阶段（比如在线预热或模型更新等），处理时长需小于 10 秒。
性能要求：在单张 V100 / 单张 RTX5000 上端到端处理速度大于 30fps。
验证步骤：基于国内视频通话场景进行方案设计与自验证→基于华为提供的视频通话采集数据进行验证→真实视频通话环境中进行测试评估。

难题 2：AIoT（无源物联）的高精定位技术

一、技术背景

5G-A AIoT 首次把无源物联技术引入到 5G 当中，在 3GPP 全球 R19 标准中进行定义，AIoT 定位为仓储、物流、工业生产、城市治理提供万亿级低成本物联服务，主要聚焦资产、物料、成品、作业人员的管理定位，根据应用场景主要集中的 5\10 米、3\5 米和 1\3 级定位需求。当前支持 5\7 米的定位精度，无法满足绝大部分应用场景。

AIoT 定位是通过交换机供能采集 + 反向散射通信，构建无需维护的普适感知网络。利用环境中的既有能量（如射频信号、光、热等）为终端设备供能 + 反向散射通信，实现无源终端（又称标签）无电池、极低成本、超微型化的物联网通信技术。基本原理是利用环境射频信号的反射特征，分析信号强度（RSSI）实现定位服务。

二、技术挑战

复杂环境中的信号特征不稳定：仓储环境复杂堆叠、遮挡情况严重，仓库中存放大量物品存在多径干扰，金属物品存在反射；
基于时间域测量的定位算法精度低：AIoT 为窄带通信，带宽仅有 180K，信号分辨率低，传统基于时间域定位算法时时钟同步精度要求较高，难以在实际生产中应用；
基于指纹定位算法：基于指纹库需要采集大量的数据，定期维护成本高，环境和场景变化对算法精度影响大；
基于三角场强定位算法：依赖与场强信号的测量，受遮挡和多径影响大，精度低。

三、技术诉求

定位算法：采用不限于信号处理、信道建模、数据合成等方法，提供低成本可实施的采样方案，可以考虑结合别的手段来采集，构建面向无源定位的低成本高精度定位算法，提供 3 米级定位估计精度（90%）。验证：完成方案设计 -> 基于华为实验室数据测试验证 -> 基于真实环境数据验证上述性能指标。

难题 3：[确定性] AI Agent 任务成功率的确定性保证技术

一、技术背景

电信领域基于 AI Agent 构筑体验保障、运维表单填充、告警日志分析及处理等能力，同时也通过构筑 AI Agent 服务自主完成算力主机进行伴学、伴老、家居智控等任务。面对这些真实环境的长时任务，AI Agent 的成功率并不高。如果 Agent 工作流的每一步有 95% 的可靠性，那么：5 步下来，成功率是 77%；20 步下来，成功率是 36%。Agent 复杂任务超过了 100 步（OSWorld 评测），成功率保证存在巨大挑战。模型输出结果存在不可复现性（Reproducibility）、不一致性（Unconsistency）和不确定性（Nondeterminism），AI Agent 任务依赖模型进行任务分解、步骤规划、工具调用、记忆检索等，每一次决策均会引入不确定性，导致任务端到端成功率很难有确定性保证。

二、技术挑战

Agentic 模型幻觉导致输出不确定：语言或多模态大模型预训练的数据本身包含错误或偏见信息，数据存在固有边界，训练过程存在不合适的激励机制；大模型本身的局限性，包括自回归单向表征、注意力稀释、不完美解码策略等，均会带来幻觉。
Agentic 模型推理过程的不确定：推理过程中，浮点数有限精度和舍入误差、浮点数非结合性与并行计算，以及推理负载批组合变化性等均会带来不确定，导致推理结果不确定。
Agent 任务失败传播：单 Agent 内除了模型输出不确定，工具、记忆等也会带来错误，多 Agent 之间还存在协同失调、信息未对齐等问题，当交互轮次变多时，错误会被放大。

三、当前方案

模型幻觉缓解：提升训练数据质量（剔除错误信息，扩大知识边界等）；训练过程增强对齐，提升上下一致；多模态模型特征空间维度的引导 / 纠正。
模型推理的确定性保证：推理 temperature、top-k 等超参设置；消除 MoE 专家路由随机性；使用确定性算子，重写算子提升数据精度；推理批处理不变性；高精度计算硬件。
Harness 工程：Claude Code/OpenClaw 等尝试通过建立 Agent Loop 方式提高任务执行的鲁棒性，上下文驱动模型循环尝试可行路径，确保任务不因为方案失败而终止，一定程度上提高了成功率的确定性。

四、技术诉求

多 Agent 系统任务端到端成功率确定性保证：针对多 Agent 任务，从系统架构、Harness 工程和模型（免重训练）等多个维度提供理论支撑的标准定义及方案（性能及场景限定下），确保任务成功率稳定地保持在一个阈值内（比如任务成功率 > 80% 的确定性误差是 99.999%，可以表达为 P99.999@80%）。
成功率确定性的评价及失败拦截：定义成功率确定性的评价标准，给出确定性评测方案，提供失败监测能力，实现失败结果的 100% 拦截；如果是 Agent Loop 提升确定性，需要明确迭代次数限制。
验证步骤：针对华为提供的家庭智控等工具调用闭环场景，提供标准与方案设计 -> 基于华为提供的开源、业务白盒自验证 -> 业务黑盒验收，成功率（场景相关）的确定性满足 99.9%，失败拦截 100%。

难题 4：XRM 帧识别技术以及业务类型识别技术

一、技术背景

XR 等实时音视频业务的视频流按帧传输，逐帧周期到达，帧与帧之间到达间隔是几十 ms，与帧率相关。基站需要在 10ms 内将到达帧的全部数据发送给终端。帧内任何一个 IP 包丢失，端侧整帧无法解码，形成卡顿；参考帧传输失败，关联帧也无法解码，形成花屏。 10X 微突发导致空口丢包或时延增大，形成缺帧 / 滞帧，严重影响业务体验。 RTC 应用与网络互不感知，无法最大化利用网络资源提供更优质服务。

帧依赖关系：

帧内依赖：帧内全部包收到才能解码，丢包导致帧丢失，画面跳帧。
帧间依赖：B 帧解码和 P 帧解码都依赖 I 帧，帧依赖帧，I 帧影响～0.5 秒画面体验。业务实例：35Mbps 60ps 云 VR@10ms 级码率显示。

二、技术挑战

帧信息加密及私有协议：端侧生态对 R18 XRM 的协议栈支持度欠缺标准化，加密协议、私有协议应用多，仅通过明文解析方式难以达成目标。
超低资源开销：帧级识别请求量巨大，需要在极低的资源开销下完成大量的帧识别。
高实时性：体验不达标门槛是 XR 产业痛点，需要模型具备极高的识别实时性，提供带宽保障，消除时延不确定性。

三、当前结果

协议和明文解析：采用标准 RTP 协议且未加密的流量可以通过协议解析识别帧以及帧的类型，但明文应用数量少。
基于流量特征识别：根据包到达的时间间隔识别帧包关系，基于帧大小识别帧类型，识别准确率未达标且受网络环境影响大。
保障效果：仅对 I 帧进行保障如果 P 帧丢包仍对用户体验影响较大；分层编解码应用可仅对基础层流量进行保障，但难以区分应用是否有使用分层解码。

四、技术诉求

帧识别技术：完成 XRM 识别，涵盖 RTP、SRTP（RTP 载荷加密）、私有 UDP 协议，支持国内主流 13 个 APP 的 XRM 识别（详见应用列表）。完成帧包和帧类型标注和识别，在华为数据集识别准确率 95%+；识别帧首包和尾包，无需进行报文缓存。
高性能推理：ARM/X86 CPU 架构，（算力等同于昇腾 920C）单核推理时延 <=10us。
验证步骤：方案设计 -> 语料构建与标注 -> 方案自验证 -> 基于华为提供数据进行效果测试 -> 在对应硬件上完成性能测试同时达成以上技术诉求。

难题 5：面向云手机复杂任务的高效可靠 GUI VLA 模型技术

一、技术背景

GUI 操控是当前 AI + 自动化领域的热门方向，通过视觉理解和自主操作能力，这类智能体能够像人类一样理解和操作各种软件界面，推动着人机交互范式创新。GUI VLA（Vision-Language-Action）模型：给定用户目标需求、一系列 GUI 历史图片及历史 Action 操作记录，要求预测当前页面下应执行的最优 Action。

在高效方面，业界两种主流方案，难以在准确率与时延 / 成本之间实现最优平衡：

VLA 模型端到端执行
1. 技术特点：要求单一模型同时具备强规划、感知、决策三重能力
2. 性能瓶颈：通常需要大尺寸模型（如 UI-TARS-72B、Seed-VL-208B-A20B）才能达到实用效果，且仍需要针对特定场景进行后续强化能力
3. 业务痛点：单步调用时延高、成本昂贵，难以满足商用场景的实时性和经济性要求
规划 + VLA 执行
1. 技术特点：将规划和执行解耦，主要考验规划模型的能力
2. 性能瓶颈：VLA 执行依赖一个强大的规划模型（如 GPT-4o、GPT-5）生成 SOP，然后再让单步 VLA 执行，每步的规划算力消耗大
3. 业务痛点：单步规划调用成本高，同时单步 VLA 的适应性和泛化能力不足

在可靠方面，业界方案普遍 “只管执行、不管对错”，难以应对真实业务的复杂性：

意图层面：缺乏结合 GUI 状态的动态澄清能力，模糊指令下易误解用户真实意图，盲目执行导致任务失败。
执行层面：缺乏决策不确定性估计与 OOD 感知能力，长尾界面或高风险操作时无法触发人工接管，存在安全隐患。

二、技术挑战

长序列任务多步决策的累积误差传播：长链条执行中的任何单步错误都会导致后续步骤失效，对系统的精度和鲁棒性要求高。
动态复杂环境的适应性：云手机视频流压缩（画质损失、伪影）和网络延迟的抗干扰能力；APP 页面状态动态变化的适应能力；权限拒绝、系统弹窗等异常场景的处理能力。
高时延与实时体验瓶颈：GUI 交互要求极高的实时响应速度以保障用户体验，需要打破大模型高精度与低时延的跷跷板效应，兼顾复杂决策的高精度与端到端体验。

三、当前结果

主流开源模型在领域自建评测集（153 个测试用例）上的评测结果：

用例数量	涉及 APP	模型	指定场景准确率	泛化场景准确率
指定场景 54	京东、淘宝、美团、携程、高德	Qwen2.5-VL-7B UI-TARS-1.5-7B Qwen3-VL-8B Qwen3-VL-30B-A3B Qwen3-VL-235B-A22B	20.37% 57.41% 62.96% 53.70% 74.07%	31.31% 65.66% 72.73% 70.71% 75.76%
泛化场景 99	拼多多、饿了么、滴滴、去哪儿、抖音、头条、腾讯视频、QQ 音乐、今日头条、小红书、大众点评、支付宝	—	—	—

备注：指定场景为业主务打的核心应用场景；泛化场景为评估模型通用能力的覆盖更广的场景。

四、技术诉求

高精度与低时延的 GUI VLA 模型技术：基于主流开源模型，构建兼顾高精度与低时延的 GUI VLA 模型技术，包括但不限于模型压缩、动态推理、超长上下文、Token 压缩等技术路线，实现任务执行成功率 > 95%；高频常规交互的单步决策时延 <800ms，在全局全任务步骤中占比> 80%；复杂推理的单步输出限制在 < 180 tokens。
面向模糊指令的动态交互澄清与意图补全技术：构建结合动态 GUI 页面状态的意图消歧能力。针对任务执行过程中缺失关键参数（如规格、无法推进的场景），能够主动发起澄清，实现模糊指令下的意图补全率 > 95%。
面向开放环境的不确定性感知与可信执行技术：构建 VLA 模型决策不确定性估计与分布外 OOD 检测能力。在长尾未知界面或高风险操作，模型能够主动触发二次验证或人工接管，实现高风险 / 未知场景下的人工介入触发准确率 > 95%，误报率 < 5%。
验证步骤：方案设计 -> 基于华为提供的 GUI 任务评测集自验证 -> 真实云手机 / 物理手机中进行验证达成以上诉求。

查看全文

http://www.jsqmd.com/news/1093381/