149期目录 黄大年茶思屋“难题揭榜”第149期--云核心网领域第四期
难题 1:视频通话场景下的基于 3DGS 的人体重建
一、技术背景
沉浸式视频通话要实现更强的空间感和临场体验,本质上需要依托空间计算等技术,比如对人和环境进行三维重建和呈现,这类能力显著提升远程交流的体验上限。当前微软、谷歌、苹果纷纷推出了相关技术原型和产品,进一步验证了行业发展方向。但目前方案对设备形态和算力条件仍具有较高要求,难以在大众家庭场景普及。
谷歌 Beam:基于定制裸眼 3D 屏幕和多摄像头快速 3D 重建算法,可支持双目视差 + 移动端的 3D 效果,但造价高昂,面向高端 To C。
苹果 VR:Vision Pro 支持,基于 3DGS + 机器学习算法快速对人脸等区域重建,接近 95% 相似度,但头显普及率极低,且佩戴体验是痛点。
微软 VoluMe(原型):在单张 RTX 4090 上端到端实现,基于前馈 3DGS 算法还原人脸区域,端到端处理速度 28fps,对终端算力要求高。
业务启发:当前 3DGS 和视觉大模型等技术发展迅猛,已具备基于单目视频流的实时 3D 重建和渲染潜力。依托云核心网网络的超低时延和稳定传输等核心能力,这类计算和呈现可以在网络侧完成,从而将原来依赖高算力终端的自由视角 3D 视频通话体验下沉至普通终端,实现真正的大众化可用。
二、技术挑战
单目场景下的几何一致性和语义稳健性不足:在单目条件下缺乏多视角约束,前馈 3DGS 或 3DGS 数字人等技术都容易出现几何漂移,语义结构错位等问题,从而出现不符合真实生理结构的结果,破坏通话体验。
面向视频通话场景的泛化能力有限:在家庭视频通话等高即时 + 高动态场景下,用户会做出快速头动,丰富的表情和手势变化等,且环境在光照和背景布局等上面具有高速随机性,导致训练数据难以充分覆盖,影响算法泛化性。
实时交互的端到端时延要求极其苛刻:现有技术实际端到端处理速度难以满足沉浸式通话的低延迟需求(>30fps)。
三、技术诉求
整体场景分为三个:一。对人脸和肩部以上区域重建;二。对人体全身重建;三。对人体和背景进行联合重建,基于 3DGS 提供有限角度内的人体重建方案。
可视范围要求:阶段一支持左右 40 度的可视范围;阶段二和阶段三支持左右 15 度的可视范围。
精度要求:重建结果要实现 PSNR>30dB,SSIM>0.95,LPIPS (VGG)<0.1,同时满足以下评分要求:
身份一致性 (结构 / 动作 / 表情):采用 5 分制,从 “明显不是本人” 到 “全程角度完全一致”,需要达到 4 分以上(可视角度内保持一致,边缘角度偶尔出现细微身份偏差)。
无恐怖谷效应:采用 5 分制,从 “强烈不适” 到 “全程无任何不适”,需要达到 5 分。
清晰度 (纹理和边缘细节):采用 5 分制,从 “极度模糊” 到 “纹理清晰,边缘锐利”,需要达到 3 分以上 (皮肤、衣服、头发等纹理大体可辨,边缘较为清楚)。
时序稳定性:采用 5 分制,从 “频繁闪烁跳动” 到 “全程连贯完全稳定”,需要达到 4 分以上 (动作、表情持续顺畅,跳动和闪烁极少且不易察觉)。
采样要求:如果存在离线采样建模阶段,用户数据采集时长需控制在 3min 以内(不含训练时间);如果在视频通话开始前的一次性更新阶段(比如在线预热或模型更新等),处理时长需小于 10 秒。
性能要求:在单张 V100 / 单张 RTX5000 上端到端处理速度大于 30fps。
验证步骤:基于国内视频通话场景进行方案设计与自验证→基于华为提供的视频通话采集数据进行验证→真实视频通话环境中进行测试评估。
难题 2:AIoT(无源物联)的高精定位技术
一、技术背景
5G-A AIoT 首次把无源物联技术引入到 5G 当中,在 3GPP 全球 R19 标准中进行定义,AIoT 定位为仓储、物流、工业生产、城市治理提供万亿级低成本物联服务,主要聚焦资产、物料、成品、作业人员的管理定位,根据应用场景主要集中的 5\10 米、3\5 米和 1\3 级定位需求。当前支持 5\7 米的定位精度,无法满足绝大部分应用场景。
AIoT 定位是通过交换机供能采集 + 反向散射通信,构建无需维护的普适感知网络。利用环境中的既有能量(如射频信号、光、热等)为终端设备供能 + 反向散射通信,实现无源终端(又称标签)无电池、极低成本、超微型化的物联网通信技术。基本原理是利用环境射频信号的反射特征,分析信号强度(RSSI)实现定位服务。
二、技术挑战
复杂环境中的信号特征不稳定:仓储环境复杂堆叠、遮挡情况严重,仓库中存放大量物品存在多径干扰,金属物品存在反射;
基于时间域测量的定位算法精度低:AIoT 为窄带通信,带宽仅有 180K,信号分辨率低,传统基于时间域定位算法时时钟同步精度要求较高,难以在实际生产中应用;
基于指纹定位算法:基于指纹库需要采集大量的数据,定期维护成本高,环境和场景变化对算法精度影响大;
基于三角场强定位算法:依赖与场强信号的测量,受遮挡和多径影响大,精度低。
三、技术诉求
定位算法:采用不限于信号处理、信道建模、数据合成等方法,提供低成本可实施的采样方案,可以考虑结合别的手段来采集,构建面向无源定位的低成本高精度定位算法,提供 3 米级定位估计精度(90%)。 验证:完成方案设计 -> 基于华为实验室数据测试验证 -> 基于真实环境数据验证上述性能指标。
难题 3:[确定性] AI Agent 任务成功率的确定性保证技术
一、技术背景
电信领域基于 AI Agent 构筑体验保障、运维表单填充、告警日志分析及处理等能力,同时也通过构筑 AI Agent 服务自主完成算力主机进行伴学、伴老、家居智控等任务。面对这些真实环境的长时任务,AI Agent 的成功率并不高。 如果 Agent 工作流的每一步有 95% 的可靠性,那么:5 步下来,成功率是 77%;20 步下来,成功率是 36%。Agent 复杂任务超过了 100 步(OSWorld 评测),成功率保证存在巨大挑战。 模型输出结果存在不可复现性(Reproducibility)、不一致性(Unconsistency)和不确定性(Nondeterminism),AI Agent 任务依赖模型进行任务分解、步骤规划、工具调用、记忆检索等,每一次决策均会引入不确定性,导致任务端到端成功率很难有确定性保证。
二、技术挑战
Agentic 模型幻觉导致输出不确定:语言或多模态大模型预训练的数据本身包含错误或偏见信息,数据存在固有边界,训练过程存在不合适的激励机制;大模型本身的局限性,包括自回归单向表征、注意力稀释、不完美解码策略等,均会带来幻觉。
Agentic 模型推理过程的不确定:推理过程中,浮点数有限精度和舍入误差、浮点数非结合性与并行计算,以及推理负载批组合变化性等均会带来不确定,导致推理结果不确定。
Agent 任务失败传播:单 Agent 内除了模型输出不确定,工具、记忆等也会带来错误,多 Agent 之间还存在协同失调、信息未对齐等问题,当交互轮次变多时,错误会被放大。
三、当前方案
模型幻觉缓解:提升训练数据质量(剔除错误信息,扩大知识边界等);训练过程增强对齐,提升上下一致;多模态模型特征空间维度的引导 / 纠正。
模型推理的确定性保证:推理 temperature、top-k 等超参设置;消除 MoE 专家路由随机性;使用确定性算子,重写算子提升数据精度;推理批处理不变性;高精度计算硬件。
Harness 工程:Claude Code/OpenClaw 等尝试通过建立 Agent Loop 方式提高任务执行的鲁棒性,上下文驱动模型循环尝试可行路径,确保任务不因为方案失败而终止,一定程度上提高了成功率的确定性。
四、技术诉求
多 Agent 系统任务端到端成功率确定性保证:针对多 Agent 任务,从系统架构、Harness 工程和模型(免重训练)等多个维度提供理论支撑的标准定义及方案(性能及场景限定下),确保任务成功率稳定地保持在一个阈值内(比如任务成功率 > 80% 的确定性误差是 99.999%,可以表达为 P99.999@80%)。
成功率确定性的评价及失败拦截:定义成功率确定性的评价标准,给出确定性评测方案,提供失败监测能力,实现失败结果的 100% 拦截;如果是 Agent Loop 提升确定性,需要明确迭代次数限制。
验证步骤:针对华为提供的家庭智控等工具调用闭环场景,提供标准与方案设计 -> 基于华为提供的开源、业务白盒自验证 -> 业务黑盒验收,成功率(场景相关)的确定性满足 99.9%,失败拦截 100%。
难题 4:XRM 帧识别技术以及业务类型识别技术
一、技术背景
XR 等实时音视频业务的视频流按帧传输,逐帧周期到达,帧与帧之间到达间隔是几十 ms,与帧率相关。基站需要在 10ms 内将到达帧的全部数据发送给终端。 帧内任何一个 IP 包丢失,端侧整帧无法解码,形成卡顿;参考帧传输失败,关联帧也无法解码,形成花屏。 10X 微突发导致空口丢包或时延增大,形成缺帧 / 滞帧,严重影响业务体验。 RTC 应用与网络互不感知,无法最大化利用网络资源提供更优质服务。
帧依赖关系:
帧内依赖:帧内全部包收到才能解码,丢包导致帧丢失,画面跳帧。
帧间依赖:B 帧解码和 P 帧解码都依赖 I 帧,帧依赖帧,I 帧影响~0.5 秒画面体验。 业务实例:35Mbps 60ps 云 VR@10ms 级码率显示。
二、技术挑战
帧信息加密及私有协议:端侧生态对 R18 XRM 的协议栈支持度欠缺标准化,加密协议、私有协议应用多,仅通过明文解析方式难以达成目标。
超低资源开销:帧级识别请求量巨大,需要在极低的资源开销下完成大量的帧识别。
高实时性:体验不达标门槛是 XR 产业痛点,需要模型具备极高的识别实时性,提供带宽保障,消除时延不确定性。
三、当前结果
协议和明文解析:采用标准 RTP 协议且未加密的流量可以通过协议解析识别帧以及帧的类型,但明文应用数量少。
基于流量特征识别:根据包到达的时间间隔识别帧包关系,基于帧大小识别帧类型,识别准确率未达标且受网络环境影响大。
保障效果:仅对 I 帧进行保障如果 P 帧丢包仍对用户体验影响较大;分层编解码应用可仅对基础层流量进行保障,但难以区分应用是否有使用分层解码。
四、技术诉求
帧识别技术:完成 XRM 识别,涵盖 RTP、SRTP(RTP 载荷加密)、私有 UDP 协议,支持国内主流 13 个 APP 的 XRM 识别(详见应用列表)。完成帧包和帧类型标注和识别,在华为数据集识别准确率 95%+;识别帧首包和尾包,无需进行报文缓存。
高性能推理:ARM/X86 CPU 架构,(算力等同于昇腾 920C)单核推理时延 <=10us。
验证步骤:方案设计 -> 语料构建与标注 -> 方案自验证 -> 基于华为提供数据进行效果测试 -> 在对应硬件上完成性能测试同时达成以上技术诉求。
难题 5:面向云手机复杂任务的高效可靠 GUI VLA 模型技术
一、技术背景
GUI 操控是当前 AI + 自动化领域的热门方向,通过视觉理解和自主操作能力,这类智能体能够像人类一样理解和操作各种软件界面,推动着人机交互范式创新。GUI VLA(Vision-Language-Action)模型:给定用户目标需求、一系列 GUI 历史图片及历史 Action 操作记录,要求预测当前页面下应执行的最优 Action。
在高效方面,业界两种主流方案,难以在准确率与时延 / 成本之间实现最优平衡:
VLA 模型端到端执行
技术特点:要求单一模型同时具备强规划、感知、决策三重能力
性能瓶颈:通常需要大尺寸模型(如 UI-TARS-72B、Seed-VL-208B-A20B)才能达到实用效果,且仍需要针对特定场景进行后续强化能力
业务痛点:单步调用时延高、成本昂贵,难以满足商用场景的实时性和经济性要求
规划 + VLA 执行
技术特点:将规划和执行解耦,主要考验规划模型的能力
性能瓶颈:VLA 执行依赖一个强大的规划模型(如 GPT-4o、GPT-5)生成 SOP,然后再让单步 VLA 执行,每步的规划算力消耗大
业务痛点:单步规划调用成本高,同时单步 VLA 的适应性和泛化能力不足
在可靠方面,业界方案普遍 “只管执行、不管对错”,难以应对真实业务的复杂性:
意图层面:缺乏结合 GUI 状态的动态澄清能力,模糊指令下易误解用户真实意图,盲目执行导致任务失败。
执行层面:缺乏决策不确定性估计与 OOD 感知能力,长尾界面或高风险操作时无法触发人工接管,存在安全隐患。
二、技术挑战
长序列任务多步决策的累积误差传播:长链条执行中的任何单步错误都会导致后续步骤失效,对系统的精度和鲁棒性要求高。
动态复杂环境的适应性:云手机视频流压缩(画质损失、伪影)和网络延迟的抗干扰能力;APP 页面状态动态变化的适应能力;权限拒绝、系统弹窗等异常场景的处理能力。
高时延与实时体验瓶颈:GUI 交互要求极高的实时响应速度以保障用户体验,需要打破大模型高精度与低时延的跷跷板效应,兼顾复杂决策的高精度与端到端体验。
三、当前结果
主流开源模型在领域自建评测集(153 个测试用例)上的评测结果:
用例数量 | 涉及 APP | 模型 | 指定场景准确率 | 泛化场景准确率 |
指定场景 54 | 京东、淘宝、美团、携程、高德 | Qwen2.5-VL-7B UI-TARS-1.5-7B Qwen3-VL-8B Qwen3-VL-30B-A3B Qwen3-VL-235B-A22B | 20.37% 57.41% 62.96% 53.70% 74.07% | 31.31% 65.66% 72.73% 70.71% 75.76% |
泛化场景 99 | 拼多多、饿了么、滴滴、去哪儿、抖音、头条、腾讯视频、QQ 音乐、今日头条、小红书、大众点评、支付宝 | — | — | — |
备注:指定场景为业主务打的核心应用场景;泛化场景为评估模型通用能力的覆盖更广的场景。
四、技术诉求
高精度与低时延的 GUI VLA 模型技术:基于主流开源模型,构建兼顾高精度与低时延的 GUI VLA 模型技术,包括但不限于模型压缩、动态推理、超长上下文、Token 压缩等技术路线,实现任务执行成功率 > 95%;高频常规交互的单步决策时延 <800ms,在全局全任务步骤中占比> 80%;复杂推理的单步输出限制在 < 180 tokens。
面向模糊指令的动态交互澄清与意图补全技术:构建结合动态 GUI 页面状态的意图消歧能力。针对任务执行过程中缺失关键参数(如规格、无法推进的场景),能够主动发起澄清,实现模糊指令下的意图补全率 > 95%。
面向开放环境的不确定性感知与可信执行技术:构建 VLA 模型决策不确定性估计与分布外 OOD 检测能力。在长尾未知界面或高风险操作,模型能够主动触发二次验证或人工接管,实现高风险 / 未知场景下的人工介入触发准确率 > 95%,误报率 < 5%。
验证步骤:方案设计 -> 基于华为提供的 GUI 任务评测集自验证 -> 真实云手机 / 物理手机中进行验证达成以上诉求。
