当前位置：首页 > news >正文

AI拍照解题技术新突破，传音控股相关研究成果入选计算机视觉顶会CVPR 2026

news 2026/6/13 22:52:49

传音持续深化AI领域的产学研协同，积极推动与国内外知名高校的深度合作，围绕AI视觉、语音、语言与大模型等方向推进协同创新。日前，传音TEX AI中心与中山大学、穆罕默德·本·扎耶德人工智能大学（Mohamed bin Zayed University of Artificial Intelligence，简称MBZUAI）联合开展的“拍照解题”项目研究取得重要进展，相关成果论文已被计算机视觉领域的国际顶级学术会议CVPR 2026正式录用。

CVPR是IEEE主办的计算机视觉与模式识别领域的顶级会议，是中国计算机学会（CCF）推荐的A类会议，它与ICCV、ECCV并称为计算机视觉领域“三大顶会”。据最新数据，CVPR 2026共有逾三万人投稿，在进入评审流程的16,092篇有效文章中，最终接收率仅25.42%，每篇论文都必须通过3-5位全球顶尖专家的双盲评审。

近年来，AI大模型在逻辑推理与复杂问题求解方面的能力持续提升，但在实际应用中，其在复杂数学题上的处理表现仍存在不足。例如，解题结果正确但推理过程存在逻辑漏洞，或步骤看似完整但实际推导错误。这类问题在学习场景中尤为关键，相较于答案本身，推理过程的准确性更直接影响学生对知识的理解与掌握。

针对这一问题，传音TEX AI中心与中山大学、MBZUAI团队合作，开发了CARE（Contrastive Anchored REflection）技术，从训练机制上对传统路径进行了优化。不同于仅以“结果对错”作为反馈信号的方式，CARE技术将关注点前移到推理过程本身，重点引入“高质量错误样本”——即那些接近正确但存在关键步骤偏差的解题路径。通过将这类样本与标准解法进行对比分析，并结合反思式重推理机制，模型能够识别具体错误环节，并完成自我修正，从而形成更稳定、连贯的推理能力。在引入反思机制后，模型对复杂问题的二次推理成功率由约10%–19%提升至76.6%，有效增强了面对复杂题目时的稳定性。

此外，CARE技术还引入“救援机制”：即使多次尝试均未得到正确结果，系统仍会从已有错误路径中筛选出“相对最优解”，作为进一步学习的起点，使模型在复杂问题下仍能持续优化推理能力。

在实际效果上，该方法显著提升了模型的解题质量。在MathVista（图像数学推理）测试中，CARE准确率比传统方法的68.9%高13.2个百分点，提升至82.1%；在MMMU-Pro（多学科综合推理）测试中，CARE将准确率从36.4%提升至46.7%。整体来看，CARE 比传统方法平均提升 4.6 个百分点。

目前，该技术已进入产品化阶段，并逐步应用于传音手机智能助手中。基于CARE优化后的能力，传音手机智能助手拍照解题功能在输出结果时不仅能够提供答案，还能呈现更清晰、结构更完整的解题步骤，在面对多步骤推导问题时也更不容易出现逻辑中断或错误累积。这种“过程可解释”的能力，使AI从单纯的解题工具，进一步向“可辅助理解”的学习工具演进。

拍照解题是传音在 AI 教育应用上的重要方向。在非洲、南亚等地区，教育资源相对稀缺，部分家庭在课后辅导方面仍面临一定困难。传音推出的拍照解题功能为学生提供即时的解题思路与步骤解析，在一定程度上弥补学习支持资源的不足，帮助用户更高效地理解知识点，提升学习效率，让前沿科技真正服务于每个人的生活。

随着AI技术持续向真实场景渗透，AI已经成为理解用户需求、创造新体验的重要工具。传音积极将AI能力深度融入社交、出行、健康、教育等高频场景，让技术从“可用”变为“真实可感”，实现用户的体验升级。此次联合研究成果的落地，也为AI在教育场景中的进一步应用提供了新的技术路径与实践基础。通过持续推进以用户需求为导向的技术创新，并深化与高校的协同研发，传音正不断将前沿AI能力转化为可落地的产品体验，让更多用户能够享受到AI带来的便利。

查看全文

http://www.jsqmd.com/news/603914/