合成数据成AI发展新基建,未来竞争核心转向高效生成高价值数据
【导语:随着基础模型规模扩大,真实数据在成本、隐私等方面的限制成AI发展瓶颈,合成数据正从补充变为核心机制。南洋理工大学等研究人员提出框架,重新定义合成数据方法边界并给出发展路径。】
很多工作默认「合成数据 = 生成模型」,但该综述跳出这一单一视角,重新定义了「数据合成」的方法边界。合成数据并不等同于“用生成模型造数据”,反演、仿真、增强等方式也应被纳入合成数据的范畴。
该综述从更高层次出发,将合成数据的应用组织为一条逐步演进的能力路径,包括数据中心人工智能、模型中心人工智能、可信人工智能和具身智能。进一步地,文章将这四类应用场景细化到30+个具体机器学习任务层级,构建起从宏观分类到具体问题的系统化映射。
在数据中心人工智能中,涵盖零/少样本学习、联邦学习等任务;模型中心人工智能则细化为模型通用能力提升等;可信人工智能聚焦隐私保护等任务;具身智能延伸到感知、交互等面向真实环境的任务。
尽管合成数据在方法体系与应用落地方面取得进展,但仍面临一系列关键挑战。模型坍塌是一个核心风险,可能导致数据多样性下降,影响模型性能与泛化能力。
在实际应用中,数据效用与隐私保护的权衡问题长期存在,过强的隐私约束可能降低数据可用性,过高的数据保真度又可能带来潜在的隐私泄露风险。此外,合成数据用于模型评测时可能引入新的偏差来源,如生成 - 评测偏差。
在方法层面,多个前沿方向仍有待探索。主动式数据合成强调根据模型需求动态生成最有价值的数据,提升数据利用效率;多模态数据合成关注生成语义一致、跨模态对齐的高质量数据,对多模态模型发展尤为关键。
目前,如何系统性评估合成数据的质量仍是一个基础但尚未完全解决的问题,缺乏统一且标准化的评测体系。
编辑观点:合成数据正成为AI发展的新型基础设施,未来AI竞争核心将转向高效生成高价值数据。虽面临诸多挑战,但多个前沿方向的探索也带来了新机遇。
