当前位置: 首页 > news >正文

当数据贡献者成为牺牲品:如何平衡AI时代的利益格局

随着闭源模型越来越多,一个尖锐的问题浮出水面:贡献数据的公众反而成了牺牲品——工作被挤占、模型在涨价、收益却与己无关。

数以亿计的用户在互联网上分享内容,这些数据被用于训练各种AI模型。然而,数据的原始贡献者既无法获得任何经济回报,也对自己的数据如何使用毫不知情。科技公司基于这些数据训练出强大的闭源模型,并通过API调用收费,而真正的贡献者却获益为零。

PODL(Public Open Data License)公共开放数据许可协议正是为了解决这一系统性不公平而设计的。本文抛砖引玉,期待引发更多讨论和思考。


PODL - Public Open Data License

公共开放数据许可协议

版本 1.0 (2026 年 4 月)

版权所有 © 2026 数据贡献者

序言

本许可协议(以下简称"本协议")旨在保护公众开放共享数据的权益,确保数据在促进人工智能(AI)和技术发展的同时,维护数据来源的透明度、保护贡献者的权益,并防止数据被用于损害公共利益的目的。

本协议采用差异化许可机制:鼓励模型开源,对开源模型采取宽松政策;对闭源商业模型要求更高的透明度和回报义务。

通过行使本协议所授予的权利,您(以下简称"使用者")同意接受本协议所有条款和条件的约束。

第一条 定义

1.1 “数据” 指依据本许可协议发布的、由数据贡献者自愿提供的所有公开共享数据,包括但不限于原始数据、经过整理、清洗、标注的数据集、文本、图像、音频、视频及其他任何形式的信息集合。

1.2 “衍生模型” 指使用本协议下的数据作为训练数据之一(无论其在整体训练数据中所占比例大小)所产生、训练、微调或改进的人工智能模型、机器学习模型、算法或其他基于数据训练的系统。

1.3 “开源模型” 指符合以下条件的衍生模型:(i) 其模型权重、架构及推理代码已向公众完全、无歧视地公开;(ii) 公众可自由下载、使用、修改和再分发该模型。

1.4 “闭源模型” 指不符合本协议第 1.3 条"开源模型"定义的任何衍生模型,包括但不限于以下情况:(i) 模型权重未公开;(ii) 仅通过应用程序编程接口(API)或其他远程调用方式提供服务;(iii) 以任何限制公众自由使用、修改或再分发的许可证发布。

1.5 “商业性使用” 指以营利或商业利益为目的使用数据或衍生模型的行为,包括但不限于:(i) 销售、许可、出租或转让数据或衍生模型;(ii) 将数据或衍生模型整合到商业产品或服务中;(iii) 使用数据或衍生模型直接或间接提供付费服务。

除外情形:尽管有前述规定,以下情况不属于本协议定义的商业性使用中的"模型收费",属明确允许的行为

  • 任何服务提供商基于开源模型提供 API 托管服务,且其收取的费用明确仅限于覆盖与该服务直接相关的计算资源、带宽、技术运维及基础设施成本;
  • 开源模型的开发者向衍生模型的商业性使用者收取的、明确用于分摊模型训练过程中产生的计算资源、数据清洗和人工标注等直接成本的费用。

1.6 “数据来源披露” 指衍生模型的发布者公开声明其训练数据中包含了本协议数据的行为,该声明应至少包含:(i) 所使用的 PODL 数据集的名称和版本;(ii) 数据获取的时间或时间范围。

1.7 “收益分享” 指闭源模型的商业性使用者,根据本协议第四条的规定,向数据贡献者社区进行贡献的行为。

第二条 基本权利与限制

2.1 权利授予

数据贡献者(或适用的版权持有人)特此授予使用者一项全球性、非排他性、免版税、不可再许可(向第三方分发数据本身除外)的许可,允许使用者行使以下权利:
(a) 复制权:以任何媒介或格式复制和存储数据的权利。
(b) 修改权:修改、转换、改编、翻译或以其他方式创作数据衍生作品的权利。
© 分发权:通过任何方式向公众分发、传播、展示或提供数据或其复制件的权利。
(d) 使用权:为任何目的(包括研究和模型训练)使用、访问和分析数据的权利。

2.2 权利限制

上述权利的行使须严格遵守本协议第三条(透明度要求)、第四条(差异化许可机制)和第五条(使用限制)的规定。任何违反上述条款的行为均构成对本协议的违反,并导致本协议授予的权利自动终止。

第三条 训练数据透明度要求

3.1 披露义务

任何使用本协议数据训练衍生模型的发布者(无论该模型是开源还是闭源),必须在首次发布该模型及其任何后续版本时,履行以下披露义务:
(a) 公开声明:在随模型一同发布的论文、技术报告、模型卡(Model Card)、产品文档、API 文档或其他显著相关的材料中,以清晰和易于理解的方式声明其训练数据包含了 PODL 许可的数据。
(b) 披露内容:该声明至少应包含第 1.6 条所定义的"数据来源披露"所要求的全部信息。
© 披露位置:该声明应置于合理显著的位置,确保模型的下游使用者能够方便地获知。

3.2 持续义务

本条规定的数据披露义务在衍生模型的整个生命周期内持续有效,包括但不限于模型的更新、升级、版本迭代和衍生版本的发布。

第四条 差异化许可机制

4.1 开源模型(鼓励政策)

对于符合本协议第 1.3 条定义的开源模型,其发布者和使用者享有以下宽松政策:
(a) 自愿原则:
(i) 署名:鼓励但不强制要求在模型发布时声明具体的数据来源。
(ii) 收益分享:鼓励但不强制要求向数据贡献者社区进行收益分享。
(iii) 数据透明度:仅需满足本协议第三条规定的最低限度披露要求。
(b) 商业使用:开源模型被明确允许用于任何商业性用途,包括但不限于第 1.5 条"除外情形"中列举的基于开源模型提供 API 服务、将模型集成到商业产品中,以及为覆盖服务成本而收费的行为。
© 目的:本条旨在通过宽松政策积极鼓励衍生模型的开源,以促进技术共享和社区生态的繁荣发展。

4.2 闭源模型(约束政策)

对于任何属于本协议第 1.4 条定义的闭源模型,其发布者和商业性使用者必须遵守以下强制性要求:
(a) 强制署名:必须在与该闭源模型相关的所有产品文档、市场营销材料、技术白皮书、API 文档及其他对外宣传资料中,以清晰和显著的方式声明:“本模型训练数据包含采用 PODL (Public Open Data License) 许可的公开数据”。在技术可行且不泄露商业机密的前提下,应列出具体使用的 PODL 数据集名称。
(b) 强制收益声明:若闭源模型进行任何商业性使用并产生直接收入,其商业运营主体应在第 4.2(a) 条所述的透明度报告中公开声明其为数据贡献者社区做出的贡献。贡献形式可包括但不限于:向 PODL 数据贡献者基金提供资金支持、向社区回馈清洗后的新数据、公开模型训练方法等。具体的贡献方式和内容由使用者自行声明并接受社区监督。
© 透明度报告:闭源模型的商业运营主体应每年公开发布一份透明度报告,概要说明本协议数据的使用情况以及本年度为数据贡献者社区所做的贡献。该报告应可通过公开渠道获取。
(d) 审计权利:PODL 数据贡献者社区或经授权的管理机构有权委托独立的第三方审计机构,对闭源模型发布者的数据使用声明的准确性进行审计。审计费用由社区或管理机构承担;但若审计结果发现存在故意的、重大的虚假声明,则该次审计的全部费用应由被审计方承担。

第五条 使用限制与禁止用途

5.1 禁止用途

无论衍生模型是开源或闭源,任何使用者均不得将使用本协议数据训练的模型用于以下任何目的或场景:
(a) 大规模监控:供政府机构、执法部门或商业实体用于对人群进行大规模、无差别的监控、追踪或社会信用评分。
(b) 军事用途:用于武器系统、自动化或自主武器的开发、部署或目标锁定,或用于任何直接与军事行动、作战决策相关的支持系统。
© 歧视与伤害:用于生成或传播基于种族、民族、国籍、性别、性取向、宗教、年龄、残疾状况或社会经济地位的歧视性、诽谤性或仇恨性内容;或用于故意生成、传播虚假信息、操纵公共舆论以及其他对社会公共利益有明显损害的活动。
(d) 侵犯隐私:用于在未经信息主体明确同意的情况下,挖掘、推断或关联个人隐私数据,或试图对已匿名化、去标识化的数据进行重新识别。

5.2 合规承诺

衍生模型的使用者应建立并维持合理的内部合规审查机制,以尽其最大努力确保对模型的使用不违反本条规定的禁止用途。

5.3 违规后果

若发现任何违反本条规定的使用行为,数据贡献者社区或经授权的管理机构有权:
(a) 要求使用者立即停止任何违规使用行为。
(b) 根据本协议第九条的规定,撤销对该使用者的数据使用授权。
© 保留追究其他法律责任的权利。

第六条 数据贡献者权益与收益分享机制

6.1 贡献者权利

数据贡献者对其贡献的数据保留以下精神权利:
(a) 署名权:在数据被使用于衍生模型的训练时,有权根据本协议第四条的要求获得适当的署名或来源声明。
(b) 完整权:有权反对任何对其贡献的数据进行的、可能有损其声誉的歪曲、篡改或其他不当使用。
© 撤回权:在特定、有限的情况下(例如,数据包含重大错误或面临无法预见的新法律风险),数据贡献者可尝试撤回其数据授权。任何撤回行为均不具有追溯力,不影响撤回行为生效前已经使用该数据训练的衍生模型的权利状态。

6.2 收益分享机制

(a) 分享基金:鼓励根据本协议第 4.2(b) 条进行贡献的使用者将资金支持存入一个独立的、为数据贡献者集体利益而设立的"PODL 数据贡献者基金"。该基金的资金应用于:
(i) 向符合条件的数据贡献者进行分配;
(ii) 支持和维护 PODL 数据基础设施;
(iii) 资助新的公共数据收集和整理项目;
(iv) 覆盖 PODL 社区的运营和必要管理成本,但此项支出在任何情况下不得超过当年基金总收入的百分之二十(20%)。
(b) 分配原则:基金的收益分配应遵循透明、公正、可追溯的原则,力求依据不同数据集的贡献度和被使用比例进行分配,并优先考虑个人贡献者和小型非营利研究机构的利益。
© 管理机构:建议由一个独立的、多方参与的"PODL 管理委员会"负责基金的监督、管理和分配。该委员会的构成和议事规则应另行制定。

第七条 免责声明与责任限制

7.1 数据现状提供

本数据系按"现状"(AS IS)和"可提供性"(AS AVAILABLE)基础提供。在法律允许的最大范围内,数据贡献者不对数据的准确性、完整性、可靠性、适销性、特定目的适用性、非侵权性做任何明示或默示的保证。数据贡献者不保证数据不包含任何错误、病毒或其他有害组件。

7.2 责任限制

在法律允许的最大范围内,在任何情况下,数据贡献者均不对因使用或无法使用本数据而导致的任何直接、间接、附带、特殊、惩罚性或后果性损害(包括但不限于数据丢失、业务中断、商誉损失、利润损失或其他金钱损失)承担任何责任,无论此类损害是基于何种法律理论(合同、侵权或其他),即使已被告知发生此类损害的可能性。

7.3 使用者责任

数据使用者应自行评估本数据对其特定用途的适用性,并独立承担因使用本数据而产生的一切风险和责任。

第八条 协议版本与兼容性

8.1 版本更新

PODL 管理委员会可不时发布本协议的更新版本(“新版本”)。新版本将在保持本协议核心原则不变的前提下,力求适应技术发展和法律环境变化。新版本草案应提前至少九十(90)天公示,以征求公众意见。

8.2 版本选择

数据贡献者在发布其数据时,可选择特定版本的本协议(如 “PODL 1.0”)。数据使用者可以选择遵守该数据发布时所适用的协议版本,或遵守由 PODL 管理委员会发布的任何更新版本。

8.3 协议兼容

本协议力求与知识共享(Creative Commons)系列、开放数据共享(Open Data Commons)系列等主流的开放数据和内容许可协议在精神上保持兼容。若使用者在本协议条款与其他适用许可协议条款之间产生冲突,则以本协议的条款为准。

第九条 终止与撤销

9.1 自动终止

除根据本协议另有规定外,使用者对本协议的任何违反将导致本协议所授予的全部权利自动、即时终止。

9.2 补救期

对于非故意的首次违规行为,在数据贡献者或 PODL 管理委员会向使用者发出书面通知后,使用者有三十(30)天的补救期。若使用者在补救期内完全纠正了违规行为,其在本协议下的权利将自纠正之日起恢复。

9.3 故意与重复违规

对于故意的或重复发生的违规行为,数据使用授权将被永久撤销,且该使用者此后将不再被授予任何使用 PODL 许可数据的权利。

第十条 其他条款

10.1 法律适用

本协议的订立、效力、解释、履行及争议的解决均适用数据主要发布地的法律。若无法确定主要发布地,则适用大多数数据贡献者所在地的法律。

10.2 争议解决

因本协议引起或与本协议有关的任何争议,各方应首先通过友好协商解决。协商不成的,任何一方均有权将争议提交至有管辖权的法院诉讼解决,或根据共同约定提交仲裁。

10.3 可分割性

如果本协议的任何条款被有管辖权的法院或仲裁庭认定为无效、非法或不可执行,该条款应被视为可从本协议中分割,且不影响本协议其余条款的有效性和可执行性。

10.4 完整协议

本协议(包含其附录)构成数据贡献者与使用者之间关于本数据使用的完整协议,并取代之前所有与此相关的口头或书面沟通、陈述和约定。

附录 A:声明模板

A.1 开源模型声明模板(推荐格式)

本模型的训练数据包含采用 PODL (Public Open Data License) 许可的公开数据。 我们衷心感谢所有数据贡献者为推动开放科学所做出的无私奉献。 使用的 PODL 数据集概览: - [数据集名称] [版本号] - [(可选)其他数据集...]

A.2 闭源模型声明模板(强制格式)

本模型训练数据包含采用 PODL (Public Open Data License) 许可的公开数据。 根据具有法律约束力的 PODL 协议要求,我们在此承诺: 1. 公开我们所使用的 PODL 数据来源。 2. 公开声明我们为数据贡献者社区所做的贡献。 使用的 PODL 数据集明细: - [数据集名称] [版本号] 本年度对 PODL 社区的贡献声明: - [在此处描述贡献内容,如资金支持、数据回馈等] 我们的年度透明度报告可在此处查阅:[在此处插入报告链接]

A.3 API 服务声明模板

本 API 服务是基于一个开源模型提供的托管服务。该开源模型的训练数据包含 PODL 许可的数据。 我们明确声明,我们对此 API 服务的收费仅限于覆盖相关的计算资源、带宽及运维成本,我们不对底层模型本身收取任何许可费用。

附录 B:采用指南

B.1 数据贡献者如何采用

在您的数据集根目录下的 README.md 或元数据文件中加入以下声明:

This dataset is released under the terms of the PODL v1.0. Full license text: [Link to LICENSE file or PODL website]

将本许可协议的全文(即本文档)以 LICENSE 或 LICENSE.md 的文件名包含在您的数据集中。

在数据托管平台(如 Hugging Face Hub, Kaggle Datasets 等)的许可选项中选择 “PODL-1.0” 或 “other” 并明确注明 “PODL-1.0”。

B.2 模型使用者如何合规

识别:审查您的训练数据源,确认是否包含任何标记为 PODL 许可的数据。

披露:按照本协议第三条的要求,在模型发布时公开数据来源信息。

分类:明确判断您将要发布的衍生模型是"开源模型"还是"闭源模型"。

履行义务:

若为开源模型:自愿遵循署名和收益分享的建议,但必须完成第三步的披露。

若为闭源模型:必须履行强制署名、强制贡献声明及发布透明度报告的全部义务。

避免禁止用途:在内部建立机制,确保模型的使用不落入第五条规定的禁止范围。

B.3 常见问题

问:闭源模型对社区的贡献是否有最低要求?

答:本版本协议侧重于透明度和声明义务,不设定强制性的最低贡献金额或比例。我们鼓励使用者根据自身商业化成功的程度,以合理和可持续的方式回馈社区。虚假或误导性的声明将受到第 4.2(d) 条审计权利的约束。

问:收益分享金支付给谁?

答:本版本协议鼓励资金支持形式的贡献捐献至由 PODL 管理委员会设立的官方基金账户。在正式基金建立前,使用者可在透明度报告中说明其承诺。具体信息请关注 PODL 官方网站(待建)的后续通知。

问:我们最初发布了一个开源模型,但后来决定将其转为闭源模式。该怎么处理?

答:从模型转为闭源(例如不再公开新版本的权重)之日起,该模型及其后续版本将被视为"闭源模型",必须遵守本协议第 4.2 条的全部规定,包括自此时间点后发布的版本的贡献声明义务。

结语

PODL协议的愿景是建立一个公平、透明且可持续的AI数据生态系统。我们希望通过清晰的规则,平衡数据贡献者、模型开发者与公众三者之间的利益,共同塑造一个开放、负责任的技术未来。

我们诚挚邀请所有认同此理念的数据贡献者、模型开发者和使用者,共同采用 PODL。

http://www.jsqmd.com/news/647665/

相关文章:

  • 阿C学嵌入式---C语言入门---函数
  • 运维人破局指南|告别背锅运维,转行网络安全,薪资直接翻番(零弯路路径)
  • 基于 Spring Boot + Vue 的宠物健康管理与社交分享系统
  • Langflow:这个拖拽式AI工作流神器正在颠覆传统编程
  • Matlab新手必看:你的‘函数未定义’报错,90%是因为没搞懂‘当前文件夹’和‘搜索路径’
  • 低空导航AI计算单元功率MOSFET选型方案:高效可靠电源与接口驱动系统适配指南
  • 图表即实力|虎贲等考 AI 科研绘图:让学术可视化告别熬夜,直达期刊标准
  • 品牌设计没头绪?厂家帮你搞定!
  • 未来5年最“钱”景岗位!AI产品经理3步速成,别再观望!
  • Addressables增量更新全攻略:从Static资源分组到动态标签检测的完整工作流
  • 如何通过Vagrant快速建库_自动化虚拟机Oracle部署方案
  • 个人小记录
  • 零基础复盘:从命令行运行 Python 文件失败到成功,我踩过的 5 个坑
  • 开发者必读:批判性思维的7个训练法
  • MOS管体二极管与寄生二极管的特性及实际应用解析
  • AUTOSAR从入门到精通-【自动驾驶】自动驾驶激光雷达点云畸变的成因与解决方案
  • 2025-2026年国际美白防晒霜品牌推荐:TOP10口碑产品评测对比领先敏感肌温和不刺激泛红 - 品牌推荐
  • 2025-2026年美白防晒霜品牌推荐:十款口碑产品评测对比领先户外运动防水防汗 - 品牌推荐
  • AI地铁轻轨门控系统功率MOSFET选型方案——高可靠、快速响应与长寿命驱动系统设计指南
  • 2026届必备的AI学术工具实测分析
  • Cesium Terrain Builder深度解析:构建专业级3D地形服务的完整方案
  • fgsdfsaddsafafsadsadfafsdsdfasfadsadfasfd
  • 机器人测试,从核心技术快速入门
  • WinForm中GDI+图像处理与资源释放的最佳实践
  • 新手也能看懂的CTF解题思路:从ISCTF一道MISC题看Python打包exe的逆向技巧
  • 爱格定制亲测:实践案例分享,效果惊艳!
  • Spring整合Mybatis详解
  • 告别手敲!用CodeMirror 6给你的Web编辑器加上智能提示(附自定义补全源实战)
  • Redis怎样通过频道划分不同的日志级别
  • 情绪智商(EQ)在代码世界的重要性:软件测试从业者的专业视角