100条大模型备案自查清单:做完这些,你才能说“我准备好了”
很多客户跟我反馈自己进行备案申报的时候:每次退回来的理由都不一样。第一次说材料不全,第二次说描述不清,第三次说风险评估不够详细。最近有个客户说了一句让我难忘的话:“我感觉我们在裸奔,但我们不知道该穿什么衣服。”
所以我花了大量时间,把大模型备案的所有要求掰开了揉碎了,整理出这份100条自查清单。
这篇文章是一份能直接用的自查工具。你可以对照每一条检查自己的材料,发现问题就改。做完这100条,你基本可以拍着胸脯说:“准备好了。”
一、主体资质与基本信息(1-15条)
这一部分是基础中的基础。就像你相亲要先证明自己是个正常人,备案要先证明你是个合法公司。
1. 营业执照是否在有效期内。这个还要我说?如果过期了赶紧续,别让这种低级错误成为你的绊脚石。
2. 营业执照经营范围是否包含相关业务。你是做AI的,经营范围里有没有“技术服务”“软件开发”之类的字样?没有的话去工商变更。
3. 法人代表身份证明是否清晰可读。身份证照片拍糊了?重新拍,这玩意儿不能凑合。
4. 注册资本是否与业务规模匹配。不是说必须多少,但一个注册资本10万的公司做个千亿参数大模型,审核人员看了会怎么想?
5. 公司注册地址与实际运营地址是否一致。不一致的话准备好租赁合同和情况说明。
6. 是否已经取得ICP许可证。这个是大模型备案的前提条件,别跳过这一步。
7. 是否有算法备案号。大模型备案通常需要先完成算法备案,双备案制的路你得一步一步走。
8. 安全负责人是否已经任命。这个岗位必须有,而且要在公司内部正式任命,不能是空降兵。
9. 安全负责人的简历是否符合要求。通常需要三年以上互联网安全相关工作经验,不是随便找个人就能当的。
10. 安全负责人的联系方式是否畅通。审核期间可能会打电话联系,别留个永远不接的号码。
11. 是否有专门的算法安全团队。不需要多少人,但需要有明确的组织架构和职责分工。
12. 是否建立了算法安全管理制度。制度不是墙上的标语,是要实际执行的流程和规范。
13. 公司股权结构是否清晰。穿透到实际控制人,外资成分要特别说明。
14. 是否涉及外商投资。如果有,需要符合外商投资相关法律法规,这块要单独准备材料。
15. 是否有境外上市计划或VIE架构。这个涉及国家安全审查,需要提前评估和准备。
二、算法技术信息(16-30条)
这部分是技术同学的主场,但也是最容易踩坑的地方。你们写代码的毛病,在备案材料里全都得改。
16. 算法类型是否选择正确。是生成合成类?还是个性化推送类?还是多种类型都有?选错了整个材料方向就偏了。
17. 算法名称是否与实际使用的算法一致。别写个花里胡哨的名字,结果代码里根本没有,审核人员一查就露馅。
18. 算法基本原理是否用通俗语言描述清楚。记住,审核人员不是算法工程师,“基于Transformer的解码器架构”这种话他们听不懂。
19. 训练数据来源是否明确说明。公开数据?授权数据?爬取数据?每一种都要说清楚。
20. 训练数据规模是否在材料中准确填报。不是越多越好,是多少就说多少,造假被查出来代价很大。
21. 数据标注方式和标注人员资质是否说明。人工标注还是自动标注?标注团队有没有专业培训?
22. 模型参数规模是否准确填报。百亿参数还是千亿参数?必须和实际模型一致。
23. 是否使用了预训练模型。如果用了,是自己训练的还是调用的第三方?第三方是谁,有没有合规授权?
24. 模型训练环境是否说明。用了什么硬件,多少算力,训练了多久,这些都要写。
25. 模型评测指标和评测结果是否报告。你说你的模型效果好,得有数据支撑,不能光靠嘴说。
26. 模型推理部署方式是否说明。云端部署还是本地部署?API调用还是SDK集成?
27. 是否存在模型版本管理机制。每次迭代都要更新备案,不能一个版本备案另一个版本上线。
28. 模型更新频率和更新流程是否说明。大版本更新和小版本迭代,处理方式不一样,要分清楚。
29. 是否存在模型蒸馏或压缩。如果有,蒸馏后的模型是否也需要备案?要看具体情况。
30. 是否有模型可解释性说明。审核人员会问“你怎么知道模型会这样输出”,你得能回答。
三、安全风险评估(31-45条)
这是整个备案的核心,也是审核人员最看重的部分。你要回答的问题只有一个:你的大模型会不会作恶?
31. 是否已完成算法安全自评估报告。这份报告必须认真写,不是套模板能解决的。
32. 自评估报告是否由专业机构出具。第三方评估机构出具的报告,公信力比你自说自话强得多。
33. 是否识别了算法可能带来的安全风险。歧视、偏见、隐私泄露、虚假信息、恶意滥用……你能想到的风险都要列出来。
34. 每个风险点是否有对应的防控措施。光说“有风险”不行,得说“我怎么管”。
35. 是否存在内容生成类风险的处理机制。虚假信息、有害内容、侵权内容,你的模型生成这些怎么办?
36. 是否存在用户诱导模型越狱的风险预案。提示词注入、越狱攻击,这些是真实存在的威胁。
37. 是否建立了模型输出审核机制。用户问什么模型就答什么?还是会经过过滤和审查?
38. 是否存在未成年人保护机制。如果你的产品面向未成年人,这块要求会更严格。
39. 是否存在算法成瘾性设计。你的产品会不会让人沉迷?如果会,你怎么控制?
40. 是否存在价格歧视或消费诱导。如果你的模型用于电商或金融场景,这个要特别说明。
41. 是否存在社会动员风险评估。你的产品会不会被用来煽动舆论、组织非法活动?
42. 是否建立了应急响应机制。发现问题怎么办?谁来管?多久处理?
43. 是否定期进行安全演练。纸上谈兵不行,得真的模拟过紧急情况。
44. 是否保存了安全事件日志。出了问题要有据可查,日志是关键证据。
45. 是否建立了安全事件上报机制。发现问题主动上报和被动发现,性质完全不同。
四、用户权益保护(46-60条)
这部分是很多企业的软肋。不是他们不想保护用户权益,是根本不知道用户有哪些权益需要保护。
46. 是否提供关闭个性化推荐的选项。这是《互联网信息服务算法推荐管理规定》的明确要求,必须有。
47. 关闭推荐的入口是否明显可见。别藏在三级菜单里,找都找不到等于没有。
48. 关闭推荐后功能是否正常。不能说“我给你关了,但你也不能用了”,这叫强制绑定。
49. 用户是否可以查看自己的行为数据。“我的数据是怎么被用的”,用户有权知道。
50. 用户是否可以删除自己的数据。这个权利在《个人信息保护法》里写得清清楚楚。
51. 用户是否可以更正自己的数据。数据错了能改,这是基本要求。
52. 是否提供账号注销功能。用户要走就走,不能设置障碍。
53. 注销后数据保留期限是否明确告知。法律规定最长6个月,不能无限期留着。
54. 是否建立用户投诉和申诉渠道。用户受了委屈得有地方说理。
55. 投诉处理时限是否明确规定。不能让用户投诉了石沉大海。
56. 是否定期分析投诉数据改进产品。投诉是改进的机会,不是找麻烦。
57. 用户协议和隐私政策是否清晰易懂。别写一堆法律术语把人看晕。
58. 是否明确告知用户算法使用的目的和范围。用户得知道他的数据被用来干什么。
59. 是否获取了用户有效的知情同意。弹窗点个“同意”不算数,得确保用户真的理解了。
60. 未成年用户是否有特殊保护机制。实名认证、时长限制、消费限制,该有的都得有。
五、内容安全机制(61-75条)
大模型最让人担心的就是“一本正经胡说八道”。你得证明你的胡说八道有底线。
61. 是否建立内容过滤机制。什么能说什么不能说,得有明确的规则和执行。
62. 是否建立敏感词库。政治、色情、暴力、违法犯罪……这些领域的敏感词必须覆盖。
63. 敏感词库是否定期更新。社会热点在变,敏感词也要与时俱进。
64. 是否建立内容审核团队或使用审核服务。纯靠技术过滤不够,关键内容需要人工复审。
65. 审核团队是否经过专业培训。不是随便拉个人就能审,得懂法规、懂标准。
66. 是否建立AIGC内容标识机制。AI生成的内容要有明显标识,不能以假乱真。
67. 标识方式是否符合国家标准。《互联网信息服务深度合成管理规定》对标识有明确要求。
68. 是否建立了虚假信息识别和处置机制。模型说错了怎么办?得能发现、能纠正、能追责。
69. 是否存在版权侵权风险防控。模型生成的内容可能涉及他人版权,你有措施吗?
70. 是否建立了侵权投诉处理机制。有人说你侵权了,你得能快速响应。
71. 是否对模型输出进行抽样检测。定期抽检,看模型有没有跑偏。
72. 是否建立了黑名单机制。恶意用户、违规用户,要有措施限制。
73. 跨境内容是否有特别处理。如果你的产品面向境外用户或者处理境外数据,需要额外注意。
74. 热点事件内容是否有特别审核。重大事件期间,审核力度要加大。
75. 是否建立了内容安全事件复盘机制。出事了要分析原因,避免再犯。
六、数据安全保护(76-90条)
大模型的燃料是数据,数据安全不过关,其他一切都白搭。
76. 是否建立数据分类分级制度。什么数据是敏感的,什么是一般的,得分清楚。
77. 敏感数据的存储方式是否合规。加密存储、本地存储还是云存储,都有不同要求。
78. 数据传输是否加密。传输过程中的数据安全,同样重要。
79. 用户个人信息的收集是否符合最小必要原则。不能收集无关的信息。
80. 是否存在数据共享或第三方调用。如果有,数据接收方合规吗?有协议吗?
81. 数据跨境传输是否符合规定。涉及境外的,要过安全评估。
82. 是否建立了数据安全管理制度。制度要落在纸面上,不能只是口头说说。
83. 数据安全责任人是否明确。出了问题找谁,要有明确的人负责。
84. 是否定期进行数据安全培训。员工的安全意识,是最后一道防线。
85. 是否建立数据泄露应急响应机制。泄露了怎么办?第一时间做什么?
86. 是否保存数据安全日志。日志要留存足够长的时间,以备检查。
87. 是否进行过数据安全评估。定期评估,发现问题及时整改。
88. 废弃数据的销毁方式是否合规。删除不等于销毁,得彻底。
89. 训练数据的版权是否清晰。用了有版权的数据,得有授权证明。
90. 是否存在数据垄断风险。监管部门也在关注数据竞争问题。
七、流程机制与持续运营(91-100条)
备案不是一锤子买卖,备案后的持续合规才是真正的考验。
91. 是否建立了备案变更机制。算法更新了、公司变更了,要及时更新备案信息。
92. 是否建立了定期自查机制。备案通过不代表永远合规,要定期检查。
93. 是否建立了监管沟通渠道。和监管部门保持联系,有问题及时沟通。
94. 是否关注最新的监管政策动态。法规在更新,你的合规也要更新。
95. 是否建立了员工合规培训机制。新人要培训,老人也要复习。
96. 是否建立了内部合规考核机制。合规不能只靠自觉,要有考核有奖惩。
97. 备案号是否在产品显著位置公示。这是法定义务,不公示等于没备案。
98. 备案信息变更是否在规定时间内完成。重大变更10个工作日内要更新。
99. 是否建立了备案档案管理制度。所有材料要有归档,保存足够长的时间。
100. 是否准备好了迎接现场检查。监管部门可能随时来查,你准备好了吗?
写在最后
写完这100条,我长出一口气。
说实话,这篇文章写起来比备案还累。但是我知道有多少企业在裸奔,有多少人在等被通知了才想起来要合规。
这100条,不要求条条都完美,只是让你知道自己在做什么、有什么风险、怎么控制风险。
如果还是不知道该怎么办,那欢迎你来找我,我们来替你掉头发,保证通过备案审核。
最后,祝你备案顺利,领导满意。
