2026.04.08 | 念乡人 | 56次围观
AI训练数据需合规,严禁非法爬取
随着人工智能技术的飞速发展,数据已成为驱动AI创新的核心要素,数据获取与使用的合规性问题日益凸显,我国网络安全法迎来重要修订,明确要求AI训练数据必须合规,并严禁非法爬取行为,这一修订不仅回应了技术发展带来的新挑战,也为数据安全和隐私保护划定了更清晰的法律红线。
修订背景与核心内容

本次网络安全法修订主要针对AI时代的数据使用乱象,近年来,部分企业为快速获取训练数据,通过非法爬取手段收集个人信息、商业秘密甚至国家敏感数据,严重侵害公民权益、企业利益和国家安全,修订案重点包括:
- 明确AI训练数据合规要求:所有用于AI模型训练的数据必须来源合法,且需经过脱敏、匿名化等安全处理。
- 严禁非法爬取行为:未经授权爬取网络数据,尤其是个人信息和受保护内容,将被严格禁止并追究法律责任。
- 强化平台责任:网络服务提供者需采取技术措施防止非法爬取,并对平台上的数据使用进行监督。
合规要求详解
数据来源合法性
AI训练数据应通过公开渠道、合法授权或用户知情同意的方式获取,企业需建立数据溯源机制,确保每一份训练数据都有合规依据。
数据安全处理
即使数据来源合法,在使用前也必须进行脱敏、去标识化处理,防止个人信息泄露,涉及重要数据或出境数据时,还需遵守相关安全评估规定。
使用目的限制
数据使用必须与收集时声明的目的相符,不得超范围用于AI训练,若需变更用途,应重新取得授权或进行安全评估。
非法爬取的界定与后果
非法爬取不仅指技术上的未经授权访问,还包括违反网站Robots协议、绕过安全防护、窃取加密数据等行为,修订案大幅提高了处罚力度:
- 对违规企业最高可处以营业额5%的罚款,情节严重的可吊销相关业务许可。
- 直接责任人员可能面临刑事责任。
- 建立信用记录机制,违规行为将纳入社会信用体系。
对AI行业的影响
短期挑战
部分依赖爬取数据的企业将面临转型压力,数据获取成本可能上升,行业需要时间建立合规的数据供应链。
长期利好
- 促进行业健康发展:遏制数据滥用乱象,推动AI企业注重数据质量而非数量。
- 激励数据创新:鼓励通过数据合成、联邦学习等隐私计算技术获取训练数据。
- 提升国际信任:合规的数据实践有助于中国AI企业参与全球竞争。
企业应对建议
- 开展数据合规审计:全面排查现有训练数据来源,清理不合规数据。
- 建立数据治理体系:设立数据合规官,制定从收集、存储到使用的全流程规范。
- 探索替代数据方案:与数据交易所合作,购买合法数据产品或采用合成数据。
- 加强技术防护:部署反爬虫机制,同时确保自身不触碰法律红线。
网络安全法的此次修订标志着我国数据治理进入新阶段,在AI技术蓬勃发展的今天,平衡创新与合规、效率与安全至关重要,企业唯有主动适应监管要求,构建合法合规的数据基础,才能在AI竞争中行稳致远,这不仅是对法律的遵守,更是对用户信任和社会责任的担当,随着法规的细化实施,一个更加规范、安全的AI发展环境将逐步形成,为数字中国建设奠定坚实根基。
版权声明
本文系作者授权念乡人发表,未经许可,不得转载。
