关键词:
生成式人工智能
训练数据
数据法律问题
数据治理体系
摘要:
生成式人工智能训练阶段的数据收集和处理面临众多法律问题,在全球层面引发各类诉讼案件。训练阶段的数据保护问题集中于预训练和模型微调环节,涉及数据来源合法性、数据质量管理、公开数据不当抓取利用、个人数据权利保护缺失、违法偏见和歧视等问题。对于训练阶段的数据治理路径选择,欧盟和美国等典型国家和地区呈现出不同的特征,欧盟采取分类分级分主体理念,重点关注训练数据透明度,美国对公开可得个人信息持积极利用态度,探索公共数据收集豁免,英国提出合法利益评估标准三步测试,新加坡创设数据处理的业务改进和科研例外制度等。生成式人工智能仍在持续进化,为解决训练阶段的数据法律问题,在宏观层面,我国需要保持人工智能产业发展和安全监管之间的平衡,推进产业促进政策法制化,坚持包容审慎和分类分级监管立法导向,建立适合我国人工智能产业发展阶段的监管沙盒等实验性监管制度;在具体数据规则建构方面,有待区分研发训练和商用提供阶段,建立安全港制度,引入科研和业务改进例外的数据合理使用制度,进一步细化公开数据利用规则,加强数据质量管理,统一数据匿名化标准,创建机器学习场景下处理数据的新权利和新规则,合理地构建起我国生成式人工智能训练数据的数据治理体系。