《人工智能权利法案蓝图》(人工智能训练中公开个人数据处理的域外规制)_人工智能

人工智能训练中公开个人数据处理的域外规制

原标题：人工智能训练中公开个人数据处理的域外规制

□ 罗世杰

人工智能技术的快速演进，特别是大模型的发展，使其对数据形成空前的依赖性。在海量训练语料中，公开个人数据往往可以被直接利用。这一技术实践引发较大争议：公开是否意味着可任意处理？当人工智能训练使用公开个人数据时，如何在促进创新与保护权利之间取得平衡？这些问题已成为域外立法、执法、司法的关键议题。对此，欧盟、美国、新加坡形成了不同规制路径，这为理解人工智能训练中公开个人数据处理的治理趋势提供了有益参照。

欧盟：权利本位与严格规制

欧盟在人工智能训练利用公开个人数据的问题上立场鲜明，即公开并不意味着可以任意处理。其核心立法框架由《通用数据保护条例》《人工智能法》和《数据法》共同构成，并辅以成员国监管机构执法实践，形成了以权利本位为中心的成文化、系统化规制模式。

确立合法基础和数据自决权。《通用数据保护条例》第6条规定，处理公开个人数据必须具备合法基础。“合法利益”是实践中的常见依据，但需通过三步检验：是否存在明确利益、是否具有必要性、是否在利益衡量中不凌驾于数据主体基本权利之上。当公开个人数据涉及敏感信息时，还需满足第9条“数据主体明确公开”的例外，其处理门槛远高于未包含敏感信息的个人数据。同时，《通用数据保护条例》第13条、第14条要求数据处理者向数据主体说明数据来源、处理目的及权利行使渠道，并保障其删除权、拒绝权等。针对人工智能训练的特殊性，欧盟监管机构要求企业能够展示公开个人数据在收集、预处理、训练及输出各阶段的合规安排，并保存处理活动记录和数据保护影响评估，确保数据处理活动可核验。

修法过程中引入人工智能专门规制。《数据法》强调数据可用性与公平访问，但明确不得损害既有个人数据保护秩序，与《通用数据保护条例》形成“可用性—权利保护”并行关系。它为跨主体的数据共享、互操作和云迁移提供框架，同时对人工智能训练中公开个人数据的流通设定边界。《人工智能法》要求高风险人工智能系统满足数据治理与质量义务，确保训练数据可追溯、可解释。其中，通用目的人工智能服务提供者需履行公开训练内容摘要的透明义务，并对可能带来系统性风险的模型进行风险评估与预防。

强化监管执法力度。欧盟多国监管机构已就人工智能模型大规模抓取公开个人数据开展调查和处罚。例如，法国、意大利等国对利用公开人脸数据训练人工智能的企业处以高额罚款，要求其删除数据；意大利监管机构对在训练环节不当处理公开个人数据的人工智能模型发布禁令，并处以罚款。这些案例传递的信号是：“公开”并不是免责事由，无法说明合法基础、透明性和权利救济的数据训练行为将面临强监管。

总体而言，欧盟形成了“权利本位、全程透明、强制问责”的治理蓝图。其目标在于确保人工智能训练中公开个人数据的可解释性、可追溯性与可救济性。这种模式在人工智能数据治理中凸显出以权利保护为核心的制度取向，但也显著提高了企业合规成本。

美国：宽松利用与多元治理

美国对人工智能训练处理公开个人数据的规制相较于欧盟更为宽松，呈现出碎片化、多元化特点。由于缺乏统一的联邦立法，美国的数据治理法律框架主要依赖各州立法、行业自律以及司法判例，联邦监管机构在部分重点领域提出原则性指导，但整体上以鼓励创新为主。

联邦政策指引与宽松的立法态度。联邦贸易委员会在人工智能治理中发挥日益重要的作用。近年来，联邦贸易委员会针对人工智能训练过程中的数据安全与隐私风险展开调查，强调企业必须在透明度、公平性和安全性方面承担责任。《人工智能权利法案蓝图》作为一份非强制性政策文件，提出了尊重数据主体、确保透明和防止歧视的原则，虽不具有强制效力，但反映了联邦层面对公开个人数据治理的价值导向。在立法层面，少数州制定了较为完备的地方性法规，其中以《加利福尼亚州消费者隐私法》及后续修订最具代表性。该法虽然赋予作为数据主体的消费者访问、更正和删除其数据的权利，但在公开个人数据方面设定了豁免条款，即一旦数据已向公众公开，公众在对其进行利用时可以享有更大自由。

行业自律与技术规范作为规制主力。在缺乏统一立法的背景下，行业协会和企业自律成为约束人工智能训练数据的主要手段。部分科技企业通过制定内部准则和合规政策，对人工智能训练中处理公开个人数据的活动设定一定限制，例如标注数据来源、允许用户提出删除请求等。然而，这些自律措施缺乏强制力，更多是对社会舆论压力和潜在法律风险的回应，而非严格的外部约束。

司法判例的间接规制。近年来，多起涉及人工智能训练的案件引发关注。Get⁃ty Images诉Stability AI一案，虽然核心争议点在于版权侵权，但实质上也涉及在人工智能训练过程中是否可以不经同意使用含有人像的公开个人数据。部分州法院还对人工智能企业通过网络抓取方式大规模采集公开个人数据提出质疑，认为其可能违反消费者保护或反不正当竞争规则。由此可见，虽然缺乏统一的法律框架，但司法判例正逐渐成为美国治理公开个人数据处理的重要法律路径。

美国的规制路径展现出“宽松管制、分散约束、多元治理”的特征。然而，这种宽松模式也带来显著风险：一方面，缺乏统一立法使得数据主体在不同州享有的数据权利差异较大，而数据在跨州流动中容易出现监管盲区；另一方面，人工智能企业过度依赖公开个人数据进行训练，可能加剧隐私侵害与歧视性偏差的风险。

新加坡：审慎开放与风险导向

相较于欧盟的严格约束与美国的宽松治理，新加坡更倾向于风险可控前提下的审慎开放路径。其以风险防范和合规责任为核心，通过《个人数据保护法》与多层政策工具协同运作，形成兼具模型创新与数据保护的治理框架。

风险导向的立法逻辑。根据《个人数据保护法》，在人工智能训练中处理公开个人数据须遵循合法收集、合理处理与目的限定原则。其通过“合理预期”与“合理目的”标准来判断公开个人数据处理行为的正当性，即只要处理行为与数据主体的合理预期相一致且在风险可控范围内，便具有较高的法律包容性。同时，在立法层面通过推出监管沙盒及试点机制，为企业在特定场景中利用公开个人数据开展人工智能训练提供制度空间，但要求明确责任主体、风险控制方案与退出机制，以确保人工智能训练活动具备可追溯性与可干预性。

《人工智能权利法案蓝图》(人工智能训练中公开个人数据处理的域外规制)

制度更新下的规制强化。2020年修订后的《个人数据保护法》确立了更为明确的问责原则，要求数据处理者建立内部合规体系，包括数据治理流程、风险评估机制与违规应对程序。尤其当公开个人数据被用于涉及显著风险的应用场景（如生物识别、行为画像等）时，其应开展数据保护影响评估，并就数据处理范围、保存周期与跨境传输作出明确说明。此外，新加坡资讯通信媒体发展局还发布了“人工智能验证”测试工具与《生成式人工智能治理模型框架》，在法律之外构建起技术与治理双重支撑机制，强调可披露、可解释、可验证与可审计。

实践层面的周期性监管机制。在公开个人数据的监管实践中，新加坡采取“企业问责、政府监督、公众救济”的协同路径。事前环节强调企业承担主动责任，如制定数据治理方案、设立数据保护官并采取安全防护措施；事中环节通过强制性违规通报、定期审查与随机检查来加强监督；事后环节则允许数据主体申请纠正、限制处理或提出投诉，由个人数据保护委员会进行调查与制裁。新加坡并未对人工智能训练全面禁限，但其监管更突出“对高风险用途严控、对低风险用途适度开放”的差异化原则，尤其在数据跨境传输方面，要求接收方具备相当水平的保护措施，并可追究责任主体。

新加坡通过风险评估、责任机制与技术标准化路径，为人工智能训练中公开个人数据的处理提供了安全底线与制度弹性。然而，其仍面临人工智能训练的不透明性削弱风险评估与可解释机制的有效性，以及问责机制的落地取决于数据处理者能力差异与监管资源配置等挑战。

【本文系国家社会科学基金后期资助项目“区块链技术安全风险防范法律机制研究”（立项编号：24FFXB063）的阶段性研究成果】

（作者单位：重庆大学法学院）（罗世杰）

(人民法院报)