小小林熬夜学编程

这个屌丝很懒，什么也没留下！

热门标签

大模型基础理论学习笔记——大模型法律

作者：小小林熬夜学编程 | 2024-03-07 05:19:53

踩

大模型基础理论学习笔记——大模型法律

本文目录

10.大模型法律
参考资料

10.大模型法律

10.1 简介

大模型作为一项新的强大的技术，为了其能够更好的服务于人类，我们需要将我们的现行法律对大模型进行适配。这里有几点需要澄清：

我们将要讨论的很多内容并不一定特指大型语言模型（并没有特别的大型语言模型法律条例），就像我们讨论社会偏见时也不特指大语言模型一样。然而，每当有新的强大的技术出现，它都会引发很多关于现有法律是否仍然适用或有意义的问题。例如，随着互联网的重要性日益提高，互联网法律（或称为网络法）应运而生。它从现有的领域中汲取知识，如知识产权法，隐私法，和合同法等。
我们将要讨论的是法律范畴的内容，而非道德方面的准则。法律可以由政府强制执行，而道德无法强制执行，可以由任何组织创立。例如医师的希波克拉底誓言^[1]、ACM的道德与职业行为准则^[2]等。

我们将会把注意力转向大型语言模型。回忆大型语言模型的生命周期：收集训练数据，训练大型语言模型，将其适应到下游任务，向用户部署语言模型。在大型语言模型的生命周期中，有两个主要领域与法律交叉：数据和应用：

语言模型依赖于大量的数据，尤其是为其他目的制作的他人的数据，这些数据往往在未经许可的情况下被抓取。知识产权法保护数据的创作者，那么在这些数据上训练语言模型是否构成侵犯版权？隐私法保护个人隐私权，那么在公开或私密数据上训练语言模型是否可能侵犯隐私？对于私密数据，何时可以收集和汇总这些数据？
语言模型可以被用于广泛的下游任务（例如，问答，聊天机器人），其扩展能力（例如，真实文本生成，聊天机器人）将带来新的挑战：
- 一方面，这项新技术可能被有意用于伤害（例如，垃圾邮件，网络钓鱼攻击，骚扰，假新闻），而现有的互联网欺诈和滥用法律可能只能覆盖其中的一部分。
- 另一方面，语言模型可以被部署在各种高风险的环境（例如，医疗，贷款，教育），而现有的在相关领域的规定（例如，医疗）可能也只能覆盖其中的一部分。

下面，我们主要围绕版权法、隐私法律、数据保护条例等进行介绍和讨论。

10.2 版权法/知识产权法

版权法/知识产权法的建立动机是鼓励创建各种类型的知识产品（包括版权，专利，商标，商业秘密）。如果任何人都可以利用你的辛勤劳动并从中获利，人们就会对创造或分享失去动力。

在美国，版权保护适用于“已经以某种可以感知、复制或以其他方式直接或通过机器或设备传达的有形媒介中固定下来的原创性作者作品”。虽然不需要登记就可以获得版权保护，但在起诉他人侵犯版权之前，创作者必须注册版权。版权保护期限为75年，然后版权到期，作品成为公有领域的一部分（如莎士比亚、贝多芬的作品等）。

使用版权作品有两种方式：获取许可或依赖公平使用条款。

注意：事实和想法不受版权保护。如果策划/安排被视为表达，事实数据库可以受版权保护。复制数据（训练的第一步）就已经是侵权，即使你不做任何事情。法定损害赔偿可以高达每件作品150,000美元（版权法第504条）。

10.2.1 许可

许可（来自合同法）是由许可人授予许可使用者的。实际上，许可就是“承诺不起诉”。创作共享许可，允许免费分发版权作品。例如，维基百科、开放课程、可汗学院、免费音乐档案、来自Flickr的307百万图像、来自MusicBrainz的39百万图像、来自YouTube的1000万视频等。

10.2.2 公平使用条款

自1840年代以来，公平使用一直是普通法。决定是否适用公平使用的四个因素是：

使用的目的和性质（教育用途优于商业用途，转型用途优于复制）；
版权作品的性质（虚构作品优于事实作品，创新性的程度）；
使用的原作部分的数量和实质性；
使用对原作市场（或潜在市场）的影响。
服务条款可能会增加额外的限制。例如，YouTube的服务条款禁止下载视频，即使视频在创作共享下许可。

为理解公平使用条款，我们通过美国作家协会起诉Google侵权案（亦称为Google图书馆案） 的例子来理解^[3]：

（1）案件始末

2002年开始，谷歌和美国多家图书馆进行合作，将图书馆图书数字化并建立电子数据库。谷歌大约浏览了2000万图书，并显示其中400万具有版权作品的被称之为围绕着被搜索单词的小段落“snippets”的内容，搜索者可在线搜索图书，查知被搜索单词的上下文和图书销售地点。2005年9月，美国作家协会（The Authors Guild）和出版商等其他一些权利人在美国纽约南区联邦地方法院提起集体诉讼，起诉谷歌侵犯其版权。2013年11月14日，法院依美国版权法第106条和107条，认为谷歌公司行为属于合理使用。原告不服提起上诉，2015年10月16日，美国第二巡回法院认为谷歌图书馆计划没有构成侵权。

（2）案件判决

美国版权法中的合理使用最初是普通法概念，1976年美国版权法规定了合理使用制度。1976年版权法第107条确定了合理使用的四个要件：

使用的意图和特征，包括是否是商业使用，是否是为了非营利性教育目的使用；
版权作品属性；
与被使用作品整体对比体现出来的使用数量和实质比例；
使用对版权作品价值的潜在市场影响。

美国第二巡回法院认为，谷歌图书馆计划符合合理使用四要件，谷歌对其图书的复制行为没有侵权。法院主要讨论如下问题：

（一）版权法目的和合理使用制度的关系：法院认为，版权法最终目标是扩充公共知识。为实现这一目的，版权法授予潜在创造者对作品复制件的排他控制权，给予作者创造作品的经济刺激，以供公众学习。因此，作者是版权的受益者，但最终的、主要的受益者是公众。

（二）合理使用四要件之法律适用：法院在司法实践中应当进行个案分析，而不能采用整齐划一的简单形式。法院认为，这四个要件并不能孤立对待，法院应当将此四要件一起考虑，结果一起权衡，每个要件都作为问题评价的一部分：如何定义权利人排他权的边界，以在保护创作动机的情况下最好地服务于版权法促进公共知识的最终目标。 法院指出：合理使用四要件的权重并非完全等同，一些应当比另一些更重要。法院也强调了第一要件的重要性，认为：使用越有转换性目的，它越服务于版权法促进公共知识的目标，它越少可能性地形成对原始作品的替代。

（三）谷歌图书馆案中合理使用之定性及具体分析谷歌案是否适用于合理使用？ 法院依次分析合理使用四要件，具体内容如下：

关于第一要件（使用的意图和特征），法院主要讨论了转换性使用，在对比HathiTmst案[8]基础上指出，谷歌图书馆行为是转换性使用，其商业动机不影响其转换性使用，转换性使用倾向于合理使用的成立。
关于第二要件（版权作品属性），法院将其联合第一要件进行考虑，指出第二要件有利于合理使用，因为谷歌的使用仅仅是提供关于原始作品的有价值信息，而不是复制受保护的表达。
关于第三要件（与被使用作品整体对比体现出来的使用数量和实质比例），法院分析了谷歌图书馆计划的搜索功能和Snippet功能。法院认为，对于搜索功能，为使搜索功能有效，被告利用原始作品是必需的，原始作品整体复制对于谷歌的转换性目的是必须的，如果谷歌复制比例比整体复制少，搜索功能就无法最好发挥作用；对于Snippet功能，法院认为，谷歌公司是否构成侵权，决定性因素不是使用的数量，而是公众可得到的作品数量是否构成替代，从事实看，谷歌提供的服务并不导致市场替代，谷歌还采取了—些措施避免市场替代。
关于第四要件（使用对版权作品价值的潜在市场影响），考虑到用来获取杂乱无章内容重新排列的人工成本和相对而言较低的图书价格，法院认为， snippet内容即便经过大量人工整理，也只能产生不连续的小片断，且不超过图书的16%，这对权利人不构成威胁。

最终，法院认为，谷歌对原告作品的完整数字复制行为是一种合理使用，不构成版权侵权。

10.2.3 小结

机器学习系统的数据使用是变革性的，它不会改变作品，但会改变目的。机器学习系统对想法感兴趣，而不是具体的表达。然而，版权法是否能够适配限制机器学习模型呢？这里有两个方面：

一方面，训练数据的广泛访问会为社会创造更好的系统。如果不允许使用，那么大部分作品无法用来产生新的价值。使用版权数据可能更公平。
另一方面，机器学习系统不会产生创意的“最终产品”，而只是赚钱。生成模型（例如，语言模型）可以与创意专业人士竞争。机器学习系统存在问题（传播假信息，实现监控等），不应该在仍有疑虑的情况下给予机器学习系统利益。

查看信息技术的历史，我们可以看到三个阶段：

第一阶段：文本数据挖掘（搜索引擎），基于简单的模式匹配。
第二阶段：分类（例如，分类停止标志或情感分析），推荐系统。
第三阶段：学习模仿表达的生成模型。

如果语言模型直接复制哈利·波特，那么这对公平使用来说是有问题的。事实上，语言模型也确实可以与作家竞争。例如，作家写了3本书，语言模型在这3本书上进行训练，并自动生成第4本。然而：

一方面，即使语言模型不直接生成以前的作品，版权仍然相关，因为以前的受版权保护的作品被用来训练语言模型。
另一方面，在版权法下，很难分离可保护的（例如，表达）和不可保护的（例如，想法）。

因此，面对大型语言模型，版权和机器学习的未来还未知，对于训练大型语言模型是否属于公平使用的问题仍需要更多的关注与研究。

10.3 隐私法律

我们将简要讨论一些隐私法律的例子，包括Clearview AI、加利福尼亚消费者隐私法案（2018）、加利福尼亚隐私权法案（2020）以及欧盟的一般数据保护条例（GDPR）。

10.3.1 Clearview AI

Clearview AI是一家成立于2017年的公司。2019年，纽约时报曝光了它。到2021年10月，该公司已经从Facebook、Twitter、Google、YouTube、Venmo等网站抓取了100亿张人脸图片。该公司将数据销售给执法机构（例如，FBI）和商业组织。该公司辩称有权使用公开的信息。由于侵犯隐私，该公司已被起诉。

10.3.2 加利福尼亚消费者隐私法案（2018）

这项法案赋予加利福尼亚居民以下权利：

了解收集他们的哪些个人数据，这些个人数据包括：真实姓名、别名、邮寄地址、唯一个人标识符、在线标识符、IP地址、电子邮件地址、账户名称、社会保障号码、驾驶执照号码、车牌号码、护照号码等。
了解他们的个人数据是否被出售或公开，以及给了谁。
拒绝个人数据的销售。
访问他们的个人数据。
请求业务删除从消费者处收集的任何个人信息。
不因行使他们的隐私权利而被歧视。

该法适用于在加利福尼亚经营且年收入至少为2500万美元的企业。美国联邦尚无相应法律。与GDPR不同，这项法律不允许用户更正数据。

10.3.3 加利福尼亚隐私权法案（2020）

这项法案创立了加利福尼亚隐私保护机构，于2023年1月1日生效，适用于2022年1月1日之后收集的数据。

此机构的核心意图包括：

了解谁在收集他们及其孩子的个人信息，如何使用，以及向谁公开。
控制他们个人信息的使用，包括：
- 限制他们敏感个人信息的使用。
- 访问他们的个人信息并有能力纠正、删除和转移他们的个人信息。
- 通过易于获取的自助工具行使他们的隐私权利。
- 行使他们的隐私权利而不受罚款。
- 将未采取合理信息安全预防措施的企业追究责任。
- 从企业使用他们的个人信息中受益。
- 作为员工和独立承包商也能保护他们的隐私利益。

10.3.4 欧盟的一般数据保护条例（GDPR）

该规定是欧盟法律关于数据隐私的一部分，于2016年通过，2018年可执行，其范围比CCPA更广泛。该条例：

不适用于处理个人数据的国家安全活动或执法行为。
数据主体可以同意处理个人数据，并可以随时撤回。
人们应有权访问自己的个人数据。

因为在Android手机设置过程中未获得广告个性化的同意，Google被罚款5700万美元。

10.4 总结

在训练大型语言模型时，我们必须面对版权和公平使用的问题。由于网络爬取的未筛选性质，你必须诉诸公平使用（从每个人那里获得许可证将非常困难）。模型的生成性可能会对争论公平使用提出挑战（可以与人类竞争）。在什么水平上进行调控（语言模型还是下游应用）是有意义的？这个领域正在迅速发展，需要深入的法律和人工智能专业知识才能做出明智的决定。

参考资料

[1] 医者之誓——永恒的希波克拉底誓言 - 知乎 (zhihu.com)

[2] Code of Ethics (acm.org)

[3] …::李国庆：谷歌图书馆案The Authors Guild,Inc. v Google,Inc.判决述评–中国法学网::… (cssn.cn)

[4] 第11章大模型法律 (datawhalechina.github.io)

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/203719