大数据季刊经典作品
译者:Mickey
自问世之日就倍受争论的谷歌标识符辅助工具Copilot近期又遭受了捷伊问题。
一位开发人员就该辅助工具正式控告了谷歌、GitHub 和 OpenAI,谋求对谷歌和其它结构设计布署 Copilot 的子公司进行自发性民事诉讼,并明确要求索赔。目前民事诉讼已经递交到了美国加利福尼亚州南区高等法院,明确要求核准 9,000,000,000 美元的原则上索赔款。
让开发人员们早上班的AI辅助工具
Copilot到底何处宝物?
今年6 月中旬,谷歌发布了一种能手动聚合计算机系统标识符的新式人工智慧技术。
该辅助工具名叫 Copilot,意在让专精开发人员更慢地组织工作。当他们组织工作时,Copilot会得出标识符提议,开发人员能间接将copilot展示的提议的标识符块间接加进到自己的标识符中,快速完成组织工作,这一辅助工具也因此被很多新闻媒体喻为“让开发人员早上班的辅助工具”。
据 Copilot 中文网站称,Copilot如前所述Codex 数学模型产生,其由“网络上的公用标识符和文档”体能训练,“既能认知程式结构设计,也能认知人类词汇”。作为 Visual Studio Code 的扩充,Copilot “将你的文章和标识符发送至 GitHub Copilot 服务,然后它会采用 OpenAI Codex 来制备并提议部分行和整个表达式”。
许多开发人员喜欢这个新辅助工具,有开发人员表示:“采用 Copilot,我能尽量避免把心力节约在乏味多次重复的组织工作身上。它引爆的意念火光,让我感到代码过程更有意思、更高效率了。”但也有不少人不在意,纽约的开发人员、结构雕塑家、小说家和辩护律师Matthew Butterick就是其中之一。下月,他和其它辩护律师项目组提出诉讼民事诉讼,谋求对谷歌和其它结构设计和布署 Copilot 的著名子公司的自发性民事诉讼地位。
前开发人员辩护律师发动自发性民事诉讼:与盗版软件有别
与许多尖端人工智慧技术一样,Copilot通过分析大量数据来发展其技能。在这种情况下,它依赖于发布到网络上的数十亿行计算机系统标识符。52 岁的 But
这起民事诉讼被认为是对称为“AI体能训练”类技术的首次法律民事诉讼。通过大量公开数据进行体能训练,让ai学习并聚合自己的产物,这是一种构建人工智慧的方式,有望重塑科技行业。这些所谓产物包括画作、文字、和标识符。近年来,许多艺术家、小说家、专家和隐私活动家抱怨说,子公司正在采用不属于他们的数据来体能训练他们的人工智慧系统。
开发人员兼辩护律师马修·巴特里克 (Matthew Butterick) 表示,他担心自己所做的组织工作在捷伊人工智慧系统中被不当采用。
在过去几十年的技术发展中,这一民事诉讼并不是首例。在 1990 年代和 2000 年代,谷歌与开源软件的兴起作斗争,将其视为对子公司业务未来的生存威胁。随着开源的重要性与日俱增,谷歌欣然接受它,后来还收购了开源开发人员的家园——GitHub。
几乎每一代新技术,甚至是在线搜索引擎,都面临着类似的法律挑战。通常,“没有任何成文法或判例法对其有效,”专门研究这一法律领域的知识产权辩护律师Bradley J. Hulbert说。
这起民事诉讼是人工智能发展途中的重要里程碑。艺术家、小说家、作曲家和其它创意类型越来越担心子公司和研究人员在未经他们同意且不提供报酬的情况下采用他们的经典作品来创造新技术。子公司以这种方式体能训练各种各样的系统,包括艺术聚合器、 Siri 和 Alexa 等语音识别系统,甚至无人驾驶汽车。
Copilot 如前所述由 OpenAI 构建的技术,在谷歌和 GitHub 发布 Copilot 后,GitHub 的首席执行官 Nat Friedman 在推特上表示,根据版权法,采用现有标识符来体能训练系统是对材料的“合理采用”,构建这些系统的子公司和研究人员经常采用这一论点。但目前还没有法庭案件检验过这一论点。
“谷歌和 OpenAI 的野心远远超出了 GitHub 和 Copilot,”Butterick在接受采访时说。“他们想在任何地方免费体能训练任何数据,无需同意,永远。”
从GPT-3到Copilot,AI用开源数据体能训练是否合法?
2020 年,OpenAI推出了一个名叫 GPT-3 的系统。研究人员采用大量数字文档对系统进行体能训练,其中包括数千本书籍、维基百科文章、聊天记录和其它发布到网络上的数据。
通过精确定位所有文档中的模式,该系统学会了预测序列中的下一个单词。当有人在这个“大型词汇数学模型”中输入几个单词时,它能用整段文档来完成这个想法。通过这种方式,系统能编写自己的 Twitter 帖子、演讲、诗歌和新闻文章。
令构建该系统的研究人员大吃一惊的是,它甚至能编写计算机系统程序,显然是从网络上发布的无数程序中学到的。
因此,OpenAI 更进一步,在专门存储标识符的新数据集合上体能训练新系统Codex 。该实验室后来在一份详细介绍该技术的研究论文中表示,至少部分标识符来自 GitHub。
这个新系统成为 Copilot 的底层技术,谷歌通过 GitHub 分发给开发人员。在与相对较少的开发人员进行了大约一年的测试后,Copilot 于 7 月在 GitHub 上向所有开发人员推出。
目前,Copilot 聚合的标识符很简单,可能对更大的项目有用,但必须进行修改、扩充和审查,许多采用过该技术的开发人员表示。有些开发人员发现它只有在学习代码或试图掌握一门新词汇时才有用。
尽管如此,Butterick还是担心 Copilot 最终会摧毁全球开发人员社区。系统发布几天后,他发表了一篇博文,标题为:“这个Copilot很蠢,它想杀了我”。
Butterick 先生自称为开源开发人员,是与世界公开分享标识符的开发人员社区的一员。在过去的 30 年里,开源软件帮助推动了消费者每天采用的大多数技术的兴起,包括网络浏览器、智能手机和移动应用程序。
尽管开源软件意在在代码人员和子公司之间自由共享,但这种共享受许可证约束,意在确保它的采用方式使更广泛的开发人员社区受益。Butterick 先生认为,Copilot 违反了这些许可证,并且随着它的不断改进,将使开源代码器变得过时。
在公开吐槽这个问题几个月后,他向其它几位辩护律师提出诉讼民事诉讼。该民事诉讼仍处于早期阶段,尚未被法院授予自发性民事诉讼地位。
令许多法律专家感到意外的是,Butterick的民事诉讼并未指控谷歌、GitHub 和 OpenAI 侵犯版权。他的民事诉讼采取了不同的策略,认为这些子公司违反了 GitHub 的服务条款和隐私政策,同时也违反了明确要求子公司在采用材料时显示版权信息的联邦法律。
Butterick和民事诉讼背后的另一位辩护律师乔·萨维里 (Joe Saveri) 表示,民事诉讼最终可能会解决版权问题。
当被问及子公司是否能讨论这起民事诉讼时,GitHub 发言人拒绝了采访,然后在一封电子邮件声明中表示,该子公司“从一开始就致力于通过 Copilot 进行负责任的创新,并将继续改进产品,为全球开发人员提供最好的服务” 谷歌和 OpenAI 拒绝就民事诉讼发表文章。
大多数专家认为,根据现行法律,在受版权保护的材料上体能训练人工智慧系统不一定违法。但这样做可能是因为系统最终创建的材料与它所体能训练的数据基本相似。
Copilot 的一些用户表示,它聚合的标识符似乎与现有程序相同(或几乎相同),这一观察结果可能成为 Butterick 先生和其它人案例的核心部分。
加利福尼亚州大学伯克利分校教授帕姆·萨缪尔森专门研究知识产权及其在现代技术中的作用,他说法律思想家和监管机构在技术出现之前的 80 年代简要探讨了这些法律问题。她说,现在需要进行法律评估。
“这不再是玩具问题,”萨缪尔森博士说。
Butterick还创建了一个中文网站,跟进民事诉讼情况,也呼吁更多人的支持,在中文网站文章中他强调:“我们反对的绝不是 AI 辅助程式结构设计辅助工具,而是谷歌在 Copilot 当中的种种具体行径。谷歌完全能把 Copilot 做得更开发人员友好——比如邀请大家自愿参加,或者由程式结构设计人员有偿对体能训练语料库做出贡献。但截至目前,口口声声自称热爱开源的谷歌根本没做过这方面的尝试。另外,如果大家觉得 Copilot 效果挺好,那主要也是因为底层开源体能训练数据的质量过硬。Copilot 其实是在从开源项目那边吞噬能量,而一旦开源活力枯竭,Copilot 也将失去发展的依凭。”
相关素材:
https://archive.ph/3tuU0
https://githubcopilotinvestigation.com/
原标题:《GitHub 程式结构设计宝物 Copilot被斥「盗版软件」大量开源标识符,面临90亿美元自发性民事诉讼》