MLNLP
街道社区是海内外著名的机器学习与语义处置街道社区,电视广告主全面覆盖海内外NLP硕博生、院校同学以及企业科学研究相关人员。
街道社区的蓝图是推动海内外语义处置,机器学习学界、工业界和各阶层发烧友之间的沟通交流和不断进步,特别是新手全校师生的不断进步。风险提示 | 夕小瑶信息技术说译者 | 情商掉了几块、Python随着闲聊机器的风潮迅速刮起信息技术行业并招揽到投资人士的注意力,Google、谷歌、Meta 和Amazon等公司正争相将她们最繁杂的微积分模型内嵌尽量多的产品中。Google日前正式发布了这份控制技术调查报告,阐明了她们科学研究的大微积分模型新一代丰硕成果——PaLM-2。作为 Bard 闲聊机器的基础微积分模型,与过往的控制技术较之,PaLM-2 在处置长文档和多词汇各项任务各方面表现稳定,使用的体能训练统计数据基本上是前三代的 5 倍,使其能继续执行更高阶的程式设计、微积分和创意设计诗歌创作各项任务。我们将主要如是说 PaLM-2 的看点,并深入探讨它在电视广告和 YouTube 制译者支持各方面的新一代应用领域。控制技术调查报告试题:
PaLM 2 Technical Report
控制技术调查报告镜像:https://arxiv.org/abs/2305.10403
PaLM-2 看点德展健康
体能训练统计数据:PaLM 是Google在今年正式发布的大微积分模型,有 7800 万个 token 的体能训练统计数据,而近期正式发布的改良版 PaLM-2 据透漏[1]有 3.6 万万个 token 的体能训练文档统计数据,其体能训练统计数据体量基本上是前三代的 5 倍,逻辑推理能力大幅进一步增强。模块体量:微积分模型的体量较之第二代更小,PaLM-2 的模块量约有 3400 亿,而起初的 PaLM 在 5400 万个模块上进行了体能训练,这意味著该微积分模型在完成更繁杂的各项任务的同时显得更为高效率。多种词汇:PaLM-2 采用了 100 种词汇的体能训练统计数据,能更快地适应多词汇应用领域场景,提升词汇理解与生成能力。
科学研究进展
PaLM-2 在高阶逻辑推理各项任务中表现稳定,包括代码和微积分、分类和问答、翻译和多词汇能力,以及语义生成,比以前最先进的 LLM 微积分模型 PaLM 更出色。它通过统一大型词汇微积分模型中三个不同的科学研究进展,对其上三代 PaLM 进行了改进:计算优化的扩展:最近的计算优化扩展科学研究表明,统计数据大小至少与微积分模型大小一样重要。译者在更大体量的计算上验证了这项科学研究,并发现在给定体能训练计算量的情况下,统计数据大小和微积分模型大小应该按照约 1:1 的比例扩展,以实现最佳性能(而不是过去的趋势,即微积分模型比统计数据集扩展速度快3倍)。这种新控制技术使 PaLM-2 比 PaLM 更小,但效率更高,整体性能更快,包括更快的逻辑推理、更少的服务模块和更低的服务成本。改进的混合统计数据集:先前的大型预体能训练词汇微积分模型通常使用由英语文档主导的统计数据集。译者设计了一个更多词汇和多样化的预体能训练混合,涵盖数百种词汇和领域(如程式设计词汇、微积分和平行多词汇文档)。展示了更大的微积分模型可以处置更多不同的非英语统计数据集,而不会导致英语词汇理解性能下降,并应用领域了去重控制技术以减少记忆。架构和目标改进:微积分模型架构基于 Transformer。过去的大微积分模型基本上都使用单一的因果或掩码词汇建模目标,而考虑到 UL2 的强大结果,译者在该微积分模型中使用了经过调整的不同预体能训练目标的混合,以体能训练微积分模型理解语言的不同各方面。总的来说,PaLM-2 通过计算优化的扩展、改进的混合统计数据集以及架构和目标的改进等科学研究进展,提供了一个更强大、更多词汇、更全面理解词汇的微积分模型。
部分实验及结果
通过调查报告中的多项实验能了解到:逻辑推理:PaLM-2 在逻辑推理基准测试各项任务(如 WinoGrande 和 BigBench-Hard)上取得了最先进的结果,实验效果赶超 GPT-4。多词汇:在 XSum、WikiLingua 和 XLSum 等基准测试中取得了更快的结果,还改进了 PaLM 和Google翻译在葡萄牙语和中文等词汇上的翻译能力。记忆:与 PaLM 较之,PaLM-2 在逐字记忆各方面显著减少,可以减少攻击者在访问时可以恢复的信息,来防止信息提取攻击。此外,在代码、翻译、生成与问答等多项各项任务上,PaLM-2 都取得了一定的不断进步。具体地,为了评估和比较微积分模型的计算效率和性能,译者根据图 1 中的规律,计算了 1 × 10^22、1 × 10^21 和 1 × 10^20 FLOP 的最佳微积分模型模块(D)和体能训练 token 数(N)。然后,使用不同的微积分模型(从 400M 到 15B)在相同的预体能训练统计数据集上进行体能训练。▲从所有 4 个计算体量获得的缩放规律译者计算了每个微积分模型在这三个计算量点上的损失值,将得到的体能训练损失和相应的最佳微积分模型模块列在表 1 中。▲在给定数目的 FLOP 下估计的最佳模块大小此外,译者还将 PaLM-2 的各个变体与 PaLM 540B 进行了一次性对比实验。观察到,即使是最小的 PaLM-2 变体在性能上也能与体量更大的 PaLM 540B 微积分模型竞争,而 PaLM 2-M 已经始终优于 PaLM。PaLM 2-L 实现了以下丰硕成果:在基本上所有各项任务上较之 PaLM 取得了大幅改进。在使用 Winograd schema 的 WSC 和 WinoGrande 上表现相似。在对抗性语义逻辑推理 (ANLI) 统计数据集、ReCoRD 常识逻辑推理统计数据集以及阅读理解的 RACE 统计数据集上取得了显著的改进。最后,PaLM-2 延续了Google负责任的 AI 开发和对安全的承诺。预体能训练统计数据:删除了敏感的个人身份信息形式,过滤重复的文档以减少记忆效应,并分享了有关预体能训练统计数据中人们如何被表示的分析结果。新功能:PaLM-2 展示了改进的多词汇有害内容分类能力,并内置了对有害生成的控制。评估:评估了 PaLM-2 一系列下游用途的潜在危害和偏见,包括对话、分类、翻译和问答。这包括开发新的评估方法,用于衡量生成式问题回答环境和与有害词汇和与身份相关的社会偏见相关的对话环境中的潜在伤害。
PaLM-2 或将赋能电视广告与文案创作
据 CNBC 透漏,Google计划利用新的人工智能微积分模型来进行电视广告投放,并为 YouTube 制译者提供帮助。Google正迅速将人工智能控制技术引入其核心产品,并逐步应用领域于电视广告领域。据透漏,已批准使用基于 LLM 的生成式人工智能来自动化电视广告和支持电视广告的消费者服务。文件显示,Google的某些团队计划利用 PaLM-2 驱动的工具,让电视广告主生成自己的媒体资产,并为 YouTube 制译者提供视频建议。此外,Google正在测试将 PaLM-2 应用领域于 YouTube 青少年内容的标题和描述等各方面。对于制译者,Google使用这一控制技术来试验根据相关主题提供 5 个视频创意设计的想法。与此同时,在经历了近 20 年持续快速扩张后,Google连续多个季度的收入增长疲软。同时,电视广告商为了控制支出,一直在削减在线营销预算,这给Google与 Meta 等公司带来了困扰。据透漏,Google希望利用生成式 AI 产品增加支出,计划在其 100 多个产品中运用基于生成式 AI 的客户支持策略,包括 Google Play 商店、Gmail、Android 搜索和地图等,以提高收入和改善利润率。这些闲聊机器能通过简明扼要的语句提供具体答案,并允许顾客提出后续问题,然后提供最适合她们的电视广告计划建议。这一举措旨在应对近期经济变化和电视广告商削减在线营销预算的挑战。
小结
Google的近期工作与 Meta 最近推出的基于生成式人工智能的电视广告工具相呼应。而在即将举行的Google营销大会上,Google将正式发布新的 AI 控制技术供电视广告商使用,强调在电视广告领域的潜力。不过,Google在控制技术调查报告中强调:当讨论 PaLM-2 系列时,需要明确预体能训练微积分模型(不同体量)、这些微积分模型的微调变体以及使用这些微积分模型的用户界面产品之间的区别。尤其是用户界面产品通常会包含额外的预处置和后处置步骤。此外,底层微积分模型可能会随着时间的推移而发展。因此,不能期望用户界面产品的性能与本调查报告中所报道的结果完全相同。最后,如果Google的新微积分模型真的控制技术的发展,并期待看到它们对内容创作行业与市场的新影响~参考资料[1] CNBC: https://www.cnbc.com/2023/05/16/googles-palm-2-uses-nearly-five-times-more-text-data-than-predecessor.html控制技术沟通交流群邀请函
△长按添加小助手
请备注:姓名-学校/公司-科学研究方向(如:小张-哈工大-对话系统)即可申请加入语义处置/Pytorch等控制技术沟通交流群
关于我们
MLNLP 街道社区是由海内外机器学习与语义处置学者联合构建的民间学术街道社区,目前已经发展为海内外著名的机器学习与语义处置街道社区,旨在推动机器学习,语义处置学界、工业界和各阶层发烧友之间的不断进步。