思维链如何释放语言模型的隐藏能力?最新理论研究揭示其背后奥秘 Sam Altman 布局 Web3:让全人类分享 AI 利润5天狂飙37%,英伟达带飞这一板块小米财报拆解:高端、芯片和造车知乎CTO李大海兼任面壁智能CEO 大模型共建更进一步抢先苹果眼镜,Meta发布Quest 3拿下迪士尼的首个茶饮品牌联名,「7分甜」今年计划再开1000家店保时捷公布新盾徽:历时3年设计 年底前大规模启用尼康Z8禁用非原装电池 理由是出于安全考虑 用户:吃相难看899元!小米MIJIA智能音频眼镜官宣:6月9日正式开售在抖音只卖桶装面,销量100万单!一机集成16大功能 这款蓝炬星K5S集成灶值得入手!iQOO Neo8 Pro:首发天玑9200+,性能称霸安卓阵营浪潮式发售是什么?如何进行浪潮式发售?俄罗斯公务员工作期间禁止玩苹果手机 中国手机保有量越来越高苹果首款无风扇笔记本 8年前的MacBook被列为过时产品

2023-06-02 0 1,020

电脑之心专栏

电脑之心编辑部

观念链提示信息(CoT)是大微积分模型涌现中最神秘的现象之一,特别在化解微积分逻辑推理和决策难题中获得了华丽效果。CoT 到底有多重要呢?它另一面获得成功的监督机制是什么?责任编辑中,北大的几位科学人类学家证明了 CoT 在同时实现大词汇微积分模型(LLM)逻辑推理中是不可或缺的,并从方法论和试验视角阐明了 CoT 怎样释放出来 LLM 的巨大发展潜力。

最近的科学研究发现,观念链提示信息(Chain of Thought prompting,简称为 CoT)能明显提高大词汇微积分模型(LLM)的操控性,特别适用于处置牵涉微积分或逻辑推理的复杂各项任务。不过虽然获得了很大获得成功,但 CoT 另一面的监督机制以及怎样释放出来 LLM 的发展潜力依然冷酷无情。

近日,北京大学的一项新科学研究从方法论视角阐明了 CoT 另一面的奥妙。

学术论文链接:https://arxiv.org/abs/2305.15408

如前所述 Transformer 的大词汇微积分模型已经成为自然词汇处置中的通用微积分模型,在各种各项任务上都获得了广泛的应用。非主流的大微积分模型通常如前所述自重回本体论来同时实现,具体内容来说,各种不同的各项任务(如文档翻译、文档聚合、难题提问等)都能统一地视为字符串聚合难题,其中难题的输入和难题描述被一起被编码为一个单字(token)字符串,称为提示信息(prompt);难题的标准答案便能转化为如前所述提示信息来条件聚合后续单字的各项任务。

在大微积分模型领域中有大批的科学研究已经说明,精心设计的提示信息词对微积分模型的表现起着至关重要的作用。特别是在牵涉算术或逻辑推理相关的各项任务时, CoT 已被说明能大大提高所聚合标准答案的正确性。如右图所示,对于一个需要微积分逻辑推理的各项任务,大微积分模型间接聚合的标准答案往往是错误的(右图 a,b)。但是如果通过修改提示信息使得大微积分模型输出整个观念链(中间推论关键步骤),最终便能得到正确标准答案(右图 c,d)。在实践中,观念链提示信息有两种非主流的同时实现方式:一种是在提示信息中添加特定词组,如 “Let ’ s think step by step” 来触发(示意图 c);另一种是通过提供少量的观念链演示的例子来让大微积分开氏度相应的推论过程(示意图 d)。

然而,虽然 CoT 在大批试验上都获得了明显的表现,但另一面的方法论监督机制却依然是个谜。一方面,大微积分模型在间接提问微积分、逻辑推理等难题方面是否确实存在固有方法论缺陷?另一方面,为什么 CoT 能提高大微积分模型在这些各项任务上的潜能?这篇学术论文从方法论视角对上述难题进行了提问。

具体内容来说,科学人类学家从微积分模型理解潜能的视角来研究 CoT:对于微积分各项任务和一般的决策各项任务,责任编辑科学研究了如前所述自重回的 Transformer 微积分模型在以下两个方面的理解潜能:(1)间接聚合标准答案,以及(2)采用 CoT 的方式聚合完整的化解关键步骤。

CoT 是化解微积分难题的关键

以 GPT-4 为代表的大微积分模型已经展现出了令人震惊的微积分潜能。例如,它能正确求解大部分高中微积分题,甚至已经成为微积分家们的科学研究助手。

为了科学研究大微积分模型在微积分方面的潜能,责任编辑选取了两个非常基础但核心的微积分各项任务:算术和方程(右图给出了这两个各项任务的输入输出示例)。由于它们是化解复杂微积分难题的基本组件,因此通过对这两个核心微积分难题的科学研究,我们能对大微积分模型在一般微积分难题上的潜能有一个更深刻的理解。

科学人类学家首先探究了 Transformer 是否能输出上述难题的标准答案而不输出中间关键步骤。他们考虑了一种与实际非常吻合的假设 —— log 精度 Transformer,即 Transformer 的每个神经元只能表示有限精度的浮点数(精度为 log n 比特),其中 n 是句子的最大长度。这一假设与实际非常接近,例如在 GPT-3 中,电脑精度(16 位或 32 位)通常要远小于最大输出句子长度(2048)。

在这一假设下,科学人类学家证明了一个核心不可能结果:对于常数层、宽度为 d 的自重回 Transformer 微积分模型,以间接输出标准答案的方式求解上述两个微积分难题时,需要使用极大的微积分模型宽度 d。具体内容来说,d 需要以超越多项式的增长速度随输入长度 n 的增长而变大。

造成这一结果的本质原因在于,上述两个难题不存在高效的并行算法,因此 Transformer 作为一种典型的并行微积分模型无法对其进行求解。文章使用方法论计算机科学中的电路复杂性方法论对上述定理进行了严格证明。

那么,如果微积分模型不间接输出标准答案,而是按照上图的形式输出中间推论关键步骤呢?科学人类学家进一步通过构造证明了,当微积分模型能输出中间关键步骤时,一个固定大小(不依赖于输入长度 n)的自重回 Transformer 微积分模型便能化解上述两个微积分难题

对比之前的结果能看出,加入 CoT 极大地提高了大微积分模型的理解潜能。科学人类学家进一步对此给出了直观的理解:这是因为 CoT 的引入会将聚合的输出单字不断回馈到输入层,这大大增加了微积分模型的有效深度,使其正比于 CoT 的输出长度,从而极大地提高了 Transformer 的并行复杂度。

CoT 是化解一般决策难题的关键

除了微积分难题,科学人类学家进一步考虑了 CoT 在化解一般各项任务上的潜能。他们从决策难题出发,考虑了一种化解决策难题的通用框架,称为动态规划。

动态规划(DP)的基本思想在于将复杂难题分解为一系列能按顺序化解的小规模子难题。其中对难题的分解确保了各个子难题之间存在明显的相互关联(重叠),从而使得每个子难题能利用之前的子难题上的标准答案来高效化解。

最长上升子字符串(LIS)和求解编辑距离(ED)是《算法导论》一书中提出的两个著名的 DP 难题,下表列出了这两个难题的状态空间、转移函数的聚合函数。

科学人类学家证明了,自重回 Transformer 微积分模型能按照化解子难题的顺序输出一个完整的动态规划观念链,从而对于所有能用动态规划化解的各项任务都能输出正确标准答案。同样地,科学人类学家进一步证明了聚合观念链是必要的:对于很多困难的动态规划难题,一个常数层、多项式大小的 Transformer 微积分模型无法间接输出正确标准答案。文章通过上下文无关文法成员测试这一难题给出了反例。

试验

科学人类学家最后设计了大批试验对上述方法论进行了验证,考虑了四种不同的各项任务:算术表达式求值、解线性方程组、求解最长上升子字符串以及求解编辑距离。

试验结果说明,当使用 CoT 数据进行训练时,一个 3 层的自重回 Transformer 微积分模型已经能在所有各项任务上均获得几乎完美的表现。然而,间接输出正确标准答案在所有各项任务上的表现都很差(即使使用更深的微积分模型)。这一结果清楚地展示了自重回 Transformer 在化解各种复杂各项任务上的潜能,并说明了 CoT 在化解这些各项任务中的重要性。

科学人类学家还探究了学得的自重回微积分模型是否能进一步外推到更长的数据。他们为运算各项任务构建了一个 CoT 训练数据集,其中运算符数量从 1 到 15,并在算子数量 n ∈ {16, 17, 18} 的表达式上测试微积分模型。结果如右图 3 所示,科学人类学家的三层 Transformer 微积分模型依然在更长的字符串上表现良好,说明微积分模型在某种程度上确实学习了底层监督机制。因此,科学人类学家相信在更多不同长度的数据上训练的微积分模型最终能阐明完整的算术规则。 THE END

投稿或寻求报道:[email protected]

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务