虽然广度自学和人工智慧早已正式成为经久不衰的术语,但促进那场民主革命的语言学冲破却不为人知。
在前段时间的一则学术论文中,哈佛理工学院的语言学副教授Andrew Gelman和爱沙尼亚阿尔图理工学院的软件工程副教授Aki Vehtari详尽列出了往后50年中最重要的语言学价值观。
https://www.tandfonline.com/doi/full/10.1080/01621459.2021.1938081
译者将那些语言学价值观分类为8大类型:
反历史事实自然法则推测(counterfactual causal inference)lengths法和如前所述演示的推测(bootstrapping and simulation-based inference)超模块化数学模型和二阶化(overparameterized models and regularization)可排序性多层数学模型(Bayesian multilevel models)通用型排序演算法(generic computation algorithms)自适应科枫(adaptive decision analysis)精确性推测(robust inference)开拓性统计数据挖掘(exploratory data analysis)1. 反历史事实自然法则推测(counterfactual causal inference)
在假定前提下,自然法则辨识是可能将的,所以能严苛地申辩那些假定,并透过内部结构设计和预测以各式各样形式化解它。
相同应用领域产业发展了相同的自然法则推测形式。在博弈论中,是内部结构数学模型或其对平均值化疗效用的影响,在毒理学中,是对检视统计数据的推测。
如前所述自然法则辨识是认知的核心任务,因此应该是一个能数学形式化的可排序问题。路径预测和自然法则发现能根据潜在结果来构建,反之亦然。
2. lengths法和如前所述演示的推测(bootstrapping and simulation-based inference)
语言学的一个趋势是用排序来替代数学预测,甚至在 「大统计数据 」预测开始之前就早已开始了。
lengths法将估计视为统计数据的近似充分统计量,并将lengths分布视为统计数据抽样分布的近似值。
同时,由于lengths法的普遍性和简单的排序实现,让它能够应用在那些无法使用传统解析近似的场景,从而获得了极大的负面影响力。
在置换测试中,重采样统计数据集是透过随机打乱目标值来打破预测变量和目标之间的(可能将的)依赖关系来生成的。
模块lengths、先验和后验预测检查和如前所述演示的校准都是从一个数学模型中创建复制的统计数据集,而不是直接从统计数据中重新取样。
在预测复杂的数学模型或演算法时,从已知的统计数据生成机制中取样通常被用来创建演示实验,以补充或取代数学理论。
3. 超模块化数学模型和二阶化(overparameterized models and regularization)
语言学一个主要的变化是使用一些二阶化程序来拟合具有大量模块的数学模型,从而获得稳定的估计和良好的预测。
这是为了在获得非模块或高度模块化形式的灵活性的同时,避免过度拟合问题。其中,二阶化能作为模块或预测曲线上的惩罚函数来实现。
模型的早期案例包括:马尔可夫随机场、样条曲线和高斯过程、分类和回归树 、神经网络、小波收缩、最小二乘法的替代方案以及支持向量机。
可排序性非模块先验在无限维概率数学模型族上也有了巨大的产业发展, 那些数学模型都有一个特点,就是随着样本量的扩大而扩大,所以模块并不总是有直接的解释,而是一个更大的预测系统的一部分。
4. 可排序性多层数学模型(Bayesian multilevel models)
多层或分层数学模型具有因组而异的参数,使数学模型能够适应集群抽样、纵向研究、时间序列横截面统计数据、荟萃预测和其他内部结构化设置。
多层数学模型能被视为可排序性数学模型,因为它包括未知潜在特征或变化模块的概率分布。相反,可排序性数学模型有一个多层次内部结构,具有给定模块的统计数据和给定超模块的模块的分布。
同样,可排序性推测不仅作为一种将先验信息与统计数据相结合的形式,所以也能作为一种为推测和决策考虑不确定性的形式。
5. 通用型排序演算法(generic computation algorithms)
创新统计演算法是在统计问题内部结构的背景下产业发展的。EM演算法、吉布斯采样、粒子滤波器、变分推理和期望传播以相同的形式利用统计数学模型的前提独立内部结构。
梅特罗波利斯-黑斯廷斯演算法和哈密顿蒙特卡罗较少受到统计问题的直接负面影响,它与早期采用优化演算法排序最小二乘和最大似然估计的形式相似。
被称为近似可排序性排序的形式透过演示生成数学模型,而不是评估似然函数来获得后验推测,如果似然的预测形式难以化解或排序成本很高,那么就能使用这种形式。
6. 自适应科枫(adaptive decision analysis)
透过效用最大化、错误率控制和经验可排序性预测,以及在可排序性决策理论和错误发现率预测中,可以看出适应性科枫的产业发展。
统计科枫的一些重要产业发展涉及可排序性优化和强化自学,它与 A/B 测试实验内部结构设计的复兴有关。
算力的产业发展,使得用高斯过程和神经网络等模块丰富数学模型作为函数先验,并执行大规模强化自学正式成为可能将。例如创建AI来控制机器人,生成文本,并玩围棋等游戏。
这项工作大部分都是在统计之外完成的,使用的形式包括非负矩阵分解、非线性降维、生成对抗网络以及自编码器,而那些都是用于查找内部结构和分解的无监督自学形式。
7. 精确性推测(robust inference)
精确性的概念是现代语言学的核心,它的意义在于即使数学模型的假定不正确,也依然能被使用。
统计理论的一个重要部分就是开发在违反那些假定的情况下运行良好的数学模型。
一般而言,精确性在统计研究中的主要负面影响不在于特定形式的开发,而在于统计程序的评估,其中统计数据-生成过程不属于拟合概率数学模型的类型。
研究人员对精确性的担忧与作为现代统计统计数据特征的密集模块化数学模型相关,这将对更普遍的数学模型评估产生负面影响。
8. 开拓性统计数据挖掘(exploratory data analysis)
开拓性统计数据挖掘强调渐近理论的局限性以及开放式探索和交流的相应好处。这符合统计建模的观点,也就是更侧重于发现而不是固定假定的检验。
排序的进步使从业者能够快速构建大型复杂数学模型,从而导致统计图形的价值观有助于理解统计数据、拟合数学模型和预测之间的关系。
总结
由于建模的需求不可避免地随着排序能力的增长而增长,因此预测性的总结和近似的价值也是如此。
同时,统计理论能帮助理解统计形式的工作原理,数学逻辑能激发统计数据挖掘的新数学模型和形式。
译者认为那些形式开启了对统计的新思考形式和统计数据挖掘的新形式。
反历史事实框架将自然法则推测置于统计或预测框架内,在该框架中,能根据统计数学模型中未检视到的统计数据精确定义和表达自然法则估计,并与调查抽样和缺失统计数据插补中的价值观联系起来。
lengths法打开了一种隐式非模块建模形式的大门。可用于复杂调查、实验内部结构设计和其他无法进行预测排序的统计数据内部结构的偏差校正和方差估计。
过模块化数学模型和二阶化如前所述从统计数据中估计其模块的能力来形式化和概括了现有的限制数学模型大小的做法,这与交叉验证和信息标准有关。其中,二阶化允许用户在数学模型中包含更多的预测变量,而不必担心过度拟合。
多层数学模型形式化了从统计数据中估计先验分布的「经验可排序性」技术,在更广泛的问题类型中使用具有更高排序和推理稳定性的形式。
通用型排序演算法使应用从业者能够快速拟合用于自然法则推理、多层预测、强化自学和许多其他应用领域的高级数学模型,从而对语言学和机器自学中的核心价值观产生更广泛的负面影响。
自适应科枫将最优控制的工程问题与语言自学应用领域联系起来,远远超出了经典的实验内部结构设计。
精确性推测允许对相同程序进行正式评估和建模的形式来构建那些问题,以处理对异常值和数学模型错误指定的其他模糊问题,而鲁棒推理的想法为非模块估计提供了信息。
开拓性统计数据挖掘将图形技术和发现推向了统计实践的主流,使用这些工具来更好地理解和诊断适合统计数据的新的复杂概率数学模型类型的问题。
译者介绍
Andrew Gelman 是哈佛理工学院语言学副教授。他曾获得美国语言学会杰出统计应用奖、语言学会主席理事会40岁以下杰出贡献奖。
参考资料:
https://www.tandfonline.com/doi/full/10.1080/01621459.2021.1938081