编辑 | 莴苣皮
大多数最一流的天气情况和自然地理环境可视化方式都是如前所述水蒸气的理论力学学值数学模型。那些方式意在演示线性力学和多个表达式之间的复杂交互作用,那些表达式很难近似于。此外,很多这类值数学模型的排序量很大,尤其是在以mammalian的内部空间和天数解析度对水蒸气现象展开可视化时。
近期如前所述机器自学的统计数据驱动力方式,意在通过采用广度数学模型自学统计数据驱动力的函数态射,来直接化解下游预估或二维各项任务。然而,那些网络是采用针对特定次元各项任务的精选和同种自然地理环境统计数据集展开体能训练的,因而缺乏值数学模型的适用性。
谷歌自主控制系统与机器科学研究组成员以及谷歌科学研究所自然科学智能中心开发了 ClimaX,这是一种灵活且可推广的天气情况和自然地理环境自然科学广度自学数学模型,能采用横跨相同表达式、次元覆盖和力学此基础的直链统计数据集展开体能训练。
ClimaX 采用新奇的代码和裂解块扩展了 Transformer 构架,那些块允许有效采用可用排序,同时保持适用性。ClimaX 在源于 CMIP6 的自然地理环境数据K568采用人格监督自学目标展开了预体能训练。然后能对预体能训练的 ClimaX 展开松动,以化解广泛的自然地理环境和天气情况各项任务,包括那些涉及预体能训练期间看不出的水蒸气表达式和次元孔径的各项任务。
科学研究表明,与现有的统计数据驱动力剖面相比,ClimaX 中的这种社会性导致天气情况预报和自然地理环境预估计算方法的优良性能,即使在较高解析度和排序财政预算下展开预体能训练也是如此。
该科学研究以「ClimaX: A foundation model for weather and climate」为题,于 2023 年 1月 24 日正式发布在 arXiv 科枫平台。
现阶段一个关键的看法是,认识到天气情况和自然地理环境自然科学中的所有预估和可视化各项任务都如前所述力学现象及其与当地和全球自然地理的相互作用。因而,应当设计一个以很多相同孔径演示大批天气情况和自然地理环境表达式的此基础数学模型,从而对那些力学运动定律和相关的自然地理交互作用展开代码。
现阶段最一流的值天气情况和自然地理环境数学模型如前所述对小型方程控制系统的演示,那些方程如前所述不同地球控制系统的未知理论力学学将能量和物质的流动联系起来。因而,通常需要最一流的值天气情况和自然地理环境数学模型才能在高解析度的小型超级排序机上运行。尽管那些方式很成功,但不可否认,那些数学模型在长期和短期内都存在软肋和不足之处。
另一方面,技术的进步带来了来自卫星、雷达和其他气象预报感应器的大批统计数据。那些统计数据还能为天气情况和自然地理环境可视化提供有用的信息,的的更精巧的天数和内部空间解析度下,同时可能解释不太了解的复杂理论力学学。然而,现阶段的大规模值天气情况和自然地理环境数学模型很难吸收这种规模的统计数据。
机器自学(ML)数学模型能提供替代权衡,从统计数据和排序的规模中获益。近期,为中短期天气情况预报扩展广度自学控制系统的尝试已经取得了巨大的成功,通常已经在感兴趣的关键表达式上匹配了现阶段最一流的值天气情况数学模型。然而,由于大多数 ML 数学模型都是针对特定统计数据集的特定预估各项任务展开体能训练的,它们缺乏地球控制系统自然科学的通用实用性,因而不完全如前所述理论力学学。
从机器自学的角度来看,大批可用统计数据——从陆地、沙子或水蒸气的直接天气情况测量,数十年来在相同内部空间孔径上重新分析的天气情况统计数据,到各种场景的力学信息自然地理环境预估——是为天气情况和自然地理环境可视化建立完全如前所述力学的此基础数学模型的卓有成效的此基础。尤其如此,因为天气情况和自然地理环境统计数据通常共享同一组方程(尽管具有相当相同的特征)。
ClimaX 构架和框架
在自然语言处理或排序机视觉等学科中,不可否认,经过体能训练以采用监督自学化解单个各项任务的 ML 数学模型在体能训练期间需要标签,并且在体能训练分布之外部署时很脆弱。近年来,预体能训练小型无监督「此基础」数学模型因而成为一种新范式,缓解了监督瓶颈。预体能训练后,有很多方式能在几乎没有或没有(即零样本)额外监督的情况下,在任意跨度的各项任务上松动同一数学模型。
ClimaX 遵循预体能训练-松动范式。对于预体能训练 ClimaX,科学研究人员的第一个关键建议是超越标准的均质天气情况统计数据集,而是利用如前所述力学的自然地理环境演示统计数据集,由于来自多个组成员的各种自然地理环境演示,那些统计数据集非常丰富。通过仅采用可用统计数据集的一小部分,科学研究表明那些统计数据集中的异质性已经足以作为一个丰富而丰富的预体能训练统计数据集。
但要做到这一点,科学研究人员需要一个数学模型构架能够恰当地包含那些高度多模态的自然地理环境统计数据集的异质性,因为观测通常对应于很多相同的、无限的表达式。此外,很多观测统计数据集是不规则的,因为它们的次元覆盖范围相同,对应于水蒸气表达式的相同子集。
ClimaX 的核心是一个如前所述 Vision Transformers(ViT)的多维图像到图像转换构架。如前所述 ViT 的构架特别适合对天气情况和自然地理环境现象展开可视化,因为它们自然地标记了类似于相同次元输入的多孔径统计数据的内部空间性质,并且还提供了将标记化扩展到广泛的多通道特征的机会。然而,要将 ViT 构架重新用于 ClimaX,需要展开两个根本性的改变:表达式标记化和表达式裂解。
表达式标记化:图像统计数据的标准 ViT 标记化方案将输入分成大小相等的块,并将那些块在宽度、高度和通道维度上展平为一个向量。然而,这对于自然地理环境和天气情况统计数据来说并不是那么简单,因为相同统计数据集之间的力学表达式数量可能会有所相同。具体来说,在该科学研究的例子中,每个自然地理环境预体能训练统计数据子集都包含相同数学模型的演示统计数据,因而具有相同的此基础表达式。因而,科学研究人员提出表达式标记化,将表达式视为单独的模式,即使在不规则统计数据集的情况下也能实现更灵活的体能训练。
表达式裂解:表达式标记化有两个固有的问题。首先,它产生的序列随输入表达式的数量线性增加,这在排序上作为 ViT 的自注意层的输入是不可行的。其次,输入很容易包含具有相同力学此基础的相同表达式的标记。因而,科学研究人员提出表达式裂解,这是一种交叉注意操作,可为每个内部空间位置输出大小相等的嵌入向量。
对各种下游各项任务展开松动
论文重点介绍了 ClimaX 在各种与天气情况和自然地理环境相关的下游各项任务中的表现,科学研究人员将那些各项任务分为天气情况预报(全球、区域、次季节和季节)、自然地理环境预估和自然地理环境降孔径。ClimaX 由于其四个可自学的组件而非常灵活:令牌嵌入层、表达式裂解模块、注意力块和预估头。如果下游表达式与预体能训练表达式重叠,还能松动整个数学模型。如果在预体能训练期间看不出表达式,科学研究人员会用新初始化的网络替换嵌入层和预估头,并对其他两个组件展开松动或冻结。
亮点
全球天气情况预报
图示:采用 ClimaX(未来 6 小时至
ClimaX 在对相同的 ERA5 统计数据展开松动时,即使在中等解析度 (1.40625˚) 上,即使在短期和中期预估方面不比 IFS 表现得更好,但在长期预估方面的表现也相当出色。
图示:ClimaX 对关键天气情况表达式(温度:T2m、T850、风:U10、地势:Z500)的全球预报性能与相同前置天数
自然地理环境预估
自然地理环境预估帮助自然地理环境自然科学家了解温室气体浓度或气溶胶排放等各种强迫因素对长期自然地理环境状况的影响。最近引入了 ClimateBench,以持续评估机器自学方式,以提高自然地理环境预估的准确性。该各项任务明显相同于预体能训练机制,其输入和输出与预体能训练期间完全相同。尽管如此,将 ClimaX 注意力层转移到此各项任务,仍会产生与 ClimateBench 中现阶段最一流的剖面相当或更好的性能。
)
自然地理环境数学模型降孔径
由于内部空间解析度较粗糙,自然地理环境数学模型通常无法提供足够的细节来分析区域和当地现象。降孔径有助于提供更高解析度的自然地理环境预估,并通过将那些数学模型与更高解析度的当地自然地理环境条件相关联来减少那些数学模型输出的偏差。科学研究人员通过采用较高解析度自然地理环境数学模型的预估作为输入,并将再分析天气情况统计数据中的相应值作为较高解析度的目标来评估 ClimaX 在此各项任务上的表现。科学研究人员发现 ClimaX 在所有关键指标上再次优于其他如前所述广度自学的剖面。
缩放分析
当给定更多排序、统计数据或参数时,如前所述 Transformer 的机器自学构架已经发现了有利且可预估的缩放特性。ClimaX 模型也是如此。科学研究人员发现那些趋势很有希望,因为与其他领域目前流行的具有数十亿参数的构架相比,这里只扩展到相当小的数学模型。此外,还有大批公开可用的天气情况和自然地理环境统计数据,尚未利用那些统计数据来预体能训练更大的数学模型。
图示:
采用统计数据驱动力方式推进天气情况和自然地理环境可视化
该团队正式发布 ClimaX,意在进一步推动统计数据驱动力的天气情况和自然地理环境可视化。该团队的目标是让任何人都能轻松采用最新的机器自学方式来化解大批问题,从局部范围内的近期预估到涉及天气情况和自然地理环境表达式的长期过程可视化。ClimaX 朝着为各种这类各项任务提供单一起点的想法迈出了一大步。科学研究人员迫不及待地想看看这个新兴领域的未来。
论文链接:https://arxiv.org/abs/2301.10343
相关报道:https://microsoft.com/en-us/research/group/autonomous-systems-group-robotics/articles/introducing-climax-the-first-foundation-model-for-weather-and-climate/