何恺明团队新作！深度学习网络架构新视角：通过相关图表达理解神经网络

加入极市专业CV沟通交流群，与 10000+来自港北大、北大、清华、中国科学院、CMU、腾讯、腾讯等高等学府优秀企业听觉开发人员交互沟通交流！

极市平台 ，须知，立刻申请入群~

副标题&译者项目组

编者按：恺明天神公司出品，必属名品。Facebook的科学研究员从一个绝妙的视角对数学模型的则表示与结构设计展开探索，提出了一类绝妙的有关图则表示方式。它有助于对原有互联网构架展开更深层的分析与操控性评价。此种有关图的则表示方式、实验辨认出等确实挺有趣，也与原有互联网内部结构结构设计有一定相连之处，故推荐诸位老师。

Abstract

数学模型通用被则表示lenses的方式(即突触间透过边展开镜像)，尽管此种则表示方式得到了应用，但关于数学模型内部结构与操控性间的亲密关系却甚少略有了解。

译者系统的科学研究了数学模型的图内部结构是怎样影响其操控性的，为达成该目的，译者开发了一类绝妙的称作relational graph(有关图)的图则表示方式，数学模型的层沿影像内部结构展开多次重要信息可视化。基于此种图则表示方式，译者辨认出了这种以下几点有趣辨认出：

有关图的机理(sweet spot)能促使数学模型的操控性极大提升；神经互联网的操控性与控制点常数、平均方向宽度成光滑表达式亲密关系；该辨认出具备跨统计数据集、跨各项任务连续性；杰出的数学模型内部结构与真实生物数学模型具备不可思议的关联性。该书为数学模型构架结构设计与认知提供了一类新方向。

Introduction

数学模型能透过计算图方式展开则表示，突触能则表示为结点，不同层数学模型间的连接能透过有向边则表示。此种图则表示方式说明了数学模型怎样展开重要信息传递。

已有科学研究表明：数学模型的操控性严重倚赖互联网架构。但是互联网构架与操控性间的相关性却甚少略有科学研究，而这对于NAS至关重要。从这个视角出发，有这种几个发展性的问题：(1) 互联网构架与操控性间与否存有整体性的联系？(2) 具备杰出操控性的数学模型具备什么样的内部结构方式？(3)此种内部结构方式跨统计数据集、跨各项任务的普遍化操控性怎样？(4)与否存有一类有效的方式能确认取值互联网具备杰出操控性？

构建这种一类相关性同时具备科学与使用价值，因其有助于结构设计更高效、更高精度额网络构架，同时有助于新硬件构架的结构设计，认知数学模型的图内部结构有助于促进广度学习的前进。

然而，由于怎样将数学模型映射为图方式并不清晰明了，进而构建这种一类相关性是非常困难的。计算图方式一类自然的选择，但其存在这种两个局限性：(1)普遍化操控性缺失；(2)生物突触与数学模型的联系缺失(生物数学模型不能透过简单的有向无环图则表示)。

为系统的科学研究数学模型的图内部结构与操控性间的相关性，译者结构设计了一类称作有关图的神经互联网图则表示方式。关键聚焦于重要信息可视化，而非交单的有向统计数据流。下图a给出了示意图，突触间展开多次重要信息可视化，进而能确保新的则表示方式具备更丰富多样性的互联网则表示。

译者同时还结构设计了一类称作”WS-flex”的图生成器，它有助于数学模型结构设计空间的系统探索。基于神经科学的辨认出，译者透过控制点常数与平均方向宽度描述数学模型，此种互联网构架具备灵活性与通用性，能将其转换为多层感知器与卷积数学模型(见上图c和d)。

基于影像分类统计数据集CIFAR10与ImageNet，译者针对互联网内部结构与操控性间的相关性展开了系统科学研究并得到了这种以下几点辨认出：

有关图的机理(sweet spot)能促使数学模型的操控性极大提升；数学模型的操控性与控制点常数、平均方向宽度成光滑表达式亲密关系；该辨认出具备跨统计数据集、跨各项任务连续性；有关图的机理能展开高效辨别，仅需要少量的有关图与少量训练；杰出的数学模型内部结构与真实生物数学模型具备不可思议的关联性。

Relational Graph

为更好的探索数学模型的图内部结构，我们首先介绍一下有关图的概念，并说明有关图的能灵活的则表示不同的数学模型构架。

Message Exchange over Graph

首先从图的结果对数学模型展开回顾，定义图，其中则表示图的结点，则表示结点间的边，同时每个结点具备一个结点特征。当突触间存有重要信息可视化时，我们称上述图定义为有关图。重要信息可视化透过重要信息表达式(输入为结点特征，输出为重要信息)与汇聚表达式(输入为重要信息集合，输出为结点特征)展开定义。在每一轮重要信息可视化过程中，每个结点向其近邻结点发送重要信息，并对收到的重要信息展开汇聚。每个重要信息透过重要信息表达式展开变换并在每个结点透过汇聚表达式展开集成。假设进行了R轮重要信息可视化，那么第r次的重要信息可视化能描述为：

其中则表示近邻结点集合，注：每个结点都与自身存有连接边。上式提供了一类广义的重要信息可视化。下表给出了不同内部结构的有关图的则表示配置。

下图示出了具备4层64维的多层感知器的有关图则表示示意图。

Fixed-width MLPs as Relational Graph

多层感知器由多个多层突触构成，每个突触展开输入的加权求和，同时后接激活层。假设MLP的第r层以作为输入，作为输出，那么突触的计算能描述为：

我们来考虑一类极端情况(输入与输出具备相同的维度)，此时的多层感知器能描述为完整有关图(complete relational graph),它的每个节点与他所有结点有关联。定长全连接MLP具备特殊的重要信息可视化定义，。定长MLP是更广义模型下的一类特例，此时重要信息表达式、汇聚表达式以及有关图内部结构具备可变性。基于上述重要信息可视化定义，此时有：

General Neural Networks as Relational Graph

前述公式描述奠定了定长MLP则表示为有关图的基础，在这部分内容中，我们将进一步讨论怎样将其扩展为更广义的数学模型。

Variable-width MLP. 变长MLP是一类更通用的方式，无论在MLP中还是在CNN中，特征维度通常是变长的。译者提出透过Concat方式将特征扩展为特征向量，同时将重要信息表达式扩展为矩阵方式，此时的变换过程描述为：何恺明团队新作！深度学习网络架构新视角：通过相关图表达理解神经网络

同时允许(1) 不同层的相同阶段具备不同的维度；(2) 同一层内，不同结点具备不同的维度。此种更广义的定义能得到更灵活的图则表示。

CNN as relational graph. 我们进一步将有关图应用到CNN，它的输入为张量，重要信息表达式同样展开类似扩展，此时的变换过程能描述为：何恺明团队新作！深度学习网络架构新视角：通过相关图表达理解神经网络

前述Table1给出了更详细的结点特征、重要信息表达式以及汇聚表达式在不同互联网中的表现方式。

Exploring Relational Graph

在该部分内容中，我们将描述怎样结构设计与探索有关图空间以更好的科学研究数学模型内部结构与操控性间的相关性。需要从三个维度展开考虑：

Graph Measures;Graph Generators;Control Computational Budget

Selection of Graph Measure

取值复杂的图内部结构，GraphMeasures将用于对图属性展开描述。该书主要聚焦于一个全局图度量(average path length)与一个局部图度量(clustering coefficient)。注：这两个度量方式已被应用与神经科学领域。更详细定义如下：

Average path length measure the average shortest path distance between any pairs of nodes;clustering coefficient measure the proportion of edges between the nodes within a given nodes neighborhood, divided by the number of edges that could possibly exist between them, averaged over all the nodes.

Design of Graph Generators

取值所选择的图度量方式后，我们期望生成大量的满足图度量空间的有关图，此时需要一个图生成器。然而，传统的图生成器仅仅能生成有限类别的图，而基于学习的方法则主要用于模仿样板图。

上图左说明了原有图生成技术的局限性：仅能生成特定类型的图。为此译者提出了一类新的图生成器WS-flex，它能生成更广义的图结果(考考上图右)。关于WS-flex影像生成器的描述见下图，为避免误导诸位老师，直接将原文搬移过来：

WS-flex能生成更多样性的有关图，也就是说它几乎能覆盖所有经典图生成方法所生成的图，见上示意图。它透过松弛结点的约束性得生成WS模型。特别的，WS-flex能透过结点参数n、平均自由度k以及重置概率p展开描述。而图中的边数量能透过决定。WS-flex首先常见了一个包含结点连接的图，然后随机挑选e与n结点并展开连接，最后所有边以概率p重置。译者采用WS-flex生成器在相应空间展开均匀光滑采样，最终得到了3942个图，见Figure1c。

Controlling Computational Budget

为更好的对不同图则表示的数学模型展开比较，我们需要确保所有的互联网具有相同的复杂度，从而确保了其操控性差异仅源自内部结构的差异。译者提出采用FLOPS作为度量准则，首先计算baseline互联网的FLOPS，然后将其作为参考调节不同的互联网以匹配该复杂度(容差0.5%)。

Experimental Setup

在CIFAR10实验过程中，译者采用具备5层512隐层突触的MLP作为baseline，输入为3072维，每个MLP层具备ReLU激活与BatchNorm。Batch=128，合计训练200epoch，初始学习率为0.1，学习率衰减机制为cosine。采用不同种子点训练5次取平均。

在ImageNet实验过程中，采用了三种类型的ResNet(ResNet34,ResNet34-sep，ResNet50)、EfficientNet-B0以及简单的类似VGG的8层CNN。所有模型分别训练100epoch，学习率方面同前，ResNet的Batch=256，EfficientNet-B0的batch=512。采用了不同种子点训练三次取平均。

下图给出了不同实验结果的整体性效果图，acf则给出了图度量的热图与操控性的示意图。

总而言之，上图显示出了原有图内部结构优于完整图baseline，而最佳有关图在CIFAR10上以1.4%指标优于完整图baseline，在ImageNet上0.5%~1.2%的指标优于完整图baseline。

与此同时，我们能看到：具备优异操控性的有关图倾向于聚焦于机理附近(见上图f)。能透过这种几个步骤寻找该机理：

将上图a中的3942图下采样为52个粗粒度的区域，每个区域记录了对应区域图的操控性；记录具备最佳平均操控性的粗粒度区域；与此同时记录下与最佳平均操控性有关的其他区域；覆盖上述区域的最小面积框即为机理。CIFAR10统计数据集上的对于5层MLP而言，它的机理区域为。

如上图bd所示，模型操控性与图度量准则间存有二阶多项式亲密关系，呈现光滑U型有关性。

接下来，我们再来分析一下有关图跨跨统计数据集方面的连续性。从上图f能看到：机理位置具备跨互联网内部结构连续性。

全文到此结束，更多实验结果建议去查看原文。译者在文中展开了大量的消融实验、相关性讨论、实现探讨以及神经互联网与GNN的相关性。为避免误导诸位老师，这里就不对实验部分展开过多介绍，前面主要针对核心实验结果展开了说明。更多的实验分析建议诸位老师去查看原文，以更好的认知译者想要表达的意思，上文仅为笔者的一点点记录，难免有认知错误之处，还望担待。

Conclusion

该书提出了一类新的视角：采用有关图表达分析认知数学模型。该书为传统计算构架到图构架科学研究提供了一类重要信息过渡。与此同时，其他科学领域的的杰出图内部结构与方法能为广度数学模型的认知与结构设计提供帮助，该书所提方法有助于广度学习互联网构架的认知与结构设计，为未来高效而轻量的互联网结构设计提供了一类引导。

◎译者档案Happy，一个爱“胡思乱想”的AI行者IWalker欢迎大家联系极市小编（微信ID:fengcall19）加入极市原创译者行列

广度解读轻量互联网GhostNet：不用训练、即插即用的CNN升级组件究竟怎样实现？

不仅搞定“梯度消失”，还让CNN更具普遍化性：港北大开源广度数学模型训练新方法

认知卷积数学模型的局限

何恺明团队新作！深度学习网络架构新视角：通过相关图表达理解神经网络

添加极市小助手微信（ID : cv-mart），备注：科学研究方向-姓名-学校/公司-城市（如：目标检测-小极-北大-深圳），即可申请加入极市技术沟通交流群，更有每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、行业技术沟通交流，一起来让思想之光照的更远吧~

何恺明团队新作！深度学习网络架构新视角：通过相关图表达理解神经网络