张航李沐等人提出ResNet最强改进版功能进步3％参数不增

2020-04-18 23:02:09 阅读：9956+ 来源：腾讯科技 作者：责任编辑NO。杜一帆0322

机器之心报导

机器之心编辑部

功能明显进步，参数量却没有明显添加。最新的 Split-Attention Networks 承继了 ResNet 简练通用的特性。

2015 年，ResNet 横空出世，一举斩获 CVPR 2016 最佳论文奖，并且在 Imagenet 竞赛的三个使命以及 COCO 竞赛的检测和切割使命上都取得了第一名。四年曩昔，这一论文的被引量已超 40000 次，也连续呈现了许多变体。最近，来自亚马逊、加州大学戴维斯分校的张航、李沐、Alexander Smola 等研讨者进一步改进了 ResNet，功能明显进步，但参数量并没有明显添加，逾越了之前的 ResNeXt、SENet 等模型。

该研讨的一作，亚马逊运用科学家张航标明：「分类网络一般作为下流运用的中心，可是最近许多分类问题的作业没有坚持之前 ResNet 那样的模块化的规划，导致方针检测等干流运用的研讨还在运用 ResNet。所以咱们规划了新的 ResNet 变体 ResNeSt，可以直接运用到已有的干流模型中，明显进步 Mask R-CNN，Cascade R-CNN 等模型的成果（~3%）。」

论文地址：https://hangzhang.org/files/resnest.pdf

项目地址：https://github.com/zhanghang1989/ResNeSt

虽然图画分类模型不断进化，但方针检测、语义切割等大都下流使命仍在运用 ResNet 变体作为其主干网络，由于后者具有简略而模块化的结构。

在这份论文中，研讨者提出了一种模块化 Split-Attention 块，可以将注意力涣散到若干特征图组中。依照 ResNet 的风格堆叠这些 Split-Attention 块，研讨者得到了一个 ResNet 的新变体，称为 ResNeSt。它保留了全体的 ResNet 结构，可直接用于下流使命，但没有添加额定的核算量。

研讨者致力于对 ResNet 进行简略的架构修正。具体地说，每个块都将特征图分为几组（依据通道维数）和更细粒度的子组或 splits，其间，每个组的特征标明是经过它的 splits 标明的加权组合确认的（依据大局上下文信息挑选权重）。研讨者将得到的成果单元称为 Split-Attention 块，它简略且模块化。

试验标明，ResNeSt 优于其他具有相似模型复杂度的网络。ResNeSt-50 在 ImageNet 上完成了 81.13% 的 top 1 精确率，比此前最好的 ResNet 变体高 1% 以上。这一进步关于方针检测、实例切割、语义切割等下流使命来说很有含义。此外，将 ResNet-50 的主干网络替换为 ResNeSt-50，MS-COCO 上 FasterRCNN 的 mAP 从 39.25% 进步至 42.33%，ADE20K 上 DeeplabV3 的 mIoU 从 42.1% 进步至 45.1%。

表 1:如左图所示，在速度与精确率的平衡方面，ResNeSt 达到了 SOTA 水平；右上图为 ResNeSt 在 ImageNet 上的 Top-1 精确率；右下图为搬迁学习成果：MS-COCO 上的方针检测 mAP 以及 ADE20K 上的语义切割 mIoU。

Split-Attention 网络

Split-Attention 块

Split-Attention 块是一个由特征图组和 split attention 运算组成的核算单元，下图展现了 Split-Attention 块的全体思路：

特征图组（Feature-map Group）

与 ResNeXt 块相同，输入的特征图可以精确的经过通道维数被分为几组，特征图组的数量由一个基数超参数 K 给出，得到的特征图组被称为基数组（cardinal group）。研讨者引进了一个新的底数超参数 R，该参数规则了基数组的 split 数量。

然后将块输入 X 依据通道维数 X = {X1, X2, ...XG} 分为 G = KR 个组。在每个独自的组中运用不同的改换 {F_1, F_2, ...F_G}，则每个组的中心表征为 Ui = Fi(Xi), i ∈ {1, 2, ...G}。

基数组中的 Split Attention

依据 [30,38]，每个基数组的组合表征可以终究靠跨多个 split 的元素求和交融来取得。第 k 个基数组的表征为：

，k ∈ 1, 2, ...K。带有嵌入 channel-wise 统计数据的大局上下文信息可以经过大局池化来取得。第 c 个重量的核算公式为：

基数组表征 V^k ∈ R^{H×W×C/K} 的加权交融经过运用 channel-wise 软注意力来聚合。其间，每个特征图通道都是在若干 split 上运用一个加权组合取得的。第 c 个通道的核算公式如下：

ResNeSt 块

随后，将基数组表征依据通道维数进行级联：V = Concat{V^1 , V^2 , ...V^K}。和规范残差块中相同，假如输入和输出特征图同享相同的形状，则运用方便衔接生成 Split-Attention 块的终究输出 Y，Y = V +X。关于步幅较大的块，将恰当的改换 T 运用于方便衔接以对齐输出形状：Y = V + T（X）。T 可以是跨步卷积或带有池化的组合卷积。

图 1 右为 Split-Attention 块的实例，组改换 F_i 是 1×1 卷积，然后是 3×3 卷积，注意力权重函数 G 运用两个带有 ReLU 激活函数的全衔接层进行参数化。

与现有注意力办法的联系

squeeze-and-attention（原论文叫 excitation）是 SE-Net 论文中首要引进的，中心主意是运用大局上下文猜测 channel-wise 的注意力要素。若 radix=1，Split-Attention 块可将 squeeze-and-attention 操作运用于每个基数组，而 SE-Net 则在整个块的顶部运转，与多个组无关。此前 SK-Net 等模型引进了两个网络分支之间的特征注意力，但这些操作没有针对练习功率及扩展到大规模神经网络进行优化。新的办法扩展了之前的特征图注意力相关研讨，但其完成在核算上仍然是高效的。

图 1 展现了 ResNeSt 块与 SE-Net 和 SK-Net 块的全体比照。

Split-Attention 的细节可参阅图 2。

试验

第一个试验研讨了 ResNeSt 在 ImageNet 2012 数据集上的图画分类功能，成果如表 3 所示。ResNeSt50 达到了 81.13% 的 top-1 精确度。

表 3：ImageNet 上的图画分类成果。

表 5 和表 6 显现了 ResNeSt 在方针检测和实例切割使命中的体现。

表 5：在 MS-COCO 验证集上的方针检测功能成果。

在方针检测使命中，与运用规范 ResNet 的基线比较，ResNeSt 主干网络可以将模型在 Faster-RCNN 和 CascadeRCNN 上的 mAP（均匀精度均值）进步大约 3%。

表 6：在 MS-COCO 验证集上的实例切割成果。

如表 6 所示，ResNeSt 主干网络具有更好的功能，关于 Mask-RCNN，ResNeSt50 的功能优于基线，在 box/mask 使命中的功能别离进步了 2.85%/2.09%。而 ResNeSt101 的进步更多，为 4.03%/3.14%。关于 Cascade-Mask-RCNN，切换到 ResNeSt50 或 ResNeSt101 所发生的功能进步别离为 3.13%/2.36% 或 3.51%/3.04%。

下表 7 展现了 ResNeSt 在 ADE20K、Citscapes 语义切割使命上的体现。

表 7：在 ADE20K（左）、Citscapes（右）语义切割使命中的功能。

与之前的成果相似，运用 ResNeSt-50 主干网络的 DeepLabv3 模型现已优于运用更深层 ResNet-101 主干网络的 DeepLabv3 模型。具有 ResNeSt-101 主干网络的 DeepLabV3 模型达到了 82.07% 的 pixAcc 和 46.91% 的 mIoU，据了解，这是为 ADE20K 提出的最佳单一模型。

机器之心 CVPR 2020 线上共享的第一期，咱们邀请到北京大学智能科学系陈汉亭（论文一作）为咱们共享主题《加法神经网络：在深度学习中咱们是否真的需求乘法？》，欢迎读者报名学习。

上一篇：教育部中小学教材中不

下一篇：华为Nova7系列曝光叫

“如果发现本网站发布的资讯影响到您的版权，可以联系本站！同时欢迎来本站投稿！