分类器其实是根据能量的模型判别式分类器规划新思路

2019-12-31 22:27:15 阅读：8371+ 作者：责任编辑NO。蔡彩根0465

选自arXiv

作者：Will Grathwohl、David Duvenaud 等

参加：Panda、杜伟

今日要介绍的这篇论文来自多伦多大学、Vector Institute 和谷歌，该论文获得了ICLR 2020 会议 6-8-8 的高分，提出了一种规划判别式分类器的新思路：把判别式分类器从头解读为依据能量的模型。这种新思路有许多优势，比方在单个混合模型上一起完结了生成式学习和判别式学习的最优体现。

论文链接：https://arxiv.org/abs/1912.03263

导言

生成模型现已得到了数十年的研讨，由于人们信任生成模型对许多下流使命有利，比方半监督学习、缺失数据处理和不确定性校准。但是，对深度生成模型的大多数近期研讨都忽视了这样一些问题，而将重心放在了定性样本质量以及在留存验证集上的对数似然上。现在，在相关下流使命的最强壮生成建模办法以及为每个特定问题人工规划的处理方案之间还存在较大的功能距离。一个或许的原因是大多数下流使命本质上是判别式的，而当时最佳的生成模型与当时最佳的判别架构之间的差异也还很大。因而，即便仅以分类器为方针而练习时，生成模型的体现也远逊于最佳判别模型的体现。因而，判别功能的下降就会远远超越来自模型中生成组件的优点。近期一些研讨企图运用可逆架构来提高生成模型的判别体现，但这些办法的体现仍不及以生成模型为方针而联合练习的纯判别式办法。本论文提出运用依据能量的模型（EBM/energy based models）来协助生成模型在下流的判别式问题上发挥自己的潜力。虽然 EBM 模型现在来说还难以运用，但它们比较于其它生成式模型能更天然地运用在判别式的结构中，并有助于运用现代的分类器架构。这篇论文有以下奉献： 1. 提出了一种用于联合建模标签和数据的全新且直观的结构；2. 新提出的模型在生成式建模与判别式建模方面都显着优于之前的最佳混合模型；3. 研讨标明，整合生成模型能让模型的校准功能更高，能完结对散布外数据的检测，还能完结更好的对立鲁棒性，而且在每个使命上的体现也能与人工规划的办法比美乃至更好。依据能量的模型（EBM）是什么？依据能量的模型（EBM）最早由 LeCun et al. 于 2006 年提出，其依据以下调查：关于 x∈R^D，恣意概率密度 p(x) 均可标明为：

其间

是能量函数，

是切割函数。

EBM 的练习必需依托其它办法。研讨者留意到，单个样本 x 的对数似然相关于 θ 的导数能够标明为：

不幸的是，从 p_θ(x) 取出样本是很困难的，因而有必要凭借 MCMC 来运用梯度估量器。最前期的一些 EBM 便是运用这种办法练习的。虽然这样的小发展现已积累了很长时刻，但最近有些研讨开始运用这种办法来在高维数据上练习大规划 EBM，而且运用了深度神经网络来对其进行参数化。近期的这些成功运用依据随机梯度 Langevin 动态（SGLD）的采样器，成果现已挨近等式 (2) 的预期，其取出样本的办法为：

新提出的依据联合能量的模型（Joint Energy based Model）在现代机器学习中，有 K 个类别的分类问题一般是运用一个参数函数来处理，即 f_θ : R^D R^K，其能将每个数据点 x ∈ R^D 映射成被称为 logit 的实数值。运用所谓的 softmax 搬迁函数，可将这些 logit 用于对类别散布履行参数化：

研讨者在本文中给出了一个关键性的调查，即也能够稍微从头解读从 f_θ 获得的 logit 来界说 p(x,y) 和 p(x)。无需改动 f_θ，可通过下式复用这些 logit 来为数据点 x 和标签 y 的联合散布界说一个依据能量的模型：

通过将 y 边缘化，也可为 x 获得一个非归一化的密度模型：

留意，现在恣意分类器的 logit 都可被从头用于界说数据点 x 处的能量函数：

由此，研讨者就找到了每个规范的判别模型中躲藏的生成模型！由于这种办法提出将分类器从头解读为依据联合能量的模型（Joint Energy based Model），所以他们将该办法称为 JEM。下图 1 给出了该结构的概略，其间分类器的 logit 会被从头解读，以界说数据点和标签的联合数据密度以及数据点独自的数据密度。

图 1：新办法 JEM 的可视化，其可从分类器架构界说一个联合 EBM

优化那么，这种对分类器架构的新解读办法能在保存模型强壮判别才能的一起也获得生成模型的优势吗？

由于 p(y|x) 的模型参数化是相对 y 进行归一化的，因而最大化其似然是很简单的，就如同在规范的分类器练习中相同。又由于 p(x) 和 p(x, y) 的模型未归一化，因而最大化它们的似然并不简单。在这样的模型下，以最大化数据的似然为方针来练习 f_θ 的办法有许多。咱们咱们能够将等式 (2) 的梯度估量器运用于等式 (5) 的联合散布下的似然。运用等式 (6) 和 (4)，可将该似然分解为：

鉴于这项研讨的方针是将 EBM 练习整合进规范的分类设置中，所涉散布为 p(y|x)。因而，研讨者提出运用等式 (8) 的因式分解来保证该散布的优化运用的方针是无差错的。他们运用了规范的穿插熵来优化 p(y|x)，运用了带 SGLD 的等式 (2) 来优化 log p(x)，其间梯度是依据

得到的。

运用为了展现 JEM 比较于规范分类器的优势，研讨者进行了全面的试验研讨。首要，新办法的体现在判别式建模和生成式建模上都与当时最佳办法比美。更有意思的是，他们还调查到一些与判别式模型的实践运用相关的优点，包含不确定性量化的改进、对散布外数据的检测、对对立样本的鲁棒性。人们很久以前就预期生成模型能够供给这些优点，但从来就没在这样的规划上展现这一点。试验中运用的一切架构都依据 Wide Residual Networks，其间移除了批归一化以保证模型的输出是输入确实定性函数。这将 WRN-28-10 在 CIFAR-10 上的分类差错从 4.2% 提高到了 6.4%，将其在 SVHN 上的分类差错从 2.3% 提高到了 3.4%。一切的模型都是用相同的办法练习的，它们的超参数也都相同，都是在 CIFAR-10 上调理得到的。风趣的是，这儿找到的 SGLD 采样器参数能够在各种数据集和模型架构上完结很好的泛化。此外，一切模型都在单个 GPU 上练习完结，耗时大约 36 小时。混合建模首要，研讨者标明给定的分类器架构可当作 EBM 练习，而且能一起完结与分类器和生成模型都比较美的体现。他们在 CIFAR-10、SVHN 和 CIFAR-100 上练习了 JEM，并与其它混合模型以及独自的生成模型和判别模型进行了比较。成果发现 JEM 能在两个使命上一起获得挨近最佳体现的成果，优于其它混合模型（下表 1）。

表 1：CIFAR-10 混合建模的成果。

鉴于这种办法无法核算归一化的似然，所以研讨者提出运用 inception 分数（IS）和 Frechet Inception Distance（FID）来标明成果的质量。成果发现，JEM 能在这些目标上与当时最佳的生成模型比较美。新提出的模型在 SVHN 和 CIFAR-100 上别离完结了 96.7% 和 72.2% 的精确度。下图 2 和 3 展现了 JEM 的样本。

图 2：CIFAR-10 类-条件样本。

图 3：类-条件样本。 JEM 的练习方针是最大化等式 (8) 中的似然因式分解。这是为了保证不会把差错加进 log p(y|x) 的估量中，这在新提出的设置中能够切当地核算出来。在控制变量研讨中，为最大化这一方针而练习的 JEM 的判别功能有显着的下降（见表 1 第 4 行）。

校准

假如一个分类器的猜测置信度 max_y p(y|x) 与其误分类率是共同的，那么就以为这个分类器是已校准的。因而，当一个通过校准的分类器以 0.9 的置信度猜测标签 y 时，它应该有 90% 的几率是正确的。关于要在实在国际场景中布置的模型而言，这是一个很重要的特性，由于在实践场景中，不正确的决议计划输出或许形成灾难性的成果。在实践运用时，通过杰出校准但不行精确的分类器或许比更精确但校准差的模型愈加有用。

研讨者发现 JEM 能在显着提高分类功能的一起保持较高的精确度。研讨者侧重重视了在 CIFAR-100 上的体现，由于当时最佳的分类器的精确度大约为 80%。他们在这个数据集上练习了 JEM，并将其与没有 EBM 练习的相同架构的基准进行了比较。基准模型得到的精确度为 74.2%，JEM 得到的精确度为 72.2%（参阅一下，ResNet-110 得到的精确度为 74.8%）。下图 4 给出了成果。

图 4：CIFAR-100 校准成果。ECE 是指预期校准差错。

检测散布外数据

一般而言，散布外（out-of-distribution，OOD）检测是二元分类问题，模型的方针是得到一个散布 s_θ(x) ∈R，其间 x 是查询，θ 是可学习参数的调集。有许多不同的 OOD 检测的新办法都能够正常的运用 JEM。

输入密度

如下表 2 第 2 列所示，JEM 为散布内数据分配的似然总是比 OOD 数据高。JEM 比较于 IGEBM 进一步提高的一个或许解说是其有才能在练习过程中整合有标示的信息，一起还能推导 p(x) 的一个原理模型。

表 2：OOD 检测的直方图。一切模型都是在 CIFAR-10 上练习的。绿色对应于在散布内 CIFAR-10 数据上的分数，赤色对应在 OOD 数据集上的分数。

猜测散布

许多成功办法都为 OOD 检测运用了分类器的猜测散布。JEM 是一种很有竞争力的分类器，试验发现其体现足以比美优异的基准分类器，而且显着优于其它生成模型。下表 3 给出了成果（中行）。

表 3：OOD 检测成果。所测模型是在 CIFAR-10 练习的，成果是 AUROC 目标。

一种新分数：近似质量（Approximate Mass）

关于在经典数据集之外的高似然数据点，研讨者预期其周围的密度会快速改变，因而其对数密度的梯度范数比较于经典数据会集的样本会很大（不然它会处于高质量的区域）。依据这一数量，他们提出了一种新的 OOD 分数：

关于 EBM（JEM 和 IGEBM），研讨者发现这种猜测器的体现显着优于咱们自己的和其它的生成式模型的似然——见表 2 第 3 列。关于易处理的似然办法，他们发现这种猜测器与模型的似然是反相关的（anti-correlated），它们对 OOD 检测而言都不牢靠。成果见表 3（底行）。鲁棒性作者运用了一种依据梯度的优化流程来生成样本，然后激活特定的高层面网络激活，然后优化网络的权重以最小化所生成的样本对该激活的影响。环绕数据，对立练习和网络激活的梯度的正则化之间的进一步相关现已被推导出来。有了这些相关，人们或许会疑问从 EBM 推导出来的分类器是否比规范模型能更稳健地处理对立样本。类似地，作者发现 JEM 能在无损判别功能的前提下完结适当不错的稳健性。

通过 EBM 练习提高鲁棒性

在依据 CIFAR-10 练习的模型上，研讨者履行了很多强力的对立进犯。他们履行了一次白盒 PGD 进犯，通过采样流程向进犯者供给了对梯度的拜访权。别的，研讨者还履行了一些无梯度的黑盒进犯、鸿沟进犯和暴力式逐点进犯。下图 5 给出了 PGD 试验的成果。一切的进犯都是针对 L2 和 L∞ 范数进行的，他们测验了在输入中履行 0、1、10 步采样的 JEM。试验标明，新模型的鲁棒性显着优于运用规范分类器练习得到的基准模型。在这两个范数上，JEM 的体现与当时最佳的对立练习办法适当（但略差一些），也和 Salman et al. (2019) 提出的当时最佳的通过认证的鲁棒性办法（图 5 中的 RandAdvSmooth）比较美。

图 5：运用 PGD 进犯的对立稳健性成果。JEM 能带来适当可观的鲁棒性提高。

鲁棒性不强模型的另一种常见失利形式是它们往往会以高置信度分类无意义的输入。为了剖析这一性质，研讨者遵循 Schott et al. (2018) 的办法来进行了测验。下图 6 给出了成果。基准办法会有信心肠分类非结构化的噪声图画。JEM 不能有信心肠分类无意义的图画，所以能够显着看到图中呈现了轿车特点和天然图画特点。

图 6：远端对立（Distal Adversarials）成果。

上一篇：合影宇航员拓印地理图

下一篇：联想常程宣告离任19年

“如果发现本网站发布的资讯影响到您的版权，可以联系本站！同时欢迎来本站投稿！