网站首页 > 技术文章正文

模型解释的调试测试模型测试的评估方法

btikc 2024-10-01 08:27:47 技术文章 11 ℃ 0 评论

引用

Adebayo J , Muelly M , Liccardi I , et al. Debugging Tests for Model Explanations[J]. 2020.

摘要

我们研究了事后模型解释对于诊断模型错误（即模型调试）是否是有效的。为了应对解释模型预测的挑战，人们提出了大量解释方法。尽管人们越来越多地使用这些方法，但仍不清楚它们是否有效。首先，我们根据 bug 的来源，将其分为：数据、模型和测试时污染 bug。对于几个解释方法，我们评估了它们的能力：检测虚假的关系产物（数据污染），诊断错误标注的训练样本（数据污染），区分（部分）重新初始化的模型和训练好的模型（模型污染），以及检测分布外的输入（测试时污染）。我们发现，所测试的方法能诊断出一个虚假的背景错误，但并不能确凿地识别错误标注的训练样本。此外，一类修改的反向传播算法的方法对深度网络的高层参数没有影响；因此，其对诊断模型污染无效。我们进行了一项人群受试者研究来补充我们的分析，我们发现受试者未能根据归因来识别有缺陷的模型，而主要依赖于模型预测。综上，我们的结果为从业者和研究者提供了在模型测试时将解释作为工具的指导。

1.介绍

诊断与修复模型错误（即模型调试）仍是机器学习的长期挑战。模型调试越来越重要，因为带有学习组件的自动化系统正在高风险设置中测试，不经意的错误可能会导致破坏性的后果。越来越多的解释——源于训练好的模型的产物，其主要目的是向用户提供模型分析的见解——作为模型的调试工具被用于诸多专业领域中。尽管已有大量的解释方法被广泛地应用于调试中，但尚未有对方法有效性的指南。例如，一个解释对于诊断错误标注的训练样本和检测虚假的关系产物是否应该同样有效？对模型参数敏感的解释是否在检测域迁移后也同样有效？因此，我们提出并解决如下问题：

哪种解释方法对哪种模型错误有效？

为了解决此问题，我们做出如下贡献：

1. 错误分类。根据导致错误的缺陷来源，我们将监督学习流程中的错误分类（如图 1）分为三类：数据、模型和测试时污染。这些污染类别捕捉训练数据缺陷、模型结构与参数缺陷与测试时输入缺陷。

图 1 标准监督学习流程的调试框架。标准监督学习流程的示意图和流程每个阶段可能发生的错误样例。这样的分类捕捉到了可能发生在训练数据、模型与测试时的错误。我们称这些为：数据、模型与测试时污染测试。

2. 经验性评估。我们进行了全面的控制实验，以评估几种特征归因方法对四种错误的影响：“虚假的关系产物”，错误标注的训练样本，重新初始化的权重和外分布（OOD）迁移。

3. 见解。我们发现，测试的特征归因方法可以识别虚假背景错误，但不能确凿地区分正常和错误标注的训练样本。此外，通过“正向聚合”修改的反向传播计算得出相关性的归因方法对于深度神经网络（DNN）模型的高层参数是不变的。最后，我们发现，在特定设置中，分布外的样本的归因在视觉上与“域内”模型的样本相似，这表明了仅基于视觉检查的调试可能产生误导。

4. 人群受试者研究。我们进行了一项 54 人的 IRB 批准的研究，以评估终端用户是否能通过归因识别有缺陷的模型。我们发现，即使在有归因的情况下，用户仍主要依靠模型预测来确定一个模型是否是有缺陷的。

2.错误特征、解释方法与用户研究

2.1 确定模型错误

我们将模型错误定义为学习和/或预测流程中的污染，导致模型产生错误的预测或导致模型学习错误的关系。我们将注意力集中在标准监督学习设置上，并根据其来源对错误进行分类。给定输入标签{xi,yi}i n，其中 x∈X、y∈Y，分类器的目标是学习泛化函数 fθ：X→Y。fθ 被用于预测测试样本，xtest∈X，则 ytest=fθ(xtest)。给定一个损失函数 L 和模型参数 θ，则对于一系列模型，我们提供了错误的分类，即模型、数据与测试时污染：

数据污染错误是由训练数据中的缺陷引起的，要么是输入特征，要么是标签，要么两者皆有。例如，一些不正确的标签会导致模型学习到错误的关系。另一个错误是虚假的关系训练信号。例如，在一个物体分类任务中，所有的鸟都出现在蓝天背景下。在这个数据集上训练的模型会将蓝天背景与鸟类相关联；这样的数据集偏差在实践中常常发生。

模型污染错误是由模型参数的缺陷引起的。例如，代码中的错误可以导致模型权重的意外初始化。

测试时污染的错误是由测试输入的缺陷引起的，如测试时的域迁移或不匹配的预处理。

上述错误分类使我们能针对具体错误类别评估解释，并能让我们阐述解释方法何时能对特定错误类别有效。如表 1 所示，我们评估了一系列应用于具有每个错误特定实例的模型的解释方法。

表 1 我们为每个错误类别测试的错误样本及它们的公式化描述

2.2 解释方法

我们着力于为模型输出的对应输入维度提供“相关性”分数的特征归因方法。对于在图像数据上训练的深度神经网络（DNN），可以将特征相关性可视化为热力图，如图 2 所示。

图 2 考虑的归因方法。图中展示了为了区分鸟和狗而训练的 CNN 模型的两个输入的特征归因。

归因函数

将输入 xi∈Rd、模型

、输出 Fk(x)映射到归因图 Mxi∈Rd 上。

梯度（Grad）与变量。我们考虑 1）Gtadient(Grad)图，|▽xiFi(xi)|；2）SmoothGrad（SGrad），

，其中 ni 是高斯噪声；3）SmoothGrad Squared (SGradSQ)，其是 SmoothGrad 的逐元素平方；4）VarGrad（VGrad），是 SmoothGrad 的方差近似；5）Input-Grad，其为逐元素的梯度与输入乘积

。我们亦考虑了 6）Integrated Gradients （IntGrad），其对从“基线输入”的 x 的平均值到 xi 的插值路径上的梯度进行求和：

；7）Expected Gradients（EGrad），其计算 IntGrad，但其有一个对训练集期望的基线输入。

替代方法。LIME 和 SHAP 使用一个简单函数 g 对 xi 周围的 F 进行局部近似。SHAP 提供了一个对 Shapley 值的可行近似。

修改的反向传播。这类方法给输出分配“相关性”分数，对每个输入维度使用反向传播。DConvNet 和 Guided Back-propagation（GBP）修改 ReLU 单元的梯度。Layer-wise relevance propagation （LRP）方法指定了修改反向传播的“相关性”规则。我们考虑 LRPEPS 和 LRP sequential preset-a-flat （LRP-SPAF）。PatternNet（PNet）和 Pattern Attribution （PAttribution）将输入分解为信号和噪声部分，并反向传播信号部分的相关性。

归因比较。我们分别用结构相似性指数（SSIM）和 Spearman 等级相关度指标来衡量视觉和特征排名相似度。

2.3 人群受试者研究概述

任务与设置。我们设计了一项研究，其用以测量终端用户使用特征归因来评估分类模型可靠性的能力。参与者被要求作为一家销售动物分类模型的假定企业的质保（QA）测试员，并每次向他们展示原始图像、模型预测和 4 个狗品种的归因图。然后，他们用 5 点里克特量表对他们向外部客户推荐销售该模型的可能性进行评分，并说明他们决定的理由。参与者从 4 个预先创建的答案中选择（图 5-b），或填写一个自由格式的答案。参与者自我报告了他们的机器学习专业知识水平，这一点通过 3 个问题得到了验证。

方法。我们将重点放在研究一个有代表性的方法子集上：Gradient、Integrated Gradients、SmoothGrad。

错误。我们在没有错误的模型上测试了表 1 中描述的错误。

3.调试数据污染

概述。我们评估了特征归因是否能检测出虚假的训练产物和错误标注的训练样本。虚假的产物是指在训练集中编码或受其标签影响的信号，但它们不能为数据生成过程提供有意义的联系。我们在输入背景中诱发一个虚假的关系，并测试特征归因能否诊断出这种影响。我们发现，所考虑的方法确实将重要性归因于具有虚假信号的输入图像背景。然而，尽管归因中有可视化证据，但人群受试者研究中的参与者不确定虚假模型条件下模型的可靠性。因此，参与者并未完全否定该模型。

图 3 虚假关系错误的特征归因。图中显示了在虚假数据上训练的 BVD-CNN 的 4 个输入的归因。A 和 B 显示了两个狗的样本，C 和 D 是鸟的样本。第一行显示了带有虚假背景的输入（狗或鸟）的归因。第二行显示的是只有虚假背景的归因。值得注意的是，我们观察到特征归因方法都强调了背景。衡量标准见表 2。

对于错误标注的样本，我们比较来自以下训练输入的归因：1）训练时输入具有正确标签的模型；2）相同的模型设置，但使用错误的标签进行训练。如果这两种设置下的归因相似，那么这种方法不太可能用于识别错误标注的样本。我们观察到，所有方法中错误标注样本的归因都显示出视觉相似性。

数据与模型设置。我们考虑了一个鸟与狗的二元分类任务。我们使用来自 Cats-v-Dogs 数据集的狗与来自 Caltech-UCSD 数据集的鸟。在此数据集上，我们训练了一个具有 5 个卷积层和 3 个全连接层的 CNN（从这里开始我们把这个架构称为 BVD-CNN），其使用 ReLU 函数，但最后一层是 sigmoid。该模型达到了 94%的测试准确度。

3.1 虚假关系训练产物

虚假错误实现。我们通过将所有的鸟放在地点数据集中的一个天空背景上，并将所有的狗放在竹林背景上（见图 3）来引入虚假相关性。对这些数据进行训练的 BVD-CNN 在天空与竹林测试集（没有鸟或狗）上达到了 97%的准确率，表明该模型确实学习到了虚假关系。

结果。为了定量地衡量归隐方法是否反应了虚假的背景，我们将归因与两个准确标注的遮罩（GT-1 和 GT-2）进行比较。如图 4 所示，我们考虑一个理想的遮罩，其将所有的相关性都分配给了背景，而不分配给物体部分。接下来，我们考虑一个宽松的版本，其通过没有对象的虚假背景归因来加权准确标注的遮罩。在表 2 中，我们报告了所有方法对这两种准确标注的遮罩的 SSIM 比较得分。对于 GT-2，分数范围从最低的 0.78 到最高的 0.98；这提供证据表明归因识别了虚假的背景信号。我们为 GT-1 找到了类似的证据。

来自人群受试者研究的启示：用户是不确定的。图 5 展示了人群受试者研究的结果，我们评估了终端用户可靠地使用归因来识别依赖虚假训练集信号的模型的能力。对于一个正常的模型，Gradient、SmoothGrad 和 Integrated Gradients 的李克特分数中值分别为 4、4、3。选择 1 的李克特分数表示用户“肯定不会”推荐这个模型，而 5 意味着用户“肯定”推荐这个模型。因此，用户对一个正常的模型有充分的评价。此外，对于对 Gradient 和 SmoothGrad，分别有 30%和 40%的参与者（见图 5-右）表示，正常模型的归因“突出了他们希望它关注的图像部分”。

表 2 具有虚假背景的输入和真实遮罩的输入两者的归因遮罩之间的相似性。SSIM-GT1 测量理想虚假输入遮罩和 GT-1 之间的视觉相似性，如图 4 所示。SSIM-GT2 测量 GT-2 的视觉相似性。我们亦涵盖了每个指标的平均值标准误差（SEM），这是跨 190 个输入计算的。为了校准该指标，随机采样的高斯归因和虚假归因之间的平均 SSIM 为 3e-06。

图 5 A：用户研究中参与者的反应。参与者对 3 种归因方法（Gradient, SmoothGrad, and Integrated Gradients）的反应箱线图和测试的 5 个模型条件。纵轴上是李克特量表，从 1（肯定不），到 5（肯定）。参与者被告知，如果他们认为狗与鸟的分类模型可以被出售给客户，则选择“肯定”。B：选择的动机。参与者选择推荐的动机（%）。如图例所示，用户可以从 4 个选项中选择一个，或插入一个开放式的回答。

对于“虚假模型”，李克特分数显示的数据分布范围更广。虽然 Gradient、SmoothGrad 和 Integrated Gradients 的中位数分别为 2、2、3，但一些终端用户仍然推荐这种模式。对于每一种归因类型，大多数终端用户表示，归因“没有突出我期望它关注的图像部分”。尽管如此，终端用户并没有像对其他错误条件那样直接否定虚假模型。这些结果表明，归因方法诊断虚假相关性的能力可能无法用于可靠决策中。

3.2 错误标注的训练样本

错误实现。我们在鸟类和狗类的数据集上训练了一个 BVD-CNN 模型，其中 10%的训练样本标签被交换。该模型在训练、验证和测试集上达到了 93.2%、91.7%和 88%的准确率。

结论。我们发现，对于一个有缺陷的模型而言，来自错误标注的样本的归因在视觉上与来自正确输入标签的这些相同样本的归因相似（如图 6 中的样本）。我们发现，在所有测试方法中，正确标注的实例和相应错误标注的实例之间的 SSIM 都在 0.73-0.99 之间。这些结果表明，所测试的归因方法对于识别错误标注的样本可能是无效的。

来自人群受试者研究的启示：用户使用预测标签，而非归因方法。与虚假设置相反，参与者否定了错误标注的样本，对 Gradient、SmoothGrad 和 Integrated Gradients 的李克特评分中位数分别为 1、2 和 1。然而，我们发现，这些参与者绝大多数都是依靠模型的预测来做出决定。

图 6 诊断错误标注的训练样本。该图显示了两个训练输入以及每种方法的特征归因。正确标签行对应于基于正确标签的训练集训练的模型所得出的特征归因。错误标签行显示了使用带有错误标签的训练集训练的模型所得出的特征归因。我们看到，两种设置下的归因在视觉上看是相似的。

4.调试模型污染

我们接下来评估与模型参数有关的错误。具体而言，我们考虑的是模型权重在预测前被意外重新初始化的情况。我们发现，修改过的反向传播算法，如 Guided Back-Propapagtion （GBP）、DConvNet 和 LRP 相关变体，包括 Pattern Net（PNet）和 Pattern Attribution（PAttribution），对深度网络的更高层权重是不变的。

错误实现。我们在 ImageNet 上的预训练的 VGG-16 模型上实例化了这个错误。我们从顶层开始重新初始化模型权重，直到第一层。然后，我们将这些部分重新初始化的模型的归因与原始模型得出的归因进行比较。

图 7 在 ImageNet 上训练的 VGG-16 模型的连续权重更新的重新初始化对应的模型归因的演变。定性结果（左）与定量结果（右）。定性结果的最后一列对应完全重新初始化权重的网络。

结论：修改的反向传播方法是参数不变的。从图 7 可以看出，包括 Guided BackProp、Deconvnet、DeepTaylor、PatternNet、Pattern Attribution 和 LRP-SPAF 在内的一类修改的反向传播方法在视觉上和数量上对 VGG-16 模型的高层参数都是不变的。

来自人群受试者研究的启示：用户使用预测标签，而非归因方法。我们观察到，参与者断然否定一个顶层已被重新初始化的模型，而该判断大多纯粹基于分类标签，而很少基于错误的归因（图 5）。

5.调试测试时污染

当输入的分布特征与训练集不同时，模型可能提供错误的预测。为了评估特征归因，诊断域迁移的能力，对于给定输入，我们比较了从域内模型和从域外模型得出的归因。例如，我们分别在 MNIST 上训练的模型、Fashion MNIST 上训练的模型、ImageNet 上训练的模型和鸟-狗分类模型上，比较了同一个 MNIST 数字所得出的归因。我们发现在某些情况下有视觉上的相似性：如相同的 Fashion MNIST 输入样本，从 ImageNet 上训练的 VGG-16 模型得出的特征归因与在 Fashion MNIST 上训练的模型得出的特征归因在视觉上相似。然而，输入维度的定量排名却大不相同。

图 8 在多个模型上的 Fashion MNIST OOD。第一行显示了在 Fashion MNIST 上训练的模型的特征归因。在接下来几行中，我们展示了同一输入在 MNIST 模型上的特征归因、在鸟-狗分类上训练的 BVD-CNN 模型的特征归因以及在 ImageNet 上预训练的 VGG-16 模型的特征归因。

表 3 测试时解释相似度度量。我们可以观察到视觉上的相似度，但无排名上的相似度。我们将每个指标与对 190 个样本计算出的平均值的标准误差一起展示。FMNIST->MNIST 模型是指对一个 FMNIST 模型的 FMNIST 归因与从 MNIST 模型得到的 FMNIST 归因的比较。我们同时展示了 SSIM 和 Rank 的相关度量。

错误实现。我们考虑了 4 个数据集-模型对：在 MNIST 上训练的 BVD-CNN、Fashion MNIST、鸟-狗数据集和在 ImageNet 上训练的 VGG-16 模型。

结论。如图 8 所示，我们观察到域内 Fashion MNIST 归因，以及这些样本在其他模型上的归因之间的视觉相似性。如表 3 所示，我们观察到视觉上的相似性，尤其是 ImageNet 上的 VGG-16 模型，但在特征排名上基本不相关。

来自人群受试者研究的启示：用户使用预测标签，而非归因。对于域迁移的研究，我们向参与者展示了在训练过程中没有使用的狗的归因，每个训练好的模型对其品种的预测皆不同。我们发现，在这种情况下，由于错误的预测标签，用户不会推荐该模型（图 5）。

6.讨论与结论

调试机器学习模型仍然是一项具有挑战性的工作，而模型解释可能是这项探索中的一个有用工具。尽管从业者和研究者可能可以使用很多解释方法，但仍不清楚哪些方法对什么类型的错误有用。本工作旨在解决此问题，首先，将模型错误分为：数据、模型和测试时污染错误，然后针对每种错误类型测试特征归因方法。总的来说，我们发现特征归因方法能诊断测试出空间的虚假关系错误，但不能确凿地区分错误标注样本与正常样本。在模型污染的情况下，我们发现某些使用正向聚合的修改后的反向传播的计算特征归因方法，对深层模型的高层参数是不变的。这表明，这些方法可能对诊断模型污染的错误并不有效。我们还发现，域外输入的归因与域内模型上这些输入的归因相似，这表明在视觉上检查这些解释时要谨慎，尤其是对于图像任务。我们还进行了人群受试者研究，以评估终端用户能多好地使用归因来评估模型可靠性。在此，我们发现最终用户主要靠模型预测来诊断模型错误。

我们的发现有一定的局限性与注意事项。所提出的错误描述仅覆盖了标准的监督学习流程，可能无法完整地捕捉到各类因素组合而成的错误。我们仅关注特征归因：然而，其他方法，如基于“概念”激活、模型表征剖析、训练点排序等方法可能更适合这里研究的调试任务。对于人群受试者研究，我们发现参与者大多依赖标签而不是特征归因，这可能是狗品种分类任务的结果。对于那些他们没有专业知识或先验知识的任务，参与者是否还会依赖模型的预测目前尚不清楚。

本工作的目的是为研究人员和从业者提供在模型调试时使用特征归因的指导。希望我们的发现可以作为第一步，为评估解释方法的效用提供更为严格的方法。

感谢

本文由南京大学软件学院 2021 级硕士刘关迪翻译转述。

网站首页 > 技术文章正文

模型解释的调试测试模型测试的评估方法

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

网站首页 > 技术文章 正文

模型解释的调试测试 模型测试的评估方法

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎 你 发表评论:

网站首页 > 技术文章正文

模型解释的调试测试模型测试的评估方法

取消回复欢迎你发表评论: