网站首页 > 技术文章正文

资源推荐:语义分割江湖三剑客

btikc 2024-09-24 08:22:12 技术文章 18 ℃ 0 评论

点击上方△头像可进入主页，了解更多精彩内容~

回顾

计算机视觉有三大核心任务——分类、检测、分割，三者号称是深度学习炼丹师的“三大浪漫”。分类针对整张图片，检测针对图片的局部，语义分割则如图所示，旨在给输入图片上的每个像素赋予一个正确的语义标签。

语义分割江湖之中，FCN 横空出世，自此 DL/NN 方法席卷了整个语义分割领域。

碰撞出了两个最重要的设计：U-shape Structure 和 Dilation Conv，据此形成当下语义分割领域网络设计最常见的两大派系：1）U-shape 联盟以 RefineNet、GCN、DFN 等算法为代表；2）Dilation 联盟以 PSPNet、Deeplab 系列方法为代表；

语义分割任务同时需要 Spatial Context 和 Spatial Detail 。今天我们介绍的三种算法都将从这两方面分别提出各自对应的解决方案。整体对比如下：

Global Convolutional Network/Large Kernel

算法全称：

Large Kernel Matters Improve Semantic Segmentation by Global Convolutional Network

论文链接：

https://arxiv.org/abs/1703.02719

论文简介：

GCN 主要将 Semantic Segmentation分解为：Classification 和 Localization两个问题。但是，这两个任务本质对特征的需求是矛盾的，Classification需要特征对多种Transformation具有不变性，而 Localization需要对 Transformation比较敏感。从 Localization 来看，我们需要全卷积网络，而且不能有全连接或者全局池化等操作丢失位置信息。从 Classification 来看，我们需要让 Per-pixel Classifier 或者 Feature Map 上每个点的连接更稠密一些，也就需要更大的 Kernel Size。

网络结构：

根据上述两条 Principle，这个方法整体结构正是背景介绍中提到的U-shape结构，其核心模块主要包括：GCN 和 BR。

Discriminative Feature Network

算法全称：

Learning a Discriminative Feature Network for Semantic Segmentation

论文链接：

https://arxiv.org/abs/1804.09337

论文简介：

本文从宏观角度出发重新思考语义分割任务，提出应该将同一类的 Pixel考虑成一个整体，也就需要增强类内一致性，增大类间区分性。总结而言，语义分割需要更具有判别力的特征。

Intra-class Inconsistency（具有相同的语义标签，不同的表观特征的区域）
Inter-class Indistinction（具有不同的语义标签，相似的表观特征的区域）

网络结构：

本文提出的DFN主要包括两部分：Smooth Network 和 Border Network；Smooth Network 主要解决类内不一致性问题。文中认为类内不一致性问题主要来自Context 的缺乏。进而，我们需要引入 Multi-scale Context 和 Global Context；但是，不同 Stage 的特征虽然带来了 Multi-scale Context，与此同时也带来了不同的判别能力；因此，我们需要对这些具有不同判别力的特征进行筛选，这就诞生了其中核心的设计——Channel Attention Block（CAB）。

而通过可视化输出，可以看到Smooth Network确实可以将类内区域变得更加一致。

BiSeNet

算法名称：

Bilateral Segmentation Network（BiSeNet）

论文链接：

https://arxiv.org/abs/1808.00897

论文简介：

本文对之前的实时性语义分割算法进行了总结，发现当前主要有三种加速方法：1) 通过 Crop 或者 Resize 限制输入图片进而减少计算量；2) 减少网络通道数，尤其是 Early Stage；3) 还有像 ENet 类似的方法直接丢掉最后一个 Stage，如图10(a)所示。

这些提速的方法会丢失很多 Spatial Details 或者牺牲 Spatial Capacity，从而导致精度大幅下降。为了弥补空间信息的丢失，有些算法会采用 U-shape 的方式恢复空间信息。但是，U-shape 会降低速度，同时很多丢失的信息并不能简单地通过融合浅层特征来恢复。

网络结构：

BiSeNet区别于 U-shape 和 Dilation 结构，尝试一种新的方法同时保持 Spatial Context 和 Spatial Detail 。所以，我们设计了Spatial Path和Context Path两部分。顾名思义，Spatial Path使用较多的 Channel、较浅的网络来保留丰富的空间信息生成高分辨率特征；Context Path使用较少的 Channel、较深的网络快速 downsample来获取充足的 Context。基于这两路网络的输出，文中还设计了一个Feature Fusion Module（FFM）来融合两种特征。

详细内容请查看原文链接：https://zhuanlan.zhihu.com/p/55263898

Mark.AI专栏简介: