网站首页 > 技术文章正文

码农必须了解的5种神经网络架构

btikc 2025-01-18 17:39:18 技术文章 22 ℃ 0 评论

在本文中，我以无特定顺序列出了用于计算机视觉的前5种神经网络体系结构

卷积神经网络

历史

卷积的思想是福岛邦彦首次提出的。新认知加速器引入了两种类型的层，即卷积层和下采样层。

然后，Yan LeCun等人进行了下一个关键的改进。当他们使用反向传播从图像中学习卷积核的系数时。这使学习变得自动化，而无需费力地手工完成。根据Wikipedia所说，这种方法成为现代计算机视觉的基础。

随后是Alex Krizhevsky，Ilya Sutskever，Geoffrey E. Hinton于2012年提出的"具有深度卷积神经网络的ImageNet分类"，该论文被广泛认为是卷积神经网络最具影响力的论文。他们创建了Alexnet，并凭借自己的模型赢得了2012年Imagenet竞赛。

机制

我不会深入探讨CNN的机制，但想简要介绍一下它的工作原理。

在将常规香草神经网络训练在计算WX + b的层上的情况下，其中W是通过反向传播学习的权重矩阵，而卷积神经网络则使用称为过滤器的权重。

您可以想到卷积核或滤波器，例如输入矩阵上的滑动窗口。在上面的gif中，过滤器是带有红色数字的橙色阴影矩阵。输入矩阵是带有黑色数字的绿色矩阵。在每个阶段，将滤波器与输入矩阵的重叠部分逐元素相乘，然后将值相加。这给出了第一个输出。然后将过滤器向左移动一个步骤，依此类推，如gif所示。可以计算出输出和标签相对于滤波器值的损耗，并且通过反向传播，我们可以了解滤波器的值。

当展开内核和输入时，卷积神经网络实际上只是矩阵乘法。这在这篇非常好的博客文章中得到了展示。CNN非常强大，主要有两个原因。

· 它们每层的参数明显较少，因此可以堆叠形成更深的层。

· 它们解决了输入的局部性。由于内核一次对图像的各个部分起作用，因此图像中像素的局部性得以保持，并且输入中的接近像素会创建也接近的输出值。这不同于不考虑位置的传统网络。

残差网络（ResNet）

剩余网络由Kaiming He等人引入。在他们极具影响力的论文"用于图像识别的深度残差学习"中。微软研究团队的论文在2015年Imagenet竞赛中获胜。

ResNets有一个非常简单但又非常优雅的想法。想法是添加跳过连接或快捷连接，从而创建了渐变高速公路。这样可以使梯度在后退步骤中更好地流动，并大大增加了收敛性，训练时间并减少了梯度爆炸和消失。

Resnets的微妙之处在于，最佳情况是跳过连接主动添加到输出并计算有用的信息，而最坏情况是仅忽略跳过连接，而最糟糕的情况是与网络相同没有跳过连接。因此，跳过连接会增加很多价值，并且没有任何缺点！

U-Net

U-Net由Olaf Ronneberger，Philipp Fischer和Thomas Brox在他们的论文" U-Net：用于生物医学图像分割的卷积网络"中介绍，您可以在这里阅读。这份2015年的论文在图像分割方面具有革命性意义。图像分割是用图像类别标记图像中的每个像素的任务。

U-Nets由两部分组成：收缩路径（下采样路径）和扩展路径（上采样路径）。在传统的图像分类卷积网络中，图像被馈送到执行卷积和池化操作的网络中，这两种操作都会减少输出的高度和宽度，但会增加输出的深度。随着高度和宽度的损失，获得的深度将增加分类输出的功能。

但是，在分割任务中，我们希望输出与输入图像具有相同的形状，并希望添加标记像素的功能。因此，传统的Conv架构的下采样通过上采样路径得到补充，以便在保持功能的同时将图像的高度和宽度加回到输出中。上采样方法很多，但是大多数库中最常用的一种方法是转置卷积上采样。您可以在这里阅读有关此方法的信息。

YOLO

YOLO由Joseph Redmon，Santosh Divvala，Ross Girshick，Ali Farhadi首次在其论文"您只看一次：统一的实时对象检测"中介绍。该文件在2015年被提议为一种快速，最新的对象检测模型。多年来，YOLO已发布了4个正式版本（已发表论文）。前三个是由原始作者提供的，最后一个是由另一位作者撰写的。我现在不讨论YOLO的版本，也许在另一篇文章中;-)

YOLO代表您只看一次。当论文发表时，用于对象检测的流行方法是重用分类器对图像的局部区域进行分类，并使用滑动窗口方法检查图像的每个区域是否都有对象。 YOLO通过将对象检测作为回归问题提出来改变了范式，在这种情况下，他们仅对整个管线使用单个网络，并立即而不是在区域中处理整个图像。

YOLO将输入图像划分为SxS网格。并且针对每个网格预测对象的中心是否存在于网格内。如果对象的中心在网格中，则网格将使用5个值x，y，w，h，c预测边界框。（x，y）是相对于网格的对象中心的坐标，（w，h）是相对于整个图像的对象的宽度和高度，（c）是对象的类。

" YOLO有3个主要优点。松引用自原始论文[1]。

首先，YOLO非常快。由于纸张将检测框架视为回归问题，因此不需要复杂的流程。

其次，YOLO在做出预测时会全局考虑图像。与基于滑动窗口和区域提议的技术不同，YOLO在训练和测试期间会看到整个图像，因此它隐式地编码有关类及其外观的上下文信息。

第三，YOLO学习对象的可概括表示。由于YOLO具有高度通用性，因此在应用于新域或意外输入时，分解的可能性较小。"

生成对抗网络 GAN

Ian J. Goodfellow，Jean Pouget-Abadie，Mehdi Mirza，Bing Xu，David Warde-Farley，Sherjil Ozair，Aaron Courville，Yoshua Bengio在他们的论文" Generative Adversarial Networks"中引入了生成对抗网络或简称GAN。在这里阅读。

GAN是通过对抗过程训练的神经网络对。GAN的两个部分是生成器和评论器/区分器。生成器的作用是生成与训练数据相似的高质量数据，批评者的作用是区分生成的数据和真实数据。生成器的目标功能是最大化批评者的损失，而批评者的目标功能是使其损失最小化。

认为此过程类似于小偷和警察。盗贼想要愚弄警察，并继续改进他们的工具和技术，警察也想抓住盗贼，以便他们也可以改善。发电机就像小偷，批评家像警察。

GAN有许多应用程序，并且一直都有许多新的应用程序出现。但是由于本文是关于计算机视觉的，因此GAN的两个非常有趣的应用是：

· 超分辨率超分辨率是指拍摄低质量的图像并从中生成高质量的图像。Nvidia的新DLSS可能正在使用这种技术。fast.ai的Jeremey Howard有一种非常有趣的方法，称为noGAN方法，可以实现超分辨率。此过程是GAN的一种预训练，其中将高质量图像转换为较低质量的图像，用于生成器的训练数据，并对注释器进行预生成的图像训练。这样，生成器和评论者都可以抢先，并且发现该方法可以显着提高GAN的训练时间。

· 严重假货我敢肯定，每个人都听说过媒体的严重假货。深度伪造品也是GAN，其中训练了发电机执行伪造操作，批评家的任务是检测伪造品。可以训练发电机足够长的时间以欺骗大多数人。这是一种有点危险的技术，在Internet上需要注意。

参考文献

[1] Joseph Redmon，Santosh Divvala，Ross Girshick，Ali Farhadi，"您只看一次：统一的实时对象检测"（2015），arXiv：1506.02640

(本文由闻数起舞翻译自Sharan Kumar Ravindran的文章《5 Neural network architectures you must know for Computer Vision》，转载请注明出处，原文链接：https://towardsdatascience.com/5-neural-network-architectures-you-must-know-for-computer-vision-31d2991fe24e)

上一篇： SSD(Single Shot MultiBox Detector)原理详解
下一篇： Transformer系列:残差连接原理详细解析和代码论证

网站首页 > 技术文章正文

码农必须了解的5种神经网络架构

卷积神经网络

历史

机制

残差网络（ResNet）

U-Net

YOLO

生成对抗网络 GAN

参考文献

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

网站首页 > 技术文章 正文

码农必须了解的5种神经网络架构

卷积神经网络

历史

机制

残差网络（ResNet）

U-Net

YOLO

生成对抗网络 GAN

参考文献

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎 你 发表评论:

网站首页 > 技术文章正文

取消回复欢迎你发表评论: