计算机系统应用教程网站

网站首页 > 技术文章 正文

码农必须了解的5种神经网络架构

btikc 2025-01-18 17:39:18 技术文章 22 ℃ 0 评论

在本文中,我以无特定顺序列出了用于计算机视觉的前5种神经网络体系结构

卷积神经网络

历史

卷积的思想是福岛邦彦首次提出的。新认知加速器引入了两种类型的层,即卷积层和下采样层。

然后,Yan LeCun等人进行了下一个关键的改进。当他们使用反向传播从图像中学习卷积核的系数时。这使学习变得自动化,而无需费力地手工完成。根据Wikipedia所说,这种方法成为现代计算机视觉的基础。

随后是Alex Krizhevsky,Ilya Sutskever,Geoffrey E. Hinton于2012年提出的"具有深度卷积神经网络的ImageNet分类",该论文被广泛认为是卷积神经网络最具影响力的论文。他们创建了Alexnet,并凭借自己的模型赢得了2012年Imagenet竞赛。

机制

我不会深入探讨CNN的机制,但想简要介绍一下它的工作原理。

在将常规香草神经网络训练在计算WX + b的层上的情况下,其中W是通过反向传播学习的权重矩阵,而卷积神经网络则使用称为过滤器的权重。

您可以想到卷积核或滤波器,例如输入矩阵上的滑动窗口。在上面的gif中,过滤器是带有红色数字的橙色阴影矩阵。输入矩阵是带有黑色数字的绿色矩阵。在每个阶段,将滤波器与输入矩阵的重叠部分逐元素相乘,然后将值相加。这给出了第一个输出。然后将过滤器向左移动一个步骤,依此类推,如gif所示。可以计算出输出和标签相对于滤波器值的损耗,并且通过反向传播,我们可以了解滤波器的值。

当展开内核和输入时,卷积神经网络实际上只是矩阵乘法。这在这篇非常好的博客文章中得到了展示。CNN非常强大,主要有两个原因。

· 它们每层的参数明显较少,因此可以堆叠形成更深的层。

· 它们解决了输入的局部性。由于内核一次对图像的各个部分起作用,因此图像中像素的局部性得以保持,并且输入中的接近像素会创建也接近的输出值。这不同于不考虑位置的传统网络。

残差网络(ResNet)

剩余网络由Kaiming He等人引入。 在他们极具影响力的论文"用于图像识别的深度残差学习"中。 微软研究团队的论文在2015年Imagenet竞赛中获胜。

ResNets有一个非常简单但又非常优雅的想法。 想法是添加跳过连接或快捷连接,从而创建了渐变高速公路。 这样可以使梯度在后退步骤中更好地流动,并大大增加了收敛性,训练时间并减少了梯度爆炸和消失。

Resnets的微妙之处在于,最佳情况是跳过连接主动添加到输出并计算有用的信息,而最坏情况是仅忽略跳过连接,而最糟糕的情况是与网络相同没有跳过连接。因此,跳过连接会增加很多价值,并且没有任何缺点!

U-Net

U-Net由Olaf Ronneberger,Philipp Fischer和Thomas Brox在他们的论文" U-Net:用于生物医学图像分割的卷积网络"中介绍,您可以在这里阅读。这份2015年的论文在图像分割方面具有革命性意义。图像分割是用图像类别标记图像中的每个像素的任务。

U-Nets由两部分组成:收缩路径(下采样路径)和扩展路径(上采样路径)。 在传统的图像分类卷积网络中,图像被馈送到执行卷积和池化操作的网络中,这两种操作都会减少输出的高度和宽度,但会增加输出的深度。 随着高度和宽度的损失,获得的深度将增加分类输出的功能。

但是,在分割任务中,我们希望输出与输入图像具有相同的形状,并希望添加标记像素的功能。 因此,传统的Conv架构的下采样通过上采样路径得到补充,以便在保持功能的同时将图像的高度和宽度加回到输出中。 上采样方法很多,但是大多数库中最常用的一种方法是转置卷积上采样。 您可以在这里阅读有关此方法的信息。

YOLO

YOLO由Joseph Redmon,Santosh Divvala,Ross Girshick,Ali Farhadi首次在其论文"您只看一次:统一的实时对象检测"中介绍。 该文件在2015年被提议为一种快速,最新的对象检测模型。多年来,YOLO已发布了4个正式版本(已发表论文)。 前三个是由原始作者提供的,最后一个是由另一位作者撰写的。 我现在不讨论YOLO的版本,也许在另一篇文章中;-)

YOLO代表您只看一次。 当论文发表时,用于对象检测的流行方法是重用分类器对图像的局部区域进行分类,并使用滑动窗口方法检查图像的每个区域是否都有对象。 YOLO通过将对象检测作为回归问题提出来改变了范式,在这种情况下,他们仅对整个管线使用单个网络,并立即而不是在区域中处理整个图像。

YOLO将输入图像划分为SxS网格。并且针对每个网格预测对象的中心是否存在于网格内。如果对象的中心在网格中,则网格将使用5个值x,y,w,h,c预测边界框。(x,y)是相对于网格的对象中心的坐标,(w,h)是相对于整个图像的对象的宽度和高度,(c)是对象的类。

" YOLO有3个主要优点。松引用自原始论文[1]。

首先,YOLO非常快。 由于纸张将检测框架视为回归问题,因此不需要复杂的流程。

其次,YOLO在做出预测时会全局考虑图像。与基于滑动窗口和区域提议的技术不同,YOLO在训练和测试期间会看到整个图像,因此它隐式地编码有关类及其外观的上下文信息。

第三,YOLO学习对象的可概括表示。 由于YOLO具有高度通用性,因此在应用于新域或意外输入时,分解的可能性较小。"

生成对抗网络 GAN

Ian J. Goodfellow,Jean Pouget-Abadie,Mehdi Mirza,Bing Xu,David Warde-Farley,Sherjil Ozair,Aaron Courville,Yoshua Bengio在他们的论文" Generative Adversarial Networks"中引入了生成对抗网络或简称GAN。在这里阅读。

GAN是通过对抗过程训练的神经网络对。GAN的两个部分是生成器和评论器/区分器。生成器的作用是生成与训练数据相似的高质量数据,批评者的作用是区分生成的数据和真实数据。生成器的目标功能是最大化批评者的损失,而批评者的目标功能是使其损失最小化。

认为此过程类似于小偷和警察。盗贼想要愚弄警察,并继续改进他们的工具和技术,警察也想抓住盗贼,以便他们也可以改善。发电机就像小偷,批评家像警察。

GAN有许多应用程序,并且一直都有许多新的应用程序出现。但是由于本文是关于计算机视觉的,因此GAN的两个非常有趣的应用是:

· 超分辨率超分辨率是指拍摄低质量的图像并从中生成高质量的图像。Nvidia的新DLSS可能正在使用这种技术。fast.ai的Jeremey Howard有一种非常有趣的方法,称为noGAN方法,可以实现超分辨率。此过程是GAN的一种预训练,其中将高质量图像转换为较低质量的图像,用于生成器的训练数据,并对注释器进行预生成的图像训练。这样,生成器和评论者都可以抢先,并且发现该方法可以显着提高GAN的训练时间。

· 严重假货我敢肯定,每个人都听说过媒体的严重假货。 深度伪造品也是GAN,其中训练了发电机执行伪造操作,批评家的任务是检测伪造品。 可以训练发电机足够长的时间以欺骗大多数人。 这是一种有点危险的技术,在Internet上需要注意。

参考文献

[1] Joseph Redmon,Santosh Divvala,Ross Girshick,Ali Farhadi,"您只看一次:统一的实时对象检测"(2015),arXiv:1506.02640

(本文由闻数起舞翻译自Sharan Kumar Ravindran的文章《5 Neural network architectures you must know for Computer Vision》,转载请注明出处,原文链接:https://towardsdatascience.com/5-neural-network-architectures-you-must-know-for-computer-vision-31d2991fe24e)

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表