计算机系统应用教程网站

网站首页 > 技术文章 正文

在视觉场景中定位声源方法概述 视觉定位的原理

btikc 2024-10-15 08:57:20 技术文章 21 ℃ 0 评论

识别声源与视觉场景之间的对应关系是一个很有用的问题。论文《Learning to Localize Sound Source in Visual Scenes》介绍了一种新的方法,这种方法有助于在视觉线索和声源定位之间形成一种相互关系。

介绍

视觉场景往往由丰富的声音信息组成,其中包含各种中间线索,这些线索有助于定义特定场景中声音的来源。如图1所示。在发动机和人参与的空间中会产生声音,其输出结果对这些区域有更高的热图活性。该模型的主要目标是实现具有相应声音信号和视频的同步操作,因此可以考虑由视频和音频剪辑组成大量数据,然后设计一个无监督模型。

该模型的体系结构由two-stream网络组成,其中每个网络都有涉及声音和视觉数据的模态。对于较早的场景,所设计的模型完全是基于对视频的无监督观察,即通过注意力机制学习声源定位。但是用这种方法获得的结果并不令人信服,因为无监督学习方法很难仅基于相关性来区分声源。为了解决这个问题,有人指出,先验知识和监督有助于显著改善结果。

论文论述的一些重点如下:

  1. 在使用听觉信息的注意力机制的帮助下引入学习框架。
  2. 建议采用统一的端到端深度卷积神经网络架构,以适应无监督,半监督和全监督学习。
  3. 创建一个新的基于声源定位的数据集,提供监督信息,便于定量和定性分析。

算法

设计的神经网络主要包括三个模块:声音网络、视觉网络和注意力模型。

声音网络

该网络需要10层,以原始波形作为输入。第一个conv层(到第8层)类似于SoundNet,随后是1000个filters,然后通过滑动窗口跨时间轴的平均池化。平均池化后得到的输出记为fs。为了包含更高级别的声音信号,第9层和第10层由ReLU和全连接层组成。第10层FC的输出为512-D,记为‘h’。这个“h”是用来与视觉网络的特征进行交互的,主要是捕捉与视觉信号相关的信息。

视觉网络

视觉网络包括图像特征提取器和定位模块。由于第一部分参考了SoundNet,所以这个网络很大程度上是受到VGG-16模型的启发来提取特征的。输入大小为H x W的彩色视频帧后,得到包含512 d激活向量的临时输出。视觉网络“fv”的最终输出是在视觉特征“z”经过两个{ReLU-FC}块之后计算出来的。这里的“z”是512-D向量(v)与“h”相互作用时生成的置信度图。

定位网络


对于每个位置i∈{1,···,M},注意力机制“gatt” 通过给定声音嵌入hvi之间的相互作用生成正权重αi,其中αi是注意力测度。注意αi可以解释为grid i可能是与声音上下文有关的正确位置的概率。

无监督学习的损失


其中T(·)表示triplet网络,(x, x+, x?)表示triplet查询(正样本和负样本)。为了施加d+ < d?约束,我们使用距离比损失。无监督损失函数定义为

其中

尽管这种无监督的学习方法效果很好,但它也可能会导致问题,当模型观察到的东西比声源区域占据更大的区域时,如果没有任何监督反馈,就很难发发现真正的因果关系。这导致模型偏向某些语义上不相关的输出。

半监督学习的损失

对于无监督学习所面临的上述问题,简单的解决方法是在半监督的情况下利用监督信号提供一些先验知识。

在这种情况下,半监督损失看起来像是

其中LULS分别表示无监督损失和有监督损失,αGT表示ground-truth (or reference) attention map,λ(·)是用于控制数据监督类型的函数。无监督损失LU与上面的相同,LS可以是MSE或交叉熵损失。


其中“ i”表示attention map的位置索引,而(αGT,i)是二进制值。这样,可以根据每个样本的αGT,轻松地将损失调整为监督或无监督。

实验结果与定性分析

该模型的评估是在构建一个新的声源定位数据集之后进行的。如前所述,当模型在无监督模式下运行时,会产生语义上不匹配的结果,在上图中可以进一步观察到,在无监督模式下产生的声音显示是无方向性的。

数据集

为了提高无监督方法的准确性,必须考虑的数据集应包含注释。为此,我们创建了一个新的数据集,它不仅以更简单的方式促进了评估,而且还为训练监督模型提供了注释。这三个主题的注释是按照以下通用说明完成的(例如听20秒),并在生成声音的帧上绘制边界框,并将边界框标记为对象或环境。在注释过程之后,消除了“环境/非对象”图像声音对。

结果与分析

图5显示了来自基于注释的数据集中的图像声音对的定位结果。可以注意到,即使在空间信息混乱的情况下,该模型也能够识别声源。

在可能产生声音的各种来源组成的场景中,模型进行交互工作以显示图像哪些部分产生了声音。从图6中可以看出,在涉及瀑布的场景中,定位响应会根据给定的声音上下文发生变化。对于包含汽车引擎和人员的帧,当引擎有声音时,该区域将突出显示。同样,当声源来自人类时,包含人的区域也会高亮显示。

经过无监督训练的网络,其人工标注的定位性能如图7所示。可以得出结论,即使没有利用先验知识,该模型也与人类感知一致。

最后,图8显示了不同方法之间的比较,并且正如所期望的那样,监督学习方法使用ground truth监督信号更准确地定位对象。值得注意的是,所提出的半监督模型结合了监督和非监督数据,取得了良好的结果。

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表