计算机系统应用教程网站

网站首页 > 技术文章 正文

Transformer靠数据堆?无数据怎么办?LUT说「冇问题」|AAAI 2021

btikc 2024-09-24 08:17:30 技术文章 17 ℃ 0 评论

作者:叶蓉

编辑:好困

【新智元导读】我们有一个梦想,那就是有一天看剧能有实时翻译字幕。然而级联模型复杂冗长,还容易出现传播错误,端到端模型又缺少标记数据去训练。于是全新的语音翻译模型LUT诞生了,不仅翻译速度快,而且就算听错也能翻译对。


你是否曾遇到这样的场景:在陌?的国家旅游因为听不懂当地?说话只能咿咿呀呀、?语?划、连蒙带猜?


因为不懂?语种,?热悬疑泰剧《禁忌?孩》、年度狗?韩剧《顶楼》只能煎熬到翌?字幕组的熟?放送?


每每遇此,我都会想,如果计算机能帮我们?动把语?翻译成中?就好了。



语?翻译,?种语?的语?到另外?种语?的语?或?本的?动翻译过程,在如今国际化的社会中有着?泛的应?场景:在线外语视频、跨国会议、出国旅游、国际贸易。


如何将翻译准确传达成了业界和学术界?分关?的课题。


端到端语?翻译的挑战


传统的语?识别系统为级联语?翻译模型(cascaded speech translation model),通常先通过?个语?识别模型(ASR)先识别出?频对应的转写?本(transcript),再通过机器翻译模型将转写?本翻译出?标语?。


级联语?翻译模型


然?这种级联系统除了链路?,时间复杂度较?之外,还容易产?误差传播,即?旦ASR识别错误,会连带着翻译结果?起出错。


所以为了缓解级联系统误差传播的问题,端到端的语?翻译模型被学界?泛研究。


随着基于Transformer[1]编码器-解码器的模型在?本?成、机器翻译等任务上的成功,这类模型也被运?到了语?翻译中,?如speech Transformer[2]。


不幸的是,Transformer等模型在机器翻译领域之所以这么成功是因为?量标注的平?语料数据,?在语?翻译领域,标注好的「语?-转写-翻译」数据远远不如?本翻译那么丰富。


?前最?可?的数据集也只有?百?时,远不如WMT?本翻译中的?语种平?语料规模。这也是为何在很??段时间,端到端语?翻译系统性能不如级联模型的原因。


所以挑战出现了:如何利?有限的标注数据尽极?可能提升端到端语?翻译的性能呢?


这?给?家介绍在AAAI 2021上?篇语?翻译的论?:

Listen, Understand and Translate(LUT): Triple Supervision Decouples End-to-end Speech-to-text Translation[3],作者是来?中科院?动化所的董倩倩、徐波等和字节跳动李磊团队。


本?核?思想是尽可能的利?标注数据中「转写?本」的作?,并利?额外?规模单语预训练的语?模型来辅助监督,架起从语?到?本的跨模态转变的桥梁。


论?地址:https://arxiv.org/abs/2009.09704


LUT的设计动机和?法


?先,?个问题是:?如何翻译?段语??通常?朵在接受?段语?后,我们?脑会加以理解,最后给出翻译结果。?对?于「编码器-解码器」模型,单个编码器负责解析语?信号,却缺少了「理解」这?部分。


左图为?翻译的过程,对?右图为?前基于编码器-解码器的端到端语?翻译模型示意图


该?认为:

(1)单个编码器很难捕捉适合翻译的语?信号表示;

(2)另???,它对于「转写」监督信号的利?也是有限的。


所以,该?引?了两个编码器——声学编码器和语义编码器,声学编码器负责将语?信号解析到和转写?字匹配的表示(但没有显示表示成?字,仍然是向量形式),语义编码器负责理解。


其次为了让语义编码器能尽可能产?适合翻译的理解(实际表示为另?组向量),这?充分利?了转写?本的信息,利?了预训练好的BERT语?模型来监督语义编码器的输出表示向量。


LUT的模型结构如下图所示:

具体地说,声学编码器(Acoustic Encoder)负责听(Listen),语义编码器(Semantic Encoder)负责理解(Understand),最后,翻译解码器(Translation decdoer)负责输出翻译结果(Translate)。


LUT模型结构


  • 声学编码器使?FilterBank特征作为?频信号输?,经过基于Transformer encoder的声学编码器,得到?频输?的声学表示(即?组向量)。
    这?增加了?个额外的Connectionist Temporal Classification (CTC) loss,?的是使其和转写?本对?(对应图中的CTC loss)。


  • 语义编码器声学表示再次通过语义编码器,仍然是?个Transformer encoder,通过额外的attention层和average pooling操作得到句?语义表示。
    这?增加了?个额外的MSE loss,将其和直接把转写?字经过BERT计算的句?表示向量对?(对应图中的 Distance loss)。
    语义编码器的核?思想是让语?经过了声学编码和语义编码之后的表示与转写?字直接经过预训练好的表示能对?,?我们认为预训练的BERT模型能很好的刻画?本语义信息。
    这样通过预训练模型来监督,即模拟了翻译过程中“理解”的过程。


  • 翻译解码器负责将表示解码得到译?,和普通翻译任务?样,使?Transformer decoder作为解码器。
    整体再使?交叉熵(cross-entropy loss)进?训练(对应图中的Translation loss)。

LUT使?了三项loss进?监督,为了更好收敛,该?设计了先优化CTC loss+distance loss,再优化所有loss的训练策略。


该训练策略的另?好处是可以将额外的ASR监督也可以利?起来。具体的模型细节和训练过程可以参考论?。


LUT在语?翻译实验中的效果分析


En-Fr/De/Zh 三个语向、两?场景下的语?翻译能?显著提升


该?在:

(1)Augmented Librispeech 英->法;

(2)IWSLT-2018 英->德;

(3)TED 英->中


三个数据集上进?了实验,验证了LUT模型在有声书翻译和讲座两?场景下,都获得了不错的语?翻译结果。



值得注意的是,由于数据稀少,前?的模型中通常会加?ASR pretrain或者MT pretrain的技巧,?该?的训练策略使得LUT即使没有pretrain,也获得了?前?更好的结果。


对?级联模型的效果



如前?所?,在很??段时间,端到端模型的效果?直不如级联系统。


该?也将LUT和仅?同样数据训练的级联系统进?了对?,结果显示,在同等数据量下,LUT在英-法、英-德的效果能超越级联系统,在英-中上获得差不多的效果。


值得注意的是,LUT的参数量远?于级联系统,翻译速度也更快。


当然略不?的是,该?中?较的级联系统尚不是最强级联系统,最强级联系统是不受限的使??规模额外数据训练的语?识别模型和机器翻译模型的级联。


案例分析


更重要的是,作为端到端模型,LUT可以有效避免级联系统中误差传导的问题。这?通过三个例?说明:



通过CTC解码(CTC decoding algorithm),LUT中间语?解码器可以得到转写。


分析发现即使转写解码出错的时候(?如错识别、漏识别、重复识别?节等),LUT依旧可以给出正确的翻译。?由于识别错误,级联模型在这种情况下容易给出错误的翻译结果。


声学和语义两编码器的作?分析


注意?分配可视化分析


该?将声学编码器和语义编码器的attention进?可视化,发现声学编码器的注意?偏向局部注意?,?语义编码器的注意?能获取 到更全局的上下?信息。


声学编码器和语义编码器的注意?可视化


语义编码器的作?


该?分别利?训练好的LUT模型的声学表示(Acoustic hidden)和语义表示(Semantic hidden),在语?理解(SLU)数据集Fluent Speech Commands Dataset上进?说话?识别(speaker identifiation)和意图识别(intention identification)实验。


分析发现:

(1)在意图识别任务上,利?语义表示的识别准确率?于声学表示,这证明了语义编码器能更好获取到内容信息;


(2)利?语义表示在说话?识别任务上的准确率仅46.3%,这证明了语义编码器能极?程度过滤掉和内容?关的声学信息(?如说话?信息),从?更好地适合翻译任务。


Accuracy

Intention

Speaker

Acoustic

Hidden

91.0%

97.6%

Semantic

Hidden

93.1%

46.3%


?章中还有更多实验分析验证每?个损失项(loss)都是有效的,分析模型超参的影响等等,具体可参考论?。



总结


该?提出了Listen, Understand and Translate(LUT)模型,模型包含声学编码器、语义编码器和翻译解码器。


语义编码器可充分利?转写和其预训练表示作为监督;LUT模型也可以利?相较?量的语?识别(ASR)数据辅助训练,进?步提升翻译效果。


实验表明LUT在En-Fr/De/Zh三个语向的语?翻译,对?其他端到端模型和级联翻译系统,性能都有提升。


参考资料:

代码和预训练好的模型: https://github.com/dqqcasia/st

论文: https://arxiv.org/abs/2009.09704

??翻译:http://translate.volcengine.cn/


引?:

[1] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin. Attention is all you need. NeurIPS. 2017.

[2] Linhao Dong, Shuang Xu, and Bo Xu. Speech-transformer: a no-recurrence sequence-to-sequence model for speech recognition. ICASSP, 2018.

[3] Qianqian Dong, Rong Ye, Mingxuan Wang, Hao Zhou, Shuang Xu, Bo Xu, and Lei Li. Listen, Understand and Translate: Triple Supervision Decouples End-to-end Speech-to-text Translation. AAAI, 2021.

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表