网站首页 > 技术文章 正文
作者:叶蓉
编辑:好困
【新智元导读】我们有一个梦想,那就是有一天看剧能有实时翻译字幕。然而级联模型复杂冗长,还容易出现传播错误,端到端模型又缺少标记数据去训练。于是全新的语音翻译模型LUT诞生了,不仅翻译速度快,而且就算听错也能翻译对。
你是否曾遇到这样的场景:在陌?的国家旅游因为听不懂当地?说话只能咿咿呀呀、?语?划、连蒙带猜?
因为不懂?语种,?热悬疑泰剧《禁忌?孩》、年度狗?韩剧《顶楼》只能煎熬到翌?字幕组的熟?放送?
每每遇此,我都会想,如果计算机能帮我们?动把语?翻译成中?就好了。
语?翻译,?种语?的语?到另外?种语?的语?或?本的?动翻译过程,在如今国际化的社会中有着?泛的应?场景:在线外语视频、跨国会议、出国旅游、国际贸易。
如何将翻译准确传达成了业界和学术界?分关?的课题。
端到端语?翻译的挑战
传统的语?识别系统为级联语?翻译模型(cascaded speech translation model),通常先通过?个语?识别模型(ASR)先识别出?频对应的转写?本(transcript),再通过机器翻译模型将转写?本翻译出?标语?。
级联语?翻译模型
然?这种级联系统除了链路?,时间复杂度较?之外,还容易产?误差传播,即?旦ASR识别错误,会连带着翻译结果?起出错。
所以为了缓解级联系统误差传播的问题,端到端的语?翻译模型被学界?泛研究。
随着基于Transformer[1]编码器-解码器的模型在?本?成、机器翻译等任务上的成功,这类模型也被运?到了语?翻译中,?如speech Transformer[2]。
不幸的是,Transformer等模型在机器翻译领域之所以这么成功是因为?量标注的平?语料数据,?在语?翻译领域,标注好的「语?-转写-翻译」数据远远不如?本翻译那么丰富。
?前最?可?的数据集也只有?百?时,远不如WMT?本翻译中的?语种平?语料规模。这也是为何在很??段时间,端到端语?翻译系统性能不如级联模型的原因。
所以挑战出现了:如何利?有限的标注数据尽极?可能提升端到端语?翻译的性能呢?
这?给?家介绍在AAAI 2021上?篇语?翻译的论?:
Listen, Understand and Translate(LUT): Triple Supervision Decouples End-to-end Speech-to-text Translation[3],作者是来?中科院?动化所的董倩倩、徐波等和字节跳动李磊团队。
本?核?思想是尽可能的利?标注数据中「转写?本」的作?,并利?额外?规模单语预训练的语?模型来辅助监督,架起从语?到?本的跨模态转变的桥梁。
论?地址:https://arxiv.org/abs/2009.09704
LUT的设计动机和?法
?先,?个问题是:?如何翻译?段语??通常?朵在接受?段语?后,我们?脑会加以理解,最后给出翻译结果。?对?于「编码器-解码器」模型,单个编码器负责解析语?信号,却缺少了「理解」这?部分。
左图为?翻译的过程,对?右图为?前基于编码器-解码器的端到端语?翻译模型示意图
该?认为:
(1)单个编码器很难捕捉适合翻译的语?信号表示;
(2)另???,它对于「转写」监督信号的利?也是有限的。
所以,该?引?了两个编码器——声学编码器和语义编码器,声学编码器负责将语?信号解析到和转写?字匹配的表示(但没有显示表示成?字,仍然是向量形式),语义编码器负责理解。
其次为了让语义编码器能尽可能产?适合翻译的理解(实际表示为另?组向量),这?充分利?了转写?本的信息,利?了预训练好的BERT语?模型来监督语义编码器的输出表示向量。
LUT的模型结构如下图所示:
具体地说,声学编码器(Acoustic Encoder)负责听(Listen),语义编码器(Semantic Encoder)负责理解(Understand),最后,翻译解码器(Translation decdoer)负责输出翻译结果(Translate)。
LUT模型结构
- 声学编码器:使?FilterBank特征作为?频信号输?,经过基于Transformer encoder的声学编码器,得到?频输?的声学表示(即?组向量)。
这?增加了?个额外的Connectionist Temporal Classification (CTC) loss,?的是使其和转写?本对?(对应图中的CTC loss)。
- 语义编码器:声学表示再次通过语义编码器,仍然是?个Transformer encoder,通过额外的attention层和average pooling操作得到句?语义表示。
这?增加了?个额外的MSE loss,将其和直接把转写?字经过BERT计算的句?表示向量对?(对应图中的 Distance loss)。
语义编码器的核?思想是让语?经过了声学编码和语义编码之后的表示与转写?字直接经过预训练好的表示能对?,?我们认为预训练的BERT模型能很好的刻画?本语义信息。
这样通过预训练模型来监督,即模拟了翻译过程中“理解”的过程。
- 翻译解码器:负责将表示解码得到译?,和普通翻译任务?样,使?Transformer decoder作为解码器。
整体再使?交叉熵(cross-entropy loss)进?训练(对应图中的Translation loss)。
LUT使?了三项loss进?监督,为了更好收敛,该?设计了先优化CTC loss+distance loss,再优化所有loss的训练策略。
该训练策略的另?好处是可以将额外的ASR监督也可以利?起来。具体的模型细节和训练过程可以参考论?。
LUT在语?翻译实验中的效果分析
En-Fr/De/Zh 三个语向、两?场景下的语?翻译能?显著提升
该?在:
(1)Augmented Librispeech 英->法;
(2)IWSLT-2018 英->德;
(3)TED 英->中
三个数据集上进?了实验,验证了LUT模型在有声书翻译和讲座两?场景下,都获得了不错的语?翻译结果。
值得注意的是,由于数据稀少,前?的模型中通常会加?ASR pretrain或者MT pretrain的技巧,?该?的训练策略使得LUT即使没有pretrain,也获得了?前?更好的结果。
对?级联模型的效果
如前?所?,在很??段时间,端到端模型的效果?直不如级联系统。
该?也将LUT和仅?同样数据训练的级联系统进?了对?,结果显示,在同等数据量下,LUT在英-法、英-德的效果能超越级联系统,在英-中上获得差不多的效果。
值得注意的是,LUT的参数量远?于级联系统,翻译速度也更快。
当然略不?的是,该?中?较的级联系统尚不是最强级联系统,最强级联系统是不受限的使??规模额外数据训练的语?识别模型和机器翻译模型的级联。
案例分析
更重要的是,作为端到端模型,LUT可以有效避免级联系统中误差传导的问题。这?通过三个例?说明:
通过CTC解码(CTC decoding algorithm),LUT中间语?解码器可以得到转写。
分析发现即使转写解码出错的时候(?如错识别、漏识别、重复识别?节等),LUT依旧可以给出正确的翻译。?由于识别错误,级联模型在这种情况下容易给出错误的翻译结果。
声学和语义两编码器的作?分析
注意?分配可视化分析
该?将声学编码器和语义编码器的attention进?可视化,发现声学编码器的注意?偏向局部注意?,?语义编码器的注意?能获取 到更全局的上下?信息。
声学编码器和语义编码器的注意?可视化
语义编码器的作?
该?分别利?训练好的LUT模型的声学表示(Acoustic hidden)和语义表示(Semantic hidden),在语?理解(SLU)数据集Fluent Speech Commands Dataset上进?说话?识别(speaker identifiation)和意图识别(intention identification)实验。
分析发现:
(1)在意图识别任务上,利?语义表示的识别准确率?于声学表示,这证明了语义编码器能更好获取到内容信息;
(2)利?语义表示在说话?识别任务上的准确率仅46.3%,这证明了语义编码器能极?程度过滤掉和内容?关的声学信息(?如说话?信息),从?更好地适合翻译任务。
Accuracy | Intention | Speaker |
Acoustic Hidden | 91.0% | 97.6% |
Semantic Hidden | 93.1% | 46.3% |
?章中还有更多实验分析验证每?个损失项(loss)都是有效的,分析模型超参的影响等等,具体可参考论?。
总结
该?提出了Listen, Understand and Translate(LUT)模型,模型包含声学编码器、语义编码器和翻译解码器。
语义编码器可充分利?转写和其预训练表示作为监督;LUT模型也可以利?相较?量的语?识别(ASR)数据辅助训练,进?步提升翻译效果。
实验表明LUT在En-Fr/De/Zh三个语向的语?翻译,对?其他端到端模型和级联翻译系统,性能都有提升。
参考资料:
代码和预训练好的模型: https://github.com/dqqcasia/st
论文: https://arxiv.org/abs/2009.09704
??翻译:http://translate.volcengine.cn/
引?:
[1] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin. Attention is all you need. NeurIPS. 2017.
[2] Linhao Dong, Shuang Xu, and Bo Xu. Speech-transformer: a no-recurrence sequence-to-sequence model for speech recognition. ICASSP, 2018.
[3] Qianqian Dong, Rong Ye, Mingxuan Wang, Hao Zhou, Shuang Xu, Bo Xu, and Lei Li. Listen, Understand and Translate: Triple Supervision Decouples End-to-end Speech-to-text Translation. AAAI, 2021.
猜你喜欢
- 2024-09-24 熬了一晚上,我从零实现了Transformer模型,把代码讲给你听
- 2024-09-24 通过7个版本的attention的变形,搞懂transformer多头注意力机制
- 2024-09-24 ACL 2019 | 将带推敲解码器的增量Transformer用于文档级知识对话
- 2024-09-24 如何突破Decoder性能瓶颈?揭秘FasterTransformer的原理与应用
- 2024-09-24 如何突破Decoder性能瓶颈?揭秘FasterTransformer2的原理与应用
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- oraclesql优化 (66)
- 类的加载机制 (75)
- feignclient (62)
- 一致性hash算法 (71)
- dockfile (66)
- 锁机制 (57)
- javaresponse (60)
- 查看hive版本 (59)
- phpworkerman (57)
- spark算子 (58)
- vue双向绑定的原理 (68)
- springbootget请求 (58)
- docker网络三种模式 (67)
- spring控制反转 (71)
- data:image/jpeg (69)
- base64 (69)
- java分页 (64)
- kibanadocker (60)
- qabstracttablemodel (62)
- java生成pdf文件 (69)
- deletelater (62)
- com.aspose.words (58)
- android.mk (62)
- qopengl (73)
- epoch_millis (61)
本文暂时没有评论,来添加一个吧(●'◡'●)