对语音识别有了大体印象,或许技术流程的细节、原理仍不是太清晰,此时大可以花些时间先行将每个知识点逐一弄明白,等到面面俱到了,这才出山,并期望有了一整套理论加持便能快速地实现一个语音识别系统。这样的线性思维适合一些考试,只要把教材的知识点摸得烂熟,一鼓作气,考个高分就很容易了。只是要真正地掌握一门技术,终究是绝知此事要躬行。我们修我们自己的房子,不断扩张自己的知识领地,所以需要尽快有个知识框架,无论粗糙、精致,首先保证骨架的完整性,然后不断添砖加瓦,一层一层地铺设,每一次都有新面貌、新视野。这一章从一个完整的语音识别实验开始,先对语音识别的基本步骤做到心中有数,随后才是局部的深化和装点。
使用Thchs30数据库,可用 Kaldi 快速实现一个基于 DNN-HMM 结构的语音识别系统。本章先行实现该系统的训练和解码,接下来几章简要介绍几大步骤以及每步生成的文件构成。为了更好地说明多个语音任务的训练步骤,作者将最上层训练脚本重新做了组织,其中所调用的脚本和Kaldi可执行命令与官方Kaldi 没有任何区别。组织后的脚本放于https://github.com/tzyll/kaldi 下的egs/cslt_cases中,下文的文件引用将省去这些路径,各子目录中的 steps 和 utils 软链接的是各个案例公用的标准目录,放于 egs/wsj 目录下, steps 包含的文件与系统训练和解码步骤直接相关,utils 包含一些可能会用到的实用工具,下文以 steps 和 utils 为开头的文件引用都来自这两个目录,不再标明相对出处。
3.1语音识别实验步骤
参照 README, Linux 下安装好 Kaldi,进入 asr_baseline,其中上层脚本 run.sh 包含了DNN-HMM 语音识别系统从前期数据准备到最后解码的整个过程,该脚本是语音识别各个步骤的封装,每个步骤的脚本又是对更底层细节的封装,归根结底,大部分命令会寻至 Kaldi 编译出来的 C++ 可执行程序,这些 C++ 可执行程序基本放在 kaldi/src 中以 bin 结尾的文件夹中,通过可执行文件的名称可望文生义,从而快速了解功能,代码本身和 Kaldi 文档则有详细介绍。通过 run.sh 中的代码注释可速览整个语音识别的流程,本小节剩余部分将对 run.sh 里的代码分段进行讲解,且为了阅读方便,删除了部分注释,但代码运行部分保持不变。
cmd.sh中对计算资源的使用进行了说明,包括是单机还是并行、内存占用等;path.sh里包含了Kaldi所需要的各种环境设置。值得注意的是,目前Kaldi使用的Python版本仍为2.0,Kaldi通过path.sh对此进行了设置。
语音识别系统训练的原始数据集有各种不同的组织形式,但都需要统一整理成 Kaldi 所需的目录结构及文件格式。第4.1节“数据准备”中将更详细地介绍Kaldi 所需的基本数据格式。本文使用的 Thchs30 数据集可以通过代码注释中的链接进行下载。
语音识别的任务是将语音转换成文本,所以除了上一步准备的音频数据及其相关信息,还需要准备语言相关信息(包括发音词典、语言模型等)。第4.1节“语言资料”中将会进行更详细的介绍。
这一步是声学特征提取,即将原始音频通过信号处理手段转换成机器更容易处理的形式。第4.2节“声学特征提取”中介绍了常用的FBANK、MFCC特征的提取方式。这里还计算了倒谱均值方差归一化(Cepstral Mean and Variance Normalization,CMVN)系数用于声学特征的规整化,该方法旨在提高声学特征对说话人、录音设备、环境、音量等因素的鲁棒性。
GMM-HMM的训练是一个不断引入新手段不断再磨炼的过程,新的模型站在旧的模型的肩膀上,循环往复。具体迭代优化形式为,旧的模型对数据进行标记,然后标记后的数据再来训练新的模型,这样旧的模型所学到的知识则通过标记的形式传递给了新的模型,是某种形式的迁移学习。图 3.1 展示了GMM-HMM反复训练的过程,以及其后利用其强制标记(或强制对齐)的结果再训练DNN的过程,具体的流程是:首先通过EM算法训练 GMM-HMM,然后利用训练好的 GMM-HMM 对数据进行强制标记(即打标签,标签为 Senone,因为刚开始只知道整条语音对应的整条文本,所以初始化标签是模糊的),再用强制标记后的数据重新训练 GMM-HMM(配置会有改变),循环往复,直到训练出一个较好的 GMM-HMM,并对数据进行强制标记;第二大步则是利用标签数据进行典型的 DNN 分类器训练;最后将 GMM-HMM 中计算发射概率的 GMM 替换为 DNN。
上面代码中引入的新手段分别是:
? 三音素(Triphone),考虑音素的上下文,三音素则只考虑左邻右舍各一个音素,比如同样是“a”,但因其上下文不一样,“a”便有了多个变种,每个变种都可以独立门户作为一个新的音素;
? LDA+MLLR,使用Linear Discriminant Analysis(LDA)和Maximum Likelihood Linear Regression(MLLR)技术对声学特征进行线性变换,使其对不同音素更加具有区分性;
? SAT,说话人自适应训练(Speaker Adaptive Training),具体采用了fMLLR(feature-space MLLR)方法,目的是提高语音识别系统的说话人无关性。
这一步定义了TDNN结构,并利用GMM-HMM强制标记的结果作为目标进行有监督学习。由于DNN-HMM相比于GMM-HMM结构,只是计算HMM中发射概率的方式发生了改变,所以解码图仍然可以使用GMM-HMM的。
最后在DNN-HMM的基础上进行了区分性训练,即更换了损失函数后对神经网络声学模型的参数又进行了微调优化,其解码过程仍与未区分性训练之前相同。
3.2语音识别实验的运行
根据服务器配置,设置cmd.sh,其中“train_cmd”、“decode_cmd”、“cuda_cmd” 分别表示训练任务、解码任务、GPU 训练任务可以调用的机器或机器集群。具体地,“run.pl”表示本机运行,“queue.pl”表示使用 Grid Engine集群,如 OGS/GE,并可通过运行qconf -sql查看服务器已有的集群配置文件,并将其作为 queue.pl 的参数。
执行 run.sh(通常后台形式,如nohup ./run.sh>run_asr.log &)可以从0到1实现整个语音识别系统的训练和解码,并可根据日志文件查看实验进度。日志是程序开发的重要文件,可通过阅读日志跟踪、了解系统的运行内容,并可根据日志快速定位、调试错误。Kaldi 每一个关键步骤都会生成日志,存放于输出目录中的 log 文件夹或以 .log 结尾的文件中,这些日志文件是学习和使用 Kaldi 必不可少的材料。
执行“. ./path.sh”,使得当前 shell 下可以直接调用 Kaldi 编译出来的 C++ 可执行程序和相关脚本,方便进一步分析和使用,比如将中断的语句单独取出,并于命令行运行,可加快调试。当不加任何参数直接运行这些程序或脚本时,可打印使用方法。
3.3其他语音任务案例
语音相关的常规任务包括语种识别(Language Recognition)、说话人识别(Speaker Recognition)等,相关案例参见cslt_cases/{lre_baseline,sre_dvector,sre_ivector}此外,Kaldi 针对说话人识别还提供了 x-vector(egs/sre16)系统。
关于语音识别的端对端学习,相关案例可参见Github上的mozilla/DeepSpeech、srvk/eesen、espnet/espnet、facebookresearch/wav2letter 等。
3.4小结
本章通过语音识别实验的上层脚本,大体地介绍了 DNN-HMM 语音识别训练和解码的流程,通过这样的流程,不用深究模型设计和训练的具体细节,即可快速搭建一套语音识别系统。下一章将详细介绍数据的准备、神经网络模型的设计等内容,从而可以自定义要识别的语种、使用的语料量、模型结构等。
文章来源于清语赋
本文暂时没有评论,来添加一个吧(●'◡'●)