语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言,通俗来讲,就是让机器听懂你说的话。语音识别系统的目的,是把语音转换成文字。具体来说,是输入一段语音信号,要找一个文字序列(由词或字组成),使得它与语音信号的匹配程度最高。
传统的语音识别通过一个语言模型、声学模型、发音词典以及解码器组成。语言模型是产生文字的,它可以计算某一段文字出现的概率,是对一组字序列构成的知识表示。声学模型是对声学、语音学、环境的变量、说话人性别、口音等的差异的知识表示。发音词典则能够告诉人们不同字对应的音素,并计算发该语音的概率。最后,解码器将三者结合起来完成语音到文字的转换。
已知一段语音信号,处理成声学特征向量(Acoustic Feature Vector,而不是Eigenvector)后表示为 X= [x1, x2, x3, ...],其中 xi 表示一帧(Frame)特征向量;可能的文本序列表示为 W= [w1, w2, w3, ...],其中 wi表示一个词,求W? = argmaxw P(W|X),而P(W|X)= P(X|W) P(W) /P(X) ,这便是语音识别的基本出发点。
在训练语音集中,大量的语音信号被切分成帧,一帧约为20ms,对应音素时长。通过信号处理的方法将该音素变成特征向量(常用MFCC),从而训练出特征到音素的分类器。最后生成识别模型,语音信号通过识别模型找到最大匹配的文字序列。
特征向量:
一个代表目标特征的较低维向量,比如用“猫”这一个字符代替了真实世界三维的猫咪。
当然这是最基础的语音识别框架,随着深度学习的发展,基于注意力(Attention)机制,端到端语音识别等框架也陆续被提出。从开始分别求取P(X|W )和P(W),把很多精力放在声学模型的改进上,到后来基于深度学习和大数据的端对端(End-to-End)方法,它直接计算 P(W|X ),把声学模型和语言模型融为了一体。
注意力机制(Attention):
注意力机制是人类所特有的大脑信号处理机制。人类听觉通过快速听取全局信息,获得需要重点关注的目标区域,也就是一般所说的注意力焦点,而后对这一区域投入更多注意力资源,以获取更多所需要关注目标的细节信息,从而抑制其他无用信息。这是人类利用有限的注意力资源从大量信息中快速筛选出高价值信息的手段,是人类在长期进化中形成的一种生存机制。人类视觉注意力机制极大地提高了信息处理的效率与准确性。
端到端模型:
直接通过输入原始语音信号映射到文字,而不经过特别的特征向量的提取。
端到端和Attention结合的语音识别框架:
在该模型中,除了卷积神经网络(CNN),还引入了双向的长短时记忆层(BiLSTM)、Attention通过确定最终的打分。这个打分代表着与标签的差距,从而更好地保留之前卷积神经网络所提取出的音素信息。
语音识别应用场景十分广泛。比如智能手表,语音精灵以及各种有语音识别功能的家具。
试想一下,未来你可以对你的台灯说:“关灯”,台灯就熄灭了;对你的冰箱说:“打开”,冰箱就自动打开。不仅如此,还有具有语音交互功能的电子宠物在孤单的时刻陪伴你,生活似乎也会增添很多乐趣。
但是语音识别模型的精度和用来“喂养”它的语料库是很有联系的,医学领域的语料库训练出来的模型对于有关于哲学的讨论识别效果就不理想了。正所谓“种瓜得瓜,种豆得豆”。
多语种语音识别
语音识别已经慢慢渗透到我们生活的每个角落,而在未来,随着能被语言识别的语种越来越多,你可以用各种语言与机器交流,机器也会学会不同语种的发音。例如,当你对你的台灯说:“晚安”时,它会对你说:“Bonne nuit(法语的晚安)” 。当然距离高精度的多语种语音识别还存在很多挑战,比如不同语种的发音音素,音调不同,以及不同语言的交杂。其中很常见的就是中英交杂的语音识别。除此之外,语音在产生和传输过程中,易受各种各样的噪声干扰,也会严重影响语音识别等技术的性能。总之真正将语音识别用“活”我们还有很长的路要走。
随着语音识别技术不断进步,人和机器的交流会越来越顺畅,人和机器的关系也会越来越紧密,人们的生活也会越来越便利。
更多精彩内容,请关注21dB声学人微信公众号。
本文暂时没有评论,来添加一个吧(●'◡'●)