5分钟，带你了解语音识别技术

发布时间：2024-11-21 11:40

智能音箱更新了语音识别技术，提升用户体验 #生活知识# #科技生活# #3C资讯#

与机器进行语音交流，让机器明白你说什么，这是人们长期以来梦寐以求的事情。随着AI的不断发展，深度学习让语音识别技术得到了质的飞跃，语音识成为十年来发展最快的技术之一，开始从实验室走向市场，并逐步走到人们的生活中。

我们现在所用的语音输入法，各大手机的语音助手以及以语音为智能交互入口的智能家居，背后都涉及到语音识别技术。

语音是怎么文字的呢？包含3个步骤：1、声音分帧；2、观察序列提取；3、矩阵转化为文本。这里简单介绍一下~

我们知道声音实际上是一种波。常见的mp3、wmv等格式都是压缩格式，必须转成非压缩的纯波形文件来处理，比如Windows PCM文件，也就是俗称的wav文件。wav文件里存储的除了一个文件头以外，就是声音波形的一个个点了。下图是一个波形的示例。

在开始语音识别之前，有时需要把首尾端的静音切除，降低对后续步骤造成的干扰。这个静音切除的操作一般称为VAD，需要用到信号处理的一些技术。要对声音进行分析，需要对声音分帧，也就是把声音切开成一小段一小段，每小段称为一帧。

分帧后的语音，波形在时域上几乎没有描述能力，因此必须将波形作变换。常见的一种变换方法是提取MFCC特征，根据人耳的生理特性，把每一帧波形变成一个多维向量，可以简单地理解为这个向量包含了这帧语音的内容信息。这个过程叫做声学特征提取。

至此，声音就成了一个12行（假设声学特征是12维）、N列的一个矩阵，称之为观察序列，这里N为总帧数。观察序列如下图所示，图中，每一帧都用一个12维的向量表示，色块的颜色深浅表示向量值的大小。

接下来就是怎样把这个矩阵变成文本了，需要实现3步：

第一步，把帧识别成状态（难点）；

第二步，把状态组合成音素；

第三步，把音素组合成单词。

音素：单词的发音由音素构成。对英语，一种常用的音素集是卡内基梅隆大学的一套由39个音素构成的音素集，参见The CMU Pronouncing Dictionary。汉语一般直接用全部声母和韵母作为音素集。

状态：可以理解成比音素更细致的语音单位，通常把一个音素划分成3个状态。

如下图所示：

图中，每个小竖条代表一帧，若干帧语音对应一个状态，每三个状态组合成一个音素，若干个音素组合成一个单词。也就是说，只要知道每帧语音对应哪个状态了，语音识别的结果也就出来了。

那每帧音素对应哪个状态呢？有个容易想到的办法，看某帧对应哪个状态的概率最大，那这帧就属于哪个状态。比如下面的示意图，这帧对应S3状态的概率最大，因此就让这帧属于S3状态。

那这些用到的概率从哪里读取呢？有个叫“声学模型”的东西，里面存了一大堆参数，通过这些参数，就可以知道帧和状态对应的概率。但这样做有一个问题：每一帧都会得到一个状态号，最后整个语音就会得到一堆乱七八糟的状态号，相邻两帧间的状态号基本都不相同。所以会使用隐马尔可夫模型：

第一步，构建一个状态网络。

第二步，从状态网络中寻找与声音最匹配的路径。

搭建状态网络，是由单词级网络展开成音素网络，再展开成状态网络。语音识别过程其实就是在状态网络中搜索一条最佳路径，语音对应这条路径的概率最大，这称之为“解码”。

以上内容来源：知乎

以上介绍的只是简单的语音识别过程。但事实上，语音的内涵并非那么简单，想知道基于深度学习的语音识别是如何应用到工程实践的呢？思铺学术计算机&信息类科研课题【人工智能：基于深度学习的语音识别】，带你深入探索语音识别的奥秘！

人工智能：基于深度学习的语音识别

项目对当前深度学习领域热门的语音识别方法进行讲授，并应用到工程实践，包括实验数据的处理、卷积神经网络的训练、模型结果的测试等。在利用现有方法的基础上，解决实际问题的同时改进实验方法，完成“基于深度学习的语音识别”相关论文1篇。

学生全程参与数据处理，卷积神经网络的训练，模型结果的测试、分析、性能提升等各个过程，能掌握机器学习、深度学习中目标检测相关的算法，为从事相关科学研究奠定良好基础。

1.享受国内外名校教育与学术资源，获得真实有实际意义的科研经历；

2.提升基于问题的独立学习与科研创新能力，获得创新潜质评估报告；

3.获得由导师签字的“学术之星”课程结业证书；

4.以第一作者发表学术论文，优秀学员可获得导师推荐信；

5.提升申请国内外大学的升学竞争力；

6.参与课题所获得的优秀成果，有机会在导师的进一步指导下参加各类青少年科创竞赛。

部分导师例举

谢教授：浙江大学信息学部副教授；

章教授：浙大信电系博士，杭州高校青年教授；

王博士：美国硅谷创业者、机器视觉和人工智能专家；

赵博士：浙江大学控制学院博士。

责任编辑：

网址：5分钟，带你了解语音识别技术 https://www.yuejiaxmz.com/news/view/174319

上一篇：AI语音识别技术：原理、应用、功

下一篇：智能语音识别技术：现状、挑战与未

5分钟，带你了解语音识别技术

相关内容

随便看看

最新动态分享

热点动态分享

专题

推荐动态分享