5分钟,带你了解语音识别技术

发布时间:2024-11-21 11:40

智能音箱更新了语音识别技术,提升用户体验 #生活知识# #科技生活# #3C资讯#

与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。随着AI的不断发展,深度学习让语音识别技术得到了质的飞跃,语音识成为十年来发展最快的技术之一,开始从实验室走向市场,并逐步走到人们的生活中。

我们现在所用的语音输入法,各大手机的语音助手以及以语音为智能交互入口的智能家居,背后都涉及到语音识别技术。

语音是怎么文字的呢?包含3个步骤:1、声音分帧;2、观察序列提取;3、矩阵转化为文本。这里简单介绍一下~

我们知道声音实际上是一种波。常见的mp3、wmv等格式都是压缩格式,必须转成非压缩的纯波形文件来处理,比如Windows PCM文件,也就是俗称的wav文件。wav文件里存储的除了一个文件头以外,就是声音波形的一个个点了。下图是一个波形的示例。

在开始语音识别之前,有时需要把首尾端的静音切除,降低对后续步骤造成的干扰。这个静音切除的操作一般称为VAD,需要用到信号处理的一些技术。要对声音进行分析,需要对声音分帧,也就是把声音切开成一小段一小段,每小段称为一帧。

分帧后的语音,波形在时域上几乎没有描述能力,因此必须将波形作变换。常见的一种变换方法是提取MFCC特征,根据人耳的生理特性,把每一帧波形变成一个多维向量,可以简单地理解为这个向量包含了这帧语音的内容信息。这个过程叫做声学特征提取

至此,声音就成了一个12行(假设声学特征是12维)、N列的一个矩阵,称之为观察序列,这里N为总帧数。观察序列如下图所示,图中,每一帧都用一个12维的向量表示,色块的颜色深浅表示向量值的大小。

接下来就是怎样把这个矩阵变成文本了,需要实现3步:

第一步,把帧识别成状态(难点);

第二步,把状态组合成音素

第三步,把音素组合成单词。

音素:单词的发音由音素构成。对英语,一种常用的音素集是卡内基梅隆大学的一套由39个音素构成的音素集,参见The CMU Pronouncing Dictionary。汉语一般直接用全部声母和韵母作为音素集。

状态:可以理解成比音素更细致的语音单位,通常把一个音素划分成3个状态。

如下图所示:

图中,每个小竖条代表一帧,若干帧语音对应一个状态,每三个状态组合成一个音素,若干个音素组合成一个单词。也就是说,只要知道每帧语音对应哪个状态了,语音识别的结果也就出来了

那每帧音素对应哪个状态呢?有个容易想到的办法,看某帧对应哪个状态的概率最大,那这帧就属于哪个状态。比如下面的示意图,这帧对应S3状态的概率最大,因此就让这帧属于S3状态。

那这些用到的概率从哪里读取呢?有个叫“声学模型”的东西,里面存了一大堆参数,通过这些参数,就可以知道帧和状态对应的概率。但这样做有一个问题:每一帧都会得到一个状态号,最后整个语音就会得到一堆乱七八糟的状态号,相邻两帧间的状态号基本都不相同。所以会使用隐马尔可夫模型

第一步,构建一个状态网络。

第二步,从状态网络中寻找与声音最匹配的路径。

搭建状态网络,是由单词级网络展开成音素网络,再展开成状态网络。语音识别过程其实就是在状态网络中搜索一条最佳路径,语音对应这条路径的概率最大,这称之为“解码”。

以上内容来源:知乎

以上介绍的只是简单的语音识别过程。但事实上,语音的内涵并非那么简单,想知道基于深度学习的语音识别是如何应用到工程实践的呢?思铺学术计算机&信息类科研课题【人工智能:基于深度学习的语音识别】,带你深入探索语音识别的奥秘!

人工智能:基于深度学习的语音识别

项目对当前深度学习领域热门的语音识别方法进行讲授,并应用到工程实践,包括实验数据的处理、卷积神经网络的训练、模型结果的测试等。在利用现有方法的基础上,解决实际问题的同时改进实验方法,完成“基于深度学习的语音识别”相关论文1篇。

学生全程参与数据处理,卷积神经网络的训练,模型结果的测试、分析、性能提升等各个过程,能掌握机器学习、深度学习中目标检测相关的算法,为从事相关科学研究奠定良好基础。

1.享受国内外名校教育与学术资源,获得真实有实际意义的科研经历;

2.提升基于问题的独立学习与科研创新能力,获得创新潜质评估报告;

3.获得由导师签字的“学术之星”课程结业证书

4.以第一作者发表学术论文,优秀学员可获得导师推荐信

5.提升申请国内外大学的升学竞争力;

6.参与课题所获得的优秀成果,有机会在导师的进一步指导下参加各类青少年科创竞赛。

部分导师例举

谢教授:浙江大学信息学部副教授;

章教授:浙大信电系博士,杭州高校青年教授;

王博士:美国硅谷创业者、机器视觉和人工智能专家;

赵博士:浙江大学控制学院博士。

责任编辑:

网址:5分钟,带你了解语音识别技术 https://www.yuejiaxmz.com/news/view/174319

相关内容

语音识别技术
三分钟科普 | 语音识别是如何发生的?
AI语音生物识别技术将为未来生活带来更多乐趣
「深入浅出」了解语音识别的技术原理和应用价值?
智能机器人语音识别技术详细解析
深入了解PyTorch中的语音识别和语音生成
深入解析:AI语音识别技术的原理、应用与发展前景详解
语音识别技术有哪些应用
深入探究语音识别技术:原理、应用与实现
语音识别技术进化:如何改变我们的生活1.背景介绍 语音识别技术,也被称为语音转文本(Speech

随便看看