近年的一些语音识别新技术简介.ppt

发布时间:2024-11-29 12:24

智能音箱更新了语音识别技术,提升用户体验 #生活知识# #科技生活# #3C资讯#

近年的一些语音识别新技术简介john2014SpeechGroup

提纲语音分割技术音频内容检索语音训练技术说话人识别技术

语音分割技术问题的提出:实验室语音识别-〉复杂环境语音识别。新闻语音/广播语音/歌曲语音/会议语音/多说话人语音

技术实现基于距离度量的分割聚类算法基于模型搜索的分割聚类算法前者是利用一定的距离度量准则来判断两段语音是属于同一个说话人还是属于不同的说话人;后者是利用得到的说话人模型来对原始多人语音按窗进行搜索,以便找出该话者发音的时间信息。

基于距离度量的分割(BIC)BIC距离方法:BIC是一种基于模型复杂度(也就是模型参数)惩罚的最大似然准则。

基于距离度量的分割(KL距离)KL距离高斯分布

基于距离度量的分割(GLR距离)

DISTBIC如果多人语音中属于每个说话人的语音段都较长,那么BIC能够有较好的分割效果,但是对于每个说话人的语音段较短的情况(如对话交谈语音),其分割效果不是很好。考虑到GLR、KL距离等度量方法能够较好的处理短语音段,因此法国研究人员P.Delacourt等人提出了一种综合这些度量方法的分割算法:DISTBIC

DISTBIC由初始分割和BIC细化两步组成。初始分割使用的是GLR、KL距离,按照这些度量准则计算出语音段的距离序列,并对序列中的极值进行判断,来确定该极值对应的时间点是否为一个说话人切换点;BIC细化则是在初始分割的基础上,用BIC来判断初始分割中相邻的两个语音段是否应该合并

关键词检测(小词表)

语音文档内容检索(大词表关键词检测)音频分割聚类算法

-音节识别器搜索空间

关键词置信度计算-基于网格的置信度计算候选关键词:市场shi4chang3

候选关键词生成器-候选关键词生成算法候选关键词匹配(例子)1-best音节序列VS.关键词音节序列

音频检索的研究重点通过wordlattice真正实现了元数据的分离,真正适合网络音频检索。前端:音频分割算法。识别基元的细化以及背景模型的建模后端lattice的处理及置信度的研究

语音训练技术MaximumLikelihoodEstimation(MLE)TheBaum-Welchalgorithm:theEMalgorithmforHMMDiscriminativeTraining(DT)MaximumMutualInformationEstimation(MMIE):MPE,MWE,etc.MinimumClassificationError(MCE):DiscriminativetrainingcanimproveoverthestandardMLtraining.

LME(ByJiangHui)

说话人识别/说话人跟踪GMM-UBM成为主流的技术。UBM是一个说话人无关、高阶的高斯混合型。用于表示说话人的统计平均发音特性。基于GMM-UBM的优点:1、说话人模型是在UBM上根据说话人的训练语音自适应得到的。这样,对于说话人训练语音覆盖到的发音,可以用该说话人自身的语音建模;对于未覆盖到的发音,可以用UBM里的发音分布近似,从而减少测试语音与训练语音在声学空间上由于分布不同所带来的影响;2、UBM可以被看作是一个“标准参考者”的模型,这样在进行身份确认的时候,可以用测试语音在UBM上的得分和UBM得分进行似然比

总结---技术总结在大规模连续语音迟迟打不开局面的情况下。STD和说话人识别技术得到了迅速发展,在某些限领域场合,这些技术已接近实用水平。可以说,STD和说话人识别技术将是连续语音识别技术掘到的第一桶金。下一步研究热点:鲁棒语音识别技术(自适应+降噪+说话方式自适应)/置信度计算/口语语言模型/语音识别中的语义分析/对话系统/语音后处理技术/混合语言的语音识别。

讨论问题?谢谢!

网址:近年的一些语音识别新技术简介.ppt https://www.yuejiaxmz.com/news/view/312199

相关内容

语音识别技术介绍.ppt
《语音识别技术介绍》课件.ppt
语音识别技术介绍
语音识别技术是什么 语音识别技术应用介绍【图文】
简要介绍语音识别技术在各领域的应用
语音识别初探——一文读懂语音识别技术原理
自动语音识别技术
人工智能:语音识别技术介绍
【智能电视中的语音识别技术】PjTime.COM 技术介绍
语音识别技术的应用包括哪些

随便看看