语音声纹识别技术和具体的应用

发布时间:2024-11-29 12:20

AI语音识别技术应用于语音评测系统 #生活知识# #科技生活# #科技与教育#

1、语音声纹识别技术及应用主要内容声音处理技术语音识别技术声纹识别技术技术演示2声音处理 声音的三要素 音质声音的三要素是音调、音色和音强 音调代表声音的高低,与频率有关。频率越高,音调越高,反之亦然。 音色是声音的特色。影响声音特色的主要因素是复音,即具有不同频率和不同振幅的混合声音。 音强是声音的强度,也被称为声音的强度。音强与声波的振幅成正比,振幅越大,强度越大。 对于数字音频信号,音质的好坏与数据采样频率和数据位数有关。 音质与声音还原设备有关。 音质与信号噪声比(SNR)有关。 文件数字化的音频文件主要分为4类: 波形音频文件。一种最直接的表达声波的数字形式,文件扩展名是“.wav”。

2、MIDI音频文件。一种计算机数字音乐接口生成的数字描述音频文件,扩展名是“.mid”。 CD-DA音频文件。标准激光盘文件,扩展名是“.cda”。 压缩音频文件。在数字音频领域,一种MP3格式的压缩音频文件很流行,该格式的文件简称MP3文件。 声音处理声音处理获取声音 获得CD中的声音 录音 声音转换 如果希望把音乐CD中的歌曲或乐曲作为素材,需要把这些歌曲或乐曲转换成计算机能够处理的数字化声音,这就是“采样”。可以使用Easy CD-DA Extractor、CoolEdit等音频处理软件对音频进行编辑和处理。 要录制音质好的声音,有两个途径:使用性能优良的录音设备;采用较高的采样频率。可以

3、使用Windows系统自带的“录音机”进行录音。 声音的转换只能从高质量向低质量进行,声音的转换不需要专门的软件,使用Windows的“录音机”转换即可,并且转换功能很强。 如果要进一步处理,可采用CoolEdit(Adobe Audition)工具软件。短时能量和过零率语音分帧每帧10-30ms, 帧间隔10ms短时能量对数平方和绝对值过零率(ZCR)6参数提取的预处理预加重: 减少尖锐噪声影响,提升高频部分加窗:Hamming 减少Gibbs效应7各种参数的比较Linear Prediction Cepstrum Coefficients (LPCC)假定所处理信号为自回归信号(不适用辅音

4、);计算简单,但抗噪性差。Mel-Frequency Cepstrum Coefficients (MFCC)模拟人的听觉模型;强调低频部分,屏蔽噪声影响;识别率高,但计算量大。能量辅助作用,需归一化。音调对算法要求高,适于二次判别。8Mel-频率目的:模拟人耳对不同频率语音的感知人类对不同频率语音有不同的感知能力1kHz以下,与频率成线性关系1kHz以上,与频率成对数关系Mel频率定义1Mel1kHz音调感知程度的1/10009Mel-频率公式:频率Mel-频率:- 频率- Mel-频率Mel-频率频率(Hz)10MFCC计算流程:11DFT时域信号线性谱域Mel滤波器组LogDCTMel谱

5、域对数谱域MFCC主要内容声音处理技术语音识别技术声纹识别技术技术演示12语音识别Automatic Speech Recognition (ASR) 的中文含意是自动语音识别。语音识别技术的目标是让机器能够“听懂”不同人说的话,实现从声音到文字的转换。13语音识别基本术语特定人和非特定人(话者相关或话者无关)词汇量(大,小)孤立词,连接词,关键词和连续语音自然发音和朗读发音口音(方言)背景噪音(环境噪音)信道差异(固定 ,麦克,手机等)声学模型(HMM,mono-phone,bi-phone,tri-phone)声学特征(MFCC)解码(Viterbi)14语音识别基本术语识别指标:SER(

6、Sentence Error Rate,句子错误率)WER(Word Error Rate,词错误率)CER(Character Error Rate,字错误率)PER(Phone Error Rate,音节错误率)采样率,8kHz( 或手机),16kHz(麦克风)时域,频域端点检测,静音检测或有效音检测(VAD)15语音识别分类 孤立词识别识别单元是有限的,单个的词;优点:速度快,识别正确率高缺点:应用范围窄,不能识别词表外的词应用案例:语音命令,手机语音拨号 连续语音识别识别单元可以是字,词或者句子优点:应用范围广缺点:速度慢,识别率不高,尤其是词表较大的时候应用案例:语音翻译,语音短信,

7、听写机,语音邮件 关键词识别识别单元是词,判断输入语音中是否含有词表中的词优点:能够处理连续语音,词表可定制缺点:速度较慢,词表越大,错误率越多应用案例:电话呼叫服务,电话安全监听16语音识别发展历史 50年代AT&T Bell Lab,可识别10个英文数字60年代LP较好地解决了语音信号产生模型, DP则有效解决了不等长语音的匹配问题。70年代DTW(Dynamic Time Warp)技术基本成熟,实现了基于LPC和DTW技术相结合的特定人孤立词语音识别系统。80年代HMM模型和人工神经元网络(ANN)在语音识别中成功应用。1988年美国CMU大学基于VQ/HMM开发SI-CSR系统 SP

8、HINX。90年代大规模应用,工业标准,理论进展缓慢。17语音识别潜在应用语音监听语音拨号语音命令语音导航语音搜索语音听写语音翻译18语音识别系统框架特征提取训练模式匹配拒识语法模型结果语音说话人自适应19语音识别过程20HMM基础(1)隐含Markov模型观测可见,状态隐含基本要素N - 模型状态数=i - 初始概率分布A=aij - 状态转移矩阵B=bj(k) - 输出概率矩阵21HMM基础(2)转移概率矩阵aij状态i到状态j发生跳转的概率22HMM基础(3)输出概率bi(x) x属于状态i的概率23HMM基础(4)HMM的三个基本问题 - 模型评估问题(如何求:P(O|) - 最佳路径

9、问题(如何求:Q=q1q2qT) - 模型训练问题(如何求:A、B、)24模型评估问题(如何求:P(O|)前向概率给定HMM参数 ,在t时刻处于状态i,部分观察序列为o1o2ot 的概率后向概率给定HMM参数 ,在t时刻处于状态i,部分观察序列为ot+1ot+2oT 的概率25模型评估问题(如何求:P(O|)前向和后向递推的示意图26最佳路径问题(如何求:Q=q1q2qT)前向后向算法的缺点计算量的浪费状态路径不能明确判定Viterbi算法不完全的状态空间搜索保留状态转移路径的信息27最佳路径问题(如何求:Q=q1q2qT)Viterbi算法的搜索空间28Viterbi识别算法和路径回溯29模

10、型训练问题(如何求:A、B、)优化问题优化目标:P(O|)最大Lagrange数乘法,辅助函数:30Baum-Welch参数重估算法:模型训练问题(如何求:A、B、)31连续HMM算法连续的含义参数重估识别算法32“连续”的含义连续混合高斯概率密度函数(pdf):每个状态表示为若干函数fn(x)的线性组合fn(x)是连续高斯概率密度函数33连续HMM参数重估(1)需要重估的参数:起始概率转移概率各状态中不同pdf的权各状态中不同pdf的均值和方差34连续HMM参数重估(2)t时刻序列处于状态j、混合高斯密度l的概率35连续HMM参数重估(3)pdf的无溢出参数重估公式36识别算法概率计算: P

11、(O|)Viterbi算法对数形式与离散HMM相似,只需替换bjl(x)37实际HMM系统的具体问题起始概率的问题转移概率的问题模型的自适应区别性训练38起始概率的问题自左向右结构的HMM,起始概率为:1, 0, 0, 0即:只能从第一个状态开始39转移概率的问题大量实验证明:转移概率对识别性能的影响是微不足道的训练过程中,常常将其设定为常数: aij识别过程中,不进行log(aij)的累加仅考虑bi(.)的作用40模型的自适应(1)自适应的必要性口音感冒.MAP自适应算法MAP: 最大后验概率准则本质上是重新训练一次,对原B矩阵进行微调特点:简单,对每个HMM单独自适应,只需一次发音41模型

12、的自适应(2)MLLR算法MLLR:最大似然线性回归本质:将原模型的参数进行线性变换后再进行识别特点:少量语音可以对所有模型进行自适应,只要得到线性变换矩阵即可42区别性训练传统HMM训练算法的缺陷MCE算法MCE:最小分类误差准则使用场合:小词表识别系统需要细致调整算法参数,才能保证收敛43中文语音识别的特点 相对于西方语言来说,中文有自己的独特之处。中文是有调语言,发音的基本单元是声母和韵母并且以音节为自然单位,一个音节就是一个字甚至词,以至字词的时长很短,混淆度更大。另外,中文用415个基本的无调音节来构成7000多个基本汉字的发音,多音字很多。特别是,中文的发音和字是独立的,仅仅是中国

13、大陆地区就有很多的方言,口音问题非常严重。特别是在做中文孤立词和短语命令识别的时候,由于没有上下文的信息并且语音的长度很短,口音会严重地降低识别率。 44中文语音建模基元比较45语音识别应用举例嵌入式语音识别:智能玩具:语音对话娃娃、语音声控机器人智能家电:语音识别台灯、语音识别插座智能手机:语音拨号 语音识别:语音 簿:电信增值智能语音总机:企业应用46嵌入式语音识别47智能玩具语音对话娃娃序号问句应答句1你好3条2你叫什么名字?3条3你从哪里来?3条4你会什么?1条5背首诗15首诗6讲个故事6个故事7我要听笑话4个笑话8唱首歌5首歌曲9来首英文歌5首英文歌10你喜欢玩什么?5条11你好可爱

14、3条12我很喜欢你3条智能玩具语音声控机器人问句回答前进前进后退后退左转左转右转右转跳舞跳舞语音增值业务企业 簿:会议通知、语音信箱、 信箱、企业邮箱、信息发布、定向广告。个人 簿:个人邮件、数据同步、资讯定制、个人财经、业务定制。语音门户:天气、股票、航班查询。50主要内容声音处理技术语音识别技术声纹识别技术技术演示51生物识别技术优势生物识别技术比较 错误接受率错误拒绝率容易实用性处理速度/人指纹识别很低较低好2s-5s掌纹识别低5%使用困难5s-10s人脸识别低0.2%非常好5s虹膜识别很低约10% 需要培训才能使用,手工操作对虹膜有困难 仪器自动对准虹膜需要3s-5s,手工操作需要5s

15、-25s视网膜识别未知未知不好15s-30s声纹识别低低可以1s-3s签名识别低10%一般5s-10s声纹识别技术声纹识别(又称说话人识别)技术是从说话人发出的语音信号中提取声纹信息,并对说话人进行身份验证的生物识别技术。 声纹识别基本术语类型分类:文本相关(Text-dependent)文本无关(Text-dependent)任务分类:说话人辨认(Speaker Identification)说话人确认(Speaker Verification)UBM(Universal Background Model),通用背景模型GMM(Gaussian Mixture Model),高斯混合模型背景

16、噪音(环境噪音)信道差异(固定 ,手机,麦克风)身体差异,语速快慢,时间间隔声纹识别基本术语FAR(False Accept Rate),错误接受率;FRR(False Reject Rate),错误拒绝率。EER(Equal Error Rate),等错误率;即FAR=FRR时的错误率。多说话人识别,分割声纹识别基本术语0.1 0.2 0.5 1 2 5 10 20 404020105210.50.20.1错 误 接 受 的 概 率 (%)错 误 拒绝的 概 率 (%)等错误率(ERR)=1%平衡点减少错误接受的可能,提高系统的安全。但是由于错误拒绝率高,会给用户使用带来不便。高安全性高方便

17、性对于安全性要求不高的应用场景,可以适当提高错误接受率,使得用户容易进入系统。DET (Detection Error Tradeoff) 曲线经典模型GMM(1)GMM高斯混合模型基本原理:根据从语音信号中提取的特征参数, 为每一个说话人建立一个GMM。为处 理的方便,人为的使不同说话人的模 型的概率密度函数在形式上都是一样 的,不同的只是函数中的参数。优 点:简单高效,可以很好的描述从语音信 号中提取的特征参数等不规则的数据。GMM是当今应用于说话人识别的最主流模型经典模型GMM(2)一个M阶高斯混合模型的概率密度函数是由M个高斯概率密度函数加权求和得到,如下:其中M是混合模型的阶数,X是

18、一个D维随机向量wi是混合权重,满足:bi(X)是子分布,每个子分布是D维的联合高斯概率分布,表示为: 是均值向量, 是协方差矩阵经典模型GMM(3)完整的高斯混合模型由参数均值向量、协方差矩阵和混合权重共同描述。因此,一个模型可表示为如下一个三元组:GMM计算结构:经典模型GMM(4)GMM的说话人鉴别(Speaker Identification)系统UBMUBM通用背景模型 UBM也是一个GMM,只是这个GMM需要用 大量的 不同说话人的语音数据经过训练来表 示说话 人无关的特征分布,这种特征是大多 数说话人的共性特征。GMM-UBM建模 说话人需要建立自己的模型时,就可以通过 自适应UBM来得到个性特征,即修正后的参 数,从而得到自己的GMM。GMM-UBM优点实现信道均衡少量训练数据得到比

网址:语音声纹识别技术和具体的应用 https://www.yuejiaxmz.com/news/view/312169

相关内容

语音识别、声纹识别的区别及测试
语音识别技术已经广泛应用在学习、生活和工作中,快速、准确的识别效果让其成为人们必不可少的工具。例如:语音输入、语音控制、语音助手、声纹验证、语音唤醒等()
语音识别技术已经广泛应用在学习、生活和工作中,以下属于语音识别技术应用的是()
语音识别技术在现代生活中的应用
构建智能语音助手应用:语音识别和语音合成的实践
语音识别技术的应用场景
语音识别技术的发展与应用:让机器“听懂”我们的声音
语音识别技术在生活中有哪些具体应用?
语音识别技术的发展与应用
语音识别技术已经广泛应用在学习、生活和工作中,以下应用场景不属于语音识别应用的是()

随便看看