语音识别技术:也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。
从开始研究语音识别技术至今,语音识别技术的发展已经有半个多世纪的历史。
1952年贝尔研究所Davis等人研究成功了世界上第一个能识别10个英文数字发音的实验系统,能够理解口头数字的机器Audrey。
1960年英国的Denes等人研究成功了第一个计算机语音识别系统。
大规模的语音识别研究是在进入了70年代以后,在小词汇量、孤立词的识别方面取得了实质性的进展。1971年到1976年,DARPA投资了进行了五年的语音识别研究,目的是做成一台至少能理解1000个单词的机器。该计划使卡内基梅隆大学创造了一台能够理解1011个单词的机器
进入80年代以后,研究的重点逐渐转向大词汇量、非特定人连续语音识别。在研究思路上也发生了重大变化,即由传统的基于标准模板匹配的技术思路开始转向基于统计模型 (HMM)的技术思路。此外,再次提出了将神经网络技术引入语音识别问题的技术思路。