本文作者为 360 奇舞团前端开发工程师
为什么要介绍语音交互技术?过去,人们与设备或程序交互时,本质上是将用户的操作通过规范转化为机器码的形式与系统沟通。用户清楚自己是在与程序互动,并没有得到与“图灵人”的交互体验。
然而,随着AI和大语言模型(LLM)的快速发展,用户在使用文本与这些系统的交互时,开始感受到LLM系统的强大,其可以理解和输出自然语言文本,已经没有了传统程序交互的僵化感,甚至体验到了与真人在进行交流的感觉。
语音作为人与人交流时最直接的交流方式,人们也期望与AI交互时也可以使用语音进行交流。这使得语音交互技术变得越来越重要。语音交互能让用户更自然地与AI沟通,提供更贴近“真人”对话的体验。拟人化的互动体验是AI发展过程中不可或缺的。
另一方面,近期,OpenAI发布realtime API[1],支持实时语音对话的功能。微软发布新版 Copilot[2] ,推出了Copilot Voice功能,是ChatGPT高级语音的微软版本。从这些AI头部公司的动向看出,语音交互越来越受到AI公司的重视。
通过下文,我们了解一下什么是语音交互,都有什么组成,当前阶段语音交互的发展趋势以及其优势和劣势,最后展望一下未来的发展趋势。本文定位是一篇内容普及性质的文章,不会涉及过多的技术细节,如果想要了解技术细节,可以参考文章中推荐的链接资料或者查看其他的语音交互技术的详细资料。
1. 什么是语音交互 1) 语音交互的组成语音交互是一种允许用户通过语音命令与设备或系统进行互动的技术。它结合了多种关键技术,使得人与机器之间的沟通更加自然和高效。以下是语音交互的三大核心组件:
自动语音识别(ASR, Automatic Speech Recognition)ASR技术能够将用户的语音信号转换为文本。它通过分析声波、识别音素并匹配词汇,实现对语音的理解。ASR的准确性受到发音、口音和环境噪声等因素的影响。相当于人的耳朵。也有文章会描述这一过程为STT(Speech to Text),语音到文本转换。
自然语言处理(NLP, Natural Language Processing)NLP使计算机能够理解和处理人类语言。通过解析用户输入的文本,NLP技术能够识别意图、提取关键信息,并生成适当的响应。这使得语音交互不仅限于简单的命令,而可以进行更复杂的对话。相当于人的大脑。
语音合成(TTS, Text-to-Speech)TTS技术能够将文本信息转换为听起来自然流畅的语音。通过调整语调、语速和音色,TTS使得机器可以与用户进行流畅的语音交流,增强用户体验。相当于人的嘴巴。
这三种技术的结合,使得语音交互系统能够实现从语音输入到语音输出的完整过程,从而提升了人与设备之间的互动效率和自然性。
他们之间的关系如下图所示:
下面我们就分别介绍一下每个模块:
2) 语音识别(ASR)ASR是一个声学信号转换成文本信息的过程。整个识别的过程如下图所示:
特征提取(信号处理):第一步是从输入音频中提取有用的音频特征,并且忽略噪声以及其他不相关信息。梅尔频率倒谱系数 (MFCC) 技术能够在频谱图或梅尔频谱图中捕捉音频频谱特征。
声学模型:将频谱图传递给基于深度学习的声学模型,以便预测每个时间步的字符概率。
解码