智能语音交互技术在媒体的应用和前景

发布时间:2024-12-24 00:11

熟悉车辆的智能语音交互系统 #生活技巧# #驾驶技巧# #智能驾驶技术#

核心阅读:对拥有内容优势的媒体而言,应当及时看到智能语音交互可能给信息传播带来的革命性影响。从针对语音交互硬件的内容分发到技术赋能内容生产,语音这一物联网时代的重要入口值得媒体行业提前布局。

“Hi, Siri!”随着2011年苹果公司的经典产品iPhone 4S获得巨大的商业成功,其搭载的智能语音助手也渐为消费者所熟知。Siri的全称是Speech Interpretation & Recognition Interface,即语音识别与理解接口。这一商用级软件拓展了人机交互的边界,使原本在科幻电影和实验室中的信息互动场景走进生活。

紧随其后,微软Cortana、谷歌Assistant、亚马逊Alexa等智能语音助手纷纷面世,顺势诞生了微软Invoke、Google Home、亚马逊Echo、苹果HomePod等智能硬件。硅谷的软硬件巨头及电商领军企业纷纷入局这场竞争。国内,阿里、腾讯、百度、科大讯飞等互联网企业的AI实验室都将语音交互作为重要布局,通过开放平台战略寻求软硬件及内容合作,营造智能语音行业生态。

从技术发展史的角度看,智能语音交互将是人机交互在物联网时代的重要组成部分。人机交互的发展必定以更多样的交互方式、更快的输入速度、更少的场景限制为表现,即机器更懂人的需求、人与网络自由连接。

本质上,这场竞争是互联网巨头们对未来万物互联时代语音交互入口的争夺,裹挟着智能硬件、智慧家居带来的绝佳商业预期,行业风口疾风劲吹。对拥有内容优势的媒体而言,应当及时看到智能语音交互可能给信息传播带来的革命性影响。从针对语音交互硬件的内容分发到利用技术赋能内容生产,智能语音交互技术与媒体天然存在多层级的合作可能,技术应用前景广阔。

语音交互的技术构成

智能语音交互技术是一项系统性工程,大致涉及语音识别、自然语言理解、对话管理、自然语言生成、语音合成等技术及综合运用。其中自然语言理解、对话管理、自然语言生成的流程又被称为智能对话系统,是整个智能语音交互过程的核心技术难点。

目前,实现智能语音交互的五大技术模块发展程度不一,且各有许多关键节点尚未突破,因此,真正能用自然语言与人类实现无条件自由交谈并采取相应行动的语音系统尚未诞生。但经过数十年从理论到技术的发展,特别是借助大数据深度学习等人工智能技术后,语音识别、语音合成、自然语言理解等模块已有重大突破,并部分实现商业化应用。

可以说,语音交互技术初步实现了从规则指令到自然语言指令的进步,但距离自由交互尚有巨大的鸿沟。现阶段基于机器学习的“闲聊机器人”多处在实验室阶段。

语音交互的技术应用

(一)市场参与者

尽管语音交互尚未完全成熟,但国内外互联网巨头都认为此项技术前景可期,并将其作为人工智能战略的重要组成部分。软件方面,具备语音交互功能的智能语音助手成为核心产品,如苹果Siri、亚马逊Alexa、微软小娜等。硬件方面,继搭载了智能语音助手的移动终端后,智能家电、智能车载终端也纷纷增加了语音交互功能。此外,众多语音技术公司针对不同行业及场景提供了各类软硬件解决方案。

开放合作是这一市场的首要需求。事实证明,语音交互及人工智能技术应用的产业链极长,物联网的实现绝非一家之力。大部分市场参与者都采取了公开SDK,全面打造开放平台的发展战略。相反,有批评者认为,正是因为苹果的保守导致Siri在这轮发展中落后于谷歌、亚马逊、微软等公司的竞品。

技术应用的本地化是另一个问题。尽管亚马逊在炙手可热的智能音箱领域占有先机,但因语言环境的特殊性,本土企业在竞争中具有很大优势。BAT、科大讯飞等大型互联网企业整合产业间资源,基本构建起开放平台,率先布局;思必驰、出门问问等语音技术公司专注于解决方案等B端业务;传统音箱与硬件制造商、内容及服务供应商纷纷入局。

(二)典型应用场景

目前,商用的智能语音交互以语音唤醒+服务响应为主,部分产品支持多轮对话,基本实现了5米远场识别、连续语音和命令词识别、上下文语义理解等关键技术。主要应用场景包括移动终端、智慧家居、车载语音系统、其他行业解决方案等。

1.移动终端与可穿戴设备

2011年,苹果最早推出了搭载Siri的智能手机。随着微软、谷歌、亚马逊等公司的入局,手机、平板、笔记本电脑、手表等可穿戴设备普遍内置了智能语音助手。除了设定闹钟、查询天气等官方开发的技能外,语音助手已兼容第三方应用,如用Siri口述发送微信等。

但手机端语音助手在使用习惯上面临两大质疑:

第一,大量应用以触摸屏视觉交互为设计基础。语音交互的信息量有限,难以实现复杂操作;

第二,语音交互最大的限制是公共场景中的隐私问题。据不完全统计,仅有3%的用户会在公开场合用语音对手机发号施令。

因此,语音交互在移动终端与可穿戴设备上主要起到辅助作用,用户教育尚需时间。

2.智慧家居

事实证明,语音助手在私密场景中的使用率更高,其理想应用场景是“家>私家车>路上>工作”。家居场景中,智能电视、智能冰箱甚至智能镜子等设备都可搭载语音助手,实现语音控制,串联起从厨房、客厅到起居室、卫生间的智慧家居物联网。

因为传统家电硬件的语音交互改造成本较高,入局的互联网企业普遍推出家用智能音箱作为核心硬件,试图将这一全新品类打造成家居场景的语音控制枢纽。

3.车载语音控制系统

随着语音识别、自然语音理解等技术的发展,在车内场景中通过语音交互控制车载导航、娱乐、空调等系统成为可能。语音控制系统将驾驶者的注意力从屏幕和按钮中解放出来,一定程度上增强了行车安全性。由于车内场景具有一定的私密性,这种交互方式自然容易被接受。

百度语音为特斯拉提供中文解决方案,阿里云和上汽合作研发车载操作系统,科大讯飞推出飞鱼语音助理,种种迹象表明互联网巨头已通过语音交互技术切入车联网的竞争中。

4.其他行业解决方案

除此之外,语音识别、自然语言理解、语音合成等底层技术在各行各业都有很强的应用潜力。在消费、金融、教育、医疗等领域提供智能客服、语音转录、机器翻译、机器配音等诸多解决方案。

服务业方面,科大讯飞开发的智能客服和语音合成解决方案已入驻众多呼叫中心;百度基于小度机器人开发的语音点餐系统走进肯德基上海旗舰店。

教育业方面,科大讯飞、思必驰、云知声等公司均推出儿童陪伴机器人的解决方案。

医疗业方面,Nuance、科大讯飞等公司都能提供实时语音转写和电子病历录入的服务。

原则上,所有需要人与人进行对话的行业都可由智能语音助手进行赋能。

媒体领域的应用前景

媒介是人的延伸,语音交互技术与人工智能的进步无疑创造了媒体与用户接触的更多场景。目前,包括语音识别(语音唤醒、语音转文字)及语音合成(文字转语音)等技术模块已能够实现成熟应用。对媒体而言,内容生产、经营、运营等全链条均可由智能语音交互带来优化乃至深刻变革。

(一)针对语音交互硬件进行内容分发

媒体以内容提供者身份入场,将现有的智能语音交互硬件打造成新的流量入口和分发渠道,这是一种自然的合作。

国外产品在这方面先行一步,亚马逊Alexa开发团队主动推出了Flash Briefing功能,目前已有路透社、福克斯新闻、BBC、NPR、纽约时报、华盛顿邮报、人物杂志、ESPN、The Daily Show、Daily Tech Headlines等大量专业媒体入驻合作。该功能主要提供语音新闻简讯,每日定时更新,拓展了内容分发渠道,特定唤醒语为“Alexa, what’s my flash briefing?”。

这类功能主要使用了语音识别(语音唤醒)及语音合成(文字转语音)技术。媒体通过音频内容的定制化生产和重新编辑,实现对全新人机交互入口的提前占位。目前,电子合成语音和人类的自然语音尚存差距,文字及电视媒体需要适应纯音频的稿件创作,技术和内容还需磨合。

(二)开发基于语音UI的新闻应用

移动互联网时代的主流交互方式是基于文本的触摸屏交互,但物联网时代势必需要重新开发基于语音控制的全新用户界面。

媒体需要做的是强化自身内容数据库建设,在此基础上合作开发基于语音交互的App,优化用户的语音控制体验,简化“打开App”“选中搜索框”等复杂操作,提供即时的“语音搜新闻”等功能。

如华盛顿邮报专门为Alexa设计的语音控制App产品,可实现类似搜索引擎的语音问答功能,从华盛顿邮报的内容数据库中回答用户关于奥运会等特定新闻内容的问询。

(三)语音交互技术赋能新闻生产与媒体经营

内容生产方面,媒体采编系统可引入语音转文字、文字转语音等成熟技术,提高记者编辑的新闻生产效率。

运营和经营方面,人机语音对话数据能极大地丰富用户画像,人工智能+营销、人工智能+用户调研等方向前景广阔。

(四)人工智能进一步发展将带来颠覆式的“聊新闻”模式

2016年2月,《大西洋月刊》旗下的Quartz客户端推出基于机器算法的文字聊新闻模式。百度新闻、央广“下文”客户端、浙江24小时联合微软小冰逐步跟进。人工智能算法正深刻变革新闻传播的方式。

新闻应用相关的自然语言唤醒、自然语言理解、新闻类话题的对话管理、自然语言生成等技术仍在不断完善中。智能语音交互的全链条真正打通后,语音技术配合机器算法终将为用户提供类似真人“聊新闻”的使用体验。因此尽快将新闻应用与语音交互硬件相结合,提前积累用户语音行为数据库显得尤为重要。

(五)远景展望:同时关注其他交互方式

对媒体而言,5G商用近在眼前,物联网发展的快车即将启程,但技术并非自身优势。通过积极的开放战略提前占位各类智能硬件入口是更加切实可行的路径。

值得一提的是,在商业的裹挟下,技术前沿到产品转化之间存在巨大鸿沟。人机交互的发展前景仍不明朗,目前尚无一种硬件成为主流入口。同时发展的还可能是基于AR、VR等技术的手势、眼神甚至意识交互。因此语音交互技术及设备作为自然人与万物互联网络的接口,也不是唯一的前沿方向。

2018年初,Facebook关闭虚拟助理“M”、亚马逊Alexa深夜发出怪笑、机器人利用社交网络进行深度学习学会了脏话等行业新闻值得关注,技术的不成熟使得一些品牌暂时关闭了虚拟语音助理。作为入局的媒体,更应当随时关注人机交互和人工智能技术的最新发展,做好灵活应对甚至切换赛道的准备。(李清宙:国家新闻出版广电总局出版融合发展(浙报集团)重点实验室、浙报集团新媒体运营中心研究员)来源:传媒评论

责任编辑:

网址:智能语音交互技术在媒体的应用和前景 https://www.yuejiaxmz.com/news/view/549316

相关内容

智能语音交互:技术原理与应用前景####
语音识别技术在智能家居领域的应用与前景
智能语音交互技术:人机交互市场的未来发展与学生态发展前景
智能语音交互应用
基于硬件语音交互技术在智能家居的应用
TTS技术在语音识别中的应用:提升语音交互的准确性
【智能音响中的语音交互技术:如何识别和分类语音指令?】
解锁智能生活:Android语音交互技术的奥秘与应用
人工智能与语音识别:技术进步与应用前景
智能语音识别技术及其在家庭中的应用

随便看看