对话·科学先锋｜陈孝良：让机器“听见”远场的声音

发布时间：2025-01-20 13:36

保持声音清晰：避免噪音干扰，让对方能清晰听见。 #生活技巧# #职场沟通技巧# #非语言沟通#

无论是人与人之间的交流，还是人与物之间的连接，都离不开声音。声学，作为一门研究声音的学科，与我们的生活息息相关。声学有哪些分支学科？远场语音交互技术的应用如何造福我们的生活？日前，北京声智科技有限公司创始人、董事长、首批“北京市先进科技工作者”陈孝良接受了新华网的采访。

新华网：过去20年间，您一直与声音打交道，您如何看待声学研究对造福人类生活的重要意义？

陈孝良：声学实际上是我们身边的学科，包括空气声学、超声学和水声学三个主要的分支学科。空气声学技术是人类日常通信和娱乐的重要基础。从最早的电话和收音机，到便携式的CD播放器，再到个人计算机和智能手机，声音传播技术逐步演变。这些声学设备不仅使人们的沟通更加便捷，还推动了音乐、广播等文化产业的发展，丰富了人们的日常生活。超声波技术的应用常见于医学领域，提高了诊断的准确率并改善了治疗效果。水声技术在海洋科学研究方面发挥着重要作用，可以帮助科学家们更深入地了解海洋生物、海底地形和水文状况，对于海洋科研、资源开发等都具有重要作用。

空气声、超声和水声技术的发展标志着声学在不同领域中的广泛应用和深远影响。声学技术不仅在医疗健康和科学探索方面发挥关键作用，还不断拓展人类对世界的认识，为未来创新发展奠定坚实基础。

新华网：请您介绍下什么是远场语音交互技术？开发这项技术需要解决哪些难题？

陈孝良：远场语音交互技术主要是面向真实世界复杂场景，让机器可以“听见”并理解距离较远的声音。复杂场景包括声学环境下的噪声干扰、混响干扰、回声、多声纹、端点检测等方面的问题。

开发远场语音交互技术需要解决距离、延时和精度三大问题。距离问题是指需要在长距离条件下解决多噪声干扰的问题。第二大问题是延时问题。我们对声音非常敏感，可以感知30到80毫秒之间声音的差距。当声音超过80毫秒时，我们可能会感知到回声。因此，声音处理需要控制在30毫秒以内，甚至在10毫秒以内。还有一个非常重要的是精度问题。因为在整个人机交互链条中，声学是一个入口的技术，它的精度要高于我们的语音、语言。如果声学的精度下降，相当于我们语音或者语言就容易出错，会导致后面整个链条的理解出现问题。

新华网：当前，远场语音交互技术有哪些前沿成果？

陈孝良：远场语音交互技术现在主要的前沿研究方向包括空间编码、声纹识别、脑机接口等技术。在进行远场声源探测时，需要了解声源的位置信息。通过将位置信息和声音信息进行联合编码，可以在回放过程中，准确还原声源位置，感受更好的音效。这项技术成果已经在电影院得到初步应用，未来，我们希望在人机交互中也能得到这种体验。

声纹识别技术主要是解决多人场景中，对不同人说的话、不同语言的区分，准确理解每个人以及整个对话的意义。我们还在分析人类的听觉。我们天生具有远场感知的能力，可以通过调整耳朵对声音进行感知，听见远处的声音。但是，机器人目前还无法做到。因此，我们希望开展与脑机接口的联合探索，解码我们人类听觉的关键信息，应用在机器听觉中。

网址：对话·科学先锋｜陈孝良：让机器“听见”远场的声音 https://www.yuejiaxmz.com/news/view/732242

上一篇：人机交互技术，主要分为哪几类？

下一篇：解读自然语言处理：技术、应用与未

对话·科学先锋｜陈孝良：让机器“听见”远场的声音

相关内容

随便看看

最新动态分享

热点动态分享

专题

推荐动态分享