从音视频技术看AI的机会和挑战

发布时间：2024-12-17 23:31

观看烹饪挑战视频，挑战自己的烹饪技巧 #生活乐趣# #美食烹饪乐趣# #烹饪视频#

640?wx_fmt=jpeg

作者 | 包研，LiveVideoStack主编

我关注AI完全是被动的，直到两件事改变了我对AI的看法。第一件发生在2017年5月，AlphaGo以3比0战胜柯洁。我的一个朋友当时在乌镇现场感受了这场人机大战，她向我描述了柯洁被逼到走投无路的无奈与绝望表情。另一件事在2018年初，现场聆听了蒋涛关于AI的分享，其中介绍了在Google内部，AI已经在大部分产品上应用，包括Youtube。由于工作关系，Youtube在AI方面的应用自然引起了我的注意，比如通过AI理解视频内容，自动截取最能表现视频内容的关键帧，可用于生成视频封面。

事实上，从2017年第一届LiveVideoStackCon音视频技术大会开始，AI主题就没有缺席过，但直到2019年，AI在音视频方面真正的落地应用才陆陆续续在LiveVideoStackCon上体现。接下来，我来梳理下AI在多媒体各个场景下的应用。

内容理解

AI内容理解并不限于生成封面图，精彩剪辑，或者只看某个角色的镜头，这在内容推荐、广告平台有帮助。此外，内容理解还能帮助更好的处理视频，比如可以针对不同的视频内容选择不同的Codec，以及相关的编码工具；也可以找到视频中人眼最关注的部分，分配更多的码率，降低不易察觉的画面的码率，在保证用户体验的前提下降低码率。同时，AI可以把竖版的短视频裁剪成适合横屏播放的内容。

此外，AI还能帮助检测视频源片中的瑕疵，比如黑屏，异物遮挡，这可以在后期制作中修剪。同理，AI也可以帮助发现字幕遮挡关键画面信息的情况，从而调整字幕出现的时间或位置。关于内容理解的应用，Netflix走在业界前沿，可以多关注。

图像增强

关于图像增强大家谈的很多，也许你在看一些热门影片的时候已经用到了AI加持的图像增强技术。比如，将SDR转换为HDR视频，视频超分（将720p变成1080p），每秒30帧视频变换为每秒60帧等等。

AI与ABR

ABR即动态码率，其目的是为了解决客户端在不稳定网络下仍能流畅的观看视频，并且最大化的保证画质。ABR算法需要关注客户端的视频缓存，以及当下的最大带宽，从而去预测未来一段时间提供给该客户端的码率。AI的出现可以进一步提升ABR的效果，最著名的要数MIT提出的Pensieve。去年，著名的网络技术学术会议SIGCOMM上，也有二十多篇是关于机器学习的。

语音识别与语音合成

从Siri到小冰，从智能手机到智能音响，语音识别已经无处不在，无需赘述。而语音合成则是让电脑把文本变成语音，比如Google开源的Tacotron已经可以实现99%的人声还原。你在喜马拉雅或各种影视剧中听到的明星声音将越来越多的通过AI生成。

回声消除

这是一个所有音频设备必须解决的问题，在多麦克风设备上消除回声相对容易。但在一些低端的Android设备上，如果只有一个麦克风就需要利用AI来帮助消除回声，效果非常不错。

声纹——人声识别与音乐识别

声音是可以作为身份验证的，但是风险也同时存在，比如有人拿了你的录音去登录你的银行账号。而DNN可以掌握更多的声音特征，从而降低风险。而在音乐识别方面则没有那么高风险，但也直接关系到用户的体验，各大音乐App都集成了相关的功能。

此外，AI还可以帮助影视策划制作与营销，通过分析剧本类型、导演、明星阵容预测作品的流程程度，从而在后期推广、广告合作方面更加精准。

以上粗浅聊了聊AI在音视频领域的具体应用，仅仅是冰山一角。无论你是否选择从事AI与多媒体领域，学习一些AI的基本知识还是很有必要的，但你如果想大干一番，而不是随便发一些paper，混个offer，来那些掌握海量数据的公司，能让你大显身手的。

640?wx_fmt=png

在8月23-24日的LiveVideoStackCon 2019北京音视频技术大会上，有许多我非常期待的AI相关的话题，作为大会主编，每一个讲师都是我亲自甄选和沟通，并参考各个专题出品人的建议。

《如何进行动态协议优化》 Akamai 高级工程经理 Darren Ng

《“京享超清”在复杂网络下应用与视频体验保障》京东云架构师张树军

《强化学习下的自适应码流服务》爱奇艺资深工程师王亚楠

《高效视频处理与AI融合架构》 Aupera 创始人兼CEO 廖玉峰

《AI视频增强与编码损伤修复协同处理方案》西安电子科技大学硕士生导师何刚

《实时视频码率优化实战》好视通高级架构师张弦

《AI驱动的音频、视频效果新玩法》相芯科技资深图形引擎开发经理蔡锐涛

《沉浸式音频技术的采集，传输，播放，以及应用场景初探》时代拓灵创始人，CEO 孙学京

《深度学习图像算法在内容安全领域的应用》网易易盾资深算法专家李雨珂

《端对端语音识别及其应用》滴滴出行首席算法工程师李先刚

《视频编解码优化以及与AI的结合》 RealNetworks Senior Lead Staff 况超

《声纹识别与防录音重放攻击》清华-得意音通声纹处理联合实验室博士生程星亮

《多模视角下的内容理解算法与应用》快手多媒体内容理解部负责人李岩

《音频指纹技术在流媒体音乐平台的应用》网易云音乐音视频实验室负责人刘华平

《xNN：支付宝App中的实时AI引擎》蚂蚁金服高级算法专家周大江

《深度学习在回声消除中的应用》大象声科高级音频算法工程师闫永杰

点击阅读原文，了解更多议题讲师与大会详细日程。

网址：从音视频技术看AI的机会和挑战 https://www.yuejiaxmz.com/news/view/504231

上一篇：爱奇艺HomeAI智能语音交互系

下一篇：[Sdoi2016]排列计数

从音视频技术看AI的机会和挑战

相关内容

随便看看

最新动态分享

热点动态分享

专题

推荐动态分享