李志飞:GPT

发布时间:2024-12-08 10:15

乘坐飞机记得托运行李,但注意行李限额 #生活知识# #出行指南#

作为出门问问创始人,创业 10 年来,李志飞主导开发过语音助手、智能硬件以及多个 AIGC 产品,如魔音工坊、奇妙元。2017 年,出门问问虚拟个人助理(VPA)正式发布,在会上,当测试人员发出「订外卖」的指令时,出门问问个人助理可以做到优先推荐发布会现场附近的餐厅。

作为 VPA 领域的探索者,李志飞曾提出 VPA 必备的四大要素是满足用户的自然交互、海量内容、个性服务和其无处不在。而此次 OpenAI 发布的 GPT-4o,是否达到了他心目中的理想状态?他对 VPA 的发展还有哪些期待?

以下为观点原文,文章转载自公众号「飞哥说 AI 」,Founder Park 略有调整。

自从 2011 年苹果发布 Siri,无数公司尝试着做一个万能的 VPA,包括 Google,也包括出门问问,但基本都是 demo 炫酷,用户用起来却觉得很蠢。这次,OpenAI 的 demo 无疑是把 VPA 推到了前所未有的高度。主要是几点:

模型上端到端

以前的语音助手分下面多个步骤,唤醒、语音识别、自然语言理解、信息查询、对话、TTS。每一个步骤是一个单独的模型、由不同的专业团队开发。GPT-4o 是端到端模型,一个模型解决所有问题。

实时交互

因为是一个端到端模型,所以做到了平均 300 多毫秒的类似于人类的实时交互,如果用大模型串联可能需要几秒延迟。虽然以前的语音助手也可以实时交互,但大多是完成一些基本信息查询(比如说附近的川菜馆)和基本命令(比如说拨打电话号码),但这个 GPT-4o 是一个真正意义上通用的 VPA。

多模态交互

以前的语音助手只是语音交互,而现在的 GPT-4o 是真正的多模态,跟人类一样,模态之间自由切换。牛 X 的是,GPT 没有因为加入别的模态而降低语言的理解和生成能力,大写的服。

丝滑的交互体验

从视频来看,跟以前的语音助手不一样,没有反人类的唤醒、没有答非所问的对话、没有 pipeline 系统的错误传递,AI 基本上可以作为一个聪明的人类参与人类的集体对话(AI 参与多人视频会议那个例子很好的证明了这个)。

未来的期望

这次 demo 从体验上很炸裂,让我对大模型真正渗透到生活的方方面面重新产生了信心。除了打磨基本体验外,未来可做的事情很多,比如说落地到各种智能硬件;跟智能家居、车载等各种场景结合实现跨场景联动,感觉未来五年很多东西值得期待。

前沿科技的 timing

这次的演示本身没有新的 idea,无论是现在的语音助手和多模态交互,还是未来要落地的智能硬件和多场景联动,都没有啥新的概念,过去十年很多人做过 demo。但是过去的体验都是半吊子,demo 很酷、用起来反人类。本人做了十年,都已经绝望了,直到大模型的出现,才看到了一个全能的 VPA 的可能性。所以,前沿科技很多时候不在于 vision,而在于实现 vision 的路径和节奏。

总之,人机交互这个「渣男」,因为 GPT-4o 的出现,有望真的重新做人,开启下一波的科技、应用和商业模式的革命,期待下一个十年。

如果你关注大模型领域,欢迎扫码加入我们的大模型交流群,来一起探讨大模型时代的共识和认知,跟上大模型时代的这股浪潮。

更多阅读

OpenAI 重磅发布 GPT-4o :见证《Her》的诞生!

零一万物在做什么?

并购永不过时!现象级AI产品Remini背后,意大利创业公司的独角兽之路

一文读懂具身智能:巨头在做什么、创业公司机会在哪、数据和 Scaling Law 难题怎么解决?

转载原创文章请添加微信:geekparker

网址:李志飞:GPT https://www.yuejiaxmz.com/news/view/411610

相关内容

李志飞:出门问问要做跨越多场景的个人助理
如何用GPT
ChatGPT: 如何利用OpenAI的GPT
出门问问CEO李志飞:虚拟个人助理离我们还有多远?
出门问问李志飞:虚拟个人助理离我们还有多远?
出门问问发布虚拟个人助理及智能手表,李志飞谈VPA成功必备四大关键
JARVIS 变为现实:使用 Python、React 和 GPT
OpenAI一夜干翻语音助手!GPT
接入Chat GPT的虚拟人=人机交互新入口?
王志文 李幼斌飙戏

随便看看