李志飞：GPT

发布时间：2024-12-08 10:15

乘坐飞机记得托运行李，但注意行李限额 #生活知识# #出行指南#

作为出门问问创始人，创业 10 年来，李志飞主导开发过语音助手、智能硬件以及多个 AIGC 产品，如魔音工坊、奇妙元。2017 年，出门问问虚拟个人助理（VPA）正式发布，在会上，当测试人员发出「订外卖」的指令时，出门问问个人助理可以做到优先推荐发布会现场附近的餐厅。

作为 VPA 领域的探索者，李志飞曾提出 VPA 必备的四大要素是满足用户的自然交互、海量内容、个性服务和其无处不在。而此次 OpenAI 发布的 GPT-4o，是否达到了他心目中的理想状态？他对 VPA 的发展还有哪些期待？

以下为观点原文，文章转载自公众号「飞哥说 AI 」，Founder Park 略有调整。

自从 2011 年苹果发布 Siri，无数公司尝试着做一个万能的 VPA，包括 Google，也包括出门问问，但基本都是 demo 炫酷，用户用起来却觉得很蠢。这次，OpenAI 的 demo 无疑是把 VPA 推到了前所未有的高度。主要是几点：

模型上端到端

以前的语音助手分下面多个步骤，唤醒、语音识别、自然语言理解、信息查询、对话、TTS。每一个步骤是一个单独的模型、由不同的专业团队开发。GPT-4o 是端到端模型，一个模型解决所有问题。

实时交互

因为是一个端到端模型，所以做到了平均 300 多毫秒的类似于人类的实时交互，如果用大模型串联可能需要几秒延迟。虽然以前的语音助手也可以实时交互，但大多是完成一些基本信息查询（比如说附近的川菜馆）和基本命令（比如说拨打电话号码），但这个 GPT-4o 是一个真正意义上通用的 VPA。

多模态交互

以前的语音助手只是语音交互，而现在的 GPT-4o 是真正的多模态，跟人类一样，模态之间自由切换。牛 X 的是，GPT 没有因为加入别的模态而降低语言的理解和生成能力，大写的服。

丝滑的交互体验

从视频来看，跟以前的语音助手不一样，没有反人类的唤醒、没有答非所问的对话、没有 pipeline 系统的错误传递，AI 基本上可以作为一个聪明的人类参与人类的集体对话（AI 参与多人视频会议那个例子很好的证明了这个）。

未来的期望

这次 demo 从体验上很炸裂，让我对大模型真正渗透到生活的方方面面重新产生了信心。除了打磨基本体验外，未来可做的事情很多，比如说落地到各种智能硬件；跟智能家居、车载等各种场景结合实现跨场景联动，感觉未来五年很多东西值得期待。

前沿科技的 timing

这次的演示本身没有新的 idea，无论是现在的语音助手和多模态交互，还是未来要落地的智能硬件和多场景联动，都没有啥新的概念，过去十年很多人做过 demo。但是过去的体验都是半吊子，demo 很酷、用起来反人类。本人做了十年，都已经绝望了，直到大模型的出现，才看到了一个全能的 VPA 的可能性。所以，前沿科技很多时候不在于 vision，而在于实现 vision 的路径和节奏。

总之，人机交互这个「渣男」，因为 GPT-4o 的出现，有望真的重新做人，开启下一波的科技、应用和商业模式的革命，期待下一个十年。

如果你关注大模型领域，欢迎扫码加入我们的大模型交流群，来一起探讨大模型时代的共识和认知，跟上大模型时代的这股浪潮。