2024年5月,OpenAI的GPT-4o展示了堪比电影《Her》中的人机交互体验,响应速度快,能读懂人的情绪,用笑声回应开心和用温柔声音安抚悲伤情绪。

电厂 | 领先OpenAI落地,讯飞版“Her”迭代20亿台终端

但OpenAI的“Her”没有来,讯飞星火版的“Her”在8月底就能面向全民开放使用了。

8月19日,科大讯飞宣布星火语音大模型更新,正式推出星火极速超拟人交互,并将其能力落地在讯飞星火App“小星畅聊”功能中。

这次更新后,星火极速超拟人交互响应速度更快,对话更加自然流畅,随时打断、插话之后还能秒回。情绪价值也被拉满,星火极速超拟人交互还能感知用户的情绪变化,并共情回应用户的喜怒哀乐,在表达上更加自然、更具情感,还能扮演角色的语音和人设进行对话。

对比之下,OpenAI主打情绪读取、实时推理视觉、文本和音频以及多语言处理的GPT-4o没有向用户开放。7月底,OpenAI才选择性地向一小部分Alpha测试参与者开放部分语音功能。

电厂还获悉,7月底的一周时间里,科大讯飞董事长刘庆峰和华为轮值董事长徐直军密集互访,双方或探讨基于超拟人交互技术落地应用的潜力,瞄准智能终端机器人化的巨大市场。

智能之外,情绪价值拉满

电影《Her》讲述的故事发生在2025年,男主人公西奥多·托姆布里是一名孤独内向的男子,他的工作是给那些不善于表达感情的人代写感人肺腑的情书。和相爱多年的妻子凯瑟琳分手后,他一直沉浸在悲伤当中。

偶然的机会,西奥多接触到一款先进的人工智能操作系统OS1,它能够通过和人类对话,并不断学习丰富自己的意识和感情。操作系统化身为一名叫做萨曼莎的“女性”,她变得风趣幽默又善解人意,学习和进化的速度也让西奥多感到不可思议,两人很快成了无所不谈的朋友。

不需要到2025年,类似的情节在2024年8月就能成为现实了。科大讯飞星火大模型的极速超拟人交互在响应和打断速度、情绪感知情感共鸣、语音可控表达、人设扮演四个方面实现巨大突破,相关语音能力正在对标GPT-4o。

在响应速度上,星火极速超拟人交互支持极速响应多轮交互,能够在对话过程中生成高质量的回答,并且响应速度更快、与GPT-4o响应时间相当,几乎与人类正常聊天节奏一致,并且对话中允许用户随时打断、插话,实现了人机对话的“无缝衔接”。

除了对话节奏更类人之外,超拟人交互还能够在对话中感知用户的情绪,把情绪价值拉满。它可以在对话中感知到用户的喜、怒、哀、乐、害怕、困惑等各类情绪,不仅能根据声音的内容来判断,还能像朋友一样用合适的情感回应用户。比如,用笑声回应开心,用温柔声音安慰悲伤情绪。同时,星火极速超拟人交互还能识别用户咳嗽、猫和狗的叫声等声音事件,给出对应的回复语。

以前语音交互中机器声音无法调整,但有了星火极速超拟人交互,只要用户语音发出指令,就可以控制超拟人在情感、风格、方言、强度等表达方式上做出变化,比如,“用调侃的方式给我说个笑话”、“用东北话给外地朋友介绍下锅包肉”、“说的更快一点”。

此外,星火极速超拟人交互还支持“角色扮演”,可以模仿不同的角色陪聊。比如,“模仿孙悟空的声音来和小孩子对话”,超拟人就可以模仿孙悟空的声音和人设和小朋友聊天。星火超拟人交互还可以模仿蜡笔小新、小猪佩奇等角色。

OpenAI的GPT-4o迟迟不来,“中国版GPT-4o”抢先一步落地。科大讯飞星火极速超拟人交互代表了国产大模型逐步从追赶、对标到进行自主创新的差异化路线。

超拟人交互的极速秘诀是统一神经 *** 直接实现语音到语音端到端建模。传统的处理方式是先把语音转成文字,在通过大模型生成回复文本,然后再进行语音合成输出,需要分三步来工作。但端到端只有一个模型,大幅缩短了响应时间,也提升了交互的拟人度和流畅度。

情感交互、语音可控等则得益于讯飞多维度的语音属性解耦表征训练准则,将内容、音色、情感、语言、风格都信息进行解耦训练。星火极速超拟人交互也因此能够更加灵活控制各类元素,还能根据需求便捷定制,让系统快速落地应用。

正因为如此,星火极速超拟人交互可以在8月底率先面向全民开放使用。科大讯飞表示,基于全新端到端框架的基础,星火极速超拟人交互目前主要开放语音模态,未来会拓展到更多模态,并带来更多更实用、丰富的功能。

但这一次语音模态的跨越式升级带来的多轮交互、语义理解、指令跟随、逻辑推理、情感共鸣,已经足以重写语音交互市场,帮助20亿台智能终端向机器人升级并驱动万物互联的第六次产业浪潮井喷。

每一台智能终端都能变成机器人

在2023年科大讯飞全球1024开发者节上,华为科技有限公司副董事长、轮值董事长徐直军曾表示,“华为公司在全球所有使用的智能终端的语音技术,都是来自于科大讯飞,而且不仅仅是中文”。

第三方机构QuestMobile的数据显示,截至今年2月,华为的活跃终端设备数量已经超过2.8亿台。而华为公布的数据则显示,鸿蒙生态设备数量已经突破了8亿台。这背后是庞大的移动物联网,工信部公布的统计数据显示,去年5月底,我国的移动物联网终端用户超过20.5亿,包括手机、家电、汽车以及初具规模的机器人。

语音是终端设备核心的交互方式之一,基于讯飞星火大模型在超拟人交互上取得的突破,终端设备可以实现“无感迭代”,从指令型终端晋升为可进行多轮交互、可感知情绪、可定制化表达的拟人机器人。

试想一下,当你的智能手机支持超拟人交互,它不仅能成为百科全书,还可以从手机升级为得力助手和陪伴者。

家中的电视机、平板电脑,能帮助孩子学习,也能为老人提供更多守护,既是家里的管家,也是家庭教师。

智能汽车中有超拟人交互,不仅可以提升内容的丰富度,也可以通过增加语音交互的场景从而保障驾驶员的安全。

更为重要的是,星火大模型对多语种、多方言的支持,星火超拟人交互可以让每一台升级为机器人的终端设备,保证用户具备全球通行的能力。

以智能汽车为例,2023年,中国汽车出口量超过日本,跃居全球之一,而出海十强企业中,有8家都在和科大讯飞合作。科大讯飞多语种技术已经可以覆盖全球60多个语种,讯飞智能车载语音系统覆盖23个主要语种,搭载该系统的车型已销往亚洲、欧洲、南美等地的60多个国家和地区。

从产业发展来看,智能语音技术正处于“黄金时代”。国际数据公司IDC的统计数据显示,全球智能语音市场规模由2017年的110.3亿美元增长至2022年的351.2亿美元,增长幅度218.4%,年复合增长率为26.1%。

IDC还预计,到2030年,全球智能语音服务市场规模将达约731.6 亿美元,复合增长率27%,保持稳定增长的趋势。

具体到我国,2022年我国智能语音市场达341亿元,同比增长13.4%。2017年至2022年增长幅度为221.7%,复合增长率为26.33%,稍微领先于全球市场的增长。其中,科大讯飞在国内市场的份额远远领先于百度、苹果等公司。

今年1月,科大讯飞推出了星火大模型V3.5,5个月后就升级到了V4.0,整体能力超越了OpenAI的GPT-4 Turbo。仅仅两个月后,星火大模型就支持了极速超拟人交互,为万物互联时代入口探索出更多的交互可能。

讯飞星火大模型不仅在底层能力方面走得更稳,更在应用上开足了马力,同步实现了对全球顶级大模型的赶超以及自身优势模型能力结合实际场景的落地,把新技术转化为新应用,为用户创造了真正的价值。