当前位置:数智频道首页 > 人工智能 > 正文

消息称 OpenAI 正开发双向语音模型:被打断也不会影响对话持续,体验“更像人”

据报道,OpenAI 正在开发一种新的语音模型,旨在让用户与ChatGPT的对话更加自然。当前,ChatGPT的高级语音模式采用回合式对话机制,用户必须先说完话,AI才会处理语音并生成回答。如果用户在AI发言时插入“okay”或“mm-hm”等回应,系统通常会直接停止,无法像正常对话那样继续进行。

新开发的模型名为BiDi,能够持续处理说话者的语音输入,因此在被打断时可以立即调整回应。相比之下,现有语音模型一旦开始生成回答,输出内容就基本固定,无法再根据新的输入进行变化。OpenAI认为,如果语音模型能够在性能上接近文本模型,AI的使用范围将进一步扩大,因为大多数人更习惯与AI进行语音交流,而不是输入文字。

BiDi模型在客服场景中可能特别有价值。例如,在顾客与零售商的AI客服通话时,如果顾客临时决定换货而非退货,BiDi模型理论上可以让AI客服顺畅调整对话,而不会突然停止或出现混乱。此外,该模型在调用外部工具和应用方面也更灵活。OpenAI计划为未来一款主要通过语音交互的AI设备改进语音模型,并考虑开发一款智能音箱,通过语音指令即可查看邮件或预订服务。

热点推送

本周关注

MORE