OpenAI发布新模型GPT-4o,平均响应时间为320毫秒,“几乎接近人类交谈”
美国人工智能公司OpenAI于14日凌晨正式推出新一代人工智能(AI)模型GPT-4o,美国有线电视新闻网(CNN)注意到,它的最突出特点是在与人的交互方面更为自然。
根据OpenAI发布的新闻稿,GPT-4o的“o”代表“omni”,即“全能”之意。它可以在最快232毫秒的时间内响应音频输入,平均响应时间为320毫秒,几乎接近人类在交谈中的响应时间。
在发布会的演示环节,GPT-4o展示了它与众不同的互动能力。它能用一种非常自然的语调与人交流。在根据工作人员要求讲故事时,工作人员可以随时插话打断并提出新要求,GPT-4o能几乎毫无停顿地接上话题并按照要求变化音色、语调、情感等。GPT-4o可以检测用户的情绪,并以类似人类或机器人的语调与用户交谈。OpenAI表示,此前的AI语音模式由不同的独立模型组成,分别负责将音频转换为文本,接收文本并输出文本,再将文本转换回音频。在这些环节中会丢失大量信息,因此无法识别音调、多个说话者或背景噪音,也无法输出表达情感的语音。而GPT-4o支持文本、音频和图像的任意组合输入,并能够生成文本、音频和图像的任意组合输出,这意味着它能够结合视频和音频感受对话者的情绪,并给出充满人类情感的反馈。在对话中发现工作人员的深呼吸时,GPT-4o鼓励说“冷静下来”。CNN称,GPT-4o的语音令人想起美国科幻电影《她》中的AI。GPT-4o还展示了解读代码、分析图表等各种能力。
不过,GPT-4o在演示过程中也出现一些失误。英国广播公司(BBC)称,这表明生成式AI的“幻觉”问题仍未得到解决,距离解决聊天机器人不可靠的问题还有很长的路要走。
清华大学新闻学院新媒体研究中心主任、跨学科知名学者沈阳教授14日对《环球时报》记者表示,GPT-4o把多模态融合能力发挥得比较好,无论是识别还是语音的精细化改造方面。此前的各种大模型的语音做得也不错,但多少还能听出一点AI的声音,现在经过进一步升级,GPT-4o具有很强的情感感染力,让人很难分辨出来了。
沈阳表示,此前GPT主要还是模拟意识,如今有向模拟生命转化的趋势,可以把GPT-4o看作是向“灵魂伴侣”方向发展。由于大模型对语音助手的加持,它会变成日常高频交流的“朋友”,如果这种趋势持续下去,显然人们大量的使用时间将会消耗在跟语音助手的聊天当中,因为我们面对的将是一个权威全知的AI助手。这可能会导致人与人的关系在一定程度上解耦。也就是说人类朋友的数量可能随着跟AI聊天的时间增加而减少,这可能会带来一个非常重大的社会影响。此外,GPT-4o提升了视觉与语音能力,跟硬件的结合也会比较好。所以未来它可以更加广泛地应用到汽车、智能硬件等设备之中。