新闻 > 国际新闻 > 新闻详情

OpenAI发布新模型GPT-4o,平均响应时间为320毫秒,“几乎接近人类交谈”

发表时间:2024-05-15 11:39:55 作者:博牛新闻官 更多文章

美国人工智能公司OpenAI于14日凌晨正式推出新一代人工智能(AI)模型GPT-4o,美国有线电视新闻网(CNN)注意到,它的最突出特点是在与人的交互方面更为自然。


根据OpenAI发布的新闻稿,GPT-4o的“o”代表“omni”,即“全能”之意。它可以在最快232毫秒的时间内响应音频输入,平均响应时间为320毫秒,几乎接近人类在交谈中的响应时间。

在发布会的演示环节,GPT-4o展示了它与众不同的互动能力。它能用一种非常自然的语调与人交流。在根据工作人员要求讲故事时,工作人员可以随时插话打断并提出新要求,GPT-4o能几乎毫无停顿地接上话题并按照要求变化音色、语调、情感等。GPT-4o可以检测用户的情绪,并以类似人类或机器人的语调与用户交谈。OpenAI表示,此前的AI语音模式由不同的独立模型组成,分别负责将音频转换为文本,接收文本并输出文本,再将文本转换回音频。在这些环节中会丢失大量信息,因此无法识别音调、多个说话者或背景噪音,也无法输出表达情感的语音。而GPT-4o支持文本、音频和图像的任意组合输入,并能够生成文本、音频和图像的任意组合输出,这意味着它能够结合视频和音频感受对话者的情绪,并给出充满人类情感的反馈。在对话中发现工作人员的深呼吸时,GPT-4o鼓励说“冷静下来”。CNN称,GPT-4o的语音令人想起美国科幻电影《她》中的AI。GPT-4o还展示了解读代码、分析图表等各种能力。

不过,GPT-4o在演示过程中也出现一些失误。英国广播公司(BBC)称,这表明生成式AI的“幻觉”问题仍未得到解决,距离解决聊天机器人不可靠的问题还有很长的路要走。

清华大学新闻学院新媒体研究中心主任、跨学科知名学者沈阳教授14日对《环球时报》记者表示,GPT-4o把多模态融合能力发挥得比较好,无论是识别还是语音的精细化改造方面。此前的各种大模型的语音做得也不错,但多少还能听出一点AI的声音,现在经过进一步升级,GPT-4o具有很强的情感感染力,让人很难分辨出来了。

沈阳表示,此前GPT主要还是模拟意识,如今有向模拟生命转化的趋势,可以把GPT-4o看作是向“灵魂伴侣”方向发展。由于大模型对语音助手的加持,它会变成日常高频交流的“朋友”,如果这种趋势持续下去,显然人们大量的使用时间将会消耗在跟语音助手的聊天当中,因为我们面对的将是一个权威全知的AI助手。这可能会导致人与人的关系在一定程度上解耦。也就是说人类朋友的数量可能随着跟AI聊天的时间增加而减少,这可能会带来一个非常重大的社会影响。此外,GPT-4o提升了视觉与语音能力,跟硬件的结合也会比较好。所以未来它可以更加广泛地应用到汽车、智能硬件等设备之中。

声明:本文由新闻源或入驻作者撰写,除博牛官方账号外,观点仅代表作者本人,不代表博牛立场.

博牛集团博牛社区博牛招聘菠菜圈广告合作手机版建议投诉

重要聲明:本網站是以即時上載留言的方式運作,本站對所有留言的真實性、完整性及立場等,不負任何法律責任。而一切留言之言論只代表留言者個人意見,並非本網站之立場,用戶不應信賴內容,並應自行判斷內容之真實性。由於討論區是受到「即時留言」運作方式所規限,故不能完全監察所有即時留言,若讀者發現有留言出現問題,請聯絡我們。本站有權刪除任何留言及拒絕任何人士留言,同時亦有不刪除留言的權利。切勿撰寫粗言穢語、誹謗、渲染色情暴力或人身攻擊的言論,敬請自律。本網站保留一切法律權利。