OpenAI公司周一宣布,该公司的ChatGPT现在可以“看、听、说”,或者至少可以理解口语,用合成的声音做出反应,并处理图像。
这款聊天机器人是OpenAI自推出GPT-4以来最大的一次更新,它允许用户在ChatGPT的移动应用程序上选择语音对话,并从五种不同的合成声音中进行选择,让机器人做出回应。用户还可以与ChatGPT分享图像,并突出重点或分析领域。
OpenAI表示,这些变化将在未来两周内向付费用户推出。虽然语音功能将仅限于iOS和Android应用程序,但图像处理功能将在所有平台上可用。
与此同时,OpenAI、微软、谷歌和Anthropic等聊天机器人领导者之间的人工智能军备竞赛的赌注也在不断上升。为了鼓励消费者将生成式人工智能应用到日常生活中,科技巨头们不仅竞相推出新的聊天机器人应用,还竞相推出新的功能,尤其是在今年夏天:谷歌宣布对其聊天机器人巴德(Bard)进行一系列更新,微软在必应(Bing)中添加了视觉搜索功能。
根据PitchBook的数据,今年早些时候,微软扩大了对OpenAI的投资——增加了100亿美元——使其成为今年最大的人工智能投资。据报道,今年4月,这家初创公司以270亿至290亿美元的估值完成了3亿美元的股票发售,红杉资本和安德森·霍洛维茨等公司进行了投资。
专家们对人工智能生成的合成声音提出了担忧,在这种情况下,人工智能可以让用户获得更自然的体验,但也可以实现更有说服力的深度伪造。网络威胁行为者和研究人员已经开始探索如何利用深度伪造来渗透网络安全系统。
OpenAI在周一的声明中承认了这些担忧,称合成声音是“由我们直接合作的配音演员创造的”,而不是从陌生人那里收集的。
该新闻稿也没有透露OpenAI将如何使用消费者的语音输入,或者该公司将如何确保这些数据的安全。OpenAI没有立即回应置评请求,该公司的服务条款称,消费者“在适用法律允许的范围内”拥有自己的输入。