近日,美国人工智能研究公司openai在其官方网站上首次公开了一款名为“voice enge”(语音引擎)的新技术。xuan这项技术可以通过输入文本和15秒音频样本,生成一个与音频中说话者非常相似的自然语音。这一技术的推出,无疑将进一步推动人工智能在语音合成领域的发展,但同时也引发了关于其可能被滥用的担忧。
openai表示,这款语音引擎在2022年底就已经开始研发,目前已经被用作一些其他功能的预设语音。然而,由于合成语音可能会被滥用,openai只在小范围内与开发人员分享了该模型,未来可能不会广泛推出这一功能。这一决定充分体现了openai对于人工智能技术应用的责任感和谨慎态度。
在实际应用中,儿童教育技术公司a of learng已经开始使用这个模型来生成一些预先编写好的内容,并且还结合gpt-4 创建实时的响应来与学生互动。此外,数字人视频生成初创公司heyn也采用了这项技术,可以根据内容创建定制的数字人化身,而voice enge可以将样本的声音转换成多种其他语言,来帮助产品营销到销售演示。
在转换语言时,voice enge会保留原始说话者的母语口音,例如样本中的人使用的是法语,那么生成的英语将带有法国口音。这一特性无疑将为跨语言的交流提供更多的可能性。然而,这也引发了一个问题:如果这项技术被用于制造假新闻或者进行欺诈活动,后果将不堪设想。
openai显然也意识到了这一点,他们在新闻稿中写道:“我们认识到,生成声音的功能存在严重风险,这一点在大选年尤为突出。我们正在与来自政府、媒体、娱乐、教育等领域的国际合作伙伴合作,以确保我们在建设过程中吸收他们的反馈。”
openai产品负责人jeff harris在接受媒体采访时也表示:“如果你能正确地设置音频,基本上就能生成人类口径的声音,这是一种相当令人印象深刻的技术。”但harris也提到,准确模仿人类语音的能力确实存在安全隐患。
今年1月,美国就出现了“ai拜登”事件,由ai生成的“假拜登”在电话中用逼真的声音鼓励可能支