鞭牛士报道,3月30日消息,据外电报道,OpenAI刚刚宣布近期进行了小规模预演一个名为语音引擎的新工具的诞生。
这是一种声音克隆技术,可以通过分析15秒的音频样本来模仿任何说话者。该公司表示,它可以生成自然的语音和情感丰富且真实的声音。
事实证明,该模型还可以执行语音克隆。它的工作原理是这样的:人类说话者通过手机或计算机麦克风录制15秒的语音片段,OpenAI的语音引擎会生成与原始说话者非常相似的自然语音,并且可以在以后使用,大声说出人类用户输入的任何文本。
该技术基于本公司预先存在的文本转语音API。自2022年以来,这项工作一直在进行中。OpenAI已经在使用该工具集的一个版本来支持当前文本转语音API和ReadAloud功能中可用的预设语音。该公司的官方博客上有一堆样本,它们听起来非常接近真实的东西。
OpenAI表示,他们认为这项技术对于阅读辅助、语言翻译以及帮助那些患有突发性或退化性言语疾病的人很有用。该公司提出了一个布朗大学试点计划该项目通过创建从学校项目录制的音频中提取的语音引擎克隆来帮助患有言语障碍问题的患者。
对于那些经常录制自己讲话的人来说,这项技术显然具有巨大的影响,无论是播客、配音艺术家、口语表演者、有声读物和广告解说员、游戏玩家、主播、客户服务代理、销售人员以及许多其他职业和学科。
尽管有潜在的好处,坏人肯定会滥用这项技术来从事一些严重的深度造假蠢事,这已经是一个问题了。考虑到这一点,语音引擎还没有完全准备好迎接黄金时段,因为在全面推出之前必须解决严重的隐私问题。
OpenAI承认这项技术存在严重的风险,这在选举年尤其值得关注。该公司表示,它吸收了来自政府、媒体、娱乐、教育、民间社会等领域的美国和国际合作伙伴的反馈,以确保产品发布时风险最小。所有预览测试人员都同意OpenAI的使用政策,该政策禁止在未经同意或合法权利的情况下冒充他人。
此外,任何使用该技术的人都必须向观众透露这些声音是人工智能生成的。OpenAI实施了安全措施,例如使用水印来追踪任何音频的来源,以及对系统的使用方式进行主动监控。当该产品正式推出时,将会有一个禁止语音列表,可以检测并阻止人工智能生成的与名人过于相似的扬声器。
至于何时推出,OpenAI仍然守口如瓶。TechCrunch发现了一些潜在的定价数据看起来它会削弱ElevenLabs等该领域的竞争对手。语音引擎每100万个字符的成本为15美元,相当于大约162,500个单词。这大约是斯蒂芬·金的《闪灵》的长度。这听起来确实是一种预算友好的完成有声读物的方式。营销材料还提到高清版本的价格是其两倍,但该公司尚未详细说明其具体运作方式。
OpenAI在今天宣布推出VoiceEngine的博客文章中表示,到目前为止,它只向一小群值得信赖的合作伙伴提供该技术。其中突出显示和点名的包括:
AgeofLearning是一家教育技术公司,使用语音引擎和GPT-4生成预先编写的实时个性化语音内容,为不同的学生受众扩展阅读帮助和互动性。
HeyGen是一个人工智能视觉讲故事平台,使创作者和企业能够将其内容翻译成多种语言,采用语音引擎进行视频翻译,创建具有多语言声音的定制类人化身,保留原始说话者的口音,以吸引全球观众。
Dimagi是一家为社区卫生工作者提供工具的软件公司,它使用语音引擎和GPT-4为所述工作者提供各种语言的交互式反馈,从而改善远程环境中的基本服务交付。
Livox是一款人工智能应用程序,适用于有言语和听力困难的人使用的增强和替代通信(AAC)设备,它集成了语音引擎,为非语言个体提供跨语言的独特的非机器人语音。
Lifespan的诺曼·普林斯神经科学研究所是布朗大学的一个非营利性医疗和教学组织,致力于帮助那些患有神经系统疾病和紊乱的人,它正在使用语音引擎来帮助那些有语言障碍的人使用他们的人工智能版本的声音。那里的两名医生罗海德·阿里(RohaidAli)和儿科神经外科医生康斯坦蒂娜·斯沃科斯(KonstantinaSvokos)已经利用她学校项目视频中的音频样本成功地恢复了一名脑肿瘤患者的言语。
OpenAI本周有重大动作。它刚刚宣布与微软建立另一项合作伙伴关系,共同打造一款名为Stargate的基于人工智能的超级计算机。
据报道,该项目将耗资1000亿美元。
转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/77614.html