人工智能生成的艺术无处不在,但这仅仅是个开始。微软最近发布了一款名为 VALL-E 的新人工智能工具,它与 DALL-E 类似,但适用于语音。只需聆听三秒钟的音频,VALL-E 就可以复制任何声音。
如果这听起来很可怕,那是因为它确实如此。这还不是全部。根据AITopics 的说法,微软的新工具可以轻松匹配情绪和语气,这是许多语音 AI 工具都难以做到的。该团队使用大约 60,000 小时的英语语音数据对 VALL-E 进行了训练,它展示了情境学习能力,甚至可以复制从未听过的单词。
该报告称,VALL-E 能够进行基于提示的 TTS,遵循上下文,并且不需要预先设计的声学或任何结构工程来提供高质量的音频样本。基本上,这个新的 AI 工具非常令人印象深刻。VALL-E 所需要的只是听到大约三秒钟的任何声音,并且能够快速轻松地模仿(或复制)该声音。
GitHub 上有几个 来自该工具的音频示例,虽然有些听起来不错,但其他的并不是那么令人印象深刻并且具有机器人音调。但是当它工作时,它工作得很好。也就是说,这仍然是 VALL-E 的早期阶段,随着时间的推移,情况会变得更好。另外,如果团队使用更大的样本,它可能会更准确。
重要的是要注意 VALL-E 不向公众开放,至少现在还没有,所以我们都可以松一口气。如果确实发生这种情况,至少可以说,它无疑会带来一系列安全、社会和道德问题。虽然这项技术听起来确实令人印象深刻,但它也相当疯狂。
标签:
免责声明:本文由用户上传,如有侵权请联系删除!