您现在的位置是:首页 > 动态 > 正文

Meta的新AI模型有助于高效翻译文本和语音

发布时间:2023-09-26 16:14:07编辑:章月桂来源:

Meta 推出了一种名为 SeamlessM4T 的新人工智能模型,旨在帮助用户更有效地跨不同语言翻译文本和语音。

该公司表示,SeamlessM4T 是第一个一体化多模式和多语言人工智能翻译模型。它可以识别近100种语言的语音,并将语音翻译为近100种输入和输出语言的文本。它还支持文本到文本翻译、文本到语音翻译,甚至语音到语音翻译。

Meta 正在通过研究许可证公开使用 SeamlessM4T,以便研究人员可以在现有工作的基础上进一步发展。

“构建一个通用语言翻译器,就像《银河系漫游指南》中虚构的巴别鱼一样,具有挑战性,因为现有的语音到语音和语音到文本系统仅覆盖世界语言的一小部分。但我们相信我们今天宣布的工作是这一旅程中向前迈出的重要一步,”Meta 指出。

它还表示,将该模型与其他使用单独模型的方法进行比较时,SeamlessM4T 的单一系统方法减少了错误和延迟,提高了翻译过程的效率和质量。这使得使用不同语言的人们能够更有效地相互交流。”

Meta也承认,这个模型的创建都是为了打造一个“万能翻译器”。而且,当前的模型从该公司最近的一些模型(例如“不遗余力”和“大规模多语言语音”)中汲取了灵感。

“未来,我们希望探索这一基础模型如何实现新的通信功能,最终让我们更接近一个每个人都能被理解的世界。”Meta 说。

在相关新闻中,Meta 最近还推出了 AudiCraft AI 工具,该工具允许用户使用基于文本的提示创建原始音轨。 该工具分为三个模型:AudioGen、MusicGen 和 EnCodec。AudioGen 根据公共音效根据文本提示生成音频,而 MusicGen 则执行相同的操作,但使用 Meta 授权的音乐。EnCodec 解码器可以用更少的伪影生成更高质量的音乐。

标签:

上一篇
下一篇