人工智能 频道

Meta 发布可翻译 200 多种语言的 AI 模型

如果您曾经目睹过 Facebook 在翻译不同语言的内容时有时会编造的怪异词炖,那么您就会看到翻译技术并不总是能达到目标。这可能很快就会改变,尤其是对于不太常见的语言。

Meta发布了一个能够翻译 202 种不同语言的开源 AI 模型。该模型被称为 NLLB-200,以该公司的“不让语言落后”倡议命名。Meta 表示,它将通过其技术将翻译质量平均提高 44%,其中一些非洲和印度语言的翻译质量将跃升至 70%,正如其BLEU基准分数所示。

No Language Left behind的努力源于缺乏高质量的翻译工具,这些工具被自然语言研究人员称为低资源语言,或者几乎没有数据可用于训练语言模型的语言。如果没有适当的翻译手段,这些语言的使用者(通常在非洲和亚洲)可能无法充分参与在线交流或使用他们首选或母语的内容。Meta 的计划旨在改变这一点。

此图显示了 Lingala 和瑞典语之间可用的 Wikipedia 文章中的差异。

“语言是包容的关键。如果你不理解人们在说什么或写什么,你可能会被抛在后面,”Meta AI 的研究工程师让·梅拉德在一段视频中说。

据 Meta 称,该模型支持 55 种非洲语言并提供高质量的结果,而其他流行的翻译工具只能促进不到 25 种。为了改进 NLLB-200 模型并确认翻译质量,Meta 构建了一个评估数据集,称为FLORES-200 允许评估模型在 40,000 种不同语言方向上的性能。

该公司现在共享 NLLB-200 和 FLORES-200 以及模型训练代码和用于重现训练数据集的代码。Meta 还向非营利组织和研究人员提供高达 200,000 美元的赠款,用于其所谓的 NLLB-200 的有效使用,或与可持续性、粮食安全、基于性别的暴力或教育相关的项目。该公司特别鼓励专注于翻译两种或多种非洲语言的非营利组织以及语言学、机器翻译和语言技术方面的研究人员申请资助。

Meta 对自己使用语言模型有崇高的目标。NLLB-200 将支持每天在 Facebook、Instagram 和公司维护的其他平台上使用的超过 250 亿次翻译。该公司声称,为更多语言提供更高准确性的翻译可能有助于发现有害内容或错误信息,保护选举完整性,并阻止在线性剥削和人口贩运。

此外,Meta 已开始与 Wikimedia Foundation 合作,通过使用 NLLB-200 作为其后端内容翻译工具来改进 Wikipedia 上的翻译。对于主要在欧洲和北美以外使用的语言,可用的文章远远少于超过 600 万篇英语条目或 250 万篇瑞典语条目。举例来说,对于 4500 万林加拉语的使用者来说,林加拉语是一种在包括刚果民主共和国在内的几个非洲国家使用的语言,他们的母语只有 3,260 篇维基百科文章。

“这将改变人们的生活方式……他们做生意的方式,他们受教育的方式。Meta AI 的用户研究员 Al Youngblood 在一段视频中说,没有一种语言能真正将这一使命作为我们作为人所做工作的核心。

NLLB-200 的最终生态系统,包括其创建过程中使用的所有数据集和建模技术。

与大多数 AI 项目一样,NLLB-200 也面临着挑战。人工智能模型是用大量数据训练的,“对于文本翻译系统,这通常包括数百万个在语言之间仔细匹配的句子。但在英语和弗拉语中根本没有大量的平行句子,”该公司指出。

研究人员无法通过从网络上挖掘数据来克服这一问题,因为在某些情况下所需的数据甚至可能不存在,并可能导致不准确。相反,Meta 将现有的 NLP 工具包 LASER 升级为新版本。LASER3 多语言嵌入方法“使用了一个 Transformer 模型,该模型以自我监督的方式训练,并带有掩码语言建模目标。我们通过使用师生培训程序和创建特定语言组的编码器进一步提高了性能,这使我们能够扩展 LASER3 的语言覆盖范围并生成大量句子对,即使是低资源语言也是如此。” LASER3 及其数十亿不同语言对的平行句子现在也作为开源工具提供。

Meta 表示,优化单个模型以在数百种语言中有效且准确地工作也是一项需要独创性的重大挑战。翻译模型可能会产生难以追踪的错误,例如错误陈述、不安全的内容和“幻觉”,或者可能会完全改变训练数据含义的故障。

“我们彻底改造了我们的数据清理管道以扩展到 200 种语言,增加了主要的过滤步骤,包括首先使用我们的 LID-200 模型过滤数据并以高置信度从互联网规模的语料库中去除噪音。我们为全套 200 种语言开发了毒性列表,然后使用这些列表来评估和过滤潜在的幻觉毒性,”该公司表示。“这些步骤确保我们拥有正确识别语言的更清洁、毒性更低的数据集。这对于提高翻译质量和降低所谓的幻觉毒性(即系统在翻译过程中错误地引入有毒内容)的风险非常重要。”

翻译:卢敏


0
相关文章