amazon本周发布名为massive的资料集,供开发商训练能理解多种语言的数字助理使用的ai模型。
到2023年全球将因智能手机的普及而有80多亿个ai虚拟助理,还有超过1亿台智能音箱。然而大部分虚拟助理都仅能使用1种或仅数种主流语言。此外这些数字助理的训练还面临标注资料不足、去除资料讹误、维护和更新模型的成本等问题,进一步限制了数字助理的口语翻译的能力。
大量多语自然语言理解(massively multilingual natural-language understanding,mmnlu)模型即希望解决这个问题。amazon alexa ai自然语言理解部门科学家jack fitzgerald指出,这愿景下,单一机器学习模型能分析和理解多种语言。通过学习跨语言的共享资料展现(data representation),这个模型可以从有很丰富训练资料的主流语言学习到的知识,转移到资料很稀少的语言上。
为推动mmnlu模型创建,amazon宣布发布massive资料集。massive资料集包含跨51种语言加注过的100万项话语或单词(utterance)及开源程序代码。资料集包括训练、验证和测试资料,后者则提供mmnlu模型的执行范例,协助ai项目人员创建意图分类(intent classification)或词槽填充(slot filling)的结果基准线(baseline)。
massive为平行资料集,意味每个单词都有51种语言版本,这可让模型学习到同一意图的共享表达方式,可加速自然语言理解(nlp)任务的跨语言训练,也能用于其他nlp任务,如机器翻译、多语复述(multilingual paraphrasing)等等。massive通过cc by 4.0授权开源,以鼓励学界及业界使用。
amazon同时还宣布mmnlu-22竞赛(massively multilingual nlu 2022),鼓励开发人员利用massive资料集创建模型。