amazon百亿参数模型小样本学习胜过gpt-金沙软件免费下载

amazon以新范式改善alexa人工智能,模型只需最少的人工输入,就能将知识在不同语言中转移,官方提到,这样的模型有效提高新功能的开发速度,并且能够同时在多种语言上改进alexa。当前人工智能的主要进步都来自监督式学习,也就是使用带注解的资料训练模型,但amazon提到,随着商业人工智能规模不断扩大,依赖注解的方法变得不可行。

为了解决这个问题,amazon发展出了新方法,引入基于transformer的大规模多语言模型alexatm(alexa teacher models),只需要给几个任务提示,alexatm就能够将已知的知识,从一个语言转移到另一个新语言,而这过程不需要额外的人工监督。

仅有200亿参数的alexatm 20b,在多种语言任务上优于拥有数千亿参数的大型模型。alexatm 20b不仅可以跨语言迁移所学知识,还可以从小样本中学习新任务,官方提到,他们的研究是受到openai gpt-3模型的启发,但是相较于其他唯解码器架构的大型语言模型,alexatm 20b采用串行到串行(seq2seq)的编码器-解码器架构。

alexatm 20b在翻译和文本摘要的效果优于gpt-3,同时也支持更多的语言,包括阿拉伯语、英语、法语、泰米尔语和泰卢固语等。而且因为alexatm 20b的参数数量较少,且amazon对训练引擎的改进,因此alexatm 20b在训练期间的碳足迹,只有gpt-3的五分之一。

不只如此,在给定单个文章摘要的情况下,alexatm 20b可以比拥有5,400亿参数的palm 540b模型,生成更高品质的英语、德语和西班牙语摘要。

而在flores-101资料集上,alexatm 20b的小样本机器翻译,几乎大胜所有语言模型,特别是在马拉地语、泰米尔语和泰卢固语等低资源语言间翻译的效果更好。官方提到,这表示他们大规模seq2seq方式的预训练,可以提高低资源语言的机器翻译品质,与需要平行翻译资料进行训练的多对多机器翻译系统相比,从不同语言进行翻译对alexatm 20b可说是毫无难度。

alexatm 20b是目前最大的多语言seq2seq模型,能够进行小样本学习,amazon现在对外发布,限用于非商业用途,以促进开发和评估多语言大型语言模型。

而amazon经过分析,发现alexatm 20b与其他大型语言模型一样,产生的内容可能包含来自训练资料中的有毒语言、社会偏见和刻板印象,因此官方提醒用户,需对该模型的使用进行完整的公平和偏见分析,以充分了解可能产生的危害。

发表评论