google brain发布了最新图像生成人工智能研究,提出一种称为imagen的人工智能系统,可通过解析用户的文本输入,创建出写实的图像,与当前其他先进的图像生成算法,诸如vq-gan、ldm和dall-e 2比较,人类皆倾向觉得imagen所产生的图像更真实,也更符合输入的文本叙述。
imagen为文本生成图像扩散模型(diffusion model),能够深度理解文本的意义,并且输出如照片写实的图像。imagen创建在大型transformer语言模型之上,因此拥有强大的文本理解能力,并且依赖扩散模型生成高传真图像。
研究人员提到,他们发现像是t5这类,经过纯文本语料库预训练过的通用大型语言模型,在图像合成的文本编码上非常有效。借由增加imagen中语言模型的大小,就可以提高样本真实度,以及图像与文本描述的一致性,比起增加扩散模型大小还有效。
imagen虽然没有在coco(microsoft common objects in context)资料集中训练过,但可获得目前最低的7.27 fid分数(越低越好),而且人类评估者也发现,在图像和文本一致性上,imagen样本与coco资料集相当。
google还利用drawbench基准测试,来进一步评估imagen文本生成图像的能力,drawbench是一个在文本生成图像领域,更全面也更具挑战性的基准测试。借由将imagen与vq-gan、ldm和dall-e 2算法一起,进行空间关系、长篇文本和罕用字等系统性测试,并由人工评估算法的图像与文本一致性,还有图像的真实性。
由下图可见,无论是在图像与文本的一致性(alignment),还是图像真实性(fidelity),人类普遍认为imagen表现的比vq-gan、ldm与dall-e 2更好。
google暂不对外开放imagen,并把未来工作放在解决开放的挑战与限制上,研究人员提到,虽然他们已经过滤了训练资料集,并且采用不当内容laion-400m资料集,来避免模型产生有害的内容,但是因为imagen依赖使用未经过滤的网络资料,所训练出来的文本编码器,因此imagen仍可能存在一些有害刻板印象。
另外,当前人们对于图像生成文本,以及图像标记模型做了大量的审查工作,以避免产生社会偏见,但是文本到图像模型的社会偏见评估工作相对较少,google研究人员经过内部评估,已发现imagen存在一些社会和文化偏见,像是整体来说,图像人物的肤色差浅,对职业的描绘,也更倾向西方性别刻板印象。
因此即便imagen的能力强大,但目前google仍不打算开源imagen的程序代码,也不提供公开展示,原因在于文本生成图像模型的下游应用非常多样,且可能以复杂的形式影响社会,考虑到潜在的风险,google暂不对外开放imagen,直到开发人员创建起负责任的外部框架,来平衡无限制开放所带来的风险。