google在pixel 6中,使用一种全新的技术,来计算自拍人像精确的alpha遮罩,目的是要改善人像模式的拍摄效果,在合成景深效果的时候,能够利用精确的alpha遮罩,来截取拍摄对象的轮廓,并且分离前景和背景。官方提到,这个技术让拥有各种发型的用户,使用人像模式自拍时,都能取得漂亮的照片。
图片去背(image matting)是一种截取精确alpha遮罩的程序,该遮罩可以将前景和背景物体分开,被广泛地应用在电影或是图像编辑中,以完成替换背景或是合成景深效果等视觉效果。在传统的图片分割技术中,图像会以二元的方法进行分割,每个像素皆属于前景或是背景。
研究人员解释,图片分割技术无法处理细致的场景,像是头发或是毛皮,除非替前景物体,估算每个像素透明值。而与分割遮罩不同,具有透明信息的alpha遮罩,可以保留发丝等级的细节,并且精确地标记出前景边界。
虽然目前深度学习技术,在图片去背方面有了明显的进展,但google提到,这项技术仍然存在许多挑战,像是生成准确基准真相alpha遮罩的方法,或是提高野外图像的泛化能力,甚至是在移动设备上,使用模型对高分辨率图像进行推理的障碍等。
pixel 6人像模式所使用的人像去背技术,则克服了这些挑战,google训练了一个由串行编码器和解码器模块,所组成的全卷积神经网络,来估计高品质的alpha遮罩。
研究人员使用mobilenetv3模型作为骨干,加上浅层解码器,将rgb图像以及粗糙的alpha遮罩作为输入,取得初步低分辨率经改善过的alpha遮罩。
接着则是通过串行浅层编码器和解码器模块,来处理高分辨率图像,以及上一步经改善过的alpha遮罩,研究人员解释,浅层编码器和解码器比mobilenetv3,更依赖低端的特征,能够利用高分辨率的结构特征,来预测每个像素最终的透明度数值。
全卷积神经网络能够细化初始前景alpha遮罩,并截取像是发丝等非常精细的细节,该神经网络架构,皆使用tensorflow lite,并可在pixel 6上高性能地运行。
当前多数的图片去背深度学习研究,都依赖人工注解每个像素以产生alpha遮罩,以分开前景和背景,这些遮罩由图像编辑工具或是绿幕生成,google提到,这个过程很无聊,也难以产生大型资料集,而且alpha遮罩也容易出现错误。
google则是使用容积截取系统light stage,来生成高品质的训练资料集,跟过去的资料集相比更加真实,另外,google还通过合成野外图像的alpha遮罩,来提高模型的泛化能力。