您所在位置 > 首页 > 头条

全球快报:基于深度学习的图像抠图领域应用及挑战

时间:2023-04-20 14:11:31来源:3D视觉工坊

<图像抠图是一个计算机视觉领域内的基础任务，旨在获取任意图像中的精细前景。对于需要精细细节的前景类别尤为关键，例如人像，动物，或者植物。图像抠图在很多的下游任务中充当着不可或缺的角色，包括电商网站的广告宣传，日常生活娱乐中的图像编辑，视频会议中的替换背景，或者虚拟现实，游戏等一些元宇宙应用。传统的研究方法因局限于底层色彩结构，且对人类辅助输入信息非常敏感，从而在复杂背景中无法得到优秀的抠图结果。近年来，基于深度学习的解决方案涌现，利用神经网络优秀的特征提取能力取得了非常优秀的抠图结果，随之诞生的还有多种新方向，诸如全自动抠图，人机交互式抠图，语言引导抠图等等。本综述首次系统性的概述了深度学习驱动下的图像抠图研究进展，涵盖了自深度学习时代以来（8年时间跨度）各类图像抠图算法及应用的研究进展。我们将主流的算法划分为两类，即基于人工辅助信息的抠图和全自动图像抠图研究。

在每个类别中，我们对相关的任务设定，网络模型，突出贡献，优势和局限性都进行了充分的论述。另外，本文还整合了包括合成图像和真实图像在内的诸多图像抠图数据集，并在典型的数据集上对具有代表性的诸多方法进行了系统的实验和主客观结果评估。最后，我们介绍了整个基于深度学习的图像抠图领域的相关应用，讨论了目前存在的挑战以及未来可能的研究方向。

【资料图】

一、图像抠图介绍

作为一个自从电影制作产业初期就出现的问题，图像抠图已经被学者们用传统方法研究了几十年，主流的方法有两种，基于色彩采样和相似度矩阵。然而，传统方法局限于底层色彩特征，且对人类辅助输入信息非常敏感，从而在复杂背景中无法得到优秀的抠图结果。自深度学习出现之后，研究者设计出了多种多样的基于卷积神经网络的解决方案。和传统方法一样，早期的深度学习方法依然需要依赖一定量的人工辅助信息，例如三分图（trimap），涂抹（scribble），背景图像等等，粗糙的初始分割等等。近年来，更多灵活多样的人工辅助信息被探索，例如用户点击和语言引导。在下图中，我们展现了一些常见的人工辅助信息的样例。

图1. 图像

抠图输入，预测结果和一些人工辅助信息的展示，例如三分图，背景，粗糙分割，用户点击，用户涂抹等等。该图中的语言输入可以为：图像中间的可爱的微笑的小狗。同时，为了使得图像抠图能被快速应用于工业场景，全自动抠图也在近年内被提出。这些方法可以直接从图像中预测出最终的结果，不需要任何额外的人工辅助信息。但是，因为受训练数据集的数据分布的影响，它们倾向于得到图中全部显著性的前景。

为了促进深度学习方法的研究，近年来被研究者构建了大量的相关数据集，包括合成数据集和真实数据集。本文对相关的研究算法和训练与测试数据集做了详尽的介绍。同时，我们总结了深度学习时代相关算法的时间轴，列图如下，可以看出近年来该领域的研究热度不断增加。

图2. 基于深度学习的图像抠图方法时间轴

图3. 基于深度学习的图像抠图方法总结表，包括出版刊物，输入模态，是否自动化，抠图目标，网络结构，训练数据集和测试数据集等。

二、具体研究进展及讨论

鉴于图像抠图任务是一个未知参数很多的病态问题，使用用户辅助信息作为输入是非常常见的解决方法。从传统时代开始，一张定义了指定前景，背景，和未知区域的三分图（trimap）就被广泛使用，随之一起出现的是指定前景背景的用户涂抹图像（scribble）。到了深度学习时代，多种多样的下游任务催生出了更多类型的用户辅助信息，诸如背景图，粗糙的二元分割图，用户交互式点击，语言引导等等。这些方法的网络结构设计大致可分为三类，如图4所示：1）单阶段网络；2）单阶段网络，附加边缘模块用以提取辅助信息中更多的图像特征；3）双分支或多分支网络，用以分别处理图像和辅助信息，并一起经过融合网络以得到最终输出。

这些方法每一项都弥补了前序方法的不足，对辅助信息进行了更输入的挖掘和信息提炼，以得到更优秀的抠图结果。然而，此类方法依然存在两个问题。首先他们依然依赖于不同程度的人力，使得在实用场景的自动化应用有些困难。第二点是这些方法很多依然对辅助信息非常敏感，比如三分图的未知区域大小，用户交互点击的密度等等。因此研发更鲁棒的方法既是一个挑战也是一个非常有前景的研究方向。更多详情可见文章第三章。

图4. 基于深度学习和辅助信息的图像抠图方法框架分类图。（a）单阶段网络。（b）带有边缘模块的单阶段网络。

（3）双分支或者多分支网络。

为了克服基于辅助信息的图像抠图方法的局限性，近年来，全自动抠图也成为了研究热点。这些方法旨在不经过任何人工参与的情况下，直接预测出图中的细致前景。根据网络结构的设计也可以大体分为三类，如图5所示：1）单阶段网络并利用旁支的全局模块引导图像高层的语意信息；2）两阶段网络来首先预测辅助信息，再设计基于辅助信息的第二阶段网络；3）用共享的编码网络获取不同层次的图像信息，通过多分支的解码网络分别预测高层语意和低层细节，并通过硬融合得到最终的结果。这一类方法由于没有任何额外信息的引导，非常容易受到训练数据集的影响。因此大部分方法局限于某些特定的抠图目标，比如人像，动物，透明物体等等。

近年来，也有方法探索通过将通用物体分为三类，即显著性闭合前景，显著性透明或细致前景，以及非显著前景，并用同一个网络进行全种类抠图。全自动抠图方法因为不需要任何人工的干预，在工业界得到了广泛的实用。然而，此类研究依然存在一些挑战，例如如何提高方法的泛化性，尤其在训练数据集中未见到的图像上得到很好的效果，或者如何在保有高质量抠图结果的同时提高运算效率，减小模型大小。更多详情可见文章第四章。

图5. 基于深度学习的全自动图像抠图方法框架分类图。（a）基于全局引导信息的单阶段网络。（b）两阶段网络。（c）共享编码器的双分支网络。作为深度学习方法不可或缺的驱动力，构建大型数据集非常关键。因此，本文对于抠图领域内近年来涌现的数据集做了统一的介绍和比较，包括早期的合成图像数据集和最近的真实图像数据集。如图6所示，我们对现有数据集按照输入模态，标签类型，抠图目标，平均尺寸，标注方法，训练集和测试集的数目，是否公开，进行了归类整理和对比。详情可参见文章第五章。

图6. 图像抠图数据集比较，包括出版刊物，模态，标签类型，是否是自然图像，抠图目标，平均尺寸，标注方式，训练数据量，测试数据量，是否公开等等。

三、评测基准

在这一节里，我们详细介绍了整个抠图领域内深度学习算法常用的损失函数，评价标准，预处理方式和训练技巧。对于基于辅助信息的方法和全自动方法，我们分别在两类常用的数据集上对具有代表性的算法进行了详尽的比较。包括主观客观结果比较，方法的模型惨数量，复杂度，以及处理512x512分辨率的图像的推理时间。我们在同种设定下进行了大量的实验以公正的评测目前的深度学习方法与早先的传统算法。相关客观指标结果如图7所示。为了给读者一个对于目前主流方法结果直观的感受，我们在图8展示了一些实际结果例子。

图7. 图像抠图算法的客观指标结果

图8. 图像抠图算法主观对比图

四、挑战与展望

图像抠图，作为一个基础的图像底层算法，在诸多的下游任务中都有非常广泛的应用，包括视觉感知能力例如物体检测，语义分割，障碍物去除，图像编辑应用例如图像合成，图像补全，图像风格转换，视频处理应用例如视频特效关联，浅景深合成，视频抠图，多模态和3D应用例如遥感，3D图像渲染等等。这些年来，图像抠图领域迅速的崛起与发展也带来了很多挑战与新的研究机会。我们在这里做一个简要的讨论，更多详情请见文章第八章。

1、更精确的评价指标

现有的评价指标可以从客观上表示预测结果和标签之间的相似度，然而如何更加精确的反应人类对于预测结果的主观评价是一个困难的问题。例如SAD可以评价出全图或者未知区域的相似度，但是对于人类主观关注的区域，比如头发，耳环，或者眼镜框等等却无法进行精确的评估。一个可能的解决方案是利用基于结构相似性的度量，例如SSIM，来对细节信息进行更精确的评估。

2、更轻量级的模型设计

鉴于图像抠图会在实时的全自动化工业领域内有广泛的应用，如何设计一个轻量级的模型并保有精确的预测结果是一个长久而充满潜力的研究方向。一些有效的策略包括降维处理，特征复用，剪枝操作，或者混合分辨率结构。

3、多模态抠图

将图像抠图领域与多模态领域进行融合可以进一步扩展图像抠图的适用范围。已经有的研究将抠图和人类语言输入进行结合，预测出符合人类描述的指定前景。更多的输入模态可以包括，语音指令，目光注视点，以及3D的可渲染光线神经场模型。

4、扩散模型

近期，扩散模型已经在图像生成领域表现出了优秀的潜力。大语言模型和跨模态预训练的显著进展为扩散模型的多模态应用提供了极速发展的动力，使得从空白画板生成并编辑高质量的图像成为了可能性。这也为图像抠图领域带来了一个开放性的问题：在扩散模型的新时代里，图像抠图领域会有怎样的走向，会是一个方向的终结，还是一个崭新的开端。

五、总结

我们提供了一份深度学习驱动的图像抠图领域的综述，涵盖了该领域详尽的背景介绍，基于辅助信息的方法概述，全自动化的方法概述，数据集的整理和比较，公开的基准测试以及未来的研究方向。为了展示图像抠图领域内清晰的发展脉络和未来趋势，我们对现有方法做了精细的分类和深入的探讨。此外，我们将长期维护一个开放的github仓库来定期更新最新的工作进展和数据集

编辑：黄飞