姓名:雷含笑;学号:21021210745;学院:电子工程学院
【嵌牛导读】图像的语义分割是计算机视觉中重要的基本问题之一,其目标是对图像的每个像素点进行分类,将图像分割为若干个视觉上有意义的或感兴趣的区域,以利于后续的图像分析和视觉理解。近年来,深度卷积神经网络的出现,极大地推动了语义分割的发展。编解码结构是语义分割领域最为经典的网络结构,在解码器中使用多级特征融合的策略可以提升分割精度,针对基于编解码器结构的语义分割网络,实现在语义分割相关任务上的训练和测试。
【嵌牛鼻子】语义分割 计算机视觉
【嵌牛提问】语义分割有什么经典模型?
【嵌牛正文】
编码器-解码器是语义分割网络的常见结构[4],这样的结构可以通过编码解码复原图片上每一个像素点所属的类别。语义分割网络编码器的常用结构是成熟的特征提取网络,如VGGNet、MobileNet、ResNet。不同的语义分割经典网络甚至可以使用相同的特征提取网络,特征提取网络性能越好,相应的语义分割效果也会更好,区分语义分割网络的关键是解码器部分的结构。解码器的任务是从语义上将编码器学习到的较低分辨率的可判别特征投影到较高分辨率的像素空间。特征提取网络最重要的任务是得到图像中像素对应各个类的概率值,而对语义分割任务来说特征提取仅仅是全部工作的一部分,它不仅需要基于像素给出相应的分类结果,还需要在解码部分将特征提取网络在各个卷积层提取到的特征投影到像素空间。从输出来看,一般单纯的图像分类工作仅得到对图片中物体所属类的预测概率值即可,而语义分割输出的是按边缘划分出物体,并覆盖上其所属标签对应颜色的图片。
1.FCN模型
Jonathan Long等人于2015年首次提出全卷积神经网络(Fully Convolutional Neural Network, FCN) ,它以 Alexnet、VGGNet等分类网络为基础。FCN将传统CNN中的全连接层转化成一个个的卷积层。FCN将这3层表示为卷积层,所有的层都是卷积层,故称为全卷积网络。与传统用CNN进行图像分割的方法相比,FCN有两大明显的优点:一是可以接受任意大小的输入图像,而不用要求所有的训练图像和测试图像具有同样的尺寸。二是更加高效,因为避免了由于使用像素块而带来的重复存储和计算卷积的问题。
2.U-Net模型
Olaf Ronneberger等人于2015年提出了U-Net,U-Net网络框架采用左右对称的U形字母结构,分别融合五个特征层,形成了一个梯形结构,其池化层被上采样层取代。U-Net在主干特征提取网络的部分,通过连续的四个下采样提取目标特征,再在加强特征提取网络部分通过四个上采样得到输出图像。U-Net的多级特征融合发生在加强特征提取网络部分,如图2所示。利用主干特征提取网络获得五个初步的有效特征层,在加强特征提取网络利用这五个初步的有效特征层进行特征融合,特征融合的方式就是对特征层进行上采样并且进行堆叠。
3.SegNet模型
2015年,Badrinarayanan等提出SegNet。它从主干模型中提取出经过多次卷积的特征层,然后进行上采样,得到最终的输出层,如图3所示。由于SegNet没有融合多级特征,在这里重点介绍它的网络架构。它的解码器使用了在相应编码器进行最大池化时计算的池化索引来执行非线性上采样,而经上采样后的特征图是稀疏的,随后使用可训练的卷积核进行卷积操作,生成密集的特征图,但会忽略临近像素的信息。
4.PspNet模型
2017年,Zhao等人提出了PspNet (Pyramid Scene Parsing Network,PspNet),它使用了残差网络ResNet作为编码器,空洞卷积作为卷积的基本方式。为了应对复杂的场景,语义分割网络通常需要利用整张图像的更多信息来提取出具有全局上下文信息的特征,从而提升网络的分割精度。而PspNet的创新点金字塔池化???PyramidPooling Module)是一项很大的突破。
PspNet进行多级特征融合使用的是特征提取部分输出的Feature Map和经过4种不同大小池化核得到的特征层。如图3.4所示,在初步的特征提取得到FeatureMap后通过池化层,通常使用全局平均池化,然后输入到金字塔池化??橹?,它会将输入进来的特征层划分成不同大小的区域,再对每个区域进行全局平均池化。对池化后的结果进行上采样之后与输入后的特征层进行堆叠。
5.DeepLab模型
Deeplab系列是Google团队提出的网络[8],Deeplab v3+的网络结构主要分为编码部分和解码部分。Deeplab v3+的网络结构如图5所示。它的特征融合方式较为复杂,在编码部分和解码部分都进行了特征层融合。在编码部分,原始的图像首先通过以深度卷积网络(Deep Convolutional Network,DCNN)为主干的特征提取网络提取特征信息,接着在空间金字塔池化部分使用不同空洞率的空洞卷积。在ASPP模块分别经过可以降维的1×1卷积、有空洞率为6、12、18的空洞卷积和平均池化,从而生成了多个特征层,再将它们在通道维度上进行融合生成高级特征层。在解码部分,将特征提取网络的低级特征层通过1×1卷积,再与经过1×1卷积和上采样的高级特征层融合,再经过3×3卷积和上采样,得到最终的输出端图像,上采样的方式是双线性插值。
本系列第二篇的全部内容结束了,介绍了当前主流的基于深度学习的语义分割方法,介绍了经典的的语义分割网络,包括FCN、U-Net、SegNet、PspNet和DeepLab。下面的几篇将继续展开介绍语义分割模型的评价手段和性能对比。