计算机视觉——经典语义分割模型(二)

姓名:雷含笑;学号:21021210745;学院:电子工程学院

【嵌牛导读】图像的语义分割是计算机视觉中重要的基本问题之一,其目标是对图像的每个像素点进行分类,将图像分割为若干个视觉上有意义的或感兴趣的区域,以利于后续的图像分析和视觉理解。近年来,深度卷积神经网络的出现,极大地推动了语义分割的发展。编解码结构是语义分割领域最为经典的网络结构,在解码器中使用多级特征融合的策略可以提升分割精度,针对基于编解码器结构的语义分割网络,实现在语义分割相关任务上的训练和测试。

【嵌牛鼻子】语义分割 计算机视觉

【嵌牛提问】语义分割有什么经典模型?

【嵌牛正文】

编码器-解码器是语义分割网络的常见结构[4],这样的结构可以通过编码解码复原图片上每一个像素点所属的类别。语义分割网络编码器的常用结构是成熟的特征提取网络,如VGGNet、MobileNet、ResNet。不同的语义分割经典网络甚至可以使用相同的特征提取网络,特征提取网络性能越好,相应的语义分割效果也会更好,区分语义分割网络的关键是解码器部分的结构。解码器的任务是从语义上将编码器学习到的较低分辨率的可判别特征投影到较高分辨率的像素空间。特征提取网络最重要的任务是得到图像中像素对应各个类的概率值,而对语义分割任务来说特征提取仅仅是全部工作的一部分,它不仅需要基于像素给出相应的分类结果,还需要在解码部分将特征提取网络在各个卷积层提取到的特征投影到像素空间。从输出来看,一般单纯的图像分类工作仅得到对图片中物体所属类的预测概率值即可,而语义分割输出的是按边缘划分出物体,并覆盖上其所属标签对应颜色的图片。

1.FCN模型

Jonathan Long等人于2015年首次提出全卷积神经网络(Fully Convolutional Neural Network, FCN) ,它以 Alexnet、VGGNet等分类网络为基础。FCN将传统CNN中的全连接层转化成一个个的卷积层。FCN将这3层表示为卷积层,所有的层都是卷积层,故称为全卷积网络。与传统用CNN进行图像分割的方法相比,FCN有两大明显的优点:一是可以接受任意大小的输入图像,而不用要求所有的训练图像和测试图像具有同样的尺寸。二是更加高效,因为避免了由于使用像素块而带来的重复存储和计算卷积的问题。


图1 FCN

2.U-Net模型

Olaf Ronneberger等人于2015年提出了U-Net,U-Net网络框架采用左右对称的U形字母结构,分别融合五个特征层,形成了一个梯形结构,其池化层被上采样层取代。U-Net在主干特征提取网络的部分,通过连续的四个下采样提取目标特征,再在加强特征提取网络部分通过四个上采样得到输出图像。U-Net的多级特征融合发生在加强特征提取网络部分,如图2所示。利用主干特征提取网络获得五个初步的有效特征层,在加强特征提取网络利用这五个初步的有效特征层进行特征融合,特征融合的方式就是对特征层进行上采样并且进行堆叠。


图2 U-Net网络架构

3.SegNet模型

2015年,Badrinarayanan等提出SegNet。它从主干模型中提取出经过多次卷积的特征层,然后进行上采样,得到最终的输出层,如图3所示。由于SegNet没有融合多级特征,在这里重点介绍它的网络架构。它的解码器使用了在相应编码器进行最大池化时计算的池化索引来执行非线性上采样,而经上采样后的特征图是稀疏的,随后使用可训练的卷积核进行卷积操作,生成密集的特征图,但会忽略临近像素的信息。


图3 SegNet网络架构

4.PspNet模型

2017年,Zhao等人提出了PspNet (Pyramid Scene Parsing Network,PspNet),它使用了残差网络ResNet作为编码器,空洞卷积作为卷积的基本方式。为了应对复杂的场景,语义分割网络通常需要利用整张图像的更多信息来提取出具有全局上下文信息的特征,从而提升网络的分割精度。而PspNet的创新点金字塔池化???PyramidPooling Module)是一项很大的突破。

PspNet进行多级特征融合使用的是特征提取部分输出的Feature Map和经过4种不同大小池化核得到的特征层。如图3.4所示,在初步的特征提取得到FeatureMap后通过池化层,通常使用全局平均池化,然后输入到金字塔池化??橹?,它会将输入进来的特征层划分成不同大小的区域,再对每个区域进行全局平均池化。对池化后的结果进行上采样之后与输入后的特征层进行堆叠。

图4 PspNet模型

5.DeepLab模型

Deeplab系列是Google团队提出的网络[8],Deeplab v3+的网络结构主要分为编码部分和解码部分。Deeplab v3+的网络结构如图5所示。它的特征融合方式较为复杂,在编码部分和解码部分都进行了特征层融合。在编码部分,原始的图像首先通过以深度卷积网络(Deep Convolutional Network,DCNN)为主干的特征提取网络提取特征信息,接着在空间金字塔池化部分使用不同空洞率的空洞卷积。在ASPP模块分别经过可以降维的1×1卷积、有空洞率为6、12、18的空洞卷积和平均池化,从而生成了多个特征层,再将它们在通道维度上进行融合生成高级特征层。在解码部分,将特征提取网络的低级特征层通过1×1卷积,再与经过1×1卷积和上采样的高级特征层融合,再经过3×3卷积和上采样,得到最终的输出端图像,上采样的方式是双线性插值。


图5 DeepLab v3+网络结构

本系列第二篇的全部内容结束了,介绍了当前主流的基于深度学习的语义分割方法,介绍了经典的的语义分割网络,包括FCN、U-Net、SegNet、PspNet和DeepLab。下面的几篇将继续展开介绍语义分割模型的评价手段和性能对比。

?著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,128评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,316评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事?!?“怎么了?”我有些...
    开封第一讲书人阅读 159,737评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,283评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,384评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,458评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,467评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,251评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,688评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,980评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,155评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,818评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,492评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,142评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,382评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,020评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,044评论 2 352

推荐阅读更多精彩内容