U-Net:用于生物医学图像分割的卷积网络
??大量同意深度网络的成功培训需要数千个带注释的训练样本。在本文中,我们提出了一种网络和培训策略,它依赖于强烈使用数据扩充来更有效地使用可用的注释样本。该体系结构包括捕获上下文的收缩路径和实现精确定位的对称扩展路径。我们表明,这种网络可以从非常少的图像端到端地进行训练,并且优于ISBI挑战中的先前最佳方法(滑动窗口卷积网络),用于电子显微镜堆叠中的神经元结构的分割。使用在透射光显微镜图像(相位对比度和DIC)上训练的相同网络,我们在这些类别中大幅度地赢得了2015年ISBI细胞追踪挑战。而且,网络速度很快。在最近的GPU上,512x512图像的分割不到一秒钟。完整的实施(基于Caffe)和经过培训的网络可在http://lmb.informatik.uni-freiburg.de/people/ronneber/u-net上获得。
??在过去两年中,深度卷积网络在许多视觉识别任务中表现优于现有技术,例如, [7,3]。虽然卷积网络已经存在了很长时间[8],但由于可用训练集的大小和所考虑网络的规模,它们的成功受到限制。 Krizhevsky等人的突破。 [7]是由于对ImageNet数据集上有8层和数百万个参数的大型网络的监督培训,其中包含100万个训练图像。从那时起,即使是更大更深的网络也经过了培训[12]。卷积网络的典型用途是分类任务,其中图像的输出是单个类别标签。然而,在许多视觉任务中,尤其是在生物医学图像处理中,期望的输出应该包括定位,即,应该将类标签分配给每个像素。此外,生物医学任务中通常无法获得数千张训练图像。因此,Ciresan等人。 [1]在滑动窗口设置中训练网络,通过在该像素周围提供局部区域(补片)作为输入来预测每个像素的类标签。首先,这个网络可以本地化。其次,补丁方面的训练数据远远大于训练图像的数量。由此产生的网络在ISBI 2012上大幅提升了EM分段挑战。
??显然,Ciresan等人的策略。 [1]有两个缺点。首先,它非常慢,因为必须为每个补丁单独运行网络,并且由于补丁重叠而存在大量冗余。其次,在本地化准确性和上下文的使用之间存在权衡。较大的补丁需要更多的最大池层来降低定位精度,而小补丁则允许网络只能看到很少的上下文。最近的方法[11,4]提出了一种分类器输出,其考虑了来自多个层的特征。良好的本地化和上下文的使用是可能的。
??在本文中,我们建立了一个更优雅的架构,即所谓的“完全卷积网络”[9]。我们对这种架构进行了修改和扩展,使得它只需很少的训练图像就可以进行更精确的分割;参见图1. [9]中的主要思想是通过连续层补充通常的合同网络,其中池化运算符由上采样运算符替换。因此,这些层增加了输出的分辨率。为了进行本地化,来自收缩路径的高分辨率特征与上采样输出相结合。然后,连续卷积层可以学习基于该信息组装更精确的输出。
图1. U-net架构(最低分辨率为32x32像素的示例)。 每个蓝色框对应于多通道特征图。 通道数在框顶部表示。 x-y尺寸提供在盒子的左下边缘。 白框表示复制的要素图。 箭头表示不同的操作。
??我们的架构中的一个重要修改是在上采样部分中我们还有大量的特征通道,这些通道允许网络将上下文信息传播到更高分辨率的层。因此,扩展路径或多或少地与收缩路径对称,并产生U形结构。网络没有任何完全连接的层,并且仅使用每个卷积的有效部分,即,分割图仅包含在输入图像中可获得完整上下文的像素。该策略允许通过重叠区块策略无缝分割任意大的图像(参见图2)。为了预测图像边界区域中的像素,通过镜像输入图像来外推缺失的上下文。这种平铺策略对于将网络应用于大图像很重要,否则分辨率将受到GPU内存的限制。
图2.用于任意大图像的无缝分割的重叠平铺策略(这里是EM堆栈中神经元结构的分割)。 预测黄色区域中的分割,需要蓝色区域内的图像数据作为输入。 通过镜像推断缺少输入数据
??至于我们的任务,可用的训练数据非常少,我们通过对可用的训练图像应用弹性变形来使用过多的数据增强。这允许网络学习这种变形的不变性,而不需要在带注释的图像语料库中看到这些变换。这在生物医学分割中尤其重要,因为变形曾经是组织中最常见的变化,并且可以有效地模拟真实的变形。 Dosovitskiy等人已经证明了学习不变性的数据增加的价值。 [2]在无监督特征学习的范围内。
??许多细胞分割任务中的另一个挑战是分离同一类的触摸物体;为此,我们建议使用加权损失,其中触摸单元之间的分离背景标签在损失函数中获得大的权重。
??由此产生的网络适用于各种生物医学分割问题。在本文中,我们展示了EM堆栈中神经元结构分段的结果(ISBI 2012开始的持续竞争),我们在那里超越了Ciresan等人的网络。 [1]。此外,我们在2015年ISBI细胞追踪挑战的光学显微镜图像中显示了细胞分割的结果。在这里,我们在两个最具挑战性的2D透射光数据集上获得了巨大的优势。
??网络架构如图1所示。它由一个收缩路径(左侧)和一个扩展路径(右侧)组成。签约路径遵循卷积网络的典型架构。它包括重复应用两个3x3卷积(无衬垫卷积),每个卷积后跟一个整流线性单元(ReLU)和一个2x2最大汇集操作,步长2用于下采样。在每个下采样步骤中,我们将特征通道的数量加倍。扩展路径中的每一步都包括对特征映射进行上采样,然后进行2x2卷积(“向上卷积”),将特征通道数量减半,与来自收缩路径的相应裁剪特征映射串联,以及两个3x3卷积,每个都是ReLU。由于每个卷积中边界像素的丢失,裁剪是必要的。在最后一层,使用1x1卷积将每个64分量特征向量映射到所需数量的类。总的来说,网络有23个卷积层。
??为了实现输出分割图的无缝平铺(参见图2),选择输入切片大小非常重要,这样所有2x2最大池操作都应用于具有偶数x和y大小的层。