
基于深度学习算法的
卫星影像地物提取应用
神州控股-生态运营中心
蒋波涛

1.
为什么要对卫星影像进行分割
在神州控股智慧城市团队构建数字孪生城市的项目实践中,,CIM基础平台需要融合来自不同委办局提供的多源异构时空数据,,建设CIM基础数据库,,,,为智慧城市的“规、、建、、、、管、、、、服”应用提供数据和功能支撑。。作为CIM基础平台的核心部分,,,CIM基础数据库中矢量数据的生产、、更新和维护,,,往往需要很高的成本,,,,需要专门的测绘人员进行野外作业,,,以获取不同类型地物的空间位置和属性信息。。
为了更快获取地物最新的矢量数据,,我们可以对卫星影像进行“矢量化”处理,,即根据卫星影像的内容,,,手工标记出不同类型的对象,,,,但传统方法依赖人力判读,,,,需要耗费大量的人力、、物力和时间成本,,,,在判别质量上也无法维持整批数据95%以上的准确率,,极大地抵消了成本低廉的优势。。。。

随着深度学习技术的发展,,,,基于卷积神经网络(CNN)技术之上的各种像素级识别方法被陆续提出,,,,如FCN、、、、U-net等模型纷纷被用于地物的识别之中,,,从影像中直接获取不同类型的地物要素,,,对栅格数据直接实现矢量化,,,,这些方法极大地降低了地理信息数据的处理成本,,同时也不逊于人眼识别的准确性,,,逐渐成为地理信息行业的常规处理方法。。因此,,,探索基于深度学习算法的遥感影像语义分割方法,,,有助于高效低成本地获取矢量地理数据,,促进城市时空数据的更新。。。
2.
影像语义分割方法
卷积神经网络的工作原理是在图像上使用卷积层作为“滤波器”,,,每个“滤波器”都有不同的权重,,,,因此可以经过训练以识别图像的特定特征。。。。网络具有的过滤器越多,,,,或者网络越深,,,,它从图像中提取的特征就越多,,因此它可以学习的模式就越复杂,,,,以便为其最终的分类决策提供信息。。但这样的方式只是对图像整体的类型进行判别,,,在图像分割中,,,,我们需要的是对图像矩阵中的每一个像素进行分类判别,,,如下图所示,,,,需要对图像中的person、、、purse、、plants/grass、、sidewalk和building类型的像素填充进行一个语义级别的识别和分割,,,了解图像中的每个像素属于哪一种类型。。

为了实现这一点,,神经网络需要为每个可能的类标签提供了一个热编码的输出通道,,并通过在每个像素位置取 argmax 将这些输出转换为最大概率类型。。而实现这一目标的的棘手之处在于输出必须与输入图像对齐,,,,并且保留类区域的大小和位置。。。。同时神经网络还需要足够深,,,以便学习每个类的足够详细以便可以区分它们。。。
CNN网络可以进行特征识别和提取,,但难以满足以上要求,,,,而满足这些需求的最流行的架构之一是所谓的完全卷积网络(FCN),,,,FCN基于CNN的卷积技术,,,实现了“编码-解码”统一化,,,但FCN的问题是由于在缩减像素采样过程中丢失信息,,,,它会导致分割边界的分辨率效果较差。。此外,,,,FCN中的转置卷积操作的重叠输出可能会导致分割映射中出现不需要的棋盘状模式,,,,我们看到下图的示例,,,,在自行车的识别中,,,,在某些特征薄弱段出现了同一类型像素被识别为蜂窝状的情况,,,,显然这是不可接受的。。

U-net是在2015年的一篇论文中首次被提出,,,作为用于生物医学图像分割的FCN模型。。。。如论文的所述,,,“该架构由一个用于捕获上下文的收缩路径和一个能够实现精确定位的对称扩展路径组成,,”从而产生了一个如下所示的U形架构:

U-net体系结构特征图顶部的数字表示其通道数,,,我们可以看到,,,该网络涉及4个跳过连接——在上采样路径中每次转置卷积(或“上移卷积”)后,,,,生成的特征图将与下采样路径中的一个连接连接。。。此外,,,与基线 FCN 架构相比,,上采样路径中的特征映射具有更多的通道数,,,以便将更多的上下文信息传递到更高分辨率的层。。。
此外,,,U-net还通过为每个训练实例预先计算像素权重图,,,在分割边界处实现了更好的分辨率。。。用于计算映射的函数对沿分割边界的像素施加了更高的权重。。。然后将这些权重计入训练损失函数中,,以便为边界像素提供更高的优先级以进行正确分类,,,,从而避免了蜂窝状分割结果。。。
3.
基于U-net算法的影像分割实例
最后,,,,我们使用U-net模型来对Boston航空影像中的建筑物进行分割培训。。。。在模型中运行图像时,,,,它会输出一系列坐标,,,这些坐标定义了我们要查找的建筑物覆盖区的边界,,,,以及绘制这些覆盖区的蒙版。。。。
Boston航空图像数据集是一个城市建筑物检测的遥感图像数据集,,,包括高度密集的大都市金融区和居住村的各种城市景观,,,标记只有建筑和非建筑两种。。。。数据集由 360 张彩色(3 波段 RGB)正 射影像组成,,包括美国波士顿的城市住区,,其空间分辨率为 0.3 平方米,,训练面积为 337.5 平方公里,,,,验证面积为 22.5 平方公里,,测试面积为 405 平方公里。。。
本文使用了一台8CPU、、30GiB RAM和8GB GPU(Quadro M4000)的服务器对模型进行训练,,,平均每批次训练时长为5min左右,,下图四幅图像中,,,,第一幅是原始的卫星影像数据,,,,即一个湖边的社区,,,第2、、3、、、4是模型训练200次、、600次和1000次时对本幅卫星影像中建筑物的预测结果。。。。在1000次时Acc为0.9512,,IoU值为0.87,,,可以看出,,随着模型训练次数的增加,,对建筑物特征的提取更加细致,,,建筑物的轮廓愈加清晰,,,已经可以满足大部分卫星影像地物提取的要求。。

4.
结语
在神州控股数字孪生城市CIM基础数据库的建设过程中,,对于时空矢量数据快速获取的途径上,,,我们通过对深度学习算法的应用和培训,,,,已经实现了对遥感影像中的建筑物、、道路和绿地等对象的精确识别,,,可以获取更加丰富的矢量地物信息,,满足不同类型场景的数据需求。。。接下来,,,我们将会更加深入地研究深度学习算法在数据中台中的应用,,提升对图像数据的分类、、、、分割和识别的精度,,,丰富我们的智慧城市场景应用。。

