2020「水下目标检测算法赛」赛题解析——声学图像

雷锋网 • 5年前扫码分享

当下，由于水下恶劣危险的环境，海洋产业在发展中面临着迫切的产业智能化升级需求。为了解决该类问题，将光学技术、声学技术和 AI 算法更好的融入到海洋产业中，近期，一场由国家自然基金委、鹏城实验室和湛江市人民政府联合主办的线上比赛「水下目标检测算法赛」拉开了帷幕。

声学图像在水下目标检测中探程远、实用性强，针对「声学图像目标检测」赛项，鹏城实验室专门开设了 2 期在线直播课程，先后请到上海达华测绘有限公司专家李太春老师和河海大学、水下信息感知技术研究中心副主任霍冠英老师，为参赛者和算法爱好人士提供深入浅出的专业讲座。

课程内容涵盖面广、知识干货丰富，其中重点讲解了声纳硬件与图像组成、声纳图像分类、声纳图像检测具体算法等技术，并从解读了海洋产业的发展与前景，现雷锋网将课程内容整理如下，并附上课程回放地址。

《2020「水下目标检测算法赛」——声纳设备及其图像判读应用》：

https://www.mooc.ai/open/course/760

《2020「水下目标检测算法赛」 ——水下声纳图像目标识别研究》：

https://www.mooc.ai/open/course/774

声纳概述与技术分类

在海水中，由于介质的改变，光波和无线电波衰减严重，传播距离十分有限。而声波在水中的传播性能要好得多，可以覆盖更广阔的海洋领域，这也使得声纳图像通常可以更好的用于海洋探测及产业中。

声纳本身是英文 sonar 一词的音译，而 sonar 则是 sound navigation and ranging 的字头组成，意思是声学导航与测距。因此，声纳的也是利用声波对水下物体进行探测和定位识别，而海洋声纳技术即用于对海洋物理参数与过程的探测和对海洋各种特定目标特性的探测。

2020「水下目标检测算法赛」赛题解析——声学图像

图 1 应用于海洋检测的声纳技术

声纳从工作原理上，可划分为声纳目标主动探测技术和上哪目标被动探测技术；从目标能否成像上，可划分为成像声纳技术和非成像声纳技术；而从工作流程与功能上，可划分为声纳目标检测技术、声纳目标跟踪技术、声纳目标识别技术和声纳目标定位技术。

本次比赛的数据集是由鹏城实验室推出的当前业内最大、最具广泛性的声学图像数据集。其中所用到的声纳技术均为成像声纳技术，侧扫声纳和前视声纳为采集图像的主要设备。两种设备主要用于探测水下静止目标物，并给出目标的距离、方位、高度和图像。

2020「水下目标检测算法赛」赛题解析——声学图像

图 2 声呐硬件的基本组成主要包括：换能器（TRANSDUCER）、拖缆、信号处理器、采集终端

其中，侧扫声呐主要应用于大面积的海底地形地貌调查，包括水下位置未知目标物的搜索等。在工作时，侧扫声呐声波的发射基阵以一定的俯仰角和左右两个扇面向两侧的水体中发射声波脉冲信号，工作原理如图 3 所示。

目前，在海洋工程、海洋地质调查、海洋地质科学研究及海道测量中，侧扫声呐已经得到了广泛应用，并成为目前海洋测量及调查研究必不可少的重要手段。

2020「水下目标检测算法赛」赛题解析——声学图像

图 3 侧扫声呐工作时，声波的发射基阵以一定的俯仰角和左右两个扇面向两侧的水体中发射声波脉冲信号，同时接受基阵接受回波信号并根据回波到达的时间及其强度绘制海洋环境的声呐图像

而前视声纳与侧扫声纳工作原理类似。最大的区别在于前视声纳的声波发射基阵，一般以一个扇面向前或者向垂直方向（向上、向下）发射脉冲信号，工作原理如图 4 所示。因此，前视声呐主要应用于水下航行器的导航避碰，特定目标物的扫描检测等。

2020「水下目标检测算法赛」赛题解析——声学图像图 4 前视声呐工作原理图与成像示例，声波发射基阵以扇面发射脉冲信号

声纳图像组成与目标检测

通常情况下，声纳图像主要由 7 部分组成，包括：声波发射源、水面反射波、水体杂波、海底反射波、水柱、目标物、阴影；除此之外，声纳图像还可能包括一些处理得到的标记。图 5 展示了一个经典的声纳图像基本组成图示：

2020「水下目标检测算法赛」赛题解析——声学图像
图 5 声纳图像基本组成的经典解析图示；其中，A 是触发脉冲，B 是第一表面返回波，C 是水体中杂波，D 是第一海底返回波，E 是水柱（即盲区），F 是沉没的渔船，G 是阴影， H 是数字通道， I 是系统操作设置，J 是距离标记。

而声纳设备形成图像的过程一般分为以下几步：设备换能器阵发出声脉冲，并且收听返回的回声信号，返回的声波由声能转换成电能，并且通过拖曳电缆向上传送到海面上船的记录显示单元。

然后在船上显示记录单元，信号被处理成所需要的形式，然后发送到监视器和记录仪上，形成一幅记录图像，图 6 则展示了该过程。

2020「水下目标检测算法赛」赛题解析——声学图像

图 6 声纳设备成像的过程；其中，图（左）为形成的声纳图像，图（右）为对应的声波图像

如果要通过声纳图像辨别其中的目标物，可以结合声学阴影进行检测。

通常情况下，深色（高亮）的回声和白色（黑色）的阴影斑纹，表现出海底底床上目标的凸起和凹陷。其中：

一个目标直立在周围平坦的环境中，它将反射一个强的回声信号到声呐，并且在记录上产生深色（高亮）的标记；强的反射信号后面跟随着白色（黑色）的声学阴影，则是典型的目标凸起。
而有一个凹陷，白色（黑色）的区域出现深色（高亮）的区域前面，甚至穿过深色（高亮）区域，它不是真实的阴影。

2020「水下目标检测算法赛」赛题解析——声学图像

图 7 通过黑色阴影，可以辨别出目标物为骆驼

除此之外，结合一些基本的声纳图像知识，也可以有助于准确识别目标物。 其中包括：

硬质、粗糙、凸起的水底回波较强，软质、平滑、凹陷的水底回波较弱。
被遮挡的水底不产生回波；距离越远回波越弱。
天然地形产生的声学表现通常是不规则形状的图像变化，图像边缘过度相对平缓，人工目标物通常表现为相对规则的图像变化，图像边缘过度相对明显。
合理运用声纳图像的几何关系，判断目标物的大小、高度等特征。
结合声呐设备的位置、姿态、航向等信息，可以对图像声呐反映出来的特征进行量测和计算。

2020「水下目标检测算法赛」赛题解析——声学图像

图 8 使用基础声纳图像知识进行目标物识别，通过声纳图像的波形判别目标物的特性

声纳图像的智能检测及算法推荐

目前，声呐的工作性能除了受自身技术参数的限制之外，还受环境因素影响很大，如：声速-深度分布、波浪、海底底质、水深、海流等。这将导致声波的折射、扩散、吸收、噪声等问题。

这也导致在对声纳图像左准确智能检测时，将面临噪声干扰、灰度畸变、几何畸变、形态多样、样本稀缺、混叠失真等问题。

2020「水下目标检测算法赛」赛题解析——声学图像

图 9 为同一架飞机的声纳图像，具有形态多样的特性

针对其中一些关于图像去噪、图像增强、目标分割、目标分类等问题，课程提供了相应的算法思路，可帮助实现改善目标检测结果的精度：

非局部均值声纳图像去噪

图像去噪声在 OCR、机器人视觉与机器视觉领域应用开发中是重要的图像预处理手段之一，对图像二值化与二值分析很有帮助。

但通常进行局部去噪时，往往我们会忽视边缘处的去噪效果，而近年提出的一种新型去噪技术可以很好的解决该问题。非局部均值去噪可以采用：NL-means、BM3D、SAR-BM3D 等方法。

其中，非局部均值（NL-means）方法的基本思想是：当前像素的估计值由图像中与它具有相似邻域结构的像素加权平均得到，在去噪的同时，可以最大程度地保持图像的细节特征。

其中，非局部均值迭代声呐图像的去噪流程为:

第一次基于含噪块的均值约束，第二次基于第一次得到的去噪块的结构相似度；
两次块匹配滤波权值采用不同距离，第一次依据瑞丽噪声统计假设，第二次计算假设真值已知。

2020「水下目标检测算法赛」赛题解析——声学图像

图 10 非局部均值声纳图像去噪示意图

仿人眼视觉声纳图像增强

通常，图像增强的方法包括了：线性拉伸、Gamma 校正、直方图据恒华、Retinex 处理、小波变换域增强等，但此类方法除了可能放大噪声之外，还有一个局限在于参数选取部分，要求开发者有较成熟的经验。

因此，基于这一问题，可以使用人眼视觉方法进行处理，包括：多分辨率、多方向性、局部化、稀疏表示、对数调节等。

而恰好 Curvelet 变换能够很好的处理多尺度、多方向、局部化等问题，因此在图像增强部分的处理思路可以采取：

Curvelet 变换-->人眼视觉的多通道结构
自适应非线性映射-->人眼对数调节
Curvelet 重构

2020「水下目标检测算法赛」赛题解析——声学图像图 11 图像增强处理，从左到右分布为直方图均衡化、Retinex 处理及仿人眼视觉图像增强结果，可以看到第三种处理方式在图像细节上效果更好

边缘约束的声纳图像目标精准分割

在声纳图像目标检测分割方法中，边缘检测法（sobel、Canny、小波模极大等）、阈值分割（Otsu、属性直方图等）、聚类分割（k-means、依赖分布）、MRF 模型、活动轮廓模型都是可以参考的方法。

但每个方法也都具有各自的局限，如：完整性较弱、邻域一致性处理较差、边缘精确性低、收敛慢等。

因此，在这个阶段，可以考虑这样的思路，如图 12所示：

综合边缘信息、区域特征、平滑阅读构造活动轮廓模型泛函，以同时提高检测结果的准确性和鲁棒性。
初始分割、局部匹配、边缘诱导，从而加快收敛过程。

2020「水下目标检测算法赛」赛题解析——声学图像

图 12 边缘约束的声纳图像目标精确检测示意图

迁移学习下的声纳图像目标分类识别

在目标识别部分，通常分为特征提取和分类器两部分。目前最具区分能力的特征包括：傅里叶描绘子、链码、Hu 不变矩、灰度共生矩阵、Haar 特征、Gabor 特征、LBP 特征、HOG 特征、SIFT 特征、SURF 特征等。

而对于特定的识别任务，往往筛选及调整特征及其耗时，一旦换一个识别任务之后，一切可能将需要全部重新设计。

因此，能否由机器直接从数据中学习来表示本身呢？就像人的大脑可视皮层的分级那样，具备抽象和迭代的功能，从而对声纳图像中的目标及其阴影，具有发现同类目标中深层次共性特征的能力。

由此可以考虑将深度神经网络运用到检测算法中来，通过其多次迭代组合底层的分布式特征形成更抽象的高层表示，解决表示学习的核心问题。

然后再结合人脸识别时 CNN 的思想，将深度卷积神经网络运用到目标分类识别算法中，推荐的思路如图 13所示。

2020「水下目标检测算法赛」赛题解析——声学图像

图 13 迁移学习下的声纳图像目标分类识别

其它比赛资源

除了在线讲座课程之外，为了更好的帮助参赛者理解水下声呐图像目标识别，赛方还提供了多样的声学图像检测学习资料，包括：模型代码、baseline、优质论文以及经典的学习资源。（其中，相关资源已同步至官网首页， https://uodac.pcl.ac.cn ）

同时，考虑到本次算法赛参与的开发者覆盖群体非常广泛，大家所关注的问题也较为分散，大赛详情页面也设置了讨论区，参赛者可以通过该加入讨论群有针对性的答疑解惑。

2020「水下目标检测算法赛」赛题解析——声学图像

图 14 比赛详情页面，可由此进入讨论区

目前，赛方也给出了一个《常见问题解答》的文档，在遇到问题时，也可先参考文档给出的一些解决方案。文档地址为： https://shimo.im/docs/dQkEVzmKLVUKFnAw/read 。

AI 海洋产业蕴含的无限潜力

值得一提的是，早在党的「十八大」时，我国就作出了「建设海洋强国」的重大部署；这之后，十九大则在此基础上提出了全面加快海洋强国建设的目标。近年来，习近平总书记也多次在重要场合提到海洋发展。

在 2017 年 7 月，国务院发布《关于印发新一代人工智能发展规划的通知》，并在海洋产业领域提出「研制和推广海洋机器人「的意见，这也正贴合了海洋产业升级的迫切需求。

在人工智能的帮助下，海洋产业得以应对水下作业危险系数高、捕捞成本大、体能要求强以及环境不可控等难题，因此该产业也具备更高的开发潜力。

2020「水下目标检测算法赛」赛题解析——声学图像

图 15 海洋开发多样化技术展示

由前文所介绍的多样化技术也可以看出，在国家的大力支持下，海洋建设在技术方面也已经取得了可喜的成果。可这当然远远不够，海洋开发与建设还需要更多 AI 技术领域开发者的加入。

而本次加入「声学图像目标检测赛」恰好提供了这样的平台。这不止是一个展示个人技术的舞台，也是紧跟时代建设的敲门砖。如果在比赛中获得较好的名次，该比赛所提供的高达 72 万元的奖金池，以及进入鹏城实验室、腾讯科技的招聘面试绿色通道，也将通通拿走！

目前，该赛项已经吸引了众多来自哈尔滨⼯程⼤学、中⼭⼤学、中国科学院⼤学、浙江大学等高校学生，以及名企的算法爱好者，比赛正在如火如荼的进行中。

所以，假如你也正好从事算法工作，你也有志于在目标检测识别、机器人、人工智能和海洋建设领域崭露头角，请抓住这个难得的好机会，初赛截至 4 月 11 日。

水下目标检测算法赛（声学图像赛项）报名地址：

https://www.kesci.com/home/competition/5e532ac62537a0002ca859a6

雷锋网雷锋网 (公众号：雷锋网)

。