香港科技大学施行健:深度学习用于短临降雨预报的一个基准和一个新模型
雷锋网 (公众号:雷锋网) AI科技评论按 :本文介绍了NIPS 2017论文: Deep Learning for Precipitation Nowcasting: A Benchmark and A New Model 中提到的核心算法模型。在近期雷锋网举办的GAIR大讲堂线上直播课中,该论文的作者之一施行健给我们详细讲解了论文中的核心思想以及模型的演进过程,AI科技评论为大家整理了此次分享的主要内容。
施行健,香港科技大学四年级博士,师从杨瓞仁教授。现于Amazon AWS Deep Learning组实习,岗位为应用科学家。本科就读于上海交通大学,导师为李武军教授和王士林教授。他的主要研究方向为深度学习,时空序列分析和计算机视觉。他是apache/mxnet的开发成员,同时是DMLC协会会员。
视频回放链接:http://www.mooc.ai/open/course/369
分享主题 :深度学习用于短临降雨预报:一个基准和一个新模型
分享大纲:
简要介绍短临降雨预报和之前用于解决此问题的ConvLSTM网络。
介绍新的TrajGRU网络
介绍HKO-7基准
总结
分享内容
短临降雨预报是指对一个区域未来短时间段内的降雨进行预测。这一段时间通常是0到6小时。预测主要基于雷达回波图或者是雨量阵的信息或者其他信息进行辅助预测。
雷达回波图和雨量有一个直接对应关系。所以在文章中,我们只用了雷达回波图预测。所以这个问题就变成了及时通过雷达回波序列之前的几帧来预测未来的几帧。
这个问题有很多应用场景,和居民生活息息相关。比如预测道路的积水情况,为航班提供天气指引,在城市内给出短期强降水预警。由于大气内部复杂的动态变化和短临降雨要求的实时,我们需要大规模和高精度的预报,这个问题给气象领域和机器学习领域提出了非常大的挑战。
传统降雨预测有的两种方法
NWP 是对大气进行一个物理建模,通过模拟物理模型去进行之后的预测。这种方法的好处是对于更长时间范围的预测比较准确,但是在头一两小时并不能进行预报,所以对于短临降预报不是使用NWP方法。
另一种在实际系统中的应用是基于光流矢量的方法。它的思想是先通过两个雷达回波图像来估算光流矢量,这个光流矢量可以理解为这些云是往哪个方向运动的。然后去使用这个光流矢量是不会变的,对最后一张雷达图进行外推,得到最后的预测。这种方法在前一两小时预测的准确度更高。香港天文台就是基于光流矢量做的短临降预测。
关于新模型ConvLSTM介绍
2015年,我们提出一种卷积长短期记忆网络(Convolutional LSTM),这种基于深度学习方法的特点是基于机器学习,端到端的去解决这个问题的方案。
这种方案相比较光流矢量法有一些问题。
第一,因为这种方案第一步是去估算光流矢量,第二步是拿光流矢量做外推,这两步是分开来做的,所以会存在累计误差。
第二,光流矢量不是基于机器学习,所以不能发挥出雷达回波图的优势。
第三,在预测光流矢量方法中采用的是相邻两帧,并不能考虑更长时间段的一些关系,比如说三帧,四帧,五帧的光流矢量是预测不到的。
但是用深度学习来解决这个问题除了弥补光流失量法的缺陷,也有以下两点难点。
我们要预测的东西是一个序列,所以说多步预测是一个难点。
我们要处理的是时空数据,所以我们的模型要充分利用时空数据的特点进行建模。
首先我们对这一问题进行简述。
通过用一个编码网络对我们可以观测到的东西进行一个特征描述。我们使用RNN 作为编码器和预报器。
因为要提到RNN,如果使用LSTM作为encoder-forecaster的一个基本网络,我们的模型可能是这样的
这种方案的问题是LSTM并没有对时空序列做一些特殊设计。所以我们提出了Convolutional LSTM, 它是专门针对时空序列所设计的一个结构。他们之间的区别是一般的LSTM是用全连接来作为不同状态之间的转换,而ConvLSTM不是使用全连接而是卷积。
我们的做法是把LSTM换为ConvLSTM来建立最后的模型,比较效果图
卷积LSTM网络并不是最优的,原因是在状态转换里面使用卷积相当于把循环连接结构变成了一个时空恒定的结构,但对于自然界出现的大部分运动而言, 时空并不是恒定的。比如旋转,放缩,所以用递归卷积来刻画这种运动关系肯定不是最优的。
第二个问题是之前这篇文章衡量这个模型的方案式远远还没达到实际应用的标准。之前只是在一个很小的数据集上衡量,而且这是只选了一个阈值。
所以深度学习用于短临降雨预报实际上还在一个初期阶段,我们还不清楚到底如何来衡量这些模型,
为了解决这两个问题,我们在这篇文章中提出一个新模型 TrajGRU(轨迹GRU), 它可以主动去学习卷积结构,我们还提出了一个新的基准称为HKO-7,它的特点是有些新的贴近实际生活的性能评估。
简单回顾一下基准模型ConvGRU, 它是和ConvLSTM比较类似的模型。不同之处是ConvGRU有两个门(gate),一个更新门(update Gate),一个复位门(reset gate)。 ConvLSTM有三个Gate.
从ConvGRU到TrajGRU
我们还提出了一个Encoder-Forecaster 结构
我们为了理解这个模型以及方便和基准模型ConvGRU做一个简单的比较,我们在Moving MNIST++的数据集上做了一个实验。
MovingMNIST可视化效果图
关于新基准HKO-7
这个数据是香港天文台提供的2009年到2015年降雨雷达图数据,简单的来说我们用2009年到2014年数据作为训练和确认, 用2015年数据作为测试数据。
数据去噪声图
在实际生活中,不断有新的降雨数据进来,所以我们可以不断用新数据动态训练模型。实际上,大雨在现实生活中的影响是更加大的,我们的解决方案是在衡量模型的时候,对大的雨量给一个更加高的权重,就得到了新的B-MSE和B-MAE。
衡量结果
总结
在这篇文章中,我们提出了一个轨迹GRU,它的特点就是可以动态学习网络递归结构,这种轨迹GRU在sythetic MovingMNIST++数据集和我们新的HKO-7基准上都是比ConvGRU效果好的。
第二点,我们提了一个新的HKO-7衡量标准。我们发现所有的深度模型都比光流失量效果要好的。TrajGRU模型是表现最好的。
第三点,动态的微调是对提升模型的表现是有效果的。
我们正在尝试把这套算法融入到香港天文台的系统里面。
雷锋网视频回放链接:http://www.mooc.ai/open/course/369
。