学术咨询

让论文发表更省时、省事、省心

基于树分类器神经网络的雷暴预测方法

时间:2020年10月29日 分类:农业论文 次数:

摘要:针对基于机器学习的雷暴预测问题提出了一种新方法,该方法将应用于气象卫星图像的二维光流算法误差作为机器学习模型的特征。为了考虑空间邻近性,根据特征训练不同的树分类器模型以及神经网络,以预测未来几个小时内的闪电,即临近预报。通过比较不同模

  摘要:针对基于机器学习的雷暴预测问题提出了一种新方法,该方法将应用于气象卫星图像的二维光流算法误差作为机器学习模型的特征。为了考虑空间邻近性,根据特征训练不同的树分类器模型以及神经网络,以预测未来几个小时内的闪电,即临近预报。通过比较不同模型的预测能力以及不同特征对分类结果的影响。研究结果表明,对于未来15min的预测,该方法准确率高达96%,随着预测时间的增加,准确率略有下降,但对于长达5h的预测,准确率仍然高于83%。该方法为雷暴预警预测方法选用提供了新的思路。

  关键词:机器学习;树分类器;神经网络;雷暴预测;临近预报

南方农业

  0引言

  尽管天气预报精准率在过去的几十年中取得了长足进步,但仍然是一项计算量巨大的任务,需要在大型超级计算机上运行极其复杂的模型[1-2]。除提供诸如温度等变量的预报外,气象服务的一项关键任务是恶劣天气条件预测[3]。雷暴是这种现象之一,通常伴随着大雨、雷电、冰雹和强风。但是,预测雷暴并给出关于其严重程度和运动方向的准确信息仍是一项艰巨的任务。目前先进的天气预报系统通常将大量数据源组合在一起,生成空间分辨率为1km×1km、时间分辨率为5min的警报,以应对雷暴等恶劣天气条件。

  光谱卫星频道的亮度、温度及其差异超过某一阈值可解释为可能导致雷暴的临界条件。雷达系统用于探测大气中的水粒子和可能发展为雷暴的云,而数值天气预报(NWP)模型提供了对近风暴环境的估计,在雷电探测系统中,可以通过测量电波定位雷暴位置。即使使用较先进的模型,雷暴的预测仍较困难,特别是当预报时间超过1h时,误报率增加到80%以上。迄今为止,卫星数据已成为许多天气预报产品的一部分,并在较大的预报期内显著提高了性能。但是,即使将高时空分辨率结合在一起,卫星数据仍无法用于雷暴的精准预测[4-6]。

  因此,基于上述考虑,研究了一种基于卫星数据预测雷暴云的新方法,该方法使用机器学习技术,其核心思想是将第一预测模型的预测误差作为特征,将该误差特征用于实际的第二个不同的预测模型[7-8],为雷暴预警预测方法选用提供了新的思路。

  1方法论

  基于卫星的雷暴预报通常基于对不同光谱波段观测到的大气亮度温度的分析,若亮度温差达到临界阈值,则预报系统会发出雷暴警告[9-10]。NWP稳定性指标通常支持基于卫星的方法,该指标用作系统势能的指标。常用的指标有对流有效位能(CAPE)和上升指数(LI),所有这些指数基本上都考虑了大气中不同高度的潜在温度(用压力来描述)。差异越大,大气变得不稳定的可能性越大,形成对流系统进而导致雷暴的几率越大。

  1.1误差特征提取

  基于机器学习的雷暴预警方法不是直接从卫星图像中提取特征[11],而是基于使用光流算法(如TV-L1)预测先前图像的下一幅图像所产生的误差[12]。图1显示了该方法的概要(使用TV-L1读取两个连续的卫星图像T-30和T-15,以预测下一个图像0。将误差计算为0和原始图像T0之间的绝对差,利用这个误差来预测基于不同分类器的雷电[13-14])。其核心思想可以表述为:空气在大气中的运动是一种三维现象,而第三维表示为卫星图像上的亮度。

  基于过去观测结果预测未来图像的光流算法只能检测和预测二维运动。因此,应用光流产生的误差可能与云的垂直运动有关,即对流的迹象,可能导致雷暴。可以使用机器学习算法来了解这些误差值与雷电发生之间的关系,而雷电又是雷暴出现的信号。该方法并未尝试改善用于预测卫星图像的光流模型,而是将第一个模型的误差解释为训练另一个不同模型来预测雷电的特征。

  1.2数据预处理

  由于机器学习模型依赖精心设计的特征来学习与某些目标变量的关系,因此介绍将原始数据转换为模型中使用的特征所必需的步骤。

  1.3实验设置

  本文所进行的实验是基于四重交叉验证,即可以将三套训练组合在一起,同时使用剩下的一组进行测试。实验所用的数据集大约涵盖一个月,从2019-06-0100∶00到2019-07-0406∶30。实验中,沿时间轴拆分此集合,以12h为间隔。由于对高度不平衡的数据进行训练较困难,因此选择在每个图像的基础上进行下采样,这意味着对图像上出现雷电事件的所有图块进行了采样,并从同一图像中随机选择了相同数量的没有雷电事件的图块。由于在提取原始数据、二值卫星数据和预处理步骤中存在各种数据误差。

  2雷暴预测方法性能评估

  显示了时间范围为2019-06-0100∶30至2019-06-0306∶15的WV6.2通道的误差值分布。第一列是指在这个时间范围内所有图像上的所有图块,而后两列则代表未来15min内的无雷电和有雷电两个类别。通过比较这些值,可以发现有雷电的平均误差高于无雷电的平均误差,可以得出这 样的结论,高数值更有可能表明雷电的存在。表2还显示了数据集的极度不平衡。在超过2.3亿个样本中,只有169912个样本属于闪电类,仅占0.074%的比例,如果对所有可用数据进行计算,这个比例会下降到0.066%。

  2.1近期雷暴预测

  为了检查假设是否正确,可以训练机器学习模型预测雷电,首先通过实验进行近期雷暴预测:根据T-30、T-15和T0的卫星图像所产生的误差,预测未来15min内(在T0和T+15之间)是否会有雷电。可以在第一组实验中使用基于树分类器,因为与神经网络相比,该分类器在进行预测方面可提供更高的透明度。选择用于评估的模型是简单的决策树以及基于它们的集成方法,如决策树分类器、随机森林分类器、级联分类器及梯度增强分类器。对于大多数参数,使用文档中指定的默认值,同时,采用一些参数来避免过度拟合和限制训练时间。

  正如预期,简单的决策树在每个测试集中显示出最差的性能,准确性在84%到89%之间。梯度增强效果最好,精度结果介于89%和92%之间。表格的最后一行显示了所有测试集的准确性,强调了强梯度增强模型、弱决策树模型和随机森林以及两者之间的AdaBoost模型。改进随机森林和梯度提升之间约2%的改进是以更长的训练时间为代价的,对于由交叉验证集0、2和3组成的最大训练集,在所有CPU内核上并行进行的随机森林训练阶段大约需要14min。但是,梯度增强算法大约需要818min,是随机森林持续时间的54倍以上。

  农业论文投稿刊物:《南方农业》创刊于2006年,是由重庆市农业委员会主管,重庆市农业科学院主办的农业学术刊物。主要栏目:遗传育种,栽培与植保,园林花卉,生理生化,生物技术,动物科学,农业机械,贮藏加工,农业经济,产业发展,城乡统筹,农业信息化等。

  3结束语

  ①本文提出的雷暴预警方法使用基于光流的卫星图像临近预报产生的误差值,训练不同的树分类器来预测近期的雷电,其准确度超过91%。使用具有较大内核尺寸卷积的特征对模型的准确性影响最大。

  ②添加异常误差特征进一步提高了准确性,现在达到96%。即使最大预测时间为5h,模型的准确性仍保持在83%以上,明显好于随机猜测的50%准确性。与现有模型的结果进行比较,本文的方法清楚地表明,在相同召回率的情况下,误报率较低,从而导致整体表现更佳。

  ③对比了决策树、随机森林、AdaBoost、梯度增强几种算法模型和测试集的结果精度值,在相同召回率的情况下,误报率较低,整体表现效果更好。尽管文中提出的雷暴预测方法可以有效预测未来5小时的雷暴,但是近6%的高假阳性率需要进一步调查,以使本文的方法可用于操作,这也是未来研究需要重点解决的问题。

  参考文献:

  [1]韦青,李伟,彭颂,等.国家级天气预报检验分析系统建设与应用[J].应用气象学报,2019(2):245-256.

  [2]罗霄,罗恒.天气预报和气候预测的技巧探析[J].南方农业,2017(11):103.

  [3]相峰,韩贵香,刘慧.关于强对流天气预报的信息化分析[J].科学与信息化,2017(31):19.

  [4]李新芳.一次雷暴冰雹天气卫星,雷达回波分析[C].第35届中国气象学会年会,2018.

  [5]范小军,罗燕,黎辉文,等.宜丰和上高县级区域雷暴大风FY2G云图特征分析[J].江西科学,2019(4):553-557.

  [6]竹利,康岚,王碧波.一次下击暴流风暴的成因和结构特征分析[J].中低纬山地气象,2019(1):15-22.

  作者:于怀征

NOW!

Take the first step of our cooperation迈出我们合作第一步

符合规范的学术服务 助力您的学术成果走向世界


点击咨询学术顾问