基于热成像的机房热点成因自动诊断方法

时间：分类：电子论文浏览次数：

摘要：服务器设备的异常高温在机房内部会形成热点，不仅会影响服务器的稳定和寿命，还会导致机房制冷效率的降低，从而增加机房的制冷能耗，增加运营费用;导致产生热点的原因有很多，例如空气流通不畅、风扇失灵、长时间满负荷运行等等;通过自动诊断热点的成

　　摘要：服务器设备的异常高温在机房内部会形成热点，不仅会影响服务器的稳定和寿命，还会导致机房制冷效率的降低，从而增加机房的制冷能耗，增加运营费用;导致产生热点的原因有很多，例如空气流通不畅、风扇失灵、长时间满负荷运行等等;通过自动诊断热点的成因，可以有针对性的消除热点，为机房环境控制提供数据支持，有助于降低机房制冷能耗;根据热像仪拍摄的服务器出风口一侧的红外图像，利用人工智能技术，提出了自动诊断热点成因的方法;针对实际工程应用中热点样本数量不足的问题，提出了基于深度卷积对抗生成网络(DCGAN)合成热点样本的解决方案;通过多组实验验证了方法的有效性，热点成因的诊断准确率约为95%。

　　关键词：信息处理技术;自动诊断;热成像;对抗生成网络;卷积神经网络

计算机学报

　　0引言

　　随着云计算，大数据及其应用的兴起，计算机机房乃至大型数据中心得到了迅速发展，不仅规模不断增加，内部服务器的密度和集成化也不断提高。目前，服务器内部高度集成的单颗芯片可以产生大约200W/cm2的热流密度，并且会随着技术发展继续增加[1]。在这种情况下，如果出现风扇失灵、通风不畅、长时间满负荷运行等情况，服务器内部以及周围会产生较高温度，导致机房内部温度分布不均衡，形成局部热点区域。

　　计算机论文投稿刊物：计算机学报(月刊)创刊于1978年，由中国计算机学会与中国科学院计算技术研究所主办、科学出版社出版，以中文编辑形式与读者见面，同时以英文摘要形式向国际各大检索系统提供基本内容介绍。

　　机房空调为了维持服务器设备正常运行的温度，必然要增加制冷功率，这会消耗更多能耗用于制冷。若热点不能及时被消除，高温还会引起服务器宕机，甚至造成芯片的物理损坏。因此获取机房内部温度分布，监测、识别热点区域有助于降低机房的能耗。红外热像仪可获取物体表面二维温度分布，能够间接反映服务器的运行状态，具备直观、快速、非接触、精度高等优点。Mohd等人列举了热成像技术在诊断电气设备上的各种应用[2]，其中包括了各类热异常及相应的测量方案。Amin等人将机器学习技术应用在引擎散热器的红外诊断上[3]。

　　本文提出的基于热成像的热点成因诊断方法通过采集服务器出风口的红外图像，从中发现热点后，提取热点温度分布特征，最后利用机器学习识别热点的成因。所用的机器学习方法主要包括支持向量机(SVM)和卷积神经网络(CNN)[4]。SVM是一种有监督机器学习算法，在小样本、非线性分类问题上极具优势[5]，但是需要人工提取数据特征向量。特征向量的选取将直接影响分类的准确率，因此需要寻找并筛选出对服务器运行状态敏感的温度分布特征。CNN是一类由卷积运算代替传统矩阵乘法运算的前馈神经网络，是深度学习的代表算法之一[6]。

　　在层数足够多后，可以获取足够丰富的特征。CNN常用于图像的数据处理，并衍生出多种模型。例如，2012年Hiton等人提出的AlexNet[7]，2013年由Girshick等人提出的RegionCNN[8]和2015年He等人提出的ResNet[9]，在目标检测领域取得了显著进步。一般情况下，如果有足够多的训练样本，随着CNN模型层数的增加，模型的学习能力会得到提升。

　　然而，在机房的实际运行中，被监测热点主要由偶发事件产生，在有限时间内很难收集足够多的热点图像。因此，训练集的各类别样本数量较少，且不均衡。然而，分类器在面对不同类别训练样本数不均衡的情况下，分类性能会显著下降[10]。虽然数据增强技术(例如平移、剪切、旋转等)能够在一定程度上提升这种情况下的准确率，但是这些数据增强方法产生的数据相关性较大，不能从根本上解决问题[11]。

　　对抗生成网络(GAN)是一种无监督类型的生成模型，在2014年由Goodfellow提出[12]。GAN模型由生成网络和判别网络组成，生成网络尽可能合成趋近真实样本数据分布的伪样本，判别网络尽力去分辨真实样本和伪样本，通过零和博弈(Zero-sumGame)的对抗过程，最终达到纳什均衡(NashEquilibrium)，在对抗过程中使得生成网络获得趋近真实数据分布的能力。零和博弈的公式如下：minGmaxDV(D，G)=Ex～Pdata[logD(x)]+Ez～pz(z)[log(1-D(G(z)))]

　　其中：D代表判别映射函数，G代表生成映射函数，Pdata代表真实样本数据的分布，Z代表噪声(即输入数据)，PZ代表噪声分布。通过不断迭代学习，生成网络可根据真实数据样本分布特征合成与其相近的伪样本。因此，GAN模型可以生成非相关的样本数据，且具有更强的解释性。原始的GAN存在着训练困难、生成器和判别器的loss无法指示训练进程、生成样本缺乏多样性等问题。很多学者都在尝试解决这些问题。

　　其中，WassersteinGAN(WGAN)的结果较为理想[13]。WGAN修改了原始GAN的实现流程，如在判别器最后一层去掉了sigmoid，生成器和判别器的loss不取log，每次更新判别器的参数之后把它们的绝对值截断到不超过一个固定常数c等。WGAN彻底解决GAN训练不稳定的问题，基本解决了模型崩溃问题，确保了生成样本的多样性。Chen等人提出的InfoGAN模型，不仅能够很好地学习数据之间的类型差别，也能够很好地学习到数据本身的一些易于区分的特点，而且生成模型对这些特点具有很好的泛化能力[14]。

　　Alec等人提出的DCGAN也是对GAN较成功的改进，其改进主要是在网络结构上。DC-GAN极大的提升了GAN训练的稳定性以及生成样本质量[15]。本文给出了与热点成因相关的特征向量，介绍了利用SVM或AlexNet识别热点成因的方法，并通过实验对比分析了有无DCGAN增强训练样本集的诊断性能。

　　1热点成因诊断方法

　　热点成因诊断的基本流程，是通过热像仪采集服务器出风口一侧的红外图像，经过图像标准化、热点提取[16]、特征提取及机器学习等步骤，识别服务器所处工作状态，如CPU负荷、各处风扇状态、空气流通情况等。为后续消除热点操作提供决策支持。针对特征提取及机器学习过程，本文使用了两种方法，并通过实验对比了各自的性能。

　　1.1基于SVM的诊断方法

　　采用SVM作为分类器模型时，需要首先对红外图像中的热点区域的数据进行特征提取。根据每种特征对热点成因诊断准确率的贡献，利用特征选择算法，从数据统计、图像纹理、形态学三方面，筛选出了红外图像中热点区域的有效特征，可用于热点成因诊断。包括灰度概率密度、灰度均值、灰度方差、统计直方图概率均值、熵、峰态、歪斜度等特征。其中，h和w分别表示图像的长和宽，N表示像素数量，ni表示灰度值为i的像素个数，I为红外灰度图像。纹理特征包括Tamura特征和LBP_GLCM特征[16]。其中，粗糙度中Sbest(i，j)表示图像(i，j)位置的像素的能得到最大领域均值差值的窗大小;对比度中μ4为图像灰度的四阶矩;方向度中HD表示方向梯度直方图，k为直方图峰值，np为直方图所有峰值，Wk表示该峰值所包含的区间，Φk表示波峰的中心位置;线性度中PDd是方向共生矩阵，n为PDd的大小;规则度中r表示规范化因子，Scrs、Scon、Sdir、Slin分别表示粗糙度、对比度、方向度和线性度的标准差。

　　LBP_GLCM纹理特征提取是通过使用局部二值化(LBP，LocalBinaryPatterns)特征描述算子计算得到LBP模式下的灰度子图，然后基于LBP子图计算灰度共生矩阵(GLCM，Gray-LevelCo-OccurrenceMatrix)特征。其中Hl(i，j)表示坐标(i，j)处的灰度概率密度，(μx，μy)和(σx，σy)分别表示水平方向和竖直方向的像素均值和标准差。形态学的有效特征包括：热点区域占服务器的面积比、服务器温度重心位置、温度最大值区域的重心的横坐标，温度最大值的面积比例、热点区域的周长、欧拉数。

　　2实验结果与分析

　　2.1红外图像获取及预处理

　　实验在大连理工大学的网络与信息化中心的机房进行。通过控制DELL720服务器的软硬件工作状态，以及对周围环境的设置，模拟了5种可产生热点的场景，分别是CPU长时间60%负荷、CPU长时间100%负荷、主风扇损坏、CPU风扇损坏、服务器进气口处空气流通不畅。出现热点后，利用FLIRE8手持热像仪采集服务器出风口一侧的红外图像。实验共采集5类1350张红外图像。考虑到拍摄角度会引起温度分布发生形变，首先提取服务器在图像的区域，然后利用透视变换得到具有标准长宽比的服务器温度分布。利用同态滤波增强算法和一维最大熵分割算法得到服务器热点区域的温度分布。

　　2.2基于DCGAN的数据集增强对比实验

　　诊断过程分别使用了SVM和AlexNet分类器。SVM使用统计特征、纹理特征、形态学特征作为分类器的输入特征集;AlexNet采用卷积核自动提取图像特征。采用DCGAN作为生成器合成样本时，模型采用Py-torch按照图2、3的结构进行搭建。模型的输入为1×100的高斯噪声向量，设置模型的epoch为200，batchsize为12。将1350张真实热点图像随机划分为训练集(900张)和测试集(450张)，分别记为集合SR0和SR1。将SR0输入至DCGAN进行图像生成训练，每种类别下生成496张图像，总计生成2480张合成热点图像，记为集合SD。

　　通过对比实验一和实验三的结果可以发现，SVM和AlexNet使用真实数据集，即在小样本数据集，训练得到的模型，在诊断准确率方面没有显著的差异，均能达到90%左右。SVM能够达到这一效果的前提是繁杂的特征选择工作;AlexNet能够自动地提取样本有效特征。

　　通过对比实验二与实验三的结果可以发现，利用DCGAN增强训练数据集后再训练这两种模型，SVM的训练集准确率提升到95.01%，但是测试集准确率相较之前下降了2.22%;而AlexNet的训练集和测试诊断集准确率均有所提升，其中测试集准确率比实验三提升了5.11%。通过实验结果可以看出，使用DCGAN增强训练数据集的策略不是对任何分类器模型都有效。DCGAN会使SVM出现过拟合的问题，致使诊断性能下降;使AlexNet显著提升诊断性能。因此，针对本文提出的基于热成像的热点成因诊断问题，利用DCGAN增强训练集合，并选择AlexNet作为分类器模型，可以得到更优的诊断性能。

　　3结论

　　本文研究了基于热成像的机房热点的成因诊断方法。针对服务器上热点的温度分布，在计算出特征集合后，利用SVM可以对热点成因进行识别。本文给出了经筛选的与热点成因关联的特征集合。利用卷积神经网络，如Alex-Net，自动提取分布特征并识别也可以实现热点成因的诊断。针对机房中无法在短时间内收集足够多的热点图像用于训练，本文提出利用对抗神经网络，如DCGAN，合成出更多的热点温度分布图，用于增强训练样本集。

　　通过4组实验对比了SVM和AlexNet在有或无DC-GAN增强训练样本的情况下对热点成因诊断的准确率。从实验结果发现，DCGAN可以提升AlexNet的诊断性能，而对SVM无效。由此，本文选择AlexNet+DCGAN组合作为热点成因的诊断方法。该组合构建的模型优势主要有两点：一是由于服务器红外图像信噪比低，图像有效特征较难准确提取，而通过卷积核自动提取特征能够有效简化特征选择的难度;二是借助DCGAN扩展原始数据集，能够将AlexNet分类模型的性能进一步提升，能够很好地应对工程实践中样本数量较少的情况。

　　参考文献：

　　[1]ZhuK，ZhengM，WangB，etal.Experimentalstudyofenergysavingperformancesinchipcoolingbyusingheatsinkwithem-beddedheatpipe[J].EnergyProcedia，2017，105(5)：5160-5165.

　　[2]JadinMS，TaibS.Recentprogressindiagnosingthereliabilityofelectricalequipmentbyusinginfraredthermography[J].In-fraredPhysics&Technology，2012，55(4)：236-245.

　　[3]Taheri-GaravandA，AhmadiH，OmidM，etal.Anintelligentapproachforcoolingradiatorfaultdiagnosisbasedoninfraredthermalimageprocessingtechnique[J].AppliedThermalEngi-neering.2015，87(8)：434-443.

　　[4]LeC，BengioYY，HintonG.Deeplearning[J].Nature，2015，521(7553)：436-444.

　　[5]CortesC，VapnikV.Support-vectornetworks[J].MachineLearning，1995，20(3)：273-297.

　　[6]LeCunY，BengioY.Convolutionalnetworksforimages，speech，andtime-series[M].ThehandbookofbrainTheoryandNeuralNetworks，MITPress，1995.

　　作者：刘航1，2，鲍晨晨1，2，谢婷1，2，高山3

上一篇：基于移动物联的电力资产全寿命周期管理初探下一篇：电子风扇控制器中MOSFET的热分析