面向中小型企业的废水排放水质监测模型研究

时间：分类：科学技术论文浏览次数：

摘要：本文在分析了国内外学者水质研究现状的基础上，明确了中小型企业排放废水特征，对排放废水历史水质数据进行分类和关联分析，分析容易监测的水质指标与水质等级之间的关系，提出了基于水质等级分类的中小型企业排放废水水质监测模型。利用决策树算法构建水质等级

　　摘要：本文在分析了国内外学者水质研究现状的基础上，明确了中小型企业排放废水特征，对排放废水历史水质数据进行分类和关联分析，分析容易监测的水质指标与水质等级之间的关系，提出了基于水质等级分类的中小型企业排放废水水质监测模型。利用决策树算法构建水质等级分类模型，可以有效替代传统采购价高、运行成本高的设备，为企业、政府等相关部门提供方便、科学的排放废水监测体系。以某市河道水质数据进行模型验证，准确率可达 78.56%，证明该方法的可行性，为中小型企业排放废水提供全天候在线监测，为分布广、比重大、监管难的中小企业排放废水提供可推广的监测体系。

　　关键词：水质等级分类;决策树算法;中小型企业;废水排放水质监测

废水排放论文

　　随着中国社会生产力、科学技术的发展以及产业结构向工业等领域调整，中国城镇化步伐不断加快，但一系列的环境问题也随之而来，其中水污染问题尤其突出。针对水资源保护问题，中国采取了一系列科学的法律手段，先后出台了多项规范和排污标准，包括《中华人民共和国水法》《中华人民共和国水污染防治法》《中华人民共和国环境保护法》等，以规范化和法制化手段合理利用水资源，不断完善中国水资源法律制度体系。水污染会影响各类环境资源、破坏生态平衡，还会降低工业和农业生产质量，甚至危害人类生活和身体健康。纵观近年来的水污染现象，突发水污染事件占比较大，其中绝大多数是由于企业违规排放废水或工厂事故泄露所引起，而一些环保设备差、装备水平低的中小型工业企业最容易出现事故。

　　因此，在国务院于 2015 年印发的《水污染防治行动计划》中，第一点就强调了对工业污染的防治工作，尤其是对小型工业企业的排查，对小型企业的污水治理工作提出了更高的要求。但是污水监测的全套设备包括其运行维护费用每年高达 50~60 万，导致很多小型企业因无法承担该项费用而排放不达标废水，对人类安全造成极大的威胁。因此，寻找适合中小型企业污水水质等级监测的方法已刻不容缓。本文基于某市河道水质数据，分析容易监测的水质指标与水质等级之间的关系，以决策树算法构建的水质等级监测模型对企业污水排放进行监控，有效替代传统采购价高、运行成本高的设备，减少费用压力，可以为企业、政府等相关部门提供方便、科学的排放废水监测体系，为中小型企业污水排放前的监测提供理论参考。

　　1 研究现状

　　1.1 水质等级监测研究现状

　　在水质等级监测研究中，主要以多种算法为基础，构建水质评价模型，并根据实践中的突出问题加以改进。张颖等[1]以流域的三大监测断面点为研究对象，采用灰色模型对水质的各个参考值进行预测，利用模糊神经网络方法构建水质预测模型，综合把握水质变化，达到了预警效果。

　　高学平等[2]关注季节变化对水质指标权重的影响，以层次分析法创造性地提出时域权重矩阵，并将此与实测权重相结合，得到综合评价权重，设计改进的模糊综合评价法提高水质评价的准确度。肖金球等[3]针对水质监测系统在太湖应用中存在的数据和等级评价不准确的问题，提出一种改进型 GA-BP 的神经网络，基于此可以辨识复杂的水质模型，以此消除干扰因素带来的误差。

　　闫佰忠等[4]以地下水水质评价为对象，基于安阳市 8 个监测点的数据，以随机森林设计水质评价模型，并与神经网络模型相比较，结果显示该方法的准确性与稳定性更高。张莹等[5]在大数据背景下聚焦于海洋水质评价，以机器学习算法为基础，以40万站点和 13个水质指标信息为样本，构建海洋多水质指标信息的综合评价模型。1.2 水污染溯源研究现状随着中国城镇化不断发展，水污染现象逐年增加，水污染溯源研究被广大学者所重视，尤其是针对企业污水溯源的研究。Boano 等[6]针对任意分布源的水污染溯源和多个独立点源的水污染溯源，采用地质统计法对水污染事件进行回溯。Wei 等[7]利用AM 算法和正向模型的不确定性特征对水污染事件过程进行反演，针对水中污染物特征判断整个污染过程，在反演过程中寻求最终结果。

　　李欣欣等[8]利用改进的 AFSA 算法对构建的污染物时空溯源模型和排放总量模型进行求解，确定污染物排放量、排放位置和时间 3个参数，借助 GIS技术进行污染源企业排查清单的确定。王忠慧等[9]利用耦合的概率密度分析方法优化水力学模型，并采用 BAS 算法进行求解，实现污染物源项信息的确定，有效减少计算量并提高了精准度。孙策等[10]利用贝叶斯和蒙特卡洛相结合的方法，基于已知污染源信息，利用函数求得污染源的概率密度，将溯源问题转化为求概率密度的抽样问题，使结果更有效快速地接近目标。吕清等[11]以南方某市 S 河的一次水质异常事件为例，对水纹识别技术在水污染溯源中的实际应用进行验证，根据水纹峰变化推断入侵过程，比对水体水纹与污染源水纹，最终实现溯源。

　　1.3 决策树算法应用研究现状决策树算法以其速度快，精确度高等特点，已被学者们应用到各行各业的研究中。Chandra[12]将决策树创造性应用于地质学领域，用以确定发生滑坡的概率，选用地质构造，坡度等 9个主要因素进行分析，生成滑坡敏感性图，结果表明该图可以用于中等规模和区域的规划中。Arlita等[13]在运输领域，采用决策树方法开发选择模型，以确定最佳货物运输方案，为公司业务发展提供合理计划。杨泉[14]将决策树算法应用到汉语短语关系分类上，建立 7 个分类特征，在自建库中生成决策树，以投票给出最终结果，并采用 1020 条数据进行测试，正确率高达94.8%。

　　刘晓娜等[15]主要将其应用到解决橡胶林地的遥感识别，以 Landsat MSS/TM/ETM 数据和 MO⁃DIS-NDVI 数据为基础，利用决策树方法构建简单快捷的橡胶林地分类方式，提取所需地区的橡胶林地，有助于生态保护和土地合理开发利用。程华等[16]利用 C4.5 决策树方法解决港航班延误预测问题，构建预测模型，并以中国某大型机场数据为例，进行大量实验验证其正确率。王焱[17]在对国内外行人检测的研究现状进行分析后，创造性的提出将梯度提升决策树算法应用于行人检测中，并与区域建议网络相结合，设计出可以用于检测不同尺度行人的检测算法。

　　2 数据来源及研究方法

　　2.1 数据来源

　　本文水质数据来源为某市 20 条河流的监测数据，时间跨度为 2018年 1月至 2020年 8月，数据中包含了纬度、地区、水质等级、高锰酸盐指数、氨氮、总磷、PH值、水温、溶解氧、浊度、电导率、总氮、数据时间等属性。对排放废水历史水质数据进行分类和关联分析，探究其中容易监测的水质指标与水质等级之间的关系，经过筛选后，选择特征属性以构建水质等级分类模型。

　　2.2 研究方法

　　在构建水质等级分类模型时主要采用决策树算法对水质进行分类。决策树算法是为了解决 ID3算法忽略对叶子数目的研究而提出的一种改进算法，是通过一系列规则对数据进行分类的方法，其基本原理是通过归纳学习训练集的规律生成相应的决策树，用所生成的决策树规律对新的数据进行分类。该算法具有速度快、准确性高、可处理连续字段和种类字段等优点[18]。决策树主要表现为树形结构，包括一个根节点、若干个内部节点和若干个叶子节点，其中每个内部节点代表一种属性测试，每个叶子节点代表一种决策结果。节点之间通过分支进行联系，每个分支代表一种测试输出。

　　同时决策树也代表了对象值与其属性之间的映射关系，其中对象用节点表示，每一个从根节点到叶子节点之间所有的路径代表对象值，而每一个分支则代表可能的属性值。一棵决策树生成的过程也就是决策树的学习过程。主要分为特征选择，决策树生成和决策树剪枝3 个步骤，首先进行特征选择，从训练数据样本中选择特征作为节点分叉标准，其中特征的选择具有不同的选择标准，评估标准不同最终的决策树算法也不同，接着进行决策树的生成，根据之前选择的特征标准，对训练数据采用从上至下的递归法生成子节点，直至分叉结束，最后是决策树修剪过程，由于决策树易因过拟合现象而导致分类有误，因此在决策树生成后要进行树枝的修剪过程，通过减小树的结构达到解决过拟合的问题。

　　3 基于决策树算法的水质等级分类模型构建

　　3.1 水质等级监测模型的属性

　　选择决策树中含有多个特征属性，但只有一些特征属性对分类可以起到关键作用，影响水质类别的所有特征对其分类具有不同的敏感程度，特征的选择对模型的准确度和效率具有直接影响。传统的水质等级评价会选择 pH，溶解氧，高锰酸盐指数，氨氮等30 多种评价指标作为特征属性，但很多中小型企业由于资金原因无法承担全套的水质评价仪器，致使工厂排放的废水未经过等级评价便排放到河道中，导致污染物超标，劣Ⅴ类水增加。因此，在对水质等级与各因素之间的影响程度以及各种组合结果的对比后，最终选择温度和总磷作为最终的特征属性。其中总磷是指水中所有形态磷的总量，是反映水体质量和污染程度的重要指标。

　　在水体中，磷一般为磷酸盐和有机磷的形式存在，绝大多数来源于企业污水中磷的使用。磷是水中最主要的影响元素，是促进水中生物和微生物生长的关键因素，若磷过于富集，则会导致水体质量下降。对中小型企业排放废水中的总磷的监测和分析，可以辨别水质的污染程度，了解水质的富营养化状况，因此总磷是水质分析中的必测项目，是评价水质的重要因素，选择磷作为特征属性具有一定的理论和实际支撑。测定总磷含量的国家标准是钼酸分光光度法。该方法的主要原理是，首先在保持中性的水环境下，用过硫酸钾或者硫酸—高氯酸对水样进行消解操作，使水样中的所有形态的磷转化为正磷酸盐，接着在酸性介质中，将消解的正硝酸盐与钼酸铵发生反应，从而保持在锑盐存在的条件下将生成的磷钼杂多酸立即用抗坏血酸还原生成蓝色的络合物，最后在 700 nm条件下进行吸光度测定。

　　3.2 水质等级监测

　　模型的建立水质等级的分类模型是指从已知的水质数据中利用决策树分类算法，将水质类别分类中的规律提取出来的过程，其中已知类别的数据称为样本数据，可以分为训练集和测试集两部分。在建立水质等级分类模型过程中，首先根据需求和数据特点选择决策树算法作为分类模型;接着将训练集数据作为算法输入值，总结归纳分类标准后输出相应的分类模型;最后利用测试集数据验证分类模型的准确性和有效性，使用构建的分类模型将测试数据进行分类，完成后与实际分类情况比对，统计最终的准确率，若准确率达到要求的标准，则认为该模型可作为水质分类模型，否则需要重新构建。

　　4 面向中小型企业的废水排放水质监测模型

　　构建面向中小型企业的废水排放水质监测模型是基于水质等级分类模型建立的。对企业而言，定期对废水进行取样，测定废水的温度以及其中的总磷含量，将数据输入构建的基于决策树算法的水质等级分类模型中，输出相应的水质类别，判断是否符合排放标准，若符合记录数据后可以要求进行排放程序，若不符合则需要进行再次处理，重复过程直至废水达到排放标准。而对政府相关部门而言，在进行废水排放水质抽查时，首先将监测到的数据输入基于水质等级分类的模型中，判断企业排放的废水是否符合标准，是否对水体造成了污染，若初步监测符合标准则记录在册，若结果不符合，水质的类别低于Ⅲ类水质或者当地标准，则将样水送至相关机构，采用专业设备进行监测后，再次判断是否符合标准，一旦发现不符合则根据相关政策对企业进行罚款、教育和政治工作。该模型有效降低了中小型企业和政府对废水排放水质的监测费用，有效防止企业偷排超标废水的行为，减少水体污染现象。在构建决策树的过程中，需要找出最佳节点和最佳分枝方法，衡量这个“最佳”的指标叫做“不纯度”。通常来说，“不纯度”越低，决策树的拟合效果越好。参数 Criterion 是用来决定“不纯度”的计算方法。

　　在 sklearn 库中提供了 entropy(信息熵)和 GiniImpurity(基尼系数)2 种计算方法。使用的决策树算法在分枝方法上的核心大多是围绕在对某个“不纯度”相关指标的最优化上。“不纯度”是基于节点来计算的，树中的每个节点都会有一个“不纯度”。信息熵相较于对“不纯度”的处理更加敏感，当使用信息熵作为指标时，决策树的生长会更加“精细”，对于高维数据、噪音很多的数据，信息熵容易发生过拟合现象，而基尼系数在这种情况下的效果要优于信息熵。本文选择基尼系数计算“不纯度”。在构建模型时可以对特征标签重要性进行可视化，结果发现总磷的重要性为 0.960 2，水温的重要性为 0.039 78，可见总磷相较于温度，对水质等级的影响更大，也更加直接。同时为了方便构建决策树模型，将 I 类、II 类、III 类、IV 类、V 类、劣 V 类 6 个水质等级分别用数字 1、2、3、4、5、6进行替代。

　　5 应用测试与分析

　　对决策树进行评估时最常用的标准是预测正确率。训练集共有 50 206 条数据，使用决策树对水质等级进行预测，预测正确数据为 39 443条，正确率为78.56%;模型的训练集得分低于测试集，为 72.87%。在计算评估指标时，样本被分为 4类，分别为 TP(True Positives)、FP(False Positives)、FN(False Nega⁃tives)、TN(True Negatives)。TP 是指将正类判定为正类，FP 是指将负类判定为正类，FN 是指将正类判定为负类，TN 是指将负类判定为负类。其中精确度的计算公式为 TP/(TP+FP)，召回率的计算公式为TP/(TP+FN)，加权调和平均值的计算公式为 2TP/(2TP+FP+FN)。以 III类水为例，正类数据指的则是III类的数据，负类数据指的则是除 III类之外的其他等级的数据。

　　当水质等级预测全部正确时，III类水对应的样本数量应为 17 149。在实际使用决策树模型进行预测时，预测出的属于 III 类水的数据共19 458条，其中的正确判定为15 022条，则TP为15 022条，FP则为 4 436条，FN为 2 127条，TN为 30 748条，精确度为 15 022(/ 15 022+4 436)，即 77.20%;召回率为 15 022(/ 15 022+2 127)，即 87.59%;加权调和平均值 2×15 022(/ 2×15 022+4 436+2 127)，即 82.07%。

　　6 小结

　　随着中国城镇化步伐不断加快以及环境保护和水污染防治行动的不断深入，大型企业已经建成完善的监测和处理废水体系，而由于废水监测设备昂贵、运行成本高，是中小企业完善废水监测体系面临的主要问题。因此，构建符合中小型企业的废水排放水质监测模型显得尤为重要和紧迫。针对这种现象，本文采用决策树算法，将水质数据划分为训练集与测试集，通过构建水质等级分类模型来预测水质等级，测试集验证的水质等级正确率为 78.56%，证明了该方法的可行性，可用于对中小型企业的废水水质进行初步分级，减少监测费用，同时对水质进行监控，以便在水质异常时采集水样进行深入监测，并及时采取治理措施，形成针对中小型企业的废水监测体系，减少水污染现象。

　　参考文献：

　　[1]张颖，高倩倩 .基于灰色模型和模糊神经网络的综合水质预测模型研究[J].环境工程学报，2015，9(2)：537-545.

　　[2]高学平，孙博闻，訾天亮，等 .基于时域权重矩阵的模糊综合水质评价法及其应用[J].环境工程学报，2017，11(2)：970-976.

　　[3]肖金球，周翔，潘杨，等 .GA-BP 优化 TS 模糊神经网络水质监测与评价系统预测模型的应用——以太湖为例[J].西南大学学报(自然科学版)，2019，41(12)：110-119.

　　[4]张莹，谢仕义，邓伟彬，等 .基于机器学习理论的海洋水质评价模型[J].物探化探计算技术，2019，41(6)：819-825.

　　[5]闫佰忠，孙剑，安娜 .基于随机森林模型的地下水水质评价方法[J].水电能源科学，2019，37(11)：66-69.

　　[6]BOANO F，REVELLI R，RIDOLFI L. Source identification in riverpollution problems：A geostatistical approach[J]. Water resourcesresearch，2005，41(7)：1-13.

　　[7]WEI G，CHI Z，YU L，et al. Source identification of sudden contami⁃nation based on the parameter uncertainty analysis[J].Journal of hy⁃droinformatics，2016，18(6)：919-927.

　　[8]李欣欣，王宁，姜秋俚 . 基于改进 AFSA 算法的河流突发水污染溯源[J].计算机系统应用，2020，29(7)：139-144.

　　[9]王忠慧，贡力，康春涛，等 .基于 BAS算法的河渠突发水污染溯源[J].水资源保护，2020，36(5)：87-92.

　　[10]吕清，徐诗琴，顾俊强，等 .基于水纹识别的水体污染溯源案例研究[J].光谱学与光谱分析，2016，36(8)：2590-2595.

　　[11]孙策，李传奇，白冰，等 .基于贝叶斯方法的突发水污染事件溯源研究[J].中国农村水利水电，2020(8)：71-75，81.

　　[12]CHANDRA P P. Landslide susceptibility analysis using decisiontree method，Phidim，eastern Nepal[J].Bulletin of the departmentof geology，2013(15)：69-76.

　　作者：俞武1，薛梦瑶2，3 ，何斌2，3，马金萍1，杜子龙4

上一篇：煤矿设备用齿轮油中煤粉含量的检测方法下一篇：浅析跨境电商背景下我国国际贸易的发展