基于多源图像融合的自然环境下番茄果实识别

时间：分类：农业论文浏览次数：

摘要：蔬果采摘机器人面对的自然场景复杂多变，为准确识别和分割目标果实，实现高成功率采收，提出基于多源图像融合的识别方法。首先，针对在不同自然场景下单图像通道信息不充分问题，提出融合RGB图像、深度图像和红外图像的多源信息融合方法，实现了机器人

　　摘要：蔬果采摘机器人面对的自然场景复杂多变，为准确识别和分割目标果实，实现高成功率采收，提出基于多源图像融合的识别方法。首先，针对在不同自然场景下单图像通道信息不充分问题，提出融合RGB图像、深度图像和红外图像的多源信息融合方法，实现了机器人能够适应自然环境中不同光线条件的番茄果实。其次，针对传统机器学习训练样本标注低效问题，提出聚类方法对样本进行辅助快速标注，完成模型训练;最终，建立扩展MaskR-CNN深度学习算法模型，进行采摘机器人在线果实识别。实验结果表明，扩展MaskR-CNN算法模型在测试集中的检测准确率为98.3%、交并比为0.916，可以满足番茄果实识别要求;在不同光线条件下，与Otsu阈值分割算法相比，扩展MaskR-CNN算法模型能够区分粘连果实，分割结果清晰完整，具有更强的抗干扰能力。

　　关键词：番茄果实;机器视觉;目标识别;深度学习;MaskR-CNN算法

农业机械学报

　　0.引言

　　我国是番茄生产总量种植面积最大，生产总量最多的国家[1]。目前，国内番茄采摘主要依靠人工进行。一方面，受人口老龄化影响，劳动力资源紧缺导致劳动力成本不断升高[2];另一方面，人工采摘效率较低，而且质量无法保证。因此，研究番茄果实识别算法，提高采摘设备的自动化、智能化水平对缓解资源紧缺，提高生产效率具有重要意义。随着农业自动化、智能化技术的不断发展，机器视觉技术已经成为农业采摘机器人的核心技术之一[3-5]。图像分割是机器视觉技术的前提和关键[6]。

　　由于番茄果实表皮柔软，而末端执行器一般为金属结构，且动作简单，前期的图像分割精度较低会导致果实采摘损伤率高。因此，提高图像分割的准确率和精度、是目前国内外研究的热点问题。传统图像分割算法一般使用RGB图像，以颜色阈值作为分割依据[7-9]。对图像中的几何形状和空间位置等深层特征的提取较为困难，算法的适应性差。特定的阈值参数只针对特定的场合，当自然环境变化，如光照变化时，设定的阈值参数失效进而导致识别失败。

　　近年来，随着计算机硬件性能的不断提升，深度神经网络(DNN)方法凭借其强大的特征提取能力和自主学习能力被广泛应用于农作物目标检测[10-11]。与传统算法相比，神经网络模型能够提取出图像的隐性特征(无明显实际含义的特征)，并通过自我学习和迭代得出划分的依据[12-16]。增加图像的信息量能够提高分割的准确率和精度，使用多源图像是一种有效方法。

　　通过加噪声、改变图像亮度、对比度等方法对样本集进行数据增强，基于深度学习的果实识别算法在场景变化的自然环境具有更好的检测效果，但存在一定的局限性，例如需要大量训练样本，样本标注工作量大、训练时间长等问题。针对自然环境下，环境复杂多变，干扰因素多，信息量大，特征提取困难;番茄果实柔软易损，图像分割精度要求高;单源RGB图像对重叠、粘连果实识别效果不佳;传统样本集标注方法重复性高，工作量大的问题。本文在MaskR-CNN的基础上，提出一种基于多源图像融合的图像分割算法，借助聚类方法完成样本集的快速标注，以提高标注效率和检测精度，以期实现对番茄果实图像进行精准分割。

　　1.基于多源图像融合的番茄果实识别实例分割算法模型

　　1.1图像配准及多源图像融合

　　在温室番茄种植环境下，光线变化、重叠粘连等复杂情况很难用单纯的RGB图像经过深度学习模型进行准确预测，而加入深度信息与红外信息将有利于这些困难样本的预测，提高分割精度[17]。深度图像不受光照影响，能通过深度信息区分不同番茄个体，红外图像中心亮周围暗的特点有利于提取边缘特征。

　　针对本研究使用不同传感器采集到的多源图像，其分辨率存在差异。普通彩色图像的分辨率为19201080像素，而深度图和红外图的分辨率为512424 像素，需要使同一样本下的图像具有相同的分辨率。由于不同传感器视野范围的不同，简单的图像缩放不能实现图像配准，通过转换矩阵可以实现像素点的精准匹配。采集到的深度图和红外图的图像分辨率均为512424像素，下面以红外图向RGB彩色图匹配为例说明图像配准的过程。

　　1.2基于聚类算法的数据集快速标注方法

　　完整的训练数据不仅要包括清晰有效的图像信息，还需要有充分有效的标注信息。已知番茄果实图像区域准确对应的语义标签，能够帮助神经网络进行有效地自我学习和迭代。对于大量的开放环境中番茄果实图像样本数据集，其标注难点在于，语义分割任务需要对图像中的每一个具体像素点分配语义标签。一方面，数据集标注工作任务量大，需要投入大量的时间和精力;另一方面，人工长时间标注出错率高，标注过程会受标注者的主观因素影响。因此，一种能够提高标注效率、缩短标注时间辅助标注工具或算法是必要的。

　　目前，有许多公开的标注工具如VIA等能够辅助研究人员进行标注工作。然而，这些标注工具只能对标注对象使用矩形框框选或者折线包络等粗略的标记，无法满足对图像中每个像素分配语义标签的像素级标注需求。针对这一问题，本文提出一种基于聚类算法的半自动快速标注方法，利用融合后图像信息广泛且综合的特点，将像素点的颜色、深度和红外信息作为聚类特征，沿用K-means算法的思想对场景进行初步分割，在此基础上完成样本集标注工作。

　　K-means是一种常用的聚类算法[19-20]，根据数据样本内部特征的相似性，将一个数据集划分为固定数量的不相交子数据集[21]，算法一般过程为：计算所有样本到所有聚类中心的距离并分配给最近的聚类中心，循环迭代直到全局样本到各自聚类中心的距离之和最小，无法继续优化时算法结束。

　　1.3基于扩展

　　MaskR-CNN的图像实例分割算法MaskR-CNN综合了研究成果，沿用了FasterR-CNN的思想，采用ResNet-FPN架构进行特征提取，与FasterR-CNN相比添加了Mask预测分支，不仅能够实现物体分类、定位，还能进行实例分割。与语义分割相比，实例分割对同类物体更精确。MaskR-CNN的优点在于：具有较高的精度，较快的运行速度，较强的泛化性能，被广泛应用于各种场景。

　　但是在农业采摘场景中，MaskR-CNN模型存在一定的不足：农业场景中番茄成熟果实相互遮挡，由于卷积网络实例分割依赖于纹理特征和颜色差异，而相互覆盖成熟番茄果实表面平滑，颜色均匀，果实的边界难以被准确分割。为适应多源融合图像的特点，发挥多源图像的优势，本文在MaskR-CNN的框架上进行扩展，网络输入由原来的RGB图像更改为多源融合图像，网络输出为目标物体的类别、最小包络框和目标物体像素级掩膜结果。由于输入图像的维数由传统的3维更改为5维融合图像，因此本研究对ResNet[22-23]浅层网络结构进行修改，并将修改过的网络部分参数进行高斯随机初始化。因为输入后为全卷积神经网络，所以只需修改第1层参数。

　　加载权重参数排除conv1，调整heads包含的网络层将conv1添加至训练层。迁移学习是指预先使用大量通用数据对模型参数进行粗调，然后使用本地数据进行微调[24-25]。利用迁移学习的优势，先使用ImageNet数据集对特征提取网络ResNet50进行预训练，然后使用本地制作的番茄果实数据集进行训练。数据增强能够提高模型的精度和泛化性能，针对自然环境下的任务特点，通过改变图像亮度、对比度、添加高斯噪声等方式对原始数据集进行数据增强操作，强化模型对光线变化的适应能力。

　　2.实验验证和比较

　　2.1样本采集及模型训练

　　Microsoft的Kinect相机是一种被广泛应用的多模态视觉传感器，可以同时采集RGB图、红外图和深度图[26]。近年来大规模数据集(如ImageNet，COCO等)为计算机视觉研究工作便捷，研究人员在缺乏实验条件和样本数据集的条件下，能够借助现有数据集资源实现一些基础、普适的计算机视觉任务[27-28]。但对于具体的数据驱动的计算机视觉识别模型，还需要提供大规模标注良好的样本数据集进行针对性训练。

　　本文样本采集于上海金山区某现代温室示范基地番茄设施温室，在计算机和KinectV2相机平台上，编写控制程序采集开放农业环境下的番茄果实图像。共采集了2000份(约30GB)样本作为训练集原始材料，其中每份样本包含一幅RGB彩色图像(19201080像素)、一幅红外图像(512424 像素)、一幅深度图像(512424 像素)和一张坐标映射关系表。

　　农业论文投稿刊物：农业机械学报(月刊)创刊于1957年，是由中国科协主管、中国农业机械学会和中国农业机械化科学研究院主办的唯一综合性学术期刊, 农业工程类中文核心期刊，美国工程信息公司(EI)和美国化学文摘社(CA)收录期刊。

　　3.结论

　　(1)提出了一种基于多源图像融合的扩展MaskR-CNN图像实例分割模型，其特点在于使用了彩色、深度、红外融合图像作为神经网络的输入，有效地扩充了图像的信息密度。

　　(2)提出了使用K-means聚类算法对数据集进行快速标注的方法，提高了图像标注效率，标注时间由原来单幅图像60s左右减少到20s左右。

　　(3)与以单一RGB图像输入的MaskR-CNN模型相比，基于多源图像的扩展MaskR-CNN算法其检测精度由95.4%提升至98.3%，交并比由0.851提升至0.916。

　　(4)与传统Otsu检测算法和YOLOv3算法相比，该算法能够区分不同番茄果实个体，图像分割结果清晰，边缘轮廓完整，且受光线变化影响小，适合自然环境下的作业需求。

　　参考文献

　　[1]熊露,朱孟帅.番茄2016年市场分析及2017年市场预测[EB/OL].(2017-01-22)[2017-01-22]. http://jiuban.moa.gov.cn/zwllm/jcyj/201701/t20170122_5461550.htm

　　[2]董坦坦.成熟番茄的图像识别及其位姿的获取研究[D].南京：南京农业大学,2009.DONGTantan.Imagerecongnitionandposturedetectionofripetomatobasedonmachinevision[D].Nanjing:NanjingAgriculturalUniversity,2009.(inChinese)

　　[3]杨长辉,刘艳平,王毅,等.自然环境下柑橘采摘机器人识别定位系统研究[J].农业机械学报,2019,50(12):14-22.YANGChanghui,LIUYanping,WANGYi,etal.ResearchandExperimentonRecognitionandLocationSystemforCitrusPickingRobotinNaturalEnvironment[J].TransactionsoftheChineseSocietyforAgriculturalMachinery,2019,50(12):14-22.http://www.j-csam.org/jcsam/ch/reader/view_abstract.aspx?flag=1&file_no=20191202&journal_id=jcsamDOI:10.6041/j.issn.1000-1298.2019.12.002(inChinese)

　　[4]HENTENEJV,TUIJLJV,HEMMINGJ,etal.Fieldtestofanautonomouscucumberpickingrobot[J].BiosystemsEngineering,2003,86(3):305-313.

　　[5]毕松,高峰,陈俊文等.基于深度卷积神经网络的柑橘目标识别方法[J].农业机械学报,2019,50(5):181-186.BISong,GAOFeng,CHENJunwen,etal.DetectionMethodofCitrusBasedonDeepConvolutionNeuralNetwork[J].TransactionsoftheChineseSocietyforAgriculturalMachinery,2019,50(5):181-186.http://www.j-csam.org/jcsam/ch/reader/view_abstract.aspx?flag=1&file_no=20190521&journal_id=jcsamDOI:10.6041/j.issn.1000-1298.2019.05.021(inChinese)

　　作者：王文杰，贡亮※，汪韬，杨智宇，张伟，刘成良

上一篇：沂源县花生机械化生产存在的问题及改进措施下一篇：未来气候情景下中亚地区的森林草原火险评估