基于EM和K-means混合聚类方法的植物叶片病害区域自动提取
夏永泉, 王兵*, 支俊, 黄海鹏, 孙静茹
郑州轻工业学院 计算机与通信工程学院,河南 郑州 450001
*通信作者,王兵,E-mail: 417726753@qq.com

作者简介:夏永泉(1972—),男,辽宁绥中人,博士,副教授,主要从事图像处理、计算机视觉、模式识别与人工智能研究。E-mail: 563241627@qq.com

摘要

针对植物病害区域如何准确提取的问题,文中提出了一种基于EM和K-means混合聚类的方法。该方法在目标与背景具有较明显差异的情况下,可以有效地将叶片目标提取出来,并对较复杂背景也具有一定的甄别效果,优于其他经典方法。利用植物病害区域的褪绿特点,用K-means方法结合Lab颜色空间,利用Lab颜色空间颜色分布的均匀性,提取A分量作为参考分量,将病害区域从叶片目标中提取出来。通过Matlab仿真实验,结果表明,基于EM和K-means混合聚类方法的植物病害区域提取是可行的。

关键词: 植物病害区域; EM算法; Lab颜色空间; K-means算法; 混合聚类
中图分类号:TP391.41 文献标志码:A 文章编号:1004-1524(2017)08-1384-08 doi: 10.3969/j.issn.1004-1524.2017.08.21
Automatic extraction of plant diseases based on EM and K-means hybrid clustering
XIA Yongquan, WANG Bing*, ZHI Jun, HUANG Haipeng, SUN Jingru
College of Computer and Communication Engineering, Zhengzhou University of Light Industry, Zhengzhou 450001, China
Abstract
Aim

ing at the problem of how to extract the plant disease area accurately, a method based on EM and K-means hybrid clustering is proposed. The method can effectively extract the leaf target and have some screening effect on the more complicated background, which is superior to other classical methods in the case of obvious difference between the target and the background. Based on the chlorotic characteristics of the plant disease area, the K-means method was used to combine the Lab color space. Using the uniformity of the color distribution of the Lab color space, the A component was extracted as the reference component, and the disease area was extracted from the leaf target. The experimental results showed that the extraction of plant diseases based on EM and K-means hybrid clustering method is feasible.

Keyword: plant disease area; EM algorithm; Lab color space; K-means algorithm; hybrid clustering

中国作为农业大国, 其植物病害的暴发, 可以直接造成经济损失甚至导致人类饥荒, 所以对这方面应充分给予重视。随着计算机技术的发展, 将数字图像处理和图像分析技术应用到植物病害检测识别已成为主流, 既可以节省人工成本也可以提高识别的准确度。图像分割是视觉识别的前提和关键, 分割结果的优劣直接影响着后续处理过程。对于植物病害区域的分离, 胡维炜等[1]通过HSV、Lab特征空间聚类算法逐步分离目标叶片和病斑区域, 并采用区域填充法减少叶面水珠, 可以准确定量化评估大豆作物的病害程度。李冠林等[2]利用Lab颜色模式下ab二维数据空间的颜色差异, 以平方欧式距离作为像素间的像素距离和均方差作为聚类准则函数对颜色进行二分类聚类, 实现了葡萄病害彩色图像的分割处理。张武等[3]将K-means聚类、otsu阈值法等多种方法结合, 多次进行分割, 最终分割出带有病斑的小麦病斑图像。围绕目标的提取问题, 邹秋霞等[4]在Lab颜色空间对a分量进行阈值分割, 并对比了ab分量 的K-means聚类算法的分割效果, 去除了叶片的阴影部分, 方便了叶片的精准提取。谢从华等[5]提出了一种新的基于高斯混合模型特征函数的图像特征序列描述方法, 用自适应的方法解决了叶片图像的植物数据库的归类问题。郭晶晶等[6]针对传统高斯混合模型分割算法在分割上存在的不足, 结合Lab色彩模型的颜色和空间的相关性, 对于果树区域分割的准确性有了很大的提升。

传统高斯混合模型在RGB图像基础上, 对植物病害区域直接聚类分割效果并不理想。上述这些病害区域分割和叶片提取多利用了LAB颜色空间颜色均匀的特点, 聚类效果理想, 但背景对于目标区域的影响又会降低目标提取的准确性。将二者进行结合, 可以有效地克服这个缺点。大多数的算法是对剪裁后的图像进行目标提取和后续处理, 需要进行人工干预来获得较好的子图像, 本文在对目标叶片进行自动提取的基础上, 提出了一种植物病害区域分割的方法, 可以有效地将植物病害区域提取出来, 降低背景对于目标区域的影响, 使得植物病害区域的分割更加准确。

1 算法描述

对于植物叶片目标的提取目前没有很好的通用算法, 在无监督的情况下, 图像分割大致分为了两类:基于边缘检测和像素筛选。对于边缘检测, 一些未闭合的非联通区域可能会出现在分割图像中, 而像素筛选可能会产生多余的分类。独立的像素可以通过一些滤波器轻易滤除, 而未封闭的区域通常给物体检测带来很大的负面影响。此外, 对于复杂背景而言, 可能会分割出来一些不想要的目标。本文的像素筛选是像素的无监督聚类, 采用了基于高斯混合模型和EM算法结合对植物叶片进行了提取。此方法的目的是对植物叶片进行提取, 而不是对叶片病害区域进行分割。虽然K-means效果不错, 但由于K的初始值的确定具有随机性, 在对大图像进行目标提取时, 每次的结果可能会出现细微的偏差。

在植物叶片目标提取的基础上, 将颜色空间从RGB转换为Lab颜色空间, 提取A分量作为参考分量, 这时已经去除了背景对于叶片目标和病害区域的影响, 结合K-means算法对叶片和病害区域进行聚类, 便可以实现对病害区域较为准确的提取。

算法优势是针对户外目标或者简单背景下的植物病害叶片目标, 可以进行连续有效的分割, 不需要人工干预或者图像裁剪来获得较优的子图像, 方便分割处理, 为之后的研究工作奠定基础。

2 混合聚类
2.1 算法像素筛选提取叶片目标

本文采用无监督像素聚类, 对植物叶片目标提取, 即利用有限混合模型进行聚类[7], 而不完全数据的样本, 其参数的似然函数优化困难, 故采用EM(expectation maximization)算法来求解最大似然值。这部分聚类的作用是去除图像中无用的目标, 为下一步植物病害区域的提取做准备。这样提取的目标叶片图像没有了背景成分的干扰, 在做植物病害区域提取时, 分割效果会有显著的提升。

2.1.1 高斯混合模型的基本形式

x1, x2, ...., xn|xRd为随机变量Xn个随机样本值, 则含有c个成分的d变量混合模型的概率密度函数表示为:

式中, ω i> 0, 代表混合模型中各成分的权重, 并且满足 表示第i个成分的概率密度。当混合模型的各成分分布服从高斯分布时, 式(1)可以写成:

其中μ 1……μ c和􀰐1……􀰐c分别表示各成分的均值和协方差。

Z1, Z2, ……, Zn分别为样本x1, x2, ……, xn所属成分的概率向量, zij=Zj(i)的取值为0或1。取0时表示样本xj不属于样本第i个成分, 取1时代表属于。则最大似然法求解参数的log似然函数如公式(3)所示:

原始RGB图像高斯混合模型输出如图1所示。

图1 RGB图像三类像素高斯混合模型Fig.1 Three-pixel Gaussian mixture model of RGB image

2.1.2 EM算法估计未知参数

由于对数内求和部分计算十分复杂, 这使得方程整体求解变的十分困难。这时就需要引入潜变量 8]W来对点进行标记, 而不是对方程直接求解。通过潜变量W=zki对像素点来进行标记, 这样就可以通过概率分布来确定像素点的归类。而潜变量W是未知的, 需要EM算法[1]来进行迭代求解。EM算法主要分为2步:

E-Step:求解参数

M-Step:对公式(3)中的 求最大值, 可得:

基于用于像素聚类的最大似然估计(ML)的颜色分割方法来对植物叶片进行提取。根据EM算法原理, 使用这种算法来估计给定的一组像素数据的高斯混合模型的先验概率, 然后通过概率比较来将每个像素进行分类, 最终实现像素的筛选, 达到将目标叶片提取出来的目的。随着EM迭代次数的增加, 分类结果越来准确。但为了节省分割时间, 如果误差率小于0.1, 停止迭代。较为简单背景下植物叶片提取结果如图2所示。

图2 较为简单背景下植物叶片提取结果Fig.2 The results of plant leaf extraction in the simple context

在较为复杂的背景下, EM算法结合高斯混合模型也有一定的甄别作用。由于复杂背景下, 目标和背景的相似性很强, 很难将目标从背景下精确地提取出来, 提取的叶片目标并不准确。在像素筛选的过程中, 虽然已经采用了颜色阈值的方法来进行了一定程度上的弥补, 但是复杂背景下的叶片目标提取结果并不尽如人意。对于阴影区域和边缘区域的判断不准确, 使得像素筛选的精度不足, 总会出现错误分割, 从而不能将目标和背景较为准确地分割出来。这将会在进一步的研究中继续改进。复杂背景下叶片目标的提取结果与otsu分割方法对比如图3所示。

图3 复杂背景下植物叶片目标的提取结果与otsu方法提取结果对比Fig.3 Comparison of extraction results of plant leaf target in complex background and otsu method

2.2 K-means病害区域提取

这部分聚类的作用是利用Lab颜色空间下颜色分布的均匀性, 针对植物褪绿的颜色特点, 将植物叶片病害区域提取出来, 对比RGB图像下的聚类更加准确。

2.2.1 Lab颜色空间转换

绝大部分的彩色图像是基于RGB颜色三基色模型, 但RGB空间中三个分量之间存在很强的相关性[9], 因此不适于直接用于基于三个分量独立运算的图像分割。但利用各种变换, 可以由RGB空间推广到其他颜色空间[10], 其中HSI[11]空间是从色调、亮度和饱和度三方面描述图像, 比较直观且符合人的视觉特性。但Lab色彩空间是目前最均匀的颜色空间, 它与设备无关, 适用于接近自然光照的场合。

Lab中L表示明度, a、b均表示颜色, 这就表明在Lab中明度和颜色是分开的, L通道没有颜色, a和b通道只有颜色。L、a、b分别取值为0-100(纯黑-纯白)、-127-128(洋红-绿)、-127-128(黄-蓝)。正、负分别为暖色、冷色。红绿分量a可以作为评价颜色最重要的指标之一[12], 它能很好地反映植物病害叶片褪绿的颜色状态。

2.2.2 K-means算法提取植物病斑区域

经过上一步对植物叶片目标提取获得原始图像。将提取出来的叶片目标图像从RGB空间转换到Lab空间, 之后运用5· 5的矩阵窗口对目标进行中值滤波去噪, 消除噪声或减弱对叶片病斑提取的影响。然后运用K均值算法对图像进行分割, 仅仅根据图像的颜色信息, 将颜色相近的像素点划分到同一簇去, 就可以有比较好的分割效果。

K均值(K-means)聚类算法[13, 14]是目前应用较为广泛的聚类分析方法之一。该算法具有快速、直观、易于实现的优点。K均值(K-means)聚类算法的具体步骤如下:

(1)将数据划分为预先设定好的K个簇, 为每个簇定义一个质心;

(2)将数据中的每个点与距它最近的质心联系起来直至再无数据点与相关质心相连, 这标志早期聚合已完成;

(3)根据结果重新计算K个质心作为每个簇的质心;

(4)当获得K个新的质心时, 需要重新将数据集中的点与距它最近的新质心相绑定并进行循环迭代, 直至准则函数收敛使平方误差函数值最小如式(5)。

式中, xi(j)-Cj2为数据点 xi(j)到簇中心Cj的距离度量, 也指示n个数据点与其各自簇中心的距离。通过上一步的植物叶片提取, 可以得到较为完整的植物叶片, 将背景的干扰去除, 这样在通过K-means算法进行聚类对细节信息的分割会变的更加准确。

这部分聚类的基本思路是从m× n像素大小的图像数据对象选择2个对象作为代表病斑区域和正常区域的初始聚类中心, 对于剩下的其他对象, 则根据他们与聚类中心的相速度将其分配给与其最为相似的聚类并进行标记, 从而产生两种新聚类标记区域; 然后再计算两个新聚类的聚类中心, 继续进行聚类; 不断重复这个过程直到聚类准则函数收敛为止, 最终产生的两种不变的聚类标记区域即为分割结果。

在Lab颜色空间中, 所有颜色信息都包含在ab二维空间中, 图像分割可以根据不同颜色块差异进行聚类[15]。图4为小麦白粉病图像a和b分量以及对应的直方图, 可以看出病害图像a和b分量颜色存在明显差异, 直方图呈现互补的趋势, 表明可以利用a和b分量对颜色进行分类。

图4 小麦白粉病a、b分量图像及直方图Fig.4 Wheat powdery mildew a, b component image and corresponding histogram

3 实验结果与分析

在Matlab 2016仿真软件下, 分别用基于HSI颜色空间最优阈值算法[16]、直接进行K-means聚类和本研究算法对植物叶片病害区域进行分割, 分割结果如图5所示:其中A、B、C、D依次为原始图像、HSI最优阈值算法、K-means直接聚类和本文研究算法, 前两幅图片为简单背景下植物病斑分割结果, 后两幅图片为较复杂背景下植物病斑分割结果。

对于简单背景下的植物病斑分割, 由于病斑区域纹理复杂、颜色多样, 在采用基于HSI颜色空间的最优阈值图像分割算法不能有效地将病害区域提取出来, 在光照不均匀情况下, 阴影部分和光线较暗部分错分为病害区域, 如图5-a所示。K-means算法结合Lab颜色空间下的聚类算法, 虽然对于复杂纹理不敏感, 但对于光照不均匀的植物叶片, 会将叶片阴暗区域误分割为病斑区域, 对分割结果的正确性产生严重影响, 如图5-b所示。在图像像素数目比较大的情况下, K初始值的确定具有随机性, 从而每次的聚类结果会产生些许的差距, 也会影响分割结果的准确性。本研究算法首先对像素进行筛选, 较为准确地提取出植物叶片, 尽量避免了背景对叶片分割的影响, 对于光照不均匀的植物叶片图像, 在进行像素筛选时可以将阴影区域划分为背景部分, 也减少了因为光照而发生颜色改变对叶片分割的影响。再针对叶片和病害区域颜色块进行聚类, 对复杂纹理等不利影响不敏感, 可以得到较好的分割效果, 如图5-a、b所示。

图5 植物叶片病斑分割结果Fig.5 Plant leaf sport division results

对于复杂背景下的植物病斑分割, 由于背景和目标的相似性, 导致EM算法结合高斯混合模型提取的植物叶片目标并不准确, 这样后续的植物病斑区域分割结果并不理想, 所以本研究算法针对复杂背景并不完善, 尤其是植物叶片和背景的交界区域, 以及阴影区域。这样在后续的植物病斑分割过程中, 产生的结果不准确, 如将背景区域误分割为病斑区域。而对比HSI颜色空间下的最优阈值法和直接在Lab颜色空间下采用A分量进行K-means算法直接聚类的结果发现, 本研究算法尽管存在了不足, 但对比这些算法仍然在一定程度上减少了复杂背景对于植物病斑区域的影响, 使得准确性对比前两者有了较大的提升, 如图5-c、d。所以本研究算法对于复杂背景下植物叶片病害区域的提取具有一定的参考价值。如何在复杂背景下准确地提取植物叶片目标, 保证后续植物叶片病斑区域分割的准确度, 将在进一步的研究中加以改进。

为了验证算法的鲁棒性和有效性, 特地选取具有复杂纹理、光照不均匀、病害区域不连续等特点, 背景较为简单的病害叶片10幅。由于病害区域较小, 很难特别准确地确定原图像的像素数目, 因此采用主观判定的方法来确定分割的病变区域数目, 来比较分割病害区域的准确率。由于分割病害区域不能保证百分百正确, 分割出像素过小的区域也不计入统计范围, 所以先统计分割出的区域数目, 然后再统计分割正确的区域数目(以括号内数目进行表示), 结果如表1所示。

表1 分割实验结果 Table 1 Segmentation experiment results

由于HSI最优阈值法在图片分割中存在较严重的误分割问题, 故不计其分割准确率。通过实验验证可以发现, 在具有复杂纹理、光照不均情况下, HSI颜色空间下的最优阈值算法总是会出现过分割现象, 将纹理和叶片阴暗部分误分割为病害区域, 这样的情况下, 主观判断分割结果的参考性大大降低, 从而影响分割的准确度。直接进行Lab颜色空间下的K-means聚类分割结果虽然也比较不错, 但是在光照不均等情况下, 会对病害区域分割产生误差, 错将阴影部分分割为病害区域, 从而再主观对分割结果进行判断时, 会错误识别分割区域。图片1、2、3光照并不均匀, 存在阴影部分, 在只计算正确分割区域的情况下, 由于背景较为简单, 病害区域明显且数目较少, 故分割准确率能够达到100%, 但最优阈值法和K-means在Lab颜色空间下的直接聚类会将光照不均匀的阴影区域分割出来。图片5、6、7光照均匀, 背景简单, 纹理复杂, 所以改进算法和K-means算法的比较效果并不明显, 分割效果十分接近, 在只计算正确分割区域的情况下, 准确率也能达到100%, 但HSI最优阈值法很难把复杂纹理和病害区域分割出来。其他图片有些背景会对分割结果产生影响, 导致分割出来的区域比病害区域多, 这也使得分割结果并不如改进算法。综合比较来看, 采用混合聚类的改进算法对比K-means算法在Lab颜色空间下的直接聚类和HSI最优阈值法, 具有对光照和复杂纹理不敏感的优势, 能够较为正确地将植物叶片病害区域提取出来, 具有更加准确地分割区域特性, 但混合聚类丧失了时间和计算简单的优势。在植物叶片自动提取的前提下, 减少背景对病害区域分割的影响, 并最终结合Lab颜色空间中的a分量, 运用K-means聚类算法进行病害区域提取的方法切实可行并具有较高的鲁棒性和有效性。根据主观观测的判断条件下其分割结果准确率达到94.70%。

4 小结

本研究提出了一种自动叶片目标提取方法, 将叶片从背景中提取出来, 减少背景对叶片最终病害区域的分割结果的影响。并在此基础上, 将提取的叶片转换到Lab颜色空间中, 利用了ab分量包含全部颜色信息, 并主要用a分量(即病变区域褪绿现象), 再结合K-means聚类方法, 将健康区域和病害区域聚类为2类, 实现了较为精准的图像分割。在与其他经典的分割算法来进行比较, 发现研究算法不仅精度较高, 对复杂纹理、光照不均、颜色信息复杂等特征的病斑图像也能提供较好的分割结果。在复杂背景下, 也具有一定的叶片目标提取能力, 降低了复杂背景对植物叶片病害区域的影响。为实现植物病害区域自动分割提供了一种有效途径, 具有较高的现实意义。

The authors have declared that no competing interests exist.

参考文献
[1] 胡维炜, 张武, 刘连忠, . 利用图像处理技术计算大豆叶片相对病斑面积[J]. 江苏农业学报, 2016, 32(4): 774-779.
HU W W, ZHANG W, LIU L Z, et al. Measurement of relative lesion area on soybean leaf using image processing technology[J]. Jiangsu Journal of Agricultural Sciences, 2016, 32(4): 774-779. (in Chinese with English abstract) [本文引用:2]
[2] 李冠林, 马占鸿, 黄冲, . 基于K-means硬聚类算法的葡萄病害彩色图像分割方法[J]. 农业工程学报, 2010, 26(增刊2): 32-37.
LI G L, MA Z H, HUANG C, et al. Segmentation of color images of grape diseases using K-means clustering algorithm[J]. Transactions of the CSAE, 2010, 26(S2): 32-37. (in Chinese with English abstract) [本文引用:1]
[3] 张武, 黄帅, 汪京京, . 复杂背景下小麦叶部病害图像分割方法研究[J]. 计算机工程与科学, 2015, 37(7) : 1349-1354.
ZHANG W, HUANG S, WANG J J, et al. A segmentation method for wheat leaf images with disease in complex background[J]. Computer Engineering & Science, 2015, 37(7): 1349-1354. (in Chinese with English abstract) [本文引用:1]
[4] 邹秋霞, 杨林楠, 彭琳, . 基于Lab空间和K-means聚类的叶片分割算法研究[J]. 农机化研究, 2015(9): 222-226.
ZOU Q X, YANG L N, PENG L, et al. Research on blade segmentation algorithm based on Lad space and K-means clustering[J]. Journal of Agricultural Mechanization Research, 2015(9): 222-226. (in Chinese) [本文引用:1]
[5] 谢从华, 王立军, 常晋义. 面向叶子图像的植物归类的特征序列描述方法[J]. 计算机应用研究, 2012, 29(12): 4740-4746.
XIE C H, WANG L J, CHANG J Y. Method of signatures description of leaves images for plant categorization[J]. Application Research of Computers, 2012, 29(12): 4740-4746. (in Chinese with English abstract) [本文引用:1]
[6] 郭晶晶, 李庆武, 程海粟, . 基于Lab颜色距离和GMM的树木图像分割算法[J]. 信息技术, 2016(2): 1-9.
GUO J J, LI Q W, CHENG H L, et al. Segmentation algorithm of tree image based on lab color-distance and GMM[J]. Information Technology, 2016(2): 1-9. (in Chinese with English abstract) [本文引用:1]
[7] 胡庆辉, 丁立新, 陆玉靖, . 一种快速、鲁棒的有限高斯混合模型聚类算法[J]. 计算机科学, 2013, 40(8): 191-195.
HU Q X, DING L X, LU Y J, et al. Rapid robust clustering algorithm for Gaussian finite mixture model[J]. Computer Science, 2013, 40(8): 191-195. (in Chinese with English abstract) [本文引用:1]
[8] BILIMES J A. A gentle tutorial of the EM algorithm and its application to parameter cstimation for Gaussian mixture and hidden Markov models[EB/OL]. (1998-03-25). http://ssli.cc.washington.edu/people/bilmes/mypapers/cm.ps.gz. [本文引用:1]
[9] 庞晓敏, 闵子建, 阚江明. 基于HSI和LAB颜色空间的彩色图像分割[J]. 广西大学学报(自然科学版), 2011, 36(6): 976-980.
PANG X M, MIN Z J, KAN J M. Color image segmentation based on HSI and LAB color space[J]. Journal of Guangxi University( Natural Science Edition), 2011, 36(6): 976-980. (in Chinese with English abstract) [本文引用:1]
[10] 李丽君. 结合空间信息的模糊C均值聚类的图像分割算法[J]. 辽宁石油化工大学学报, 2010, 30(4): 51-53.
LI L J. Fuzzy C-Means clustering algorithm with spatial information for image segmentation[J]. Journal of Liaoning Shihua University, 2010, 30(4): 51-53. (in Chinese with English abstract) [本文引用:1]
[11] 闫春来. 彩色图像分割算法的研究[D]. 成都: 电子科技大学, 2008: 10-11.
YAN C L. Research on color image segmentation algorithm[D]. Chengdu: University of Electronic Science and Technology, 2008: 10-11. (in Chinese with English abstract) [本文引用:1]
[12] 杨新. 图像偏微分方程的原理与应用[M]. 上海: 上海交通大学出版社, 2003. [本文引用:1]
[13] 刘晋浩, 朱於军, 阚江明. 图像分割在废弃木质材料连接件检测中的应用[J]. 广西大学学报(自然科学版), 2010, 35(6): 962-966.
LIU J H, ZHU Y J, KAN J M. The application of image processing for the segmentation of measured image of waste wood-based materials connector[J]. Journal of Guangxi University( Natural Science Edition), 2010, 35(6): 962-966. (in Chinese with English abstract) [本文引用:1]
[14] CHEN T W, CHEN Y L, CHEN S Y. Fast image segmentation based on K-means clustering with histograms in HSI color space[C] // IEEE 10th Workshop on Mutimedia Signal Processing(MMSP08). Queensland , Australia: Carins, 2008: 322-325. [本文引用:1]
[15] 张强, 王正林. 精通MATLAB图像处理[M]. 北京: 电子工业出版社, 2008: 272-279. [本文引用:1]
[16] 李中健, 杜娟, 郭璐. 将Otsu用于多阈值彩色图像分割的方法及优化[J]. 计算机工程与应用, 2010, 46(11): 176-178.
LI Z J, DU J, GUO L. Multi-threshold segmentation and optimization based on Otsu in color image[J]. Computer Engineering and Application, 2010, 46(11): 172-178. (in Chinese with English abstract) [本文引用:1]