机器学习和数据挖掘在动物养殖行业中的应用研究进展

2019-08-14 09:01白永平彭江红王延卓
兽医导刊 2019年2期
关键词:表型数据挖掘机器

白永平 彭江红 王延卓

(乌兰察布职业学院,内蒙古乌兰察布 012000)

随着现代技术的发展,动物饲养者可以使用较少的时间,持续的监控和收集动物和农场的信息。特别是基于数字图像、传感器、声音、无人系统和实时非侵入性计算机视觉产生的大数据,可大幅度提高动物相关产品的质量,维持可持续发展和维持动物的健康。结合动物的基因组学、转录组学和微生物组等分子信息,实现精准动物农业的可行性强。此外,全球对动物产品的需求量日益增加,预计到2050年对动物产品的需求量将增加70%,世界粮农组织呼吁扩大和高效生产动物产品。深度开发动物养殖过程中相关的大数据,通过动物种质资源数据信息和动物质量的信息监管以及网上服务系统的数据深度解读,有利于推动动物产品的高效生产[1]。大数据的采集及其分析,是养殖业面临的一个新的挑战,该挑战可以通过使用机器学习和数据挖掘予以解决。本文阐述了在大数据分析背景下机器学习和数据挖掘的意义。本文还列举了机器学习在动物科学相关领域用于预测分析精准动物农业的典型的例子。

1 大数据

现代技术的出现允许我们以更低的成本收集更多的数据。“大数据”是近年来媒体关注的重点。然而,它的意义往往因研究领域的不同而差异较大。该数据中通常有多个行数或列数,因此限制了视觉对数据的观察。由于数据“大小”的定义取决于可用的计算资源,因此,对“大”的定义是不断变化的,而且大数据量增加与科学家对数据管理技能之间的差距还在加大[2],大数据的属性,包括数量,多样性和低价值密度等等都是呈现了大数据不断增长的复杂性。并且与传统的数据集合相比较而言,大数据通常包含非结构化数据,而且需要对大量数据进行实时分析[3]。大数据的分析方法在大数据信息的分析中尤为重要。洞悉大数据或将大数据转化为知识的有效方法是使用数据挖掘和机器学习方法。通过在分析大数据的机器学习算法过程中,对大数据中的信息进行深度挖掘,找到具有社会价值的信息,从而发挥数据的最大潜力[4]。

2 机器学习

机器学习,也称为统计学习,是人工智能的一个领域,专门用于研究预测和推理算法。从数据中学习是机器学习的核心。数据挖掘与机器学习具有类似之处,经常相同的背景下做推论。在大多数实际情况中,机器学习的最终目的是学习或者选择一组能够最好地预测未观测数据的候选概率模型。例如,假设我们的任务是根据基因型预测动物的表型,并且我们有一个由一对表型和相应的基因型组成的数据集。在机器学习中,这种类型的任务称为监督学习,其预测目标(表型)称为监督信号。如果表型是离散的,例如疾病状态,那么这里的任务更具体地称为分类任务。如果表型是定量的,则称为回归任务。相比之下,当数据集不完整且只有基因型可用于所选个体(无表型)时,该任务称为无监督学习。神经网络是实现机器学习任务的一种主要的方法,它是由多种单元组成的类似于生物神经系统的网络结构,用来模拟生物与自然环境之间的交互,其具有强大的数据处理能力和自主学习能力,可以进行精准的识别,从而对分类数据进行有效的处理[5]。计算机处理速度较慢、存储容量不足是当前机器学习在处理大数据时所遇到的主要问题,为了解决该问题,并降低机器学习算法的复杂度,研究者提出了三类并行处理机器学习算法的方式,即基于多核的并行机器学习算法,基于集群的并行机器学习算法和基于混合体系结构的并行机器学习算法[6]。

3 动物科学方面应用的实例

我们现在介绍大数据分析预测在动物科学应用方面的例子。这些示例的概述与大数据分析的相关内容如图1所示。

图1 机器学习和数据挖掘在动物养殖行业中的应用

3.1 基因预测

动物科学的遗传学分析可以说是最早使用机器学习和数据挖掘的领域,在基因表型预测使用最早是在2007年[7]。大数据被称为国家层面的常规遗传评估,涉及数百万具有大量分子信息的动物,如基因多态性。这方面的研究是遗传界的一个热门话题,有研究者对机器学习在动物繁殖与培育中的应用进行了深入的讨论[8]。邹国英等人还研究了机器学习在人类基因重组位点及DNase I高敏位点(DHSs)的预测问题[9]。在当今基因组和表型数据量快速增加的情况下,机器学习对非结构化的育种产生越来越大的影响。

3.2 乳腺炎检测

乳腺炎是影响奶牛产奶和哺乳期健康的主要疾病,每年导致巨大的经济损失。发病原因比较复杂,除了病原微生物感染引起外,挤奶不当、中毒病和代谢等疾病也会诱发乳腺炎。目前,通过测量奶牛的产奶量,新鲜乳汁的电导率,乳酸脱氢酶和体细胞分数是乳腺炎检测的常规方法。但是这类方法存在灵敏度低,检测复杂,需要昂贵的仪器等缺点。最近十年,一种非监督训练的神经网络训练后,成功地应用于诊断农场的奶牛乳腺炎的发生。一个典型的例子是,我国的研究者左月明团队,基于奶牛的新鲜乳汁的电参数,建立了神经网络模型。结果表明,与没有电参数的神经网络模型相比,该方法的灵敏度显著提高,正确检出率为100%[10]。该研究提示,无监督的神经网络学习可以用来检测奶牛的乳腺炎,为农户提供管理和诊断乳腺炎的工具,可以达到早期发现,早期干涉的目的。

3.3 动物流行病防控

机器学习和数据挖掘技术在动物流行病的防控中主要有3个方面[11],即动物流行病预警、辅助检测与流行病的应急处理以及辅助动物医学专家对流行病做出正确的防控决策。其中,前2项内容,主要是由国家和地方动物卫生与流行病学机构进行分析应用,第三项多为动物医学专家关注。付雯等报道的伟嘉集团,通过将检测云平台、互联网以及云计算中心将检测实验室、检测养殖场和兽医资源专家进行整合,通过大数据挖掘以提供疫病诊断、用药安全以及流行病学调查等技术服务[12]。大数据在动物流行病防控中的潜在价值远远大于小规模数据,能够通过大数据来评估疾病风险和预测大规模爆发时间,以及发生疫情后通过大数据进行紧急防控和应急处置,并在疫情结束后通过大数据来分析总结疾病原因,制定更加全面的保护措施。

3.4 图像分析

虽然动物行为一直是动物科学中图像数字分析的核心内容,但是动物的体重测定是图像分析的一个新兴领域[8]。动物体重是营养与育种管理的一项关键的指标,它是动物生长,健康状况和市场准备的直接指标。因此准确的动物体重确定,对畜牧业研究至关重要。传统测量动物体重的方法是靠地磅测量,但是该方法具有费力和准确度低的缺点。采用图像分析获得动物的体重参数是一项可行的技术,可以减少常规方法测量体重的缺陷,它可以自动测量动物图像的尺寸,然后利用预测方程来建立图像参数与活体动物体重之间的关系。

一般来说,有研究报告基于数字图像的生物识别的可行性。基于红外光的深度传感器,例如微软公司的一款MK设备,是一个用于此目的的合适的视觉系统。该系统使用深度映射图像技术,最大限度的减少了图像捕获过程中由于环境背景和动物皮毛颜色的干扰造成的负面效应[14]。通过特定的计算工具,如MATLAB中的图像获取工具箱,对MK相机生成的图像进行分析。在该工具中,必须指定深度图通道,以确保在测量过程中能够获得良好的图像。例如研究者分别假设每次采集50帧和20帧的深度图,应用在猪和肉牛的体重研究中[13,14]。

根据不同的研究目的,可以使用不同的图像部分。比如,Gomes等人使用动物胸部宽度、腹部宽度、体长和背高的图像,他们发现动物的胸部宽度与体重呈现非常好的相关性[13]。Kongsro等人使用选定的图像部分进行估计猪的体积,发现其与猪的体重呈现良好的相关性。他们报告了在不同大小和品种的猪的体重预测中有一个小的平均误差[14]。杨威等人通过混合高斯模型对背景进行建模,并利用图像局部特征ORB关键点作为分类的属性对圈养的豪猪进行行为识别,准确率能够达到93.23%,为信息采集、智能监控在动物养殖业的应用提供了参考[15]。虽然上述研究表明了通过MK系统拍摄的数字图像用于畜牧业体重估算有很大的应用潜力,但是仍存在一些挑战。因此,神经网络在图像识别和预测性能方面具有灵活性和高效性,是一种可行的解决方案。

3.5 微生物组应用

随着下一代测序方法的进步,动物农业的发展出现了许多机遇,在动物农业的发展过程中有很多新型的方法会出现。其中,微生物组的研究与应用是一个典型的例子。大量的研究表明,对牲畜种类的宏基因组研究已经展现出了微生物组对饲料效率,动物健康,动物繁殖等的重要性[16,17]。然而,尽管这些宏基因组研究已经使人们更好地了解牲畜的健康和生产中的微生物组,但是大多数微生物产生的遗传信息目前并没有充分利用起来。新的数据挖掘和机器学习方法对于未来微生物组的研究至关重要,以改善动物农业中的动物生产和表型预测。

迄今为止,少量研究尝试了使用动物微生物组预测动物表型。Shabat等人调查了78只奶牛的种群,研究表明动物瘤胃微生物的种类和微生物基因组可用于预测饲料的饲喂效率表型,精确度高达91%。更重要的是,研究表明微生物组的特征可以高度预测动物的生理特征,如牛奶乳酸和牛奶产量[18]。例如,在肠道中注释微生物功能相关性的能力尚处于起步阶段。在肠道中注释微生物组功能相关性的研究尚处于起步阶段。此外,大多数研究确定了微生物组的变化和宿主表型之间的关系,但未能解释其因果关系。由于目前预测微生物组对动物肠道环境的变化和操纵的反应能力有限,人工调节肠道微生物菌群的途径也非常有限。需要多学科方法以及新颖的数据挖掘和机器学习方法。

4 总结和结论

完全自动化的数据收集或表型平台,能够实现精准的动物农业,其特征不仅在于数据量增加,而且也表现为实时收集的复杂性和动态特性。有了支持数据密集型的技术,在养殖过程中,我们可以持续监控动物,有助于提高动物的健康状况、性能和环境负荷等。目前,动物科学界缺乏可以充分利用这些新型类型数据的基础设施和工具。当这些数据与体动物的基因组学,转录组学和微生物组等分子信息结合起来,新型的机器学习和数据挖掘技术可以提取关键的信息,推进实施精准动物农业。此外,具有互补背景的跨学科领域,如计算机科学,经济学,工程学,数学和统计学,以及工业,对于有效开发分析高通量和异质数据的前沿方法是必不可少的。精准动物农业领域内,养殖人员定制管理实践,采用具有预测用途的机器学习方法将驱动动物养殖大数据实现精准动物养殖。

猜你喜欢
表型数据挖掘机器
机器狗
机器狗
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
未来机器城
建兰、寒兰花表型分析
GABABR2基因遗传变异与肥胖及代谢相关表型的关系
慢性乙型肝炎患者HBV基因表型与血清学测定的临床意义
作物遗传育种研究进展Ⅴ.表型选择与基因型选择
高级数据挖掘与应用国际学术会议