图像识别技术在全国中药资源普查中的应用

2017-12-15 19:32张小波格小光金艳史婷婷王慧李梦景志贤郭兰萍黄璐琦
中国中药杂志 2017年22期
关键词:应用探讨

张小波 格小光 金艳 史婷婷 王慧 李梦 景志贤 郭兰萍 黄璐琦

[摘要]隨着计算机和图像处理技术的发展应用,图像识别技术已经应用于全国中药资源普查工作的各个阶段。其中,①在前期准备工作中,为建立统一的中药资源名录库,基于纸质文献资料采用文字识别技术,辅助进行与中药资源相关各类名录的数字化;为确定每个普查队外业调查的代表区域和样地,基于卫星遥感图像和植被图等基础数据,采用遥感图像分类等技术方法,辅助确定重点调查区域。②在外业调查过程中,为相对准确地获取中药材种植面积,基于遥感图像采用决策树模型、光谱特征、面向对象等方法,辅助进行中药材种植区域识别和面积估算。③在内业整理过程中,为相对准确的确定区域内中药资源种类,基于植物个体照片、标本照片和名称等采用图像识技术,辅助进行中药资源种类的统计汇总。④在成果转化应用中,基于药用资源个体和药材样品照片,开发中药资源种类识别APP和道地药材3D展示系统,辅助进行中药资源种类识别和药材鉴别特征展示。在中药资源普查工作中引入图像识别技术,辅助普查人员开展相关工作,不但能降低人工的工作量、提高工作效率,而且提高了普查成果的信息化水平和共享应用能力。随着中药资源普查工作的不断深入,图像识别技术方法在相关工作中还将发挥其特有的作用。

[关键词]全国中药资源普查; 图像识别技术; 应用探讨

[Abstract]With the development of computer and image processing technology, image recognition technology has been applied to the national medicine resources census work at all stagesAmong them: ①In the preparatory work, in order to establish a unified library of traditional Chinese medicine resources, using text recognition technology based on paper materials, be the assistant in the digitalization of various categories related to Chinese medicine resources; to determine the representative area and plots of the survey from each census team, based on the satellite remote sensing image and vegetation map and other basic data, using remote sensing image classification and other technical methods to assist in determining the key investigation area ②In the process of field investigation, to obtain the planting area of Chinese herbal medicine was accurately, we use the decision tree model, spectral feature and objectoriented method were used to assist the regional identification and area estimation of Chinese medicinal materials③In the process of finishing in the industry, in order to be able to relatively accurately determine the type of Chinese medicine resources in the region, based on the individual photos of the plant, the specimens and the name of the use of image recognition techniques, to assist the statistical summary of the types of traditional Chinese medicine resources ④In the application of the results of transformation, based on the pharmaceutical resources and individual samples of medicinal herbs, the development of Chinese medicine resources to identify APP and authentic herbs 3D display system, assisted the identification of Chinese medicine resources and herbs identification characteristics The introduction of image recognition technology in the census of Chinese medicine resources, assisting census personnel to carry out related work, not only can reduce the workload of the artificial, improve work efficiency, but also improve the census results of information technology and sharing application ability With the deepening of the work of Chinese medicine resources census, image recognition technology in the relevant work will also play its unique roleendprint

[Key words]national census of Chinese medicine resources; image recognition technology; application discussion

在全国范围内获取各区域内中药资源种类、分布和数量等方面的信息,是全国中药资源普查的主要目的之一。《全国中药资源普查技术规范》[1]要求普查队:在记录每一种药用资源个体种类信息过程中,需要拍摄清晰药用资源个体照片、药用部位照片、腊叶标本照片,同时拍摄部分药材和种质资源照片等。根据“全国中药资源普查信息管理系统”统计汇总情况,试点工作获取各地调查信息超过200万条、照片超过500万张、实物超过10万份。随着全国中药资源普查工作的深入开展,外业调查和内业整理工作中需要收集、统计和汇总的数据和实物数量还将不断增加。外业调查工作中如何快速有效得收集中药资源种类和数量等信息,内业整理工作如何在上百万条调查记录的基础上,准确、快速地统计汇总出各地中药资源种类,是全国中药资源普查技术方法探索应用的一个关键环节。

图像识别技术目标是根据观测到的图像,分辨其中物体的类别;即利用现代信息处理与计算技术来模拟和完成人类的认识和理解过程[2]。近年来随着计算机和图像信息技术的不断发展,计算机图像处理和识别技术得到了广泛的应用。如人脸识别、指纹识别、虹膜识别和手写字体识别等,广泛应用于航空航天、医学、通信、工业自动化、机器人及军事等领域[3]。本文就图像识别技术在全国中药资源普查相关工作中的应用情况进行简要介绍。

1图像识别技术在外业调查中的应用

11图像识别技术需求分析

此次全国中药资源普查中,对重点药材的数量调查是外业调查主要工作之一。野生资源方面:根据《全国中药资源普查技术规范》的技术要求,全国范围需要对349种植物药的蕴藏量进行估算。普查队员在外业调查过程中,可以通过实地调查获取单位面积内药用植物的个体数量,但蕴藏量估算所需相对准确的分布面积难以统计。在中药资源普查前期准备和调查工作过程中,需要借助卫星遥感图像等现代技术方法,辅助估算分布面积。栽培资源方面:根据全国中药资源普查试点工作调查结果,调查区域内栽培的中药材有600多种[4]。根据中医药事业发展和管理工作对栽培药材供应量的需求,需要定期统计全国、各省和县等不同区域内的中药材种植面积。普查工作结束后如何长期有效得获取中药材的栽培面积,需要借助遥感图等现代技术方法、结合地面调查数据,辅助开展种植面积的统计汇总。

12卫星遥感图像识别技术简介

基于卫星遥感图像进行地物分类识别的方法较多,常用的分类方法有,目视解译、监督分类、非监督分类等[5]。目视解译,是根据确定的分类系统和解译标志,对图像利用判读等方法来分类,是通过遥感技术获取目标信息最直接、最基本的方法。监督分类,又称训练场地法,是指通过选择具有代表已知地面覆盖类型的训练样本区,利用训练样本区中已知地面各类地物的空间或光谱特性,以获得识别各类地物的判别函数或模式(如均值、方差、判别域等),以此对未知地区的像元进行分类处理,分别归入到已知最大相似度的类别中;主要方法有最小距离法、最大似然法、神经元网络分类法、Parallelpip、马氏距离法等。非监督分类,是依据地物光谱特征进行分类,一般具有相同或相近的光谱特征,表现出某种内在的相似性;不同类地物,光谱特征不同;主要算法包括:超空间分类算法、ISODATA算法、主成分分析算法(PCA)、独立分量分析算法(ICA)、正交子空间投影算法(OSP)以及基于夹角余弦的相似系数聚类方法等。

随着空间信息技术的发展,空间和光谱特征均可进行地物的分类识别,基于神经网络、支持向量机的算法、半监督学习和主动学习方法等丰富了地物分类识别的应用范围和广度。如半监督学习相比于监督分类和非监督分类这2种方法,半监督学习能够同时利用训练集中的有标签样本、及无标签样本,可在少数有标签样本以及大量无标签样本的情况下,改善监督分类的泛化性,提高非监督分类的高效性[6]。

13在野生资源分布面积统计中的应用

在进行野生药用植物抽样调查方法设计时,以1∶100万全国植被类型数据为主,高程、坡向、土地利用、TM影像等数据为辅,区分有植被区域和无植被区域,在有植被的区域再区分天然植被和人工植被型(如农田、果园、经济林等)。调查人员在进行野外调查方案设计时,可根据不同区域内地块上的地物类别,将具有相似生境的地块归为同一代表区域。每个代表区域内的自然生态环境特征尽可能一致,而各代表区域间的自然生态环境特征有所差异,进而通过软件系统计算得到每个代表区域的面积[7],辅助普查队划分重点调查代表性区域、估算野生广泛分布植物类药的面积及蕴藏量。

14在栽培中药材分布面积统计汇总中的应用

在进行栽培中药材面积调查中,由于中药材的种植地块分布零散,普查队一般很难对所有种植地块进行全部调查获取准确的种植面积。为了获取准确的人参种植空间分布信息,史婷婷等以吉林省抚松县为研究区域[8],以资源三号(ZY3)卫星数据为数据源,探讨基于规则集的面向对象方法进行人参种植区域分类提取。通过对研究区预处理过的ZY3遥感影像进行多尺度分割,在多尺度分割结果的基础上,确定提取人参种植地块的最优分割尺度;针对不同地物类型选取样本对象生成光谱曲线,分析人参地块与其他地物类型的不同点,基于光谱分析结果构建规则集,实现人参种植地块的提取。结果表明,基于规则集的面向对象分类方法能够有效地提取出研究区内的人参种植地块,与传统基于像元的分类方法相比,解决了提取结果较为破碎的问题。

为提高中药材种植的质量和产量,有些中药材需要与其他作物进行套种。由于每种植物的光谱特征不一样,套种和单种模式不同,在应用卫星遥感图像识别提取分布面积时,需要针对每种情况分别构建具体的分类模型。为统计安徽省宁国市宁前胡种植面积,史婷婷等[9]分別以30 m分辨率的Landsat8和16 m分辨率的国产“高分一号”(GF1)多光谱遥感影像为数据源,利用前胡种植地不同时相的纹理和光谱特征变化,提取宁国市耕地和山核桃幼林2种套种模式中的种植区域和面积,实现了不同套种模式条件下前胡种植面积的估算。endprint

2图像识别技术在内业整理工作中的应用

21内业整理工作需求分析

根据第三次全国中药资源普查结果,我国可药用资源有12 807种[10]。第四次全国中药资源普查结束后,需要统计出全国、各省和县等不同区域内的中药资源种类。为相对准确地掌握各区域的中药资源种类,此次普查中按照“三有一对应”的原则对区域内中药资源种类进行统计,即:按照数据库系统中有中药资源名称和照片、标本馆中有标本实物,中药资源名称与照片和实物一一对应。此项工作,如果完全采取人工统计的方式进行,工作量巨大。为提高中药资源种类统计汇总工作的效率,保证实物与名称的一一对应关系,提高中药资源种类统计的准确性,需要借助现代技术方法,辅助进行中药资源种类统计汇总等。

22图像识别技术简介

随着计算机和图像处理技术的发展,图像识别经历了文字识别、数字图像处理与识别、物体识别3个阶段。但某些对于人类来说轻而易举的基本对象类别的识别,机器识别仍然存在明显错误、或在执行这些简单任务时不尽完美。尽管如此,对于某些工作量大、时间长的工作,图像识别技术在众多视觉识别任务上,依然具有巨大的发展潜力。一般图像分为灰度图像、彩色图像和纹理图像等不同类型,通过计算机挖掘可分别出图像在纹理、形状及环境等细节方面的区别。图像识别的关键步骤,包括图像分割、特征提取和判别匹配等。图像分割着重于对象和背景的关系,及整体属性;图像分割方法包括阈值、边缘检测、区域提取等。图像识别则着重于对象本身的属性,主要识别方法包括统计模式识别、结构模式识别、模糊模式识别等。

神经网络是近年来受到国内外广泛关注的高新技术,不同学科的科技人员对其进行了深入的研究,并取得了许多有价值的研究成果,利用BP网络实现图像质量评价,选取图像的几个特征向量作为BP网络的输入,可不对图像作特征提取,直接把图像数据作为神經网络识别器的输入[11]。

23在中药资源种类汇总工作中的应用

231基于纸质文献辅助建立中药资源名录信息库由于中药材的同名异物、异物同名情况比较多,在全国中药资源普查内业整理过程中,需要保证同种资源名称的相对一致性,以确保各地统计中药资源种类的客观和一致性。建立统一的中药资源名录,一般基于现有文献资料整理获取。由于现有数据信息多记录在各类纸质资料上,普查之前尚没有涵盖各类文献名录的数据库;通过人工手动的方式,按照书籍上的内容,将纸质版材料电子化和共享使用工作量较大。为提高工作效率,借助相关软硬件设备、采用文字识别技术,通过扫描纸质书籍,辅助进行各类纸质文献中可药用资源名录的数字化和电子化,建设中药资源名录数据库。

232基于采集号辅助统计汇总标本实物信息初步估算第四次全国中药资源普查结束后,预计将采集制作超过100万份标本实物。为将普查队外业调查获取、将制作好的标本实物汇交到统一的标本馆库长期保存,需要做好统计汇总整理工作。为明确各县的标本实物采集、汇交工作情况,需要对各县预计汇交和实际汇交的标本实物信息进行统计汇总,对比各县标本实物和数据的异同情况,确保国家、省和县级层面对同一份标本统计信息的一致性。此项工作如果完全采用人工手动的方式进行,工作量巨大。在技术层面设计应用了图像识别技术,辅助开展标本实物统计汇总工作。应用图像识别技术,基于统一的采集号和腊叶标本图像识别码,应用软件系统自动识别中药资源名称与标本实物的对应关系,辅助开展标本实物汇总统计工作,改变原来通过人工一一比对的工作方式,提高了腊叶标本实物统计汇总工作效率、降低工作量。具体做法如下:①统一采集标本信息。为提高中药资源数据和实物信息共享能力,规范统一各地制作腊叶标本采集签,保证腊叶标本采集签填写清晰、准确,提高腊叶保本制作效率,在中药资源普查技术规范中,要求普查队将所采集到的标本信息在县级层面,全部录入到“全国中药资源普查信息管理系统”中,基于系统生成和打印采集签。②统一标记标本信息。在系统设计过程中引入图像识别技术,普查队通过“全国中药资源普查信息管理系统”生成腊叶标本采集签的同时,基于条形码生成技术,根据普查队填报到数据库中的采集号和每一份腊叶标本独有的序列号,在采集签上自动生成与每份腊叶标本对应的、唯一的图像识别码。标本制作过程中打印生成带有图像识别码的采集记录签,可在普查队层面保证数据库系统中的中药资源名称与实物标本一一对应。③快速统计汇总标本中资源种类。在每一份标本从普查队汇交到省级和国家层面时,通过图像识别码辅助进行实物信息的快速统计汇总。一种方式是:采用扫码枪、手机等图像识别设备,扫描腊叶标本实物上的图像识别码,再将图像识别码包含的信息转换为数字或文字,通过软件系统自动识别统计汇交实物与数据的对应情况。另一种方式是,对腊叶标本进行扫描或拍照,生成标准的腊叶标本照片;基于图像识别技术根据腊叶标本照片上的图像识别码,通过软件系统自动识别统计汇交实物与数据的对应情况。如果普查队汇交的标本上没有图像识别码,在统计区域内腊叶标本和中药资源种类信息时,需要将标本实物上的种类信息重新录入或进行人工统计。

233基于中药资源个体照片辅助统计汇总种类信息由于全国中药资源普查以县为单位,工作面广、主体多样,区域之间普查队员知识结构差异等,“同种”资源在不同区域可能会被鉴定为“不同种”。为相对客观的反映各区域中药资源的种类,需要对“同种”资源在不同区域,鉴定为“不同种”的情况进行核对整理。如何把可能存在鉴定问题的种类,在众多的信息中筛选出来,是中药资源普查内业整理的一项重要任务。初步估算全国中药资源普查中,将拍摄1万多种药用资源的数百万张照片,在技术层面设计应用了图像识别技术,辅助开展种类统计汇总工作,降低中药资源种类统计汇总错误率、提高工作效率和工作质量。具体做法如下:①以“种”为基本单元,基于每个普查队填报到“全国中药资源普查信息管理系统”中的图片,通过软件自动对全国各地同种资源的图片进行相似度比较,筛选出同种资源中“相似度比较低”的图片。再通过人工比对的方式,在“相似度比较低”的图片中将不属于“同种”的照片及种类区分开。②以全部图片为整体,基于聚类分析方法将“同种”的照片聚在一起,辅助人工的方式,将鉴定为“不同种”的图片,归为“同种”。endprint

3图像识别技术在成果转化应用中的应用探讨

31普查成果转化应用需求分析

由于药用植物种类多样性,根据第三次全国中药资源普查结果显示,我国有药用植物资源11 116种。对于一般大众,由于中药资源和中药材分类专业技术缺乏,很难识别各种常用中药材种类。对于科研人员和普查队员,每个人认识的药用植物种类有限,不可能把1万多种药用植物资源全部认识。中药资源普查外业调查过程中,如何尽可能多的收集药用植物资源种类,同时减少野外的工作量,客观实际的反映中药资源的种类和分布情况,是普查队员工作中面临的一个难题。为充分利用中药资源普查试点工作成果,发挥普查中拍摄大量照片的价值,从服务外业调查工作及科普工作需要角度出发。需借助图像识别技术等现代技术方法,开发相关工具软件或App等,辅助普查队员提高数据收集的效率和速度;辅助一般大众,识别中药材种类、普及中药知识。

32图像识别技术在中药资源普查中的应用

321植物识别APP为充分利用中药资源普查照片,便用户基于手机端进行植物种类识别,在中药资源普查工作中正在研发药用植物识别App。主要工作如下:①将全国中药资源普查试点工作收集的大量药用植物个体和药材照片进行图像预处理,主要通过人工和软件方式核对图片中药材的种类,剔除背景信息得到标准的样本图片。②并基于HDFS和HBase技术进行分布式存储,建立标准的样本图片库。③基于标准的样本图片库,利用基于深度卷积神经网络的图像识别技术,对各种药用植物和药材图片进行分析训练,建立药用植物和药材的识别模型;基于VGG和GoogLeNet卷积网络模型进行修正,提高图像识别的准确率。④基于手机端常用的安卓和ios操作系统,开发具有自动识别和展示功能的APP。辅助用户在工作和生活中,基于手机APP辅助识别药用植物和药材种类,查看药用植物或药材的标准图片、植物名称、药材名等相关信息。

322图像识别技术在药材三维展示中的应用药材图片通常以平面形式展示,与二维照片相比,三维展示更具有吸引力和视觉冲击力,能够通过互动的方式从各个角度真实全面地展示中药材的全貌或局部特征。为更加直观、生动展示道地药材的特征,将中药材展示与新媒体互动、虚拟仿真技术相结合,对中药材整体、鉴别特征等以数字化的方式进行展示,正在研发道地药材三维展示系统。主要工作内容包括:①中药材采样、拍照、建模,将中药材的三维模型、细节图片素材、真伪鉴别关键点等内容整合到数据库中,形成中药材及其真伪鉴别的三维数据库。②三维仿真展示通过读取图文信息、三维模型,利用虚拟现实技术向用户进行直观地展示,包括360度环绕查看、关键部位展示、真伪鉴别关键点展示、主要剖面展示等。

4小结

在全国中药资源普查技术方法探索应用中,基于文字、卫星遥感、植物个体、药材样品和腊叶标本等5类照片,根据前期准备、外业调查、内业整理和转化应用4个环节,针对种类(中药资源种类、中药材种类),分布(野外资源重点调查区域、栽培资源种植区域),数量(野生资源分布面积、栽培中药材种植面积)3个指标,应用计算机和图像识别两大类技术方法,服务全国中药资源普查这一伟大系统工程的顺利实施。

[致谢]山东省计算中心的孙占全老师在图像识别技术方面的指导帮助。

[参考文献]

[1]黄璐琦,王永炎全国中药资源普查技术规范[M] 上海:上海科学技术出版社,2015:1

[2]張家怡 图像识别的技术现状和发展趋势[J]电脑知识与技术,2010,6(21):6045

[3]王耀南 计算机图像处理与识别技术[M] 北京:高等教育出版社, 2001

[4]黄璐琦,孙丽英,张小波,等全国中药资源普查(试点)工作进展情况简介[J]中国中药杂志,2017,42(22):4256.

[5]李石华,王金亮,毕艳,等. 遥感图像分类方法研究综述[J]. 国土资源遥感,2005,17(2):1.

[6]奚晓钰,吴飞,荆晓远 基于多视图半监督学习的图像识别[J/OL]. (20170927) [20171103]. http://knscnkinet/kcms/detail/61.1450.TP.20170927.0959.064html

[7]马卫峰,王哲,郭兰萍,等 3S技术支持下的野生药用植物资源调查方案设计[J]中国现代中药,2014,16(6):433

[8]史婷婷,张小波,曲晓波,等基于面向对象分类的人参种植分布信息提取研究[J]中国中药杂志,2017,42(22):4353

[9]史婷婷,张小波,张珂,等基于中高分辨率遥感影像的宁国前胡种植面积提取研究[J]中国中药杂志,2017,42(22):4362.

[10]黄璐琦, 彭华胜, 肖培根 中药资源发展的趋势探讨[J] 中国中药杂志, 2011, 36(1):1

[11]高强基于BP神经网络的图像识别方法[J]电子世界,2017(17):59

[责任编辑吕冬梅]endprint

猜你喜欢
应用探讨
建筑工程施工的精细化施工管理探析
对初中英语教学中体验式学习应用的几点探讨
电力系统及其自动化技术的应用探讨
生物监测及其在环境监测中的应用探讨
水溶性色粉在防冻液中的应用探讨