基底细胞癌数字资源建设

2020-08-27 12:17孙卫佳刘莹李雪王奕颖李福秋姚春丽陈彦东
中国老年学杂志 2020年16期
关键词:基底检索数据库

孙卫佳 刘莹 李雪 王奕颖 李福秋 姚春丽 陈彦东

(1长春工业大学计算机科学与工程学院,吉林 长春 130012;2吉林大学第二医院皮肤科)

皮肤恶性肿瘤发病率逐年上升,老年人多发,其中基底细胞癌最常见。随着医疗信息科学(MI)的深入发展,大数据、人工智能和知识工程等先进信息技术开始在医学领域的教学、科研和临床逐渐应用,有关医疗数字资源(DR)的建设也随之发展起来。截至目前,还没有针对基底细胞癌的数字资源公开发布。多年来,皮肤科学领域就基底细胞癌的发病机制、诊断、治疗及预防已形成了完整的教学、科研和临床知识体系,由于缺乏标准规范和形式化表示方法,该知识体系不能被机器解释和利用,限制了知识的共享,这对大数据、人工智能和知识工程在基底细胞癌的教学、科研和临床的应用是一个巨大的障碍。如何突破束缚,建立基底细胞癌数据资源体系结构,形成大数据的优势,为研究基底细胞癌提供量化的依据,为基底细胞癌教学及临床研究的人员提供数据资源是必须面对的问题。为此,本文拟提出基底细胞癌数字资源建设的体系结构和建设路线,建立一个关于基底细胞癌图片、文献、数据案例的大数据采集、存储、处理和应用体系,形成基底细胞癌权威数字资产,支持临床应用模型、标准和规范的建立,为临床提供诊断参考,为教学提供素材。

1 基底细胞癌相关资源特性分析

1.1基底细胞癌的相关资源包括两部分,一是公开发表的论文、报告和数据集,统称为文献;二是教学、科研和临床实践所产生的教材、讲稿、病例、方案及术式等,统称为资料。应用中国知网为文献来源,以“主题=基底细胞癌 或者 题名=基底细胞癌 或者 v_subject=中英文扩展 或者 title=中英文扩展”为检索条件共检索相关文献16 320篇。1980~2006年,关于基底细胞癌相关研究成果数量快速增长(分别为100、85、105、110、110、110、140、172、133、154、195、165、197、170、200、250、285、313、322、344、336、347、350、425、485、554、571篇),2007~2018年每年相关研究成果的产出数量基本稳定(分别为544、645、580、631、642、827、841、876、1 060、1 062、881、1 003篇),且保持高位发展态势。

数据分析表明,在业内,对基底细胞癌教学、科研和临床实践感兴趣的学者众多,相关的文献来源分布相当广泛。同时,这也反映业内针对该主题的关注度、发展趋势及资源形式多样的潜在普遍性,这将增加针对该主题资源收集、整合和共享的复杂性。对具有代表性的9篇文献进行分析。文献〔1~7〕从不同角度对基底细胞癌的发病机制、诊断方法、治疗手段和预防机制进行了综述。从诊断方法来看,文献〔1〕将诊断方法分为组织活检和无创性检查两种;文献〔2〕从临床分析的角度,依据该病症统计分布经验进行了探讨;文献〔6〕从发病情况与临床特征、电子皮肤镜、共聚焦显微镜、组织病理学及诊断等方面进行了分析;文献〔7〕从联合使用反射共聚焦显微镜-光学相干断层扫描设备(RCM-OCT)指导治疗选择和确定手术范围方面进行了分析。从治疗手段来看,文献〔1〕总结三类方法,分别是手术治疗、非手术治疗、移植与皮瓣重建术;文献〔3〕从手术、一氨基酮戊酸光动力疗法(ALA-PDT)治疗、药物和联合治疗角度进行了探讨;文献〔4〕从药物治疗的角度详细阐述了治疗方法;文献〔5〕将治疗方法分为了手术治疗及非手术治疗两种方法,但其具体内容与文献〔1,6〕存在明显的差异;文献〔6〕将治疗方法分为了手术治疗、非手术治疗和联合治疗三种方法,具体内容与文献〔1,5〕也存在明显差异。此外,上述文献还具有一个共同的特点,既在描述发病机制以及诊断、治疗和预防方法时,针对同一内容采用的表述形式多样化,如:语言描述、表格、量化指标或相互混合等形式。

上述分析表明,有关基底细胞癌的相关资源时间跨度大,参与人员多,来源广泛,形式多样,角度差异大,数量稳步增长,专业表述不一致等现象普遍。

2 基底细胞癌数字资源建设路线

首先,应选择一家教学医院为数据采集对象,将采集到的数据作为初始数字资源。由于采集过程是在具有自主权利的一家医院内进行,数据采集的非技术难题通过协作、协商和行政手段容易解决。而在数据采集的技术难题方面,则选择一家专业的大数据公司作为合作对象,按以下步骤建设基底细胞癌数据资源管理平台(以下简称平台)。

(1)开发多种类,基于适配器模式的数据采集工具,如:①网络爬虫从互联网抓取数据导入列数据库;②电子文档批量导入数据工具将教学、科研和临床实践积累的教案、实验、报告、病例和术式等以电子形式存在的资料导入列数据库;③针对医院管理信息系统(HIS)、影像归档和通信系统(PACS)、 实验室系统管理系统(LIS)及放射信息管理系统(RIS)等应用的数据同步引擎,将相关数据导入列数据库;④基于WEB2.0的数据采集工具,收集日常数据导入列数据库;⑤Flume+Kafka集成将各种日志导入列数据库等。

(2)建设保存原始数据的列数据库集群,开发用于透明访问列数据库集群的数据访问服务,支持数据采集和主题数据抽取等应用采用统一、透明的数据访问方法访问列数据库集群。

(3)针对保存原始数据的列数据库开发数据治理工具,包括:去残、格式转换、同近义词合并、去重等。

(4)开发动态主题定义工具,管理主题数据库,按照动态定义的主题,通过ETL从列数据库抽取主题数据,形成主题数据库。

(5)开发用于探索性研究的开放数据分析工具集,包括:统计描述、统计推理和机器学习等,该工具集动态增加、删除和更新。

(6)开发用于管理分析模型的管理工具,用于管理数据分析模型的增加、删除和更新。

(7)以探索性科研、分析报告、数据服务以及数据可视化为具体应用,开发用户使用环境,定制应用数据。

(8)根据具体应用(如:探索性科研、分析报告、数据服务或数据可视化等)的需求从主题数据库定制数据,提供基于数据盒子技术的数据分享及在用户应用环境中完成数据处理。

其次,将开发完成的基底细胞癌数据资源管理平台云平台部署,将该平台体提供的服务和收集到的初始数字资源作为免费资源向业内开放。同时,要求从业人员踊跃提供非免费资源,并按预设的激励机制计算贡献积分。接下来,平台用户可利用积分购买平台上的非免费资源,非免费资源在共享时采用数据自治模式,杜绝数据价值的流失。按照此方法,逐渐将该平台建成业内权威数字资源平台,为广大从业人员的教学、科研和临床实践提供服务。

最后,依据该平台,在整合全社会基底细胞癌数据资源的同时,向全社会提供数据共享、数据分析和数据应用等服务,使基底细胞癌数据资源建设步入良性循环。

3 平台开发

平台已收集基底细胞癌相关文献近5 000篇,相关临床影像近100幅,开发了调查问卷、网络爬虫、电子文档批量导入和WEB2.0数据采集系统。同时正在进行约束机制和激励机制的开发及基于深度学习的基底细胞癌诊断方法及数据盒子相关技术的研究。

平台基于多种数据采集方式,建立基底细胞癌数字资源主题数据库,通过精确检索、高级检索、跨库检索、主题筛选、统计分析等手段提供灵活的资源检索、数据关联性分析、动态主题定义以及内容推送等服务,为基底细胞癌教学、科研和临床提供专业、全面、精准的数字资源服务。精确检索可以通过设定关键词对所有数据库统一检索,保证资源检索服务更全面、更准确、更及时、更便捷。检索结果可按关注度进行升序和降序的排序处理。同时,还可以提供检索结果的关联性展示。高级检索提供组合条件的检索方式,使检索可根据需求定制条件,保证检索更精准、更快速、更有效。检索结果可按关注度进行升序和降序的排序处理。同时,还可以提供检索结果的关联性展示。跨库检索可实现多个主题数据库检索,使检索结果更完整,检索速度更快。检索结果可按关注度进行升序和降序的排序处理。同时,还可以提供检索结果的关联性展示。

主题筛选提供对不同资源信息进行不同的筛选和归类,比如按照作者、作者机构、年份等进行数据归类,筛选方式及规则在后台可灵活设置,方便以后数据的调整。筛选项可以单独点击查看,也可多项选择一起查看,方便了用户的使用。

统计分析提供按照资源类别、年份等进行统计分析,使用曲线图、柱状图展示,直观反映研究趋势及热点,为探索性科研提供数据可视化服务。网络爬虫提供多来源、多角度、异构和动态增长的关于基底细胞癌的数据采集。

问卷调查提供通过制定详细周密的问卷,被调查者据此进行回答以收集资料。可借助此工具对基底细胞癌形成过程进行准确、具体的测定,并应用统计方法进行量的描述和分析,获取所需要的调查资料。基于深度学习的基底细胞癌诊断方法正处于研究阶段,通过对图像进行病灶处理形成训练集和测试集数据,并将训练集和测试集数据打上标签,通过卷积神经网络算法进行模型训练,得出识别模型进行验证,当模型准确率达到90%以上时方可用于辅助诊断模型,目前正在调整模型算法,提高模型准确率。见图1。

图1 基于深度学习的基底细胞癌诊断方法生成

建设平台除上述系技术问题外,还存在一些非技术问题:由于数据价值的稀缺性和复制零成本的特性相互矛盾,致使资源共享成为制约基底细胞癌数字资源建设一个难题。研究人员不愿共享其数据,尤其是在发布之前〔8〕。要解决上述问题,需要建立一个约束与激励有机结合的机制,利用激励机制鼓励基底细胞癌教学、科研和临床从业人员踊跃提供相关资料,同时,利用约束机制保护数据价值的稀缺性,避免数据零成本复制的现象出现。就激励机制而言,可参考国内的百度文库和知网的模式,将从业人员对基底细胞癌数字资源的贡献多样化,并制定相应的量化方法,将贡献转化为内部价值,用于购买相关数字资源服务;也可参考国外由欧洲资助委员会推动的一项共享倡议:搜索(SEEK),作为一个帮助系统模型本体(SysMO)协会成员的平台,为来自一个基金的所有数据和模型提供了一个存储库,但也要确保公共资助产生的越来越多的科学数据可供公众进一步分析和重用〔9〕。要将此方案落实,需先行建设足以引起从业人员兴趣的部分数字资源,同时,提供上述激励机制,保证基底细胞癌数字资源的数据来源,使其进入良性发展的轨迹。

综上,利用基底细胞数字资源建设的方法把分散在全国各地各个领域、不同地域的相关资源进行整合,建立一个关于基底细胞癌图片、文献、数据案例的大数据采集、存储、处理和应用体系,实现广泛的基底细胞癌数据采集,形成基底细胞癌权威数字资产。相关研究成果可为科研探索提供数据集,支持临床应用模型、标准和规范的建立,为临床提供诊断参考,为教学提供素材。

随着大数据、人工智能和知识工程在基底细胞癌诊断、治疗和预防等方面应用研究的深入,对其数字资源的需求和供给的矛盾会越来越尖锐,建立一个全面、准确、及时和规范的基底细胞癌数字资源将逐渐成为业内的共识,相关的数据采集、应用模式、隐私保护和共享机制等问题将成为其研究热点。

猜你喜欢
基底检索数据库
《我要我们在一起》主打现实基底 务必更接地气
大跨度多孔箱涵顶进过程基底摩阻力研究
瑞典专利数据库的检索技巧
在IEEE 数据库中检索的一点经验
一种基于Python的音乐检索方法的研究
a-C基底对WSx 薄膜组织结构及摩擦学性能的影响
数据库
可溶岩隧道基底岩溶水处理方案探讨
数据库
数据库