儿科疾病大数据智能服务平台的构建和应用研究

2023-08-11 08:31葛小玲苏玲马傲张晓波
中国现代医生 2023年21期
关键词:儿科大数据

葛小玲 苏玲 马傲 张晓波

[摘要] 目的 構建儿科疾病大数据智能服务平台,促进临床研究成果转化与医院精细化管理决策。方法 采用问卷调查、面对面会议讨论等方法,采集平台试运行体验,对平台功能进行修正完善。结果 平台梳理了医院内业务数据库/系统6个,数据上报前置机系统3个,业务数据表合计9926张。集成2008年至今的医院信息系统(hospital information system,HIS)、电子病历(electronic medical record,EMR)、实验室信息管理系统(laboratory information management system,LIS)、放射科信息系统(radiology information system,RIS)等数据源,经治理形成院内儿科数据资源池。基于治理后的标准业务数据集,设置数据上报指标的自动质控功能,开发引用电子病历后结构化处理功能,完成12类病历文书共60个字段的电子病历解析与结构化,构建面向儿科的门诊/住院病案首页标签系统,支持用户自定义多维检索。结论 儿科疾病大数据智能服务平台可实现医院内部海量异构业务数据的集成治理与应用,支撑院内数据统计查询应用和多个项目课题的数据需求。

[关键词] 儿科;大数据;智能服务平台;数据应用

[中图分类号] R72;G203      [文献标识码] A      [DOI] 10.3969/j.issn.1673-9701.2023.21.020

Research on the construction and application of an intelligent service platform for pediatric disease big data

GE Xiaoling1, SU Ling1, MA Ao1, ZHANG Xiaobo2

1.Center of Statistics and Data Management, Childrens Hospital of Fudan University, Shanghai 201102, China; 2.Department of Respiratory, Childrens Hospital of Fudan University, Shanghai 201102, China

[Abstract] Objective To build a pediatric disease big data intelligent service platform, realize the integration, and promote the transformation of clinical research results and hospital refinement management decisions. Methods Used questionnaires and face-to-face meeting discussions, we clarified the platform construction requirements, collected platform trial run experience, revised and improved the platform functions. Results The platform sorted out 6 business databases/systems in the hospital, 3 data reporting predecessor systems and 9926 business data sheets in total. The data sources such as hospital information system (HIS), electronic medical record (EMR), laboratory information management system (LIS), radiology information system (RIS), etc. in the hospital from 2008 to the present were integrated and governed to form the pediatric data resource pool in the hospital. Based on the standard business datasets after governance, the platform sets up automatic quality control function for data reporting indicators. Developed post-referencing electronic medical record structured processing function, and completed the electronic medical record parsing and structuring of 12 types of medical records with a total of 60 fields. A pediatric-oriented medical case home labeling system is built to support user-defined multidimensional search. Conclusion The pediatric disease big data intelligent service platform realizes the integrated governance and application of massive heterogeneous business data within the hospital, and supports the statistical query application of data and the data requirements of multiple project topics within the hospital.

[Key words] Pediatric; Big data; Intelligent service platform; Data application

随着大数据技术、自然语言处理和人工智能等技术日趋成熟,医疗数据的潜在价值挖掘与高效利用逐渐成为临床研究与医院建设发展的重要需求[1]。2016年国务院办公厅印发《关于促进和规范健康医疗大数据应用发展的指导意见》,首次将健康医疗大数据确定为重要的基础战略资源[2]。2018年国家卫生健康委员会出台《国家健康医疗大数据标准、安全和服务管理办法》,明确健康医疗大数据安全管理需覆盖数据采集、存储、挖掘、应用、运行等多个环节[3]。但医院信息系统建设往往分批进行,造成承建厂家、数据结构、数据标准等各不相同,医疗数据质量不均衡、数据形态差异大、利用难、缺乏有效整合[4-5]。尤其儿科系统相比成人更加注重纵向维度的资料分析与信息识别,使健康数据的采集整合更为复杂,而现阶段的儿童健康大数据平台建设,多以专病库建设和临床科研需求为出发点,或直接从院内不同系统中抽取科研所需临床数据,或由院内数据中心人员在医院各业务系统数据库进行检索处理后提供使用,人力投入大、过程复杂[6-9]。

本文以医院真实业务数据为基础,通过多源异构数据的集成、治理与应用构建儿科疾病大数据智能服务平台,实现数据的有序融合、高效治理,推动临床数据的科研价值挖掘利用。

1  构建方法

1.1  成立平台构建核心小组

包括平台开发团队和医疗团队。平台开发团队中有1名平台开发负责人与2名项目工程师;醫疗团队中有1名医院项目负责人,2名医院统计和数据管理中心工作人员,1名项目协调人员。项目工程师负责软件技术开发,平台开发负责人和医院项目团队负责人主要负责平台开发过程的整体把控及决策;医院统计和数据管理中心工作人员负责需求调研、平台建设质量管理和系统培训。项目协调人员汇总数据,组织召开小组讨论会,定期组织会议,将微信群作为平台建设进度的协同沟通平台,助力项目推进。

1.2  平台技术基础

1.2.1  项目数据来源  ①医院内部业务系统,包括医院信息系统(hospital information system,HIS)、电子病历(electronic medical record,EMR)等,计划整合院内历史积累的及每日产生的临床数据,如患者的基本信息、门诊住院信息等;②医院内部管理数据,包括财务、人事等管理数据等。

1.2.2  数据存储  采用分布式存储系统实现对海量儿科医疗健康数据的存储;采用基于角色的访问控制方法保障底层安全,同时结合对称加密、非对称加密、不可逆加密、掩码、数据漂白等数据脱敏方法,确保隐私数据和限制类数据的安全。

1.2.3  数据治理  建立基于多源异构采集技术的大数据采集功能实现全量、增量、并行等多种采集方式。将临床数据和医院管理数据等每个数据源赋予类型属性,以医院统计和数据管理中心为依托,临床科室、职能科室为数据提供方,科室可创建数据信息,匹配至临床数据中心,实现数据管理和溯源。

1.3  平台构建需求调研

1.3.1  业务需求调研  调研医院目前在用信息系统建设基本情况,包括①业务系统覆盖范围;②各业务系统建设时间及厂商;③数据库类型、数据范围、系统/平台的数据表结构与字段,明确大数据平台所涉及的各类数据源,平台使用涉及主要科室的组织架构与权限,梳理数据相关业务范围、边界与流程,明确大数据平台的定位目标。

1.3.2  使用场景调研  采用面对面会议讨论法,由平台开发团队与医院统计和数据管理中心组织召开平台相关需求主题沟通会,邀请医院管理者、信息网络管理中心、统计和数据管理中心业务相关人员针对平台数据使用的具体目标、功能需求开展主题沟通。

1.4  确定平台内容

根据需求调研结果,核心小组通过讨论,确定以大数据安全管控为基础,计划建立完整、统一、标准的大数据池,内含医疗类数据和管理类数据,实现质控数据上报、数据检索和项目应用功能。平台共包括10个功能模块:数据源管理、数据采集、临床电子病历结构化处理、数据质量管理、数据隐私防护、数据标准管理、数据资产地图、数据血缘追溯、数据资产目录和数据检索,见图1。

1.5  平台建设质量管理

首先确保需求的明确性,具体到细节问题,如采集困难、 库表结构冗余等问题;其次落实工作进展计划,细化到每条支线及节点;最后在实施过程中各相关方之间充分沟通,执行例会制度,每周核心组内汇报项目进度,复盘工作及形成周报机制,形成阶段性成果材料文档,对过程中发现的质量问题进行及时讨论、诊断、落实改进措施。

1.6  系统试运行

2021年7月开始,方便选取复旦大学附属儿科医院的医院数据管理人员、业务管理人员和平台数据用户,采用发放用户使用手册与系统演示的方式,重点针对数据检索查询、数据质量控制及项目课题应用三个方面开展培训,采集系统试运行体验,完善平台功能。

2  结果

2.1  需求调研结果

2.1.1  调研对象  覆盖医院数据管理部门、信息网络管理部门、管理决策者和项目课题数据用户,历时1个月,共开座谈会4次,具体涉及数据使用人员24名、业务人员12名、管理决策者8名及项目课题数据用户16名。梳理医院内业务数据库/系统6个,业务数据表9926张,数据上报前置机系统3个。

2.1.2  业务需求  ①数据范围:业务系统数据包括HIS、EMR、实验室信息管理系统(laboratory information management system,LIS)、放射科信息系统(radiology information system,RIS)等系统积累的及每日产生的海量临床数据,涵盖患者基本信息、门诊住院信息、检验检查等数据。②需求内容:a.对医院集约化大数据利用的需求:医疗健康数据再利用率低,临床医生、科研人员、医院管理人员无法兼顾信息化运维;b.对医疗健康大数据智能化治理的需求:医疗健康数据来自不同部门、不同业务系统,数据体量大、数据结构、标准、命名规则存在差异,不利于医疗健康数据价值的挖掘;c.患者信息隐私防护、安全使用的需求:医疗健康数据获取和利用过程中缺乏有效的隐私防护手段,尤其是包含大量患儿的身份信息、家庭住址信息等数据,易出现数据滥用、外泄等风险;d.细化管理及医疗服务水平提升的需求:政策导向需要健全对医疗、药品、耗材等收入构成及变化趋势的监测机制;e.集成服务对主机存储资源、网络资源的需求:平台需联动本院及分院等医疗机构数据,并在前端各类业务应用中处理、分析数据,对计算节点、响应时间、通信带宽和存储容量等主机存储资源、网络资源有较高需求。

2.2  功能完善过程

试运行过程中,发现汇总病案首页数据检索问题建议27项,标化工具系统问题建议9项,相应修正优化病案首页检索的模糊检索,数据申请的进度查询、预览和审批的界面与流程,加强标化工具的操作日志记录查询与数据标准的检索功能。

2.3  运行成效

2.3.1  院内大数据资源池的形成  汇总2008年至今院内病案首页、HIS、EMR、LIS、RIS等主要业务数据,经过数据治理形成院内儿科数据资源池,具体包括治理后的业务数据表345张,以数据源为依据,以多层平铺的平台数据资产地图方式直观展现各系统的数据分布,形成基于数据安全等级、业务分类、病种分类等属性的结构化数据资源目录,并支持用户对数据资源进行多维度检索查询。

2.3.2  卫生健康委员会数据上报指标的自动质控  平台基于治理后的标准业务数据集,设置国家平台指标、申康指标模块,形成数据上报质控评估机制,围绕数据一致性、关联性、规范性、约束性和专项考核字段,覆盖321个数据质量考核指标,自动生成数据质量评估报告,问题数据可追溯查阅。此外,数据报表可自定义检索导出,降低数据查询人员在不同业务库查询汇总整理的时间和人力成本,实现数据的统一采集和规范管理,从源头上避免“数出多门”现象,有利于提升数据上报的效率。

2.3.3  临床电子病历后结构化处理的实现  平台通过电子病历后结构化处理功能,完成包括住院病历、手术记录、日常病程记录等在内的12类病历文书共60个字段的电子病历解析与结构化。以住院病历中的既往史为例,采集出院患者的住院电子病历2000份,去重后总体数据记录为1087条,包括疾病史、传染病史、预防接种史等9个数据集字段,设定70%的数据为模型训练集,30%的数据为测试集。人工标注1268个字段,总体模型识别准确率(总P=模型识别正确总计/模型识别总计×100%)为82.27%,召回率(总R=模型识别正确总计/人工标注总计×100%)为80.43%,同时系统还定时更新和加载模型、模型运行日志查询等功能方便了解模型运行情况。

2.3.4  數据检索利用  基于平台数据治理后的门诊/住院病案首页标化数据集,形成病案首页标签系统,其中一级标签5类,二级标签10类,共196个标签,用户可自定义检索条件进行简单或高级检索。截至2021年12月,儿科疾病大数据智能服务平台已对接支撑包括多学科会诊平台(multi-disciplinary treatment,MDT)项目、院内移动决策项目、基于疾病诊断相关分组(diagnosis related groups,DRG)的绩效评价平台项目等多个项目课题的数据需求。

3  讨论

随着医疗行业信息化程度的不断提高,健康医疗数据量呈几何倍数增长,医疗数据的价值挖掘利用,可促进医疗服务、新药研发、医学研究和医院管理等多个领域的发展,但医疗数据海量、多态性、多来源的挑战,使结合云计算、大数据存储和分析处理等信息技术与构建安全、可用、高质量的数据使用环境成为实现医疗数据有效利用的必要基础[10-13]。本研究的数据领域覆盖临床诊疗和医院管理,在技术层面,通过采用分布式文件系统达到高容错性要求;通过引入集群资源管理系统实现动态和静态数据的无缝融合,确保数据的时效性与准确性;通过选择加密、非对称加密和掩码等加密脱敏算法,形成平台隐私防护体系,综合保障平台稳定可靠、科学先进和安全易用。为医院各角色人员提供全面、多维、便捷的数据使用模式,实现平台应用场景支撑能力的拓展延伸,与以往研究报告的临床科研数据平台和专病库多专注于临床诊疗数据的特性相比,服务能力显著提升,有效助力医院运营决策、智慧医疗服务、医疗资源管理和真实世界研究等[9,14]。

医学自然文本数据具有多样性、异构性、主观性和时效性的特点,结构化难度高于其他领域,是数据分析和利用的重要障碍[15-16]。加之医院信息化发展阶段与成熟度差异,国内文献报告大多医疗机构的病历文本中非结构化数据占比在85%以上[17]。本研究在不影响临床医生自由书写病历习惯的前提下,通过利用自然语言处理、机器学习等技术,综合统计学和神经网络的优点,将人工标注与自动训练相结合,对病历记录和诊疗流程中关键要素进行识别和管理,形成儿科疾病医学术语的统计集和机器学习模型,正确识别疾病、症状、诊断、部位等医疗实体及关系。

随着大数据与人工智能的发展深化,儿科疾病大数据平台面临的应用场景也将不断延伸,本项目不足之处在于仅针对病案首页数据标签进行检索界面的开发与利用,面向科研分析的临床字段还不够丰富,后续将结合电子病历后结构化的字段进行拓展开发利用,实现人工智能辅助病历质量控制的同时,助推儿科疾病诊疗和病历记录的规范化,同时进一步挖掘真实世界数据价值,为临床智能决策、疾病监控预测与医院精细化管理等提供支持。

[参考文献][1] LEE C H, YOON H J. Medical big data: Promise and challenges[J]. Kidney Research and Clinical Practice, 2017, 36(1): 3–11.

猜你喜欢
儿科大数据
儿科专栏
儿科常见病,贴敷更有效
请为儿科医师设专项补助
圆梦儿科大联合
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
数据+舆情:南方报业创新转型提高服务能力的探索
儿科医联体的安徽做法
李发枝教授治疗儿科疑难杂症验案4则