涉及人体样本高通量测序数据共享与数据库建设中的伦理挑战*

2020-01-20 04:06雷宏博朱俊勇刘颖慧董卫国
中国医学伦理学 2020年1期
关键词:高通量伦理测序

李 源,雷宏博,朱俊勇,刘颖慧,董卫国**

(1 武汉大学人民医院肿瘤科,湖北 武汉 430060,liyuanwhu@whu.edu.cn;2 武汉大学健康学院,湖北 武汉 430071;3 武汉大学人民医院消化内科,湖北 武汉 430060)

高通量测序技术是精准医学或个体化医疗的重要基础[1-2]。精准医疗是通过研究基因、环境与个体健康与疾病的关系,科学认知人体疾病的本质,进而为个体提供合适的预防、诊断和治疗方法[3]。随着高通量测序技术的通量提高、时间缩短和费用降低,大型队列高通量测序数据的快速积累,高通量测序技术在包括恶性肿瘤、心血管疾病、神经精神疾病和糖尿病等重大慢性疾病中发挥重要作用,使得研究者能够更加系统、全局、深入地研究重大疾病防治难题,并开发靶向性的新诊断方法、靶向药物或标志物[1]。更重要的是,高通量测序数据的共享对整合挖掘数据内涵和降低非必需测序负担具有重要价值。因此,研究成果在专业学术期刊发表时,通常需要提供对应的高通量测序数据的获取方式,一系列高通量测序数据库应运而生。但是,基因测序数据和临床表型数据的关联既是认知疾病的关键,同时也引发人们对其中隐私保密、知情同意、精准性与安全性等相关伦理问题的重点关注[4]。

本文在总结当前主流高通量测序数据共享形式、高通量测序数据库的特征的基础上,对比我国与国际在数据共享和数据库建设中的差异,进而重点关注涉及人的高通量测序数据在其过程中涉及的伦理学问题、趋势和策略。

1 高通量测序数据的分类

传统的高通量测序主要包括DNA测序和RNA测序技术,在此基础上衍生出一系列特定测序技术,比如,WGS测序、WES测序、ChIP测序、RIP测序、PAR-CLIP测序、HiC测序、表观遗传相关的甲基化测序和最新的单细胞测序等。这些测序技术都是以DNA或RNA测序技术为基础,在核酸分子高级结构、转录调控和转录后修饰等细分领域广泛应用。因此,不同的测序技术所提取的基因信息是不同的[5]。

DNA测序是最常用并最常提及的高通量测序技术,同时也是伦理学界最受关注的数据类型。通常认为,全外显子测序或全基因组测序在为临床及科研提供海量基因信息的同时,还产生了大量“未知”信息,海量的“意义未明变异”受限于当前研究水平,尚不能明确临床或科学意义,但带来了伦理学中涉及知情同意等系列困难[6]。DNA测序被广泛用于肿瘤、药物代谢等领域,当前,最常用的测序方式是靶向基因测序,即只测极少量具有明确临床意义的基因,在降低成本的同时也规避了“未知变异”带来的伦理困境。

RNA测序由于常需要新鲜样本以免RNA分子发生降解,在临床诊疗中较少用到,主要服务于科学研究或转化研究。过去人们认为RNA测序主要关注基因的表达量变化,携带的敏感信息较少,但随着生物信息技术的发展,新的算法可以从RNA测序数据中提取基因突变、基因融合和可变剪辑等重要遗传信息。研究者逐渐意识到深度RNA测序可以相当于全外显子测序,不能忽略其中的潜在伦理学问题。

此外,由于新的测序技术研究尚浅,许多测序技术目前并没有广泛应用于临床,因而没有被认为涉及敏感遗传信息,比如,DNA的m5C甲基化和RNA的m6A甲基化信息,目前鲜有报道其遗传信息价值,但这并不意味着此类信息在未来依然被定位为非敏感信息。如何对此类高通量测序数据进行特殊脱敏处理或分级对待以“防患于未然”是当前高通量测序数据共享中的伦理难题。

2 常见高通量测序数据共享方式和数据库建设形式

高通量测序数据的共享对验证研究结果、促进数据挖掘和避免重复测序等方面具有重大优势,因此十分必要[7]。在学术界,高通量测序数据共享主要依托于学术发表,当前在学术论文发表时,绝大部分学术期刊均要求公开必要的支持数据,涉及高通量测序数据时其主流趋势是将原始数据上传至常见数据库以获取唯一编号,再将数据库及编号发表在论文上。

具体来说,学术期刊的数据公开方式包括:仅限正文、官网附录、外网附录、数据库收录等方式。比如,一些杂志主页并不支持正文以外的附录数据,因此也不强调数据共享;绝大部分杂志均支持官网附录材料,但是对数据格式和大小有明确限制,通常仅支持少量图表,高通量测序数据通常只提供最终表格数据;当前,越来越多的杂志支持外网附录或不再强制指定数据库收录,使得数据共享的形式更加灵活。比如,Figshare网站不限制文件格式,文件最大支持5GB,研究者不仅可以分享图表,还可以将原始文件及代码等数据上传,使得关注者能够最大限度重现其研究结果。包括Springer Nature、Wiley等大型出版集团认可此类共享形式,并且不再限定高通常测序数据收录数据库。灵活的分享形式能够最大化地实现数据价值,但同时也对其中伦理问题的监督提出了更高的挑战。尽管这些行为主要发生在经过必要科学训练的研究人员之间,但并不能将伦理风险维系于研究者的自律之中。

因此,标准化的高通量测序数据库是平衡数据共享与伦理风险的重要措施。目前主流的高通量测序数据库包括:美国NCBI的GEO数据库、欧洲的EMBL-EBI数据库、日本的DDBJ数据库和中国基因组所的GSA数据库、国家基因库的CMDB数据库等。在肿瘤领域,还包括了GDC(TCGA)数据库、cBioPortal数据库和Oncomine数据库等。然而,这些数据库并没有统一的建设标准。总结起来,数据库的存储模式主要包括原始存储和有无预处理两种模式;而数据获取模式则包括:开放获取、部分开放、部分开放+请求获取、请求获取、注册共享获取等模式。不同的数据库采用不同的组合形式而各具特点。TCGA数据库采用原始存储请求获取和预处理数据分级开放获取模式,而GEO、EBI和GSA则采用原始存储和开放获取方式。更多的小型专病数据库则采用注册成员之间请求获取等封闭模式。不同组合模式涉及的伦理问题不尽相同,对数据去隐私的要求不同。学术期刊外网附录和数据库原始存储+开放获取方式最具有伦理学挑战,对技术要求和相关人员提出更高要求。我国高通量测序数据库建设起步较晚,目前建立的数个大型数据库主要收录大型队列数据,缺乏统一标准和在线分析功能,并亟须在我国科研工作者中推广应用。

3 涉及人体样本高通量测序的伦理挑战

当前,涉及人体样本的高通量测序数据共享是学术界的共识,但同时也带来了许多重要的伦理学问题,主要集中在知情同意、隐私保密、科学边界、精准性与安全性、医疗公平与大健康等方面。

3.1 知情同意

高通量测序对普通大众而言相对陌生,不同的人对其理解不同,知情并理解这些信息存在困难;参与人员的价值观不同对测序数据的解读也不尽相同,比如可能拒绝知晓基因型;基因信息为最重要的遗传信息,个体的基因型与直旁系亲属的基因型存在极大关联性,参与者的基因信息披露将有可能影响到家庭成员;商业测序公司与普通参与者之间存在巨大的认知“鸿沟”,如何在知情同意程序中避免其可能过度解读的商业行为甚至诈骗行为;同时高通量测序产生了当前研究水平尚不能完全阐释的“未知”数据,这些“未知”数据带来的伦理问题与传统医学遗传学所带来的伦理问题存在数量级的差异。海量的“意义未明变异”在当前是否定义为敏感数据,如何把握数据脱敏的程度等,都给知情同意程序带来了困难[6]。

3.2 隐私保密

隐私权是基本人权之一。只有隐私得到有效保护,队列研究才有可能开展并形成大规模的高通量测序数据库,产生巨大的临床和科学价值[7]。个人的基因数据像指纹一样具有独特性,根据基因信息可以确定每一个人甚至与其有亲缘关系的家族成员[8]。我国在《中华人民共和国侵权责任法》中将隐私权作为一种民事权益加以保护,但目前没有关于基因隐私保护的专门法律和行业规范。如何在不暴露用户敏感信息的前提下进行有效的数据挖掘是当前伦理学关注的重点。当前,已有一些算法用于测序数据的脱敏。通过技术创新对数据匿名化处理,当数据匿名化处理后,原来患者个人与其数据之间的联系就已删除,即脱敏数据。对脱敏数据的分析对患者的隐私不再存在侵犯风险。比如,差分隐私技术,该技术的目的是维持数据统计准确性的同时,减低匿名数据再识别的风险[7]。包括区块链技术等新技术主要是防止数据被修改,建立数字分类在点对点的传输块上形成不可更改的共享记录,是提高数据质量和保证数据完整性的可行方式。通过确保数据匿名的高标准,降低公开数据再识别的风险,可促使个体更愿意参与精准医学。

3.3 科学边界

随着高通量测序技术越来越普及,相应的伦理矛盾也越来越突出,在涉及人体样本的高通量测序领域,由于包含了海量基因信息,大规模群体研究能够发现许多新的认知[4],如何确定科学研究的边界,这些影响深远的领域已成为敏感话题,引起学术界及社会的广泛关注和争论。2019年1月,冷泉港实验室(Cold Spring Harbor Laboratory,CSHL)宣布与1962年诺贝尔奖得主詹姆斯·沃森(James Watson)彻底断绝关系,并收回授予他的所有荣誉称号,原因是沃森最近重提并肯定了他在2007年发表的种族智力基因差异言论。沃森因联合发现DNA双螺旋结构而获诺贝尔奖,但其却将高通量测序技术用于种族差异研究,沃森的言论没有科学依据,应当受到遣责。滥用科学为偏见辩护的行为不仅应该受到谴责,还应该在伦理审批中合理规避。

3.4 科学性与安全性

高通量测序数据为个体化精准治疗提供了指导依据,然而重要的前提是测序的科学性有保证,准确的测序结果才能够避免不必要的靶向治疗或错过更好的治疗方式[9]。2017年2月发表于Science的一篇论文[10]指出:现行的公共DNA测序数据库存在大量误差,DNA损伤是其中最主要的原因,包括病理组织如石蜡组织包埋切片和循环肿瘤DNA提取等操作均可能导致DNA损伤,因此很难界定低频等位基因突变究竟是的确发生了致癌突变还是人为误差导致。该研究的结论可能会对目前的DNA检测技术及数据分析方法带来极大的影响,更强调了高通量测序科学性的重要意义。

与此同时,海量高通量测序数据的涌现,使得社会各界对这一宝贵生物信息资源极其重视,遗传信息安全和科研及商业的助推之间如何平衡再次受到关注。大型队列的高通量测序研究以及对遗传资源的保护与应用是精准医学和个体化医疗的基础,直接影响到一个国家在生物医学领域的核心竞争力。大规模人群高通量组学研究,可以筛选与表型显著相关甚至是起决定性作用的遗传特征。因此,美、英等多个国家发起了国家级人群基因组学研究计划并公开数据供全球科学家研究使用,为全人类的医疗健康事业作出了巨大贡献。但同时,基因大数据的安全性受到质疑也并非第一次。以色列基因检测公司“我遗传”就曾发布声明,超过9200万用户的电子邮件地址和密码遭窃取。2018年10月24日,科技部官网更新2015—2018年遗传资源行政处罚信息,处罚单位涉及阿斯利康、药明康德、上海华山医院、华大基因等基因检测领域多家“明星”单位。比如,华大基因与上海华山医院在2015年9月未经许可与英国牛津大学开展中国人类遗传资源国际合作研究,华大科技未经许可将部分人类遗传资源信息从网上传递出境。科技部要求华大基因立即停止该研究工作的执行,停止国际合作,整改验收合格后再展开。

因此,科学研究只有在符合相关规定及伦理学原则的前提下,才能够保证其研究的科学性和安全性。2018年10月,国际顶级期刊《细胞》发表华大研究团队关于14余万例无创产前基因检测数据的研究[11],揭示了包括31个省,汉族与36个少数民族在内的中国人群精细的遗传结构,实现了多种表型的全基因组关联研究,揭示了中国人群中病毒序列分布特征,构建了包含约900万个多态性位点的中国人群基因频率数据库(CMDB)。研究团队遵从《中华人民共和国人类遗传资源管理条例》和生命伦理原则规范。研究全部在境内完成,样本及数据保留在深圳国家基因库,不存在任何遗传资源数据出境的情况。研究中的国外作者未参与接触到原始数据的分析工作,主要在科研思路、算法设计方面给予智力贡献。

3.5 医疗公平与大健康

高通量测序价格虽然已大幅下降,但仍价格昂贵;同时,依据高通量测序技术指导的靶向药物价格不菲,使得高通量测序技术更多的造福于经济条件较好患者,势必影响其医疗公平性。当前,高通量测序及大健康产业已经形成了几大寡头公司,这些公司掌握了数百万人的基因数据以及各种健康数据,通过这些数据,在包括健康咨询、健康管理、健康追踪、身体体检、饮食搭配、医疗保健、意外伤害保险等健康管理领域深入且广泛影响我国人群大健康。然而相关法律法规尚未完全建立,如何保证科学研究成果不被商业公司滥用,是当前的难点,唯有健全审查监督机制,提升国民科学素养和经济水平,方能促进医疗公平和大健康事业的长足发展。

4 涉及人体样本的高通量测序数据共享对策

中国目前高通量测序数据严重碎片化。中国医疗数据主要分布在医院、体检中心、测序公司、临床试验机构、商业测序公司内部。数据来源极为分散,质量参差不齐。想要从根本上解决高通量测序数据共享的难题将是系统工程,涉及法律法规、伦理审批、商业模式、利益分配、绩效考核等多层面核心问题[3,12]。相关部门通过适当的激励机制鼓励数据分享,并与医院、行业和社会机构合力推动基础设施建设,减少数据集成成本。在学术界,短期内亟须建立高通量测序数据统一标准并建设推广我国自主开发的高通量测序数据库;在较长时期内,需要制定具有战略意义的顶层设计以指导生物信息数据研究的发展,包括高通量测序技术的研发和生物信息分析流程的开发等。我国建设中的高通量测序数据库功能单一,原始测序数据共享带来一定伦理风险,亟须开展数据分级管理和预分析等功能的开发。近年来相关部门出台了一系列科学发展的规划,但是还没有形成对精准医疗长期、完整、系统的指导战略,也尚未形成部门间的联动以有效推行各项政策。同时,公众教育与公众参与至关重要,通过充分的宣传活动使得公众增强对高通量测序的理解与接受,引导公众正确对待研究成果转换成临床应用[13]。

综上所述,本文主要关注学术界高通路测序数据共享中的伦理挑战。当前,高通量测序数据库是主流的共享方式。我国GSA及CMDB等数据库目前功能相对简单,推出在线分析流程十分必要。数据库的预处理功能能够让研究者只获取最终整理后的感兴趣数据,避免原始数据的扩散,规避伦理风险,减少不必要的运算和存储资源浪费,更重要的是推广数据库建设和数据分析标准,扩大我国在生物医药大数据领域影响力,推动健康产业长足发展。大队列的人体样本高通量测序数据是国家在生物医学领域的核心竞争力,宏观层面建设大型本地数据库并提供预分析,能够在符合伦理学原则的范围内,极大地推动高通量测序数据的共享和健康事业发展。

猜你喜欢
高通量伦理测序
《心之死》的趣味与伦理焦虑
新一代高通量二代测序技术诊断耐药结核病的临床意义
灵长类生物医学前沿探索中的伦理思考
外显子组测序助力产前诊断胎儿骨骼发育不良
高通量血液透析临床研究进展
护生眼中的伦理修养
Ka频段高通量卫星在铁路通信中的应用探讨
中草药DNA条形码高通量基因测序一体机验收会在京召开
基因测序技术研究进展
外显子组测序助力产前诊断胎儿骨骼发育不良