DNA 甲基化年龄推断模型在华东汉族人群中的跨平台应用

2023-12-01 06:24王紫薇李成涛刘希玲
法医学杂志 2023年5期
关键词:焦磷酸甲基化位点

王紫薇,李成涛,刘希玲

1.苏州大学基础医学与生物科学学院法医学系,江苏 苏州 215123;2.司法鉴定科学研究院 上海市法医学重点实验室 司法部司法鉴定重点实验室 上海市司法鉴定专业技术服务平台,上海 200063

DNA 甲基化是一种重要的表观遗传修饰形式,主要是指基因组DNA 上的胞嘧啶C-5 号碳原子在DNA 甲基转移酶的作用下,以共价键结合的方式获得一个甲基基团,从而形成5-甲基胞嘧啶的化学修饰过程。DNA 甲基化在动、植物基因组中广泛存在,可随DNA 复制遗传给子代,且其修饰模式对基因调控、转座子沉默及基因印记至关重要[1-3]。

研究[4-7]表明,个体年龄与DNA 甲基化水平显著相关。这类与年龄相关的DNA 甲基化位点被称为年龄相关甲基化位点(age-related CpG site,AR-CpG)。通过对AR-CpG 甲基化水平的测定可实现对个体年龄的推断,其预测精度较高,因而具有较高的法医学应用价值[8]。国内学者针对中国汉族人群也开展了一些探索性研究并构建了相应的DNA 甲基化年龄推断模型[9-13],其中PAN 等[11]研究构建的模型年龄覆盖范围较广且精度较高。

目前绝大多数DNA 甲基化检测方法都是在亚硫酸氢盐处理基因组DNA 的基础上进行的,其基本原理是将非甲基化的胞嘧啶脱氨基转化为尿嘧啶,而甲基化胞嘧啶不受影响,在后续PCR 过程中将尿嘧啶转化为胸腺嘧啶,继而将化学修饰差异转化为序列差异信息。相较于PAN 等[11]所用的多重甲基化SNaPshot 技术,焦磷酸测序通过酶级联化学发光反应可对单个CpG 位点的甲基化程度同时进行定性和定量分析,其精确度和可重复性相对较高且检测周期短[14]。目前已有商业化试剂盒能够完成焦磷酸测序,且从亚硫酸氢盐转化的DNA 起始量到上样量的灵敏性、稳定性均有研究[15-16]。除此之外,随着高通量测序技术的发展,多重目的区域甲基化富集测序技术可以获得目标区域内所有甲基化胞嘧啶的甲基化数据,能精确计算甲基化程度且可同时对大量样本进行多区域DNA 甲基化水平的并行检测和分析[17]。

已有DNA 甲基化年龄推断模型大多依托单一检测技术或单一人群构建,对于其是否适用于其他检测技术或其他人群仍需进一步研究。为了探讨PAN等[11]开发的DNA 甲基化年龄推断模型在中国华东汉族人群中的可重复性以及是否适用于焦磷酸测序和多重目的区域甲基化富集测序平台,本研究基于该模型[11]中包含的AR-CpG 位点,使用焦磷酸测序和基于下一代测序(next-generation sequencing,NGS)的多重目的区域甲基化富集测序技术在中国华东汉族人群中进行检测,评估该模型在不同人群以及不同技术平台中的年龄推断效率,探索血液年龄推断模型在不同DNA 甲基化检测技术下用于法医学年龄推断的适用性。

1 材料与方法

1.1 样本

本研究实验对象来自中国华东地区48 例汉族无关个体,其中男性24 例,女性24 例,年龄覆盖范围为3~86 岁且年龄分布均匀(表1)。志愿者本人或其监护人均在采集外周血样本前签署知情同意书。以上样本的采集和使用均已获得司法鉴定科学研究院伦理委员会批准(审批号2022-5)。

表1 48 例样本的年龄和性别组成Tab.1 Age and gender composition of the 48 samples(例)

1.2 DNA 提取与定量

使用QIAamp®DNA Blood Mini 试剂盒(德国Qiagen 公司),参照试剂盒操作说明对48 例外周血样本进行DNA 提取,使用Qubit®2.0 荧光计、Qubit®ds-DNA HS Assay 试剂盒(美国Thermo Fisher Scientific公司)对DNA 进行定量。

1.3 亚硫酸氢盐转化DNA

使用EpiTect Fast Bisulfite 试剂盒(德国Qiagen公司),参照操作说明以每例样本400 ng 的DNA 为起始量进行亚硫酸氢盐转化,得到转化后的DNA 溶液,并使用QubitTMssDNA 检测试剂盒(美国Invitrogen 公司)进行浓度测定,置于-20 ℃条件下保存。

1.4 引物设计及PCR 扩增

参考文献[11]中选取的6 个甲基化位点,使用Pyro-Mark Assay Design 2.0 软件(德国Qiagen 公司)对位点进行引物设计。CpG 位点及引物信息如表2 所示。按照PyroMark PCR 试剂盒(德国Qiagen 公司)操作说明,以10 ng 转化后的DNA 为起始量进行PCR 扩增:95 ℃ 15 min;94 ℃ 30 s,56 ℃ 30 s,72 ℃ 30 s,循环45 次;72 ℃ 10 min。

表2 6 个AR-CpG 的引物信息Tab.2 Primer information of 6 AR-CpG

1.5 焦磷酸测序

基于焦磷酸测序数据,对同一个样本的6 对引物进行3 次重复实验。在PyroMark®Q48 自动焦磷酸测序软件(德国Qiagen 公司)上进行程序设置,包括测序序列的生成和测序样本的相关信息。使用软件中的内部质量控制设置进行质量控制,并设置3 个重复样本,按照默认参数进行甲基化位点分析。将10 µL PCR 产物、测序引物和测序用试剂PyroMark®Q48 Advanced CpG Reagents(德国Qiagen 公司)按照仪器操作提示分别加入PyroMark®Q48(德国Qiagen 公司)中,待程序运行结束,导出测序结果。将焦磷酸测序结果文件导入软件,软件自动进行CpG 数据分析。导出内含测序峰图和目的位点的甲基化水平信息的测序结果文件。

1.6 NGS 数据分析

使用1.4 节所得PCR 产物,将同一样本的多个位点产物混合,利用TruSeq®Nano DNA Library Prep试剂盒(美国Illumina 公司)进行文库构建,向各个样本添加特异性分子标签,再将所有样本进行混合,接着进行文库琼脂糖凝胶纯化回收,经过文库质量检验和定量后,进行样本混合,在NovaSeq 6000 测序系统(美国Illumina 公司)上采用单端150 bp 测序模式进行文库测序。测序数据使用TrimGalore v0.6.1 软件(https://github.com/FelixKrueger/TrimGalore/releases)进行质量控制并去除测序接头序列。经过质量控制后的测序数据通过Bismark v0.23.1 软件(https://github.com/FelixKrueger/Bismark/releases)比对到“bismark genome preparation”处理后的参考基因组[从UCSC(www.genome.ucsc.edu)上下载]上。此后,使用Bismark v0.23.1 软件进行甲基化信息提取,并对唯一比对reads 比例值、平均测序深度进行测序质量评估。

1.7 年龄相关性分析与推断年龄

将焦磷酸测序、NGS 技术所得DNA 甲基化水平代入年龄推断公式[11]中计算个体的DNA 甲基化年龄并将其与个体真实年龄比较。

由1.5节、1.6节所得DNA甲基化水平,使用Graph-Pad Prism v8.4.3 软件(美国GraphPad Software 公司,http://www.graphpad-prism.cn)进行皮尔逊相关性分析,检验6个AR-CpG 在2种检测技术下所测甲基化水平与样本年龄之间的皮尔逊相关系数(Pearson correlation coefficient,r),使用配对t检验对同一位点2种检测方法的结果进行差异性分析,检验水准α=0.05。

将DNA 甲基化水平代入年龄推断模型[11]中计算DNA 甲基化年龄,参照文献[11]对样本年龄分组,计算不同年龄段以及不同性别模型中预测年龄的误差。使用GraphPad Prism v8.4.3 软件对推测的DNA 甲基化年龄与真实年龄的误差进行比对,包括与年龄的r、R2、平均绝对误差(median absolute deviation,MAD)、均方根误差(root mean square error,RMSE)等,使用秩和检验对预测年龄和真实年龄进行误差计算,以±5 岁的误差评估推断预测年龄的准确性。

2 结果

2.1 测序数据质量评估

6 个位点在3 次重复实验中的变异系数在0.003 0(CpG4)~0.062 9(CpG2),提示焦磷酸测序技术的可重复性好。

对于NGS 测序数据,通过将NGS 测序数据与参考基因组比对,其唯一比对reads 比例在72.4%~83.1%。此外,6 个位点在不同样本中的reads 数范围为3 850~194 170条,其平均测序深度为8 414×(CpG4)~114 549×(CpG6)。

2.2 年龄相关性分析

对于每一个CpG 位点,得到焦磷酸测序和NGS 在不同样本中的DNA甲基化水平与样本年龄的r值,并与文献[11]中相关参数进行对比。根据表3可以看出,CpG位点DNA 甲基化水平与年龄的r在不同检测平台存在一定差别。同时,将焦磷酸测序与NGS 在不同位点上的结果进行配对t检验,得到CpG1 的P值为0.000 8,CpG2~4 的P值均小于0.000 1,CpG5 的P值为0.000 1,只有CpG6的P值为0.101 1。

表3 CpG位点DNA甲基化水平与年龄的皮尔逊相关系数Tab.3 Pearson correlation coefficient between DNA methylation levels of CpG sites and chronological ages

2.3 推断年龄的准确性

基于两种平台预测的DNA 甲基化年龄与真实年龄的r均高于0.90(图1),其中焦磷酸测序技术的r为0.92,R2为0.85,MAD、RMSE 分别为4.81、6.26 岁;NGS技术的r为0.91,R2为0.84,MAD 和RMSE 分别为4.41、6.72 岁。焦磷酸测序和NGS 预测的年龄与个体真实年龄之间的配对秩和检验显示,差异无统计学意义(P值分别为0.538 3 和0.809 3)。

图1 样本年龄与使用焦磷酸测序和NGS 检测技术所得推断年龄的散点图Fig.1 The scatterplot of chronological ages and predicted ages detected by pyrosequencing and NGS

不同年龄段下的年龄推断误差结果如表4所示:幼儿和中青年人群(≤39岁)年龄推断相对更准确;>60 岁人群中年龄推断误差增加,其中基于焦磷酸测序推断误差±5 岁的个体比例不足50.00%,在NGS 技术及文献[11]中分别为54.00%和67.50%。

表4 不同年龄阶段年龄推断误差比较Tab.4 Age prediction errors in different age groups (n=12)

性别分组结果(表5)显示,基于男性年龄推断模型在NGS技术下年龄推断的MAD为3.50岁,对应焦磷酸测序技术下MAD为5.00岁,而基于SNaPshot技术的文献[11]中的男性样本组中MAD 为4.18 岁;基于女性年龄推断模型在NGS技术下年龄推断的MAD为5.31岁,对应焦磷酸测序技术下MAD 为4.74 岁,而基于SNaPshot技术的文献中女性样本组中MAD为4.30岁。

表5 不同性别年龄推断模型下预测年龄的比较Tab.5 Comparison of predicted ages based on gender specific age prediction model

3 讨论

本研究探讨了依据SNaPshot 构建的针对中国汉族人群的年龄推断模型[11]在焦磷酸测序和NGS 技术下用于中国华东汉族人群年龄预测的适用性。在PAN 等[11]的研究中,使用多重甲基化SNaPshot 技术针对中国汉族人群检测了310 份年龄为2~86 岁的血液样本,其模型包含6 个CpG 位点,其中与年龄相关性最高的是cg19283806(r为-0.870 4),相关性最低的是cg04208403(r为0.535 5)。使用支持向量回归(support vector regression,SVR)和逐步回归算法构建DNA 甲基化年龄推断模型后,在验证组其年龄推断MAD 分别为4.56 岁和4.71 岁[11]。在本研究中,不论用焦磷酸测序还是NGS 技术,6 个CpG 位点均与年龄之间具有相关性。此外,基于PAN 等[11]逐步回归算法构建的模型,使用焦磷酸测序和NGS 技术在中国华东汉族人群用于年龄推断的MAD 分别为4.81 岁和4.41 岁。由此可以看出,通过重新设计引物实现了PAN 等[11]的研究中的DNA 甲基化年龄推断模型在焦磷酸测序和NGS 技术中的有效转化。

总体来看,基于PAN 等[11]的研究中的SNaPshot 技术以及本研究中的焦磷酸测序和NGS 技术估计的DNA 甲基化年龄与个体真实年龄的MAD 多小于5岁,在3 种技术下检测到的CpG 位点与年龄的相关性以及预测年龄的误差除了受不同年龄段和性别影响之外,还可能存在其他因素。首先,由于本研究与PAN等[11]的研究中用的样本来源不一样,样本来源人群对AR-CpG 可能会存在一定的影响,如CpG1(chr17:44,390,358)在本研究中与年龄的相关性r为-0.705 7(焦磷酸测序)和-0.726 1(NGS),而在法国人群中只有0.464[18];CpG6(cg19283806)在本研究中与年龄的相关性r为-0.848 4(焦磷酸测序)和-0.839 4(NGS),而在韩国人群的研究中为-0.906 1[19],在法国人群中为-0.672[18]。因此,本研究观察到的CpG 位点与年龄的相关性与PAN 等[11]研究中的不一致可能与样本来源不一样有关,这是由于DNA 甲基化水平会受环境、个体差异的影响[20-21]。其次,PAN 等[11]的研究证实了性别对DNA 甲基化年龄推断的影响。性别因素也可能是影响三组数据的原因之一。至于基于不同性别开发的DNA 甲基化年龄推断是否能更精准地推断年龄还值得进一步探讨。

此外,本研究发现CpG 位点的甲基化水平还可能受到检测平台的影响。为验证这一点,本研究对比了焦磷酸测序和NGS 技术两种测序技术的结果,在对同一位点的DNA 甲基化水平的测定结果分析后,在6 个CpG 位点中,除了CpG6(P=0.101 1)外,其余5 个DNA甲基化水平在两种检测技术中表现出的差异均具有统计学意义(配对t检验),但从对单个位点的差异趋势来看,并未得到NGS 技术或焦磷酸测序技术检测的DNA 甲基化水平明显更高或更低的结论。代入模型后,对预测年龄的配对秩和检验结果提示,两种检测方法均可用于甲基化年龄预测,但同时应注意两种技术检测的甲基化水平存在一定差异。对于NGS 技术而言,尽管本研究中不同CpG 位点在样本中的测序深度均在3 000×之上,不同位点在不同样本中的测序深度并非完全一致,这可能与多样本混样不均有关。

值得注意的是,本研究发现,>60 岁人群的甲基化水平与整体变化趋势的离散更明显,焦磷酸测序在该年龄组的MAD 值为6.67 岁,使用NGS 技术在该年龄组的MAD 为4.66 岁。同时按照原文献中对预测年龄的评估方法,以5 岁的误差对各年龄段的预测效果进行对比,尽管基于NGS 技术有67.00% >60 岁个体其预测年龄与真实年龄的差异在5 岁以内,但高于其他组的误差(2.80~3.74 岁),提示年龄推断模型在高龄样本中用于年龄推断有一定局限性。

受本研究样本量较小及样本来源、年龄分布与原始研究不同的影响,虽存在一定的偶然因素,与原模型的对比未必准确。从法医学实践的角度来看,在保证模型预测准确性的前提下,焦磷酸测序操作和分析时间短,更适用于小样本实验。目前,对于AR-CpG的筛选仍多依靠高通量测序,本研究虽样本量有限,但仍能为基于DNA 甲基化的年龄推断模型的应用提供一定依据。

猜你喜欢
焦磷酸甲基化位点
焦磷酸哌嗪的制备及其在高分子材料阻燃中的应用
镍基单晶高温合金多组元置换的第一性原理研究
CLOCK基因rs4580704多态性位点与2型糖尿病和睡眠质量的相关性
二项式通项公式在遗传学计算中的运用*
鼻咽癌组织中SYK基因启动子区的甲基化分析
胃癌DNA甲基化研究进展
加拿大批准焦磷酸三钠作为食品添加剂使用
焦磷酸和锆的化合物对铯的吸附机理探讨
简析高中生物教学中的问题“DNA的复制过程中有水分子的产生吗”
基因组DNA甲基化及组蛋白甲基化