基于开放数据库发表Journal of Clinical Oncology的全程解析

2020-09-23 07:29徐聪聪阮宇航陈栋陈保富沈建飞
中华胸部外科电子杂志 2020年3期
关键词:肺叶变量曲线

徐聪聪 阮宇航 陈栋 陈保富 沈建飞

一、选题

笔者认为,对于临床科研类文章的选题需要考虑3大要素:实用性、新颖性和可操作性。只有具备这些要素文章才有生命力,才有执行的必要,才有可能顺利完成。以下就这几个方面进行解说。

1. 实用性

实用性即文章的指导价值,对临床决策的影响,简单的说就是研究想解决的临床中的问题。这需要研究者在非常了解临床需求的同时对临床进展非常了解,即哪些问题亟待临床医生解决而又悬而未决。本研究将立足于早期肺癌患者手术决策的选择,即对于≤1 cm或1~2 cm的肺癌患者应选择何种外科治疗手段。当然这个选题需要一定的时代背景,在下面的新颖性方面笔者会详细阐述。

2. 新颖性

新颖性,即文章是否紧跟时代的步伐,我们所做的事情多在特定的时代背景下完成。就像20年前vs今天结婚所要求的条件完全不一样,20年前是电视、冰箱和自行车,今天是房子、车子和票子。因此设计研究时必须结合当前实际,考虑新颖性。2015年国际肺癌协会(International Association for the Study of Lung Cancer,IASLC)

推出的新版肺癌分期建议将T1a(≤2 cm)非小细胞肺癌(non-small cell lung cancer,NSCLC)进一步分为≤1 cm和1~2 cm,肿瘤大小显著影响早期肺癌患者的预后,细化这部分后患者手术方式的选择就显得尤为重要[1-3],这是本研究的思路来源。细想国际组织刚推出一项新指南,你就用你的数据进行完善、补充、验证,这文章能发不出去吗?笔者认为,新颖性除去一些大的创造性的发现外,更多的是点滴推动学术的发展,因此在参加临床工作的同时记得阅读文献,紧跟时代的发展,思路源于阅读。

3. 可操作性

可操作性,即设计的可行性,这不但是理论可行性,更要注重实际操作的可行性。今天想做一道菜穿山甲炖小鸡,可是你无法获得穿山甲,即使获得了,你也不敢广而告知,因为这不合法。因此在设计课题时须考虑实际情况,毕竟巧妇难为无米之炊。笔者在构思这篇文章时有美国国立癌症研究所(National Cancer Institute,NCI)监测、流行病学和结果数据库(Surveillance,Epidemiology and End Results,SEER)作为材料,该数据库有足够的病例让笔者进行统计分析,笔者会在下文对该数据库进行详细的介绍。

二、资源获取

SEER是较为典型的医学数据库(https://seer.cancer.gov/)。SEER由NCI于1973年建立,是北美最具代表性的大型肿瘤登记注册数据库之一。其收集了大量循证医学的相关数据,为临床医师的循证实践及临床医学研究提供了系统的证据支持和宝贵的第一手资料。

SEER 数据库所涉及的肿瘤划分为9 类:乳腺、结肠&直肠、其他消化系统、女性生殖、淋巴&白血病、男性生殖、呼吸系统、泌尿系统及其他尚未确定的类型。数据记录中包括患者的注册编号、个人信息、原发病灶部位、肿瘤尺寸、肿瘤编码、治疗方案、死亡原因等信息。

SEER也有很多不完善的地方:部分临床数据缺失,部分临床数据并未收集,其中包括治疗的详细信息(如化疗信息等),数据库有偏倚。但它的优势是样本量足够大。最重要的一点是随访资料结局往往只有死亡与非死亡,并没有复发等结局指标,只能计算总体生存率(overall survival,OS)和肿瘤特异性生存率(cancerspecific survival,CSS)。所以在此基础上,NCI开发了一系列基于SEER的数据库,但是这些数据库往往收费使用,有些甚至需要向机构发研究方案才可以使用,所以一方面烧钱,另一方面使用也比较麻烦。

以下笔者就图文并茂向大家展示如何一步步使用SEER数据库:

1. 打开SEER的官网(https://seer.cancer.gov/),点击图1的图示并进行注册提交。

2. 第一次注册提交后会出现一些信息,带星号的需要填写。

3. 填写好之后SEER会发一份邮件给你,登录你注册的邮箱,打开收件箱,读取SEER的邮件。

4. 点击中间的链接,会跳跃到SEER官网,点击其中链接地址,之后会弹出你需要打印并且扫描的文件,签上你的英文名和日期,并扫描成PDF或者图片格式,并发给邮箱地址:seerfax@imsweb.com。具体怎么写邮件,可以参考下笔者的内容,并附上你已经签好字的扫描版邮件,模板如下。

(1)随后你会收到seertrack@imsweb.com发来的账号和密码。

(2)拿到账号和密码之后就可以去下载SEER的官方软件SEER*Stat(提取数据资料和分析用)获取方式见图2。

(3)安装SEER*Stat后登陆软件获取肺癌数据,点击上方的%选项,选择需要筛选的数据中心

(Deta)。

(4)点击Selection,选择Edit按钮,根据需要挑选患者资料,本例选择肺和支气管(根据部位选择),见图3。

(5)选择需要纳入的患者资料后点击Parameters,调整纳入年限,case listing(以患者编排),和最长随访年限,见图4。

(6)点击Table按钮,根据研究需要选择需要输出的变量,如肿瘤的大小、淋巴结清扫个数和病理分类等,然后点击上方的闪电按钮输出病例列表,见图5。

(7)输出的病例列表,需要指出的是该表格可以通过复制转移到Execle表格中进行整理,便于后续的统计分析。

三、文章的设计

文章的idea即是你下一步工作的大方向,就像小平同志1979年提出改革开放,这是一个大方向,那么具体的执行就需要进行分解、细化和改进等一系列举措才能推动发展。拿我们这篇文章来说,大方向≤2 cm的NSCLC患者的外科治疗决策。然而,在这部分患者中我们又需要将其进一步细化,即探索和寻找新的突破点,这非常重要,因为数据量大不是目的,找出其有效的信息指导临床才是终极目标。因此,在本文的统计之初笔者们就将其分为以下几个部分进行统计分析:①≤2 cm的NSCLC外科手术方式的选择(肺叶vs肺段vs楔形);②1~2 cm的NSCLC外科手术方式的选择(肺叶v s 肺段v s 楔形);③≤1 cmNSCLC外科手术方式的选择(肺叶vs肺段vs楔形)[4-6],具体流程详见图6。

四、统计方法的选择及其重现

当想要对资料进行统计时,首先做的事情通常是选择高质量的文献进行阅读,寻找与本研究需要处理的数据相似的方法,然后进行自我学习或向统计学专家进行请教。笔者认为这句话是这篇文章统计部分最重要的一点,授人以鱼不如授人以渔,这也是可持续发展的一种方案。因为临床医生不可能掌握所有的统计方法,即便你今天掌握了明天在应用时你还是可能会忘记怎么应用,所以实战是最好的老师,现学现卖(当然最重要的是需要有一定的统计学基础和一定的学习能力)。

言归正传,笔者将本文的统计方法分为3个部分:一般资料的统计分析、生存曲线的绘制及其优化和Cox比例风险模型进行阐述。

1. 一般资料的统计分析

2000—2012年共15 760例符合纳入标准的患者纳入研究,对患者的一般资料进行统计分析,就接受肺叶切除(lobectomy)的11 520例和亚肺叶切除(sublobectomy)的4 240例的变量进行比较(图7),连续性变量用t检验,分类变量用χ2检验。

以下我们分别展示使用SPSS 16.0进行t检验分析连续性变量,χ2检验分析分类变量[7-9]。

(1)两组独立样本的t检验(以手术方式和年龄为例)

首先,导入样本数据,我们可以看到样本中的两组数据“手术方式和年龄”。但是我们会发现,手术方式是数字标记的,很多人可能会对其不习惯,我们可以设置转换一下,首先点击“surgery”进入“value labels”,我们点击“值”将“1设置为sublobecomy”,“2设置为lobecomy”(图8),设置好之后确定,点击转换,数字就变成文字了。

图1 SEER数据库注册登记

图2 在SEER官网下载SEER*Stat软件

图3 根据不同的需要选择不同的筛选条件

图4 选择纳入患者的区间和最长随访时间

图5 根据研究需要选择输出变量

图6 文章设计流程图

图7 患者的一般资料,连续变量用t检验,分类变量用χ2检验

图8 变量标记

基础数据处理好之后,执行“分析-比较均值-独立样本t检验(t)”,弹出窗口,将”年龄“设定为检验变量”,手术方式“设为分组变量”,同时点击定义组(图9),设置组1(亚肺叶切除数据组),组2(肺叶切除数据组),点击继续-确定。

之后我们就得出数据,而我们的独立样本必须服从方差齐性,如果方差齐,那么就得用“t”检验,所以,我们开始分析这组数据,第二个表上面P(sig)值>0.05,方差齐,提示得选用“t”检验,故选第一行的数据值。

(2)分类变量的χ2检验(以性别为例):①先整理数据(图10);②接着进行加权,选择Date→Weight case→Weight case by→ N,点击OK,对频数进行加权;③在菜单栏上执行:分析-描述统计-交叉表;④将性别组设置为行变量,手术方式设置为列变量;然后设置统计量,点击statistic;⑤勾选卡方值,这样才能输出卡方值(图11)。

首先看到的表格(图1 2)是基本的频数统计,第二个表格是最关键的信息,P(sig)值<0.05为达到了显著水平,拒绝虚无假设,认为性别对手术方式的选择产生了显著影响。

2. 生存曲线的绘制及其优化

为了进一步分析肺叶切除和亚肺叶切除≤2 cm NSCLC患者预后的影响,我们采用SPSS 16.0绘制Kaplan-Meier生存曲线,并选用Log Rank法比较两组患者的生存曲线是否有差异。具体步骤如下。

(1)数据整理

收集肺叶切除和亚肺叶切除两种手术方法治疗15 760例肺癌患者的随访资料,数据包括患者的治疗分组、生存状态和生存时间(月)。数据见图13,其中分组1为肺叶切除手术组(11 520例),分组2为亚肺叶切除手术组(4 240例);生存状态0表示失访或存活,1表示死亡。

(2)对数据结构的分析

整个数据资料涉及两组的研究对象,研究比较两组手术方式患者的生存情况,且包含生存时间数据,因此属于两组设计的生存时间资料。要比较两种手术方式是否有差异,且仅有一个分析因素(手术方式),可绘制Kaplan-Meier生存曲线观察两组生存曲线,并可选用Log Rank法比较两组患者的生存曲线是否有差异。

SPSS 分析方法数据录入SPSS;选择Analyze→Survival→Kaplan-Meier(图14)。①主对话框设置:将生存时间变量送入Time框中→将死亡状态变量送入Status 框中→点击Define Event→定义表示终点事件发生的数值(本例中为死亡,赋值为1)→将分组变量送入Factor框中;②Compare Factor选项设置:在Test Statistics选项中选择Log rank作为检验组间生存分布是否相同的组间比较方法,其他按默认选项→Continue;③Options选项设置:选择Statistics选项中的Mean and Median survival(输出平均、中位生存时间及其标准误、可信区间),以及Plots中的Survival生存曲线作为输出的结果→Continue→OK结果解读。

Case Processing Summary表格给出了两种手术方式患者生存数据的部分统计信息,包括组别(Group)、数量(N)、事件发生数(N of Events;即前面Event的中的定义:死亡)、删失数据和百分比(Censored N and Percent)。所谓删失数据,是指没有出现结局事件的研究对象。这包括随访期间失访、死于其他疾病和随访结束时仍然存活的研究对象等。

Mean and Medians for Survival Time表格给出了生存时间估计的结果,显示两种手术组平均生存时间(Mean)的估计值(Estimate)、标准误(Standard Error)和估计值的95%可信区间(95% Confidence Interval),以及中位生存时间(Median)的估计值(Estimate)、标准误(Standard Error)和估计值的95%可信区间(95%Confidence Interval)。

Overall Comparisons表格给出生存曲线组间的整体比较,结果显示对两组生存曲线整体比较的Log Rank检验结果为P(sig)值=0.000。按照Log Rank检验的结果,可以认为两种手术方式后患者的生存率有差异(图15)。

Survival Functions为生存函数曲线,直观地显示接受肺叶切除手术患者的生存曲线高于接受亚肺叶手术患者的生存曲线。接受肺叶和亚肺叶切除手术后,两组患者的中位生存时间估计值分别为90.9个月和77.52个月。接受两种手术后,患者的生存曲线不同(Log RankP=0.000),肺叶切除优于亚肺叶切除(图16)。

采 用Graphpad 美 化Kaplan-Meier 生 存 曲线:①打开GraphdPad Prism的主界面;②选择Survival→Enter/import data(图17);③录入数据:X是生存时间,Y轴是存活事件,默认情况下,1代表死亡,0代表存活。X轴中数据可以没有顺序,也可以重复,只要将对应的生存事件填入到相应的Y轴即可。如果在相同时间段有好几个死亡事件,则重复输入即可;④单击左边的Graphs,可以看到生存曲线(图18);⑤修改生存曲线的属性,使之更有可读性;⑥更改生存曲线的颜色,将肺叶切除组改为红色,亚肺叶切除组改为绿色,并对图片的X-Y轴的坐标进行修改。

3. C o x 比例风险模型——S P S S 变量视图(图19)

(1)菜单选择:点击进入Analyze→Survival→Cox主对话框,将time选入“时间”框,将代表删失的censor变量选入“状态”框,其余分析变量选入“协变量”框。其余默认。

(2)点击“状态”框下方的“define event”,将事件发生的标志设为值1,即1代表事件发生。

(3)在主对话框中点击“分类”按钮,将所有分类变量选入右边框中。

(4)在主对话框中点击“选项”按钮,设置输出HR的95%置信区间。

(5)回到主界面,点击“确定”输出结果(图20)。

图9 两组样本的t检验,以手术方式分组

图10 分类变量的χ2检验数据录入

图11 选择卡方检验

图12 统计结果表明性别对手术方式的选择产生了显著影响

图13 生存分析统计前的数据处理

图14 SPSS分析步骤

图15 两组患者的统计分析结果

图16 生存函数曲线

图17 选择Survival开始绘制生存曲线

图18 录入数据(X轴是生存时间,Y轴是存活事件)

图19 SPSS变量视图

图20 多因素回归结果

这是多元回归结果,第二列B为偏回归系数,最后三列为HR值及其置信区间。由P值可以看出,手术方式、WHO病理分类、年龄、性别等是患者预后的独立危险因素。

五、总结

最终该研究发现,NSCLC无论≤1 cm还是1 ~2 c m,肺叶切除在O S 和肺癌特异性生存率(lung cancer-specific survival,LCSS)均明显优于肺段切除和楔形切除。多因素分析表明,相比肺叶切除,肺段切除和楔形切除是≤1 cm和1~2 cm的NSCLC预后较差的独立危险因素。对于亚肺叶切除,1~2 cm的NSCLC患者接受楔形切除在OS和LCSS较接受肺段切除的患者差,然而,对于≤1 cm的NSCLC两者的预后相似[10]。多因素分析表明,楔形切除1~2 cm的NSCLC患者预后较差的的独立危险因素,而对于≤1 cm并不是危险因素。

猜你喜欢
肺叶变量曲线
未来访谈:出版的第二增长曲线在哪里?
不同肺复张方法应用于胸腔镜下肺叶切除术中的临床效果比较
寻求不变量解决折叠问题
抓住不变量解题
CT肺叶血流分布造影在诊断肺栓塞中的应用价值
胸腔镜亚肺叶切除术治疗早期浸润性肺癌的疗效分析
幸福曲线
全胸腔镜肺叶切除术中转开胸的临床研究
梦寐以求的S曲线
分离变量法:常见的通性通法