健康效用值映射法转换的研究现状※

2018-12-29 07:21

中国药物经济学 2018年12期

药物经济学评价中最常用的方法是成本-效用分析，该方法的核心在于健康效用值（健康效用）的测量。健康效用值指的是某一水平健康状态或健康状态有所改善的值，按照社会或个体对某一健康状态的偏好程度来测量。健康效用值的测量方法有直接和间接测量两类。直接测量法操作复杂，在大样本的情况下难度较大，而间接测量法以普适性效用量表测量为主，包括欧洲五维健康量表（EuroQol five dimensions questionnaire, EQ-5D）、六维度健康调查简表（Short form six dimensions questionnaire, SF-6D）等。量表多数是普适性的，即任何疾病患者都可以使用该量表，与疾病的关联性较低。因此，在疾病的临床研究中两类方法的应用均存在一定缺陷，在很多研究中很难准确地得到健康效用值。由此需要对临床常用的疾病专属性量表与效用测量的普适性量表之间进行科学换算，既保证测量的结果能够转化为效用值，又能够贴切地反映患者的疾病特有状态[1]。当健康状况效用值不能直接用于经济评估时，将健康状况指标映射到基于通用偏好的指标成为一种常见的解决方案。Brazier JE、Longworth L[2]等国外学者对映射法做出了定义：指非效用值测量工具，即非基于偏好的健康状态条件特异性测量工具和普适性测量工具，对已有的效用值测量方法的映射，通过估计两种测量工具的回归关系将非偏好生命质量信息转化为同等效力的基于偏好的效用值单一指数。目前，映射法已被公认为国内外健康效用值测量的首选方法之一，国外已有大量学者从事映射法研究，国内的研究还处于起步阶段。本研究通过文献研究，对近11年国内外有关映射法在健康效用值测量中的应用研究文献进行归纳与总结。

1 检索与归类

1.1 检索方法以“mapping”“Cost-utility”“health utility value”作为关键词在Springer数据库网站上，以2007—2018年为检索年限，检索出951篇英文文献。以“映射”“成本-效用”“健康效用值”为检索关键词，在中国期刊全文数据库（CNKI）、中文期刊全文数据库和万方数据知识服务平台检索同期的中文文献，共计检索到中文文献7篇。

1.2 分类归纳对 958篇中英文文献进行初步筛选，剔除非实证研究文献、会议和报纸文章、明显不符合主题的文献和重复文献，最终选出映射法研究的中英文实证研究文献 50篇[3-52]。文献筛选过程见图1。

图1 文献筛选流程图

2 映射法国内外相关研究进展

通过对国内外对映射法的研究文献进行搜集与整理，纳入46篇符合要求的研究文献，按照具有明确函数关系、未有明确函数关系、疾病特异性量表与普适性量表之间的映射、普适性量表之间的映射四个方面进行分析总结。各类文献的详细情况如图2所示（“普-普”代表普适性量表之间的映射研究；“特-普”代表疾病特异性量表与普适性量表之间的映射；“T”表示有明确函数关系；“F”表示未有明确函数关系）。

2.1 疾病特异性量表与普适性量表之间具有明确映射函数式的研究近十余年来，大多数映射法研究是在疾病特异性量表和普适性量表之间构建映射模型，部分学者在映射研究中已给出明确的映射模型，检索到的此类文献共29篇[3-31]，详见表1。

图2 不同类型相关文献数量

2.1.1 国外研究 Gang Chen等[3]以924例糖尿病患者和1760例健康公民为例，分别通过OLS（Ordinary least squares，广义最小二乘法）和GLM（Generalized Linear Model, 广义线性模型）对糖尿病功能评价39问题量表（Diabetes-39, D-39）和15D、AQoL-8D、EQ-5D、HUI-3、QWB和SF-6D六种目标量表进行映射研究，以R2、MAE和RMSE作为评价模型性能的指标。结果显示，15D、SF-6D、AQoL-8D三种目标量表与D-39的映射模型性能较好，其中AQoL-8D与D-39的关联性最好，两种方法构建的模型相比，OLS构建的算法更佳。由此可以认为，此算法能够准确地将D-39映射到AQoL-8D上。

Garry R Barton等[4]以389例骨关节炎患者的临床数据作为研究样本，以西安大略省和麦克马斯特大学骨关节炎指数（Western Ontartio and McMaster Universities Osteoarthritis Index, WOMAC）整体得分以及性别和年龄等人口统计学特征作为解释变量共构建五个OLS模型，并以调整R2、MAE和RMSE作为评价映射模型性能的指标进行对比。结果显示，以WOMAC整体得分、年龄和性别赋值（男性性别赋值为0，女性为1）为解释变量的WOMAC模型能够准确地映射到EQ-5D上。Feng Xie等[5]对258例膝关节骨关节炎患者进行WOMAC和EQ-5D问卷调查，以疼痛、功能、硬化等指数作为解释变量，通过OLS和CLAD构建映射函数模型，并根据MAE值评价其性能。结果显示，相比于CLAD，运用OLS构建的 WOMAC和 EQ-5D之间的映射模型性能更好，该算法能够将WOMAC映射到EQ-5D上。Bilbao A等[6]对西班牙748例髋关节或膝关节炎患者填写的EQ-5D-5L和WOMAC问卷数据进行整理，以疼痛（P）和功能（F）作为解释变量构建GAM（Generalized Additive Model, 广义相加模型）进行线性回归和 β回归，得出WOMAC与EQ-5D-5L之间的映射模型，以MAE和RMSE作为映射模型性能的评价指标。结果显示，线性回归模型的性能更好，该方法可以将WOMAC映射到EQ-5D-5L上。

表1 疾病特异性量表与普适性量表之间的映射函数式一览表

表1 疾病特异性量表与普适性量表之间的映射函数式一览表(续)

Robert L.Askew等[7]以273例黑色素瘤癌症患者的黑色素瘤癌症功能评估量表（Functional Assessment of Cancer Therapy-Melanoma, FACT-M）和EQ-5D临床问卷数据为例，以 FACT-M 量表总体指标为解释变量分别构建CLAD和OLS模型探寻映射关系，以R2作为评价模型性能的指标。结果显示，通过OLS回归得出FACT-M与EQ-5D之间的映射模型的性能要好于 CLAD 构建的映射模型。Eric Q.Wu等[8]以2002年至2004年期间进行的来自7个国家的280例转移性 HRPCA患者的癌症治疗的一般功能评估量表（Functional Assessment of Cancer Therapy-General,FACT-P）数据、欧洲癌症生活质量研究、治疗组织问卷调查表（European Organization for Research and Treatment of Cancer Quality of Life Questionnaire,EORTC QLQ-C30）和EQ-5D量表数据作为研究样本，分别以FACT-P和QLQ-C30整体和量表子问题作为解释变量构建多个映射模型，以R2作为性能评价指标进行模型对比。结果显示，不含有 EORTC QLQ-C30指标变量的，除FACT-P交叉验证项之外的全部样本构建的与EQ-5D之间的映射模型性能最好。但是Eric Q.Wu[8]指出，只有样本数据全部来自于健康生命质量调查（HRQoL）时，该模型才适用。David Cella等[9]使用Eric Q.Wu等[8]的研究数据，构建剔除年龄和BMI预测变量的优化模型。结果显示，R2的置信程度有一定的提升，以此算法能够更好地构建FACT-P与EQ-5D之间的映射模型。

Martin J.Buxton等[10]以克罗恩病临床试验的3300多例炎症性肠炎患者填写的炎症性肠病问卷（Inflammatory Bowel Disease Questionnaire, IBDQ）、克罗恩病活动指数（Crohn’s Disease Activity Index,CDAI）、EQ-5D和 SF-6D四份问卷数据为研究样本，以年龄、性别、IBDQ总体得分以及其平方项等作为解释变量构建四个有限最大似然法（Reserved Eaximum Likelihood, REML）映射模型，以R2作为评价指标进行模型性能对比研究。结果显示，IBDQ与SF-6D之间的关联性要好于IBQD与EQ-5D之间的关联性。由此可得，以该方法构建的 IBDQ与SF-6D之间的映射模型更好。

Stefan Sauerland等[11]以893例减肥手术患者的MA-Ⅱ（Moorehead-Ardelt Ⅱ）问卷以及EQ-5D和SF-6D两份通用问卷的健康相关生活质量（HRQoL）数据进行了研究。以MA-Ⅱ得分、年龄和性别等人口统计变量为解释变量对两个目标量表各构建四个多元回归映射模型，并以R2为评价指标进行模型性能对比。结果显示，在MA-Ⅱ与EQ-5D和SF-6D之间的映射模型中，都是以情绪、身体功能、社会关系、工作能力和性行为指数作为解释变量的函数模型性能最好。由此得出，该算法可以准确地将MA-Ⅱ映射到EQ-5D和SF-6D上，且情绪、身体功能、社会关系、工作能力和性行为是构建映射模型的重要因素。

在对慢性阻塞性肺病的映射研究中，Helen J.Starkie等[12]以6112例慢性阻塞性肺病患者的圣乔治呼吸问卷（the St.George’ s Respiratory Questionnaire,SGRQ）和 EQ-5D问卷数据为研究样本，以性别、年龄、SGRQ整体及其变式等作为解释变量，运用OLS、GLM和TPM（Two-part models两部分模型）各构建了六个映射函数模型，并以R2、MAE和RMSE作为性能评价指标进行模型选择。结果显示，通过OLS构建的SGRQ与EQ-5D之间的映射模型性能最好，能准确地将SGRQ映射到EQ-5D上。Christopher K.Hoyle等[13]对1658例慢性肺阻塞患者的慢性阻塞性肺疾病评估测试[Chronic Obstructive Pulmonary Disease (COPD) Assessment Test, CAT]临床数据进行研究，通过OLS和多元Logistic回归以及二者的组合共建立六个映射模型，并以 R2、调整 R2、MAE和RMSE作为性能评价指标进行模型性能对比。结果显示，通过OLS建立的以能量、自信心、活动和胸部紧迫感指数为解释变量的模型能够更好地将CAT得分映射到EQ-5D-3L上。

Maria Ko towska-Hgstr等[14]以3005例生长激素缺乏症患者的EQ-5D和成人生长激素缺乏症生活质量评估（Quality of Life Assessment of Growth Hormone Deficiency in Adults, QoL-AGHDA）调查问卷数据为例，以年龄、性别、教育程度、QoL-AGHDA问卷总体及其变式等作为解释变量，分别构建简单和复杂的多元回归模型，以R2作为映射模型的性能评价指标进行对比分析。结果显示，以QoL-AGHDA、性别和年龄为解释变量的复杂回归模型性能更好。

Marie Lindkvist和Inna Feldman[15]通过对瑞典和英国的 17000余名受访者的自评心理健康一般健康12问题问卷（General Health Questionnaire-12, GHQ-12）和EQ-5D-3L（MAUI EuroQoL）问卷数据为样本，以GHQ-12指标作为定量变量，自评健康、年龄和性别指数为相关变量建立GHQ-12与EQ-5D-UK、GHQ-12与EQ-5D-SW两个OLS回归模型。结果显示，这两个回归模型都展现出良好的性能，GHQ-12与EQ-5D-SW的映射模型性能更好，认为该算法构建的模型可以很好地进行GHQ-12与EQ-5D之间的映射。

Attila J.Pulay等[16]使用匈牙利75例18岁以上注意力缺陷多动障碍患者的临床数据进行截面研究，以年龄指数和临床严重程度评分为解释变量，采用多元回归方程构建康纳斯成人 ADHD评定量表（Conners’ Adult ADHD Rating Scale, CAARS）与EQ-5D指数和EQ-5D视觉模拟量表（EQ VAS）之间的映射函数模型，并以R2和调整R2来对比两个映射模型的性能。结果显示，CAARS与 EQ-5D的映射模型能够更准确地进行匈牙利成人注意力缺陷多动障碍患者的健康效用值转换。

Christine Blome等[17]在先人研究的基础上对德国1511例银屑病患者的临床截面数据进行了重新分析，以皮肤病生活质量指数（Dermatology Life Quality Index, DLQI）整体得分以及DLQI双变量指数为解释变量，各构建一个多元线性回归模型，并以R2作为模型性能评价指标进行对比分析。结果显示，两种映射模型都展示出较好的性能，包含DLQI双变量指数的模型性能更好。由此得出，此算法能够准确地建立 DLQI与 EQ-5D VAS之间的映射。Rachel Meacock等[18]以 320例系统性红斑狼疮患者的狼疮生活质量问卷（LupusQoL）和SF-6D问卷数据为样本，以身体健康、疼痛、情绪健康和疲劳相关指数为解释变量，使用OLS构建LupusQoL和SF6D之间的映射模型，并以R2、MAE和RMSE作为模型性能评价指标进行对比分析。回归结果显示，LupusQoL的四个选定相关指数可以解释70%以上的SF-6D效用得分。由此得出，该算法可以准确地把LupusQoL映射到SF-6D上。X.Badia等[19]运用23个欧洲国家的 508例库欣综合症患者的临床数据，通过对库欣综合症健康生活质量问卷（Cushing Quality of Life Measure, CushingQOL）的问题进行不同赋值，构建四个ORL模型，并以R2、调整R2、MAE和RMSE作为评价指标进行模型性能的对比分析。结果显示，该方法建立的映射模型可以解释50%以上的EQ-5D效用值，可以很好地将CushingQOL映射到EQ-5D上。Emese Herédi等[20]对200例连续成年中重度银屑病患者的EQ-5D调查量表和皮肤病生活质量指数问卷（Dermatology Life Quality Index, QLDI）的截面数据为例，以问卷总体得分为解释变量，通过双变量和多变量回归算法建立EQ-5D与DLQI之间的映射模型，并以调整R2作为指标评价模型的性能。结果显示，EQ-5D和EQ-5D VAS和DLQI之间的关联性均不理想，并不能很好地建立相关映射模型。

Ay-Yen Hua等[21]运用87例跟腱断裂患者的阿基里斯肌腱断裂评分（Achilles Tendon Rupture Score,ATRS）和EQ-5D问卷数据，以ATRS各项问题赋值为解释变量，采用OLS分别通过直接映射和交叉验证来构建ATRS和EQ-5D之间的映射函数模型，并以R2作为模型性能评价指标进行对比分析。结果显示，以小腿跟腱/脚疼痛、日常生活活动和在不平地面行走等指数作为解释变量的OLS模型能够准确建立ATRS和EQ-5D之间的映射模型。

Yongjun Zheng等[22]以272例慢性颈痛患者的临床数据为例，在先人研究基础上，以颈部残疾指数（Neck Disability Index, NDI）整体得分作为解释变量，使用OLS、GLM、CLAD和Tobit回归构建NDI与SF-6D之间的映射模型，并以R2作为模型性能评价指标进行不同回归方法的对比分析。结果显示，以上回归方法构建的的映射模型中，在解释变量中包括NDI娱乐项目的OLS回归模型的性能最好，能够较为准确地建立NDI与SF-6D之间的映射。

Gang Chen等[23]以澳大利亚177例特发性膀胱过度活动症患者的临床调查数据为例，分别以无创性生活质量评分（Incontinence Quality of Life, I-QOL）量表总体和I-QOL子量表得分作为解释变量，通过OLS、稳健MM估计和GLM进行模型性能评估。结果显示，通过GLM回归的以I-QOL量表总体为解释变量的模型性能最好，能够准确地将IQOL映射到生活质量八维评估问卷（Assessment of Quality of Life 8D, AQoL-8D）上。Anthony James Hatswell等[24]在先人研究的基础上以 439例阿片类药物引起便秘患者的临床研究数据，通过OLS分别以便秘生活质量评分总体以及子量表分数为解释变量建立映射模型，并以调整R2和RMSE作为模型性能评价指标进行分析。结果显示，该模型的R2和RMSE均较差，不足以将便秘生活质量评估量表（Patient Assessment of Constipation Quality of Life, PAC-QOL）映射到EQ-5D-3L上。Mark Parker等[25]以5000余例阿片类药物引起便秘患者的检查在慢性便秘普卢卡必利临床试验中产生的便秘患者评估量表（Patient Assessment of Constipation-QOL, PAC-QOL）以及 EQ-5D和SF-6D量表数据为分析样本，通过构建多元回归模型分别以PAC-QOL总体得分以及子项目得分为解释变量构建映射模型，并以调整R2、RMSE作为评价模型性能的指标。结果显示，PAC-QOL与EQ-5D之间的相关性更好，以PAC-QOL总体得分与EQ-5D构建的映射模型的指标最优，但并不能满足临床应用要求，且部分指标的选取并不恰当，仍需进一步优化。

Y.B.Cheung等[26]以324例帕金森病患者的研究数据为例，以八项帕金森病调查问卷（Eightitem Parkinson’ s Disease Questionnaire, PDQ-8）的子问题得分作为解释变量，分别通过OLS和CLAD构建映射模型，以MAE作为模型性能评价指标进行对比分析。结果显示，OLS构建的映射模型性能更好，能解释50%以上的EQ-5D效用值，说明该方法可以较准确地将PDQ-8映射到EQ-5D上。

Badia X[27]以245例肢端肥大症患者的AcroQoL和EQ-5D评分数据为研究样本，以AcroQoL总体得分及其子问题赋值为解释变量，以调整 R2和 MAE作为模型性能评价指标构建TPM、Tobit模型和GAM（Generalized Additive Model, 广义相加模型）进行对比研究。结果显示，以GAM回归构建的映射模型性能最好，可以建立AcroQoL和EQ-5D之间的高相关性映射模型。

在当前研究中针对青少年人群的特异性研究较少，能检索到给出明确映射关系的是疾病特异性量表与普适性量表之间的映射研究，仅有3例。Carlos King Ho Wong等[28]以227例青少年特发性脊柱侧凸（AIS）患者数据为例，通过OLS，以精编脊柱侧凸研究学会22问题量表（Refined Scoliosis Research Society 22-item, SRS-22r）子问题得分和人口统计学指标作为解释变量进行组合，构建三个模型对SRS-22r和EQ-5D-5L进行映射。结果显示，以功能/活动、疼痛、外观、精神健康以及Cobb角指数作为解释变量的模型与EQ-5D-5L关联性最好，能够较为精确地将青少年 AIS患者的非偏好生命质量信息转换为EQ-5D-5L健康效用值。Gang Chen等[29]以590名澳大利亚11～17岁青少年的KIDSCREEN-10和儿童保健九维效用量表（Child Health Utility 9D, CHU- 9D）数据为例，以KIDSCREEN-10子项目得分作为解释变量，构建OLS、CLAD、MM估计和GLM模型，并以MAE和RMSE作为模型性能评价指标进行对比分析。结果显示，MM估计模型和OLS模型的预测性能较好，可以准确地将 KIDSCREEN-10映射到CHU-9D上。Helen Dakin等[30]以217例中耳炎与积液儿童的临床数据为研究样本，以中耳炎问卷 8-30问题（Otitis Media Questionnaire 8-30, OM8-30）的各个项目以及年龄、性别等人口统计学指标作为解释变量，通过OLS、GLM和两步回归法，以R2和MAE作为模型性能评价指标进行 OM8-30与 HUI-2和HUI-3之间的映射研究。结果显示，以代表听力水平（HL）的九个OM8-30子问题以及年龄和性别指数作为解释变量的OLS模型性能最好，且OM8-30与HUI-3之间的映射模型性能要好于OM8-30与HUI-2之间的映射模型。

2.1.2 国内研究付希婧等[31]以我国 676例肺癌患者的基本信息、肺癌治疗的功能评估量表（Functional Assessment of Cancer Therapy-Lung, FACT-L）中文版（V4.0）及中文版EQ-5D数据为例，以基本信息、FACT-L中文版（V4.0）及中文版EQ-5D数据为研究样本，以FACT-L各项得分与年龄和性别指数为解释变量，运用OLS、GLM、Tobit模型、CLAD以及分位数回归模型分别采用中、日、英版效用值积分体系进行映射研究，以R2、MAE和RMSE作为模型性能评价指标进行对比分析。结果显示，基于我国人群构建的FACT-L与EQ-5D之间的映射模型的预测能力良好，能够较为精确地将我国肺癌患者的非偏好生命质量信息转换为健康效用值。这是目前能检索到的我国唯一关于映射法的实证研究。

2.2 已给出明确函数关系式的普适性量表之间的映射研究一部分学者对普适性量表之间的映射模型进行研究，并得出了映射函数，此类研究相对于疾病特异性量表与普适性量表之间的映射研究来说要少得多，给出映射函数的研究更少，查阅到的文献中仅有2篇[32-33]属于此类文献，全部来自国外研究，见表2。

Ara.R等[32]使用12个临床研究期间收集的6350例结肠癌患者水平数据，以SF-36的不同子问题为解释变量建立七个OLS模型，将R2、MAE和RMSE作为评价模型性能的指标进行不同映射模型的对比分析。结果显示，以身体功能（PF）、社会功能（SF）、身体问题（RP）、情绪问题（RE）、心理健康（MH）、活力（VT）、疼痛（BP）和总体健康（GH）感觉得分为解释变量的SF-36模型与EQ-5D的关联性最好。由此可得，该算法构建的映射模型能够较为精确地将结肠癌患者的生命质量信息转换为EQ-5D健康效用值。

Agata Carreño等[33]根据美国风湿病学会诊断标准，以244例年龄在18岁及以上的西班牙类风湿性关节炎患者的残疾健康评估指数（Health Assessment Questionnaire-Disability Index, HAQ-DI）、卫生健康指数第3版（Health Utilities Index-3, HUI-3）和EQ-5D三个通用HRQoL问卷数据为研究样本，以性别、年龄等人口统计学变量以及临床活动指数作为解释变量，构建两个线性回归模型预测HUI-3和EQ-5D对HAQ-DI的评分，并以调整R2作为评价模型性能的指标进行对比分析。结果显示，人口统计学变量对映射模型的性能无影响，HAQ-DI与HUI-3之间的映射模型综合性能比HAQ-DI与EQ-5D的映射函数模型更好。

2.3 未给出明确函数关系式的疾病特异性量表与普适性量表之间的映射研究在当前疾病特异性量表与普适性量表之间的映射研究中，一部分学者没有得出明确的映射函数，或者因为模型性能不好无法得出。共检索到的此类文献共16篇[34-49]。

Yin-Bun Cheung等[34]以558例新加坡癌症患者临床数据为例，以躯体、情感和功能状况维度得分作为解释变量，分别通过OLS和CLAD对癌症治疗功能评价量表FACT-G的中、英文两版与EQ-5D进行映射，以R2和MAE作为模型性能评价指标进行对比研究。结果显示，FACT-G的社会和家庭维度与EQ-5D效用指数关联性差。两种模型相比，CLAD构建的算法性能更佳，能够精确地将中、英两版FACT-G效用值映射到EQ-5D上。Seon Ha Kim等[35]以 893例韩国癌症患者为研究对象，根据收集的临床数据通过OLS以欧洲癌症研究和治疗组织生活质量核心-30问卷（European Organization for Research and Treatment of Cancer Quality of Life Questionnaire Core-30, EORTC QLQ-C30）的躯体、角色、情绪和疼痛指数作为解释变量构建多元线性回归模型，选取RMSE作为评价模型性能的指标。结果显示，此算法可以很好地建立QLQ-C30与EQ-5D之间的映射模型，能够用于韩国癌症患者的效用值转换。Eun-ju Kim等[36]以韩国199例转移性乳腺癌患者的临床研究数据为研究样本，以EORTC QLQ-C30和欧洲癌症研究和治疗组织生活质量乳腺癌23问卷（European Organization for Research and Treatment of Cancer Quality of Life Questionnaire Breast Cancer-23, EORTC QLQ-BR23）问卷的子项目作为解释变量，通过OLS构建六个模型，以R2、MAE和RMSE作为评价模型性能的指标进行QLQ-C30、QLQ-BR23与EQ-5D之间的映射研究。结果显示，使用QLQ-C30的子项目得分的回归模型性能最佳，具有良好的预测有效性。Nick Kontodimopoulos[37]以671例乳腺癌、骨髓瘤、结肠直肠癌、淋巴瘤、骨髓癌、前列腺癌、肺癌和胃肠癌的患者数据为研究样本，以 OLS、GLM、CLAD和贝叶斯加性回归（Bayesian additive regressionkernels）构建回归模型，并将调整R2作为评价模型性能的指标进行QLQ-C30与SF-6D的映射模型对比研究。结果显示，QLQ-C30的全球健康项目、身体、情绪和社会功能量表、疲劳、疼痛和腹泻症状是所有模型的重要预测指标，而对于健康状况最差的患者，所有模型对公共事业都存在过度预测。由此可得，该算法虽可以建立QLQ-C30与SF-6D的映射函数，但其性能需要进一步提升。

表2 普适性量表之间的映射函数式一览表

Evangelos Kalaitzakis等[38]以英国牛津郡和瑞典西约塔兰省的所有原发性硬化性胆管炎患者的SF-6D和慢性肝病调查问卷（Chronic Liver Disease Questionnaire, CLDQ）数据为研究样本，将 CLDQ问卷中的疲劳、全身症状和情绪困扰等指标得分作为解释变量，构建OLS、GLM、中值和核回归模型，并以调整R2、RMSE以及Pearson的r系数和预测值与观测值之间的MAE来评价模型性能。结果显示，通过 OLS、广义线性回归和中值回归模型性能均表现良好，可认为此算法能够准确地将CLDQ映射到SF-6D上。

Faraz Mahmood Ali等[39]以4010例皮肤病患者的临床数据为例，以年龄、性别和皮肤病生活质量指数（Dermatology Life Quality Index, DLQI）的所有子项目作为解释变量，构建十个 OLR（序数逻辑回归）模型，以MAE和MSE作为评价模型性能的指标进行DLQI与EQ-5D之间的健康效用映射研究。结果显示，该算法构建的映射模型的预测性能良好，能够较为精确地将皮肤病患者的生命质量信息转换为EQ-5D健康效用值。

Irina Proskorovsky等[40]以英国和德国的154例多发性骨髓瘤患者的研究数据为例，以骨髓瘤生活质量20问卷（Quality of Life Questionnaire Myeloma-20,QLQ-MY20）总体及其子项目得分为解释变量，建立多变量回归模型并进行交叉验证。结果显示，在包括QLQ-MY20总体评分的模型中，以健康状况/生活质量、身体功能、疼痛和失眠为解释变量的回归模型性能最好，不包括QLQ-MY20总体评分的模型中，以健康状况/生活质量、身体功能、疼痛和情绪功能的模型性能最好。两个模型均可以有效地将QLQ-MY20映射到EQ-5D上。

Sarah Acaster等[41]以401例英国囊性纤维化患者的囊性纤维化问卷修订版（Cystic Fibrosis Questionnaire-Revised, CFQ-R）、EQ-5D和背景调查数据为研究样本，以CFQ-R所有项目及其平方项等虚拟变量作为解释变量，运用OLS、Tobit和TPM共构建八个模型，以RMSE作为模型性能的评价指标进行评估。结果显示，以CFQ-R所有项目和以角色及情绪功能、活力、饮食紊乱、体重、消化症状等为虚拟变量的两个模型性能最好。可以采用该算法进行CFQ-R与EQ-5D之间的健康效用值映射。

Yingsi Yang等[42]以553例中国结肠直肠肿瘤患者的健康调查数据为研究样本，对经过三次样条平滑（Cubic spline smoothing and multiple imputation）后的数据通过OLS、Tobit和TPM构建映射函数，并以R2作为模型性能评价指标与以原始数据构建的映射模型进行性能对比。结果显示，与原始数据模型相比，拟合三次样条平滑变换数据的模型在拟合度和预测能力方面具有更好的性能，且OLS模型的拟合优度和性能最佳。以此种方法可以很好地构建结肠直肠癌治疗的功能评估量表（Functional Assessment of Cancer Therapy-Colorectal, FACT-C）与SF-6D之间的映射模型。

Padraig Dixon等[43]以482例黄斑变性患者的实验数据为例，以黄斑变性生活质量量表（Macular Degeneration Quality of Life, MacDQoL）的23个子项目得分以及加权值为解释变量，使用OLS、CLAD、Tobit和TPM构建MacDQoL与EQ-5D-3L之间的映射，并以MSE作为模型性能的评价指标进行对比分析。结果显示，TPM具有最佳的预测性能，以此算法构建的MacDQoL与EQ-5D-3L之间的映射模型有一定的临床应用价值，但其对EQ-5D-3L的上下两端的预测性能一般，仍需要进一步优化。

Patrick J.Gillard等[44]以多国家的8000余例偶发性和慢性偏头痛患者的数据为研究样本，通过 OLS构建回归模型以与头痛影响6问题测试（Headache Impact Test-6, HIT-6）和偏头痛特异性生活质量问卷2.1版（Migraine-Specific Quality-of-Life Questionnaire version 2.1, MSQ）子项目得分作为解释变量，以R2作为评价映射模型性能的指标进行EQ-5D与HIT-6和MSQ之间的映射模型的对比分析。结果显示，两项研究的总体性能均表现一般，均不能很好地建立与EQ-5D之间的映射模型，且偶发性偏头痛研究的映射模型的性能不及慢性偏头痛的映射模型。

Ben F.M.Wijnen等[45]以荷兰和英国两个临床试验的509例癫痫患者数据为例，以癫痫生活质量-31页（Quality of Life in Epilepsy, QOLIE-31P）量表各项目得分及其加权变量作为解释变量，使用OLS和CLAD构建QOLIE-31P与EQ-5D-5L之间的映射模型，并以调整R2作为模型性能的评价指标进行对比研究。结果显示，两个映射模型研究的显著相关性均一般，具有平方项的OLS回归模型性能相对较好。

Rafael A.Pinedo-Villanueva等[46]以1759例髋关节手术患者的临床数据为例，构建以牛津髋关节评分（Oxford Hip Score, OHS）总体作为连续回归因子的线性回归、以12个OHS问题的响应作为分类预测因子的 OLS、TPM、相应映射模型进行 OHS与EQ-5D之间的映射研究，并以MAE作为映射模型的性能评价指标进行各个模型的对比研究。结果显示，OLS模型的性能最好，可以很好地将 OHS映射到EQ-5D上。

Ning Yan Gu等[47]以2842例有失眠问题的成年美国居民的截面数据为研究样本，分别以失眠严重程度指数（Insomnia Severity Index, ISI）的七个子项目、ISI总分、临床类别和失眠症状得分作为解释变量，构建GLM进行失眠严重程度指数（ISI）与EQ-5D之间的映射，并以MAE和MSE作为评价映射模型的指标进行对比研究。结果显示，包含失眠症状的模型在对EQ-5D效用值的预测能力上展现出最好的性能。

Ola Ghatnekar等[48]以瑞典272例脑卒中患者的健康相关的生活质量（Health Related Quality of Life,HRQoL）临床数据为例，以穿衣（dressing）、上厕所（toileting）、活动（mobility）、情绪（mood）、一般健康（general health）和代理响应（proxy-responders）指数等为解释变量，通过OLS、Tobit和CLAD进行将脑卒中健康指标与EQ-5D的映射研究，并通过预测性能指标MAE和MSE对不同方法构建的映射模型进行对比分析。结果显示，各模型均存在估计偏差问题，性能均不是很高，无法很好地构建脑卒中健康指标与EQ-5D之间的映射模型。

Daniel Collado-Mateo等[49]以西班牙129例纤维肌痛女性患者的EQ-5D-5L、15D、AQoL-8D和SF-12四份普适性问卷以及特异性疾病量表纤维肌痛影响问卷（Fibromyalgia Impact Questionnaire, FIQR）的数据为研究样本，以各个量表的子项目得分为解释变量构建OLS和GLM映射模型，并以MAE作为评价模型性能的指标进行映射模型的对比分析。结果显示，FIQR与EQ-5D-5L、15D、AQoL-8D和SF-12之间的GLM映射模型性能更好，能够准确地进行健康效用值的转换。

2.4 未给出明确函数关系式的普适性量表之间的映射研究在普适性量表之间的映射研究中，学者对样本的选取有所不同，可以以多种疾病的数据集合作为样本，也可以以一种疾病的数据作为研究样本。目前，关于普适性量表之间的映射研究较少，且映射模型的性能普遍不好，无法满足临床运用要求，这也是此类研究较少的原因，在检索的文献中仅有3篇[50-52]属于此类文献。

Quang A.Le[50]使用来自2003年医疗支出小组调查的19 678名成年人的样本数据，通过实施五重交叉验证，采用多项Logist回归、OLS和CLAD构建映射模型，以R2、MAE和RMSE评估贝叶斯网络（Bayesian networks）的概率映射的预测性能。结果显示，使用贝叶斯网络的概率映射法优于其他映射方法，可以准确地建立SF-12与EQ-5D之间的映射。Donna Rowen等[51]以3100余项临床数据为例，以SF-36维度总体以及交互项构建三个GLS映射模型，并以MAE和MSE作为模型性能评价指标与先前的研究结果进行比较。结果显示，在三个模型中，具有平方项和交互项的模型性能最好，但总体拟合程度一般，且平均绝对误差也相对较高。因此，该算法构建的模型并不能很好地将SF-12映射到EQ-5D上。

Seon-Ha Kim[52]以韩国2211例结肠癌患者的数据为例，使用OLS、TPM和使用八个量表得分的多项逻辑建模分析预测模型，以总得分和SF-36的交互项作为解释变量进行SF-36与EQ-5D之间的映射研究，并以R2和RAE作为指标衡量标准。结果显示，以OLS模型（包括身体功能、身体疼痛、社交功能、角色情绪和心理健康）得出的映射模型性能最佳，能够准确地将SF-36映射到EQ-5D上。

3 国内外映射法研究概况

通过对当前国内外的实例研究文献进行分析，总结归纳出当前研究的主要对象、初始量表和靶向量表的选取、解释变量与因变量、计量经济学方法以及性能评价指标情况如表3所示。

3.1 数据源及研究对象的选择从研究对象来看，健康人群和患病人群均为研究的样本对象，当前对患病人群的研究较多。研究疾病包括糖尿病、癌症、帕金森综合症、关节炎等；从样本选择来看，样本量从数十例到几万例不等，大部分数据的来源为临床试验，受试者主要来源于社区居民以及医院的就诊人群。

3.2 测量工具的选择从初始量表来看，大多数研究选用疾病特异性量表，如成人生长激素缺乏症的生活质量评估量表 QoL-AGHDA、类风湿性关节炎生活质量评估量表 HAQ-DI等，因为疾病特异性量表能够更好地反映相关指标，一小部分学者选用普适性健康状态测量量表，如SF系列量表等；从目标量表来看，目前选用最多的是英国的EQ-5D效用值体系计算健康效用值，也有一部分研究以AQoL-8D、HUI-2、HUI-3或SF-6D作为目标量表。

3.3 指标变量的选取及建模方法在检索到的映射研究文献中，模型的构建多以人口统计学指标、疾病分级、总分、维度得分、量表条目得分以及各条目水平虚拟变量作为解释变量，以效用指数和各维度得分为因变量，常用的计量经济学模型有 OLS、Tobit、CLAD等。除此之外，一些学者经常运用TPM、多分类逻辑回归（Multinominal logit model）、广义线性回归、分位数回归、潜类别混合模型、受限混合模型等进行映射研究。为了更精确地得出映射模型，一些学者会采用多种模型同时构建效用值的方法，这样能够通过对比得出最优的映射方法。在对映射性能的评价指标选择上，根据拟合能力和预测能力分为两类：拟合能力一般以显著性、回归系数、R2、调整R2、Ramsey RESET检验、Jarque-Bera检验等作为评价指标；预测能力多采用稳健标准误差、均方误差、平均绝对误差、观测值与预测值散点图和相关系数等指标进行评价[53]。A.Tscuhiya等[54]学者根据初始量表和目标量表的选取情况，将当前映射研究中各类模型分为六大类型，见表4。

解释变量A为初始量表总分，M为靶向量表效用指数，μ为干扰项。d为初始量表维度个数，i为初始量表条目项数，1为条目等级个数，Md为靶向量表各维度得分；模型2和5中的Ax为各维度的分，模型3中的Ax为各条目得分，模型4中的Axy为条目x的等级y，是虚拟变量。在最后对预测模型进行调整时，还可以加入平方项和交互项以提高预测精度[31]。

表3 国内外现有映射法研究情况

表4 现有研究映射模型类型

4 建议

4.1 拓宽靶向量表的选取种类目前国内外的相关研究中，多数学者选择EQ-5D系列作为靶向量表，但很多研究的结果显示，以EQ-5D系列量表作为靶向量表的映射函数性能并不能达到临床应用标准。因此，建议学者在选择靶向量表时，应根据该研究的情况综合考虑各个靶向量表的特点和适用性进行选择，以求得到和更好的映射结果。

4.2 尽可能运用多种回归方法构建映射模型，并进行性能对比目前国内外的相关研究中，多数的映射结果是通过OLS方法获得，其次是GLM方法。也有学者的研究结果表示，最优的映射是通过CLAD、QR、Tobit和 TPM 等回归方法获得，但此类研究数量较少。建议学者在回归方法选择上应多探索新方法，以不同回归方法构建多个函数模型，采用相关的拟合指标和预测指标进行映射模型的性能对比。

4.3 加大样本量，合理利用解释变量目前国内外的相关研究中，大部分研究的样本量较少，研究结果的可信度不高，建议学者加大对样本数据的收集，降低研究误差；在构建回归模型时，解释变量的选取会对映射模型的性能有很大影响，而目前大多数研究并没有对不同指标变量的影响程度进行分析，这是导致部分学者研究结果不理想的原因之一。Stefan Sauerland[11]、Emese Here’di[20]以及 Anthony James Hatswell[24]这三篇文献虽然给出了映射模型，但性能不理想，无法达到临床应用标准。模型性能在很大程度上与解释变量的选取有关，建议在解释变量选取时应根据实际情况建立多个回归模型检验不同解释变量组合的模型性能，以获得最优的映射模型。

4.4 拓宽研究领域，开展全面深入研究在研究目标的选择上，多数研究选择全人类为样本，针对特定年龄、性别等人口统计学变量的相关研究很少，在查阅到的国内外文献中仅有一例关于女性[49]、三例关于儿童[28-30]的研究。建议学者拓宽研究领域，对不同年龄、不同性别的人群进行特异性研究，使得映射模型更好地进行临床运用；现有的研究中对重大疾病和慢性疾病的研究较多，对普通疾病的相关研究几乎没有，建议学者在普通疾病的映射研究领域多进行探索。

在检索中发现，大多数映射模型都是建立在普适性量表与疾病特异性量表和两种普适性量表之间，对疾病特异性量表之间映射关系的实证研究尚未检索到相关文献，Emese Herédi等[20]给出了两种疾病特异性量表之间的相关性指标，但并未做深入分析。构建针对同一种疾病的特异性量表之间的映射模型在临床应用中有重要的意义。

5 结语

目前，国内映射法研究偏重于映射法的叙述研究。在相关实证研究中，国外的相关工作已经很成熟，已构建了多种疾病的映射模型。与国外相比，国内对于映射法的相关研究极少，对映射法的实证研究仅有一例。建议研究人员对映射法进行多方面、多领域的研究，探索不同计量经济学方法、模型类型。随着社会各界的关注以及国家对映射法研究的大力支持，我国的映射法研究一定会有重大的的突破和进展。