面板数据(Panel data) 的分析策略及模型选择：基于R软件包的实践

2024-04-03 21:06胡雪刘旺俊吴崇胜张颖

电脑知识与技术 2024年1期

胡雪刘旺俊吴崇胜张颖

关键词：面板数据；R语言；固定效应模型；随机效应模型；时间序列；多水平模型

面板数据同时包含横截面和时间序列两个维度的数据，能够提供大量的数据信息，并能通过对不同个体、不同时间点的比较得出更有价值的成果。通过面板数据分析，可以得出某个国家、某个群体、某个企业等的动态变化过程，推论变量之间的因果关系[1]。

1 面板数据的定义

面板数据（Panel data），包括横断面数据和时间序列两个维度，最早是由Mundak（1961）、Balestra和Ner?love（1966）引入计量经济学领域。面板数据包含每个个体或者单位的各个变量在时间序列不同时点上的测量结果，即将横断面和时间序列数据融合在一起的数据集。其中，横断面的单位面可以是个体、地区、国家等。如果在面板数据中，每个时期在样本中的个体完全一样，则称为“平衡面板数据”（balanced panel）；反之，则称为“非平衡面板数据”（unbalanced panel）。

2 面板数据的应用情况

综合近几年文献，可以看到面板数据分析在实践领域中应用广泛，涉及金融、经济增长、产业结构、技术创新等宏观领域以及就业、家庭消费、入学、企业管理、市场营销等微观领域。如利用面板数据研究新冠疫情对航运贸易的影响[2]、退休对幸福感和孤独感的影响[3]等。

在我国COVID-19疫情时空演变特征研究[4]中，通过选取疫情暴发当年的314个城市329天（2020年1月24日至12月18日）面板数据，采用多种分析方法分析了COVID-19疫情的时空变化特征，其中动态面板空间杜宾模型（Spatial Dubin Model， SDM）估计结果显示314个城市现存确诊数具有显著的时空自相关性（P=0.017）且不同阶段有明显差异。空间自相关表现为邻近地区的疫情对本地形成加剧效应，时间自相关性则在不同时期表现出不同的效应（全样本和前期样本的空间滞后项的估计系数分别为210.64和-48.14）。

在利用面板数据研究手足口病与气温关系应用[1]中，该研究选取了中国有地域代表性的7个城市2010 年1～12月的手足口病发病报告数据和气温数据，研究显示气温对手足口病报告发病率的影响有统计学意义（t=10.43， P＜0.01），同时采用面板数据模型（panel data model）优于最小二乘回归模型（least squaremodel）。在流行病学研究中，对于多个地区连续监测的传染病数据，当地区之间存在较大差异时，用面板数据模型更为合理。

在应用面板数据模型研究人群血糖与血尿酸水平关系的研究[5]中。该研究显示血糖与血尿酸的关系为互为因果。血糖对血尿酸影响的面板数据模型结果显示，随着空腹血糖水平的升高，血尿酸水平先升高后降低，拐点值为5.07mmol/L。因此糖尿病患者早期除了药物治疗外，还应该加强身体锻炼、情绪的管理、平衡飲食等，预防高尿酸血症的发生；血尿酸对血糖影响的面板数据模型结果显示，空腹血糖水平随血尿酸水平的先下降后上升，拐点值为632.04μmol/L，血尿酸累积到更高水平时（超过拐点值）才会增大糖尿病的患病风险，因此在日常生活中，高尿酸血症患者除了控制血尿酸外，还应该注意其他因素的控制，养成良好的生活习惯，以降低糖尿病的发病风险。面板数据模型使人们更深入地理解血糖与血尿酸之间的相互作用规律，为更好地开展2型糖尿病和高尿酸血症的预防控制工作提供科学依据，同时新的统计学方法也为其他疾病指标之间相互关系的研究提供借鉴。

尽管面板数据有许多优点，但由于面板数据包含二维的数据结构，在利用它建模时对模型的设定及参数的估计比较复杂，建模不当将会造成较大的偏差，估计结果与实际将相差甚远，从而对人们的判断产生严重误导，导致有些研究者不知如何应用，选择合适的分析工具很有必要。R语言作为一个开源的数据分析环境，在数据操作、数据可视化等技术领域为广大用户提供了便捷，本研究将以R语言为基础，对目前现有关于面板数据的应用R包的基本信息和主要功能进行整体介绍，为面板数据的研究分析提供便捷性和可操作性。

3 面板数据的常见模型和R 软件包

第一种是混合估计模型：混合估计模型在横截面上既没有个体间的影响，也没有结构的变化。混合估计模型与普通的线性回归模型没有本质上的区别[6]。

第二种是固定效应模型：一般分为三种类别，包括只含有个体固定效应的模型称为个体固定效应模型；只含有时间效应的为时间固定效应模型；既包括个体效应也包括时间效应的为双向固定效应模型[7]。

第三种是随机效应模型：个体效应和时间效应与所有的解释变量均不相关，也就是说，异质性截距反映在随机的扰动项里。

随机效应模型与固定效应模型的区别在于对个体差别的定义，固定效应模型刻画了不同个体的特殊影响，个体间的差别反映在每个个体都有各自截距项；而随机效应模型则假设个体间的差别是随机的。

4 面板数据的R 语言程序包

通过在R语言CRAN官网检索和查询文献及书籍，一共检索到12个常用R包用于面板数据分析，以下汇总了各个R包的基本信息（作者、版本日期、更新情况）及主要函数、应用情况。

5 应用实例分析

5.1 个体固定效应的面板数据分析

利用1970—1986年期间美国48个州截面数据的时间序列，研究不同类型的公共基础设施对全州生产量的贡献。主要变量包括：gsp（全州生产量）、pcap（公共资本）、unemp（失业率）、pc（私有资本）、emp（非农业的劳动投入）、state（州）和year（年份）。

从以上结果可知，模型对因变量的解释率很高（RSquared=0.94），且P 值（＜2.22e-16）＜0.05，在0.05 水平上回归模型有显著意义。

从回归分析的各个自变量的参数估计表格可看到，PC（私人资本）、emp（非农业的劳动投入）、unemp （失业率）的P 值＜0.05，说明这三个自变量对全州生产量有显著影响，且PC（私有资本）、emp（非农业的劳动投入）对生产量是正向影响（估计值为正数），unemp （失业率）对生产量是负向影响（估计值为负数）。

5.2 多水平模型

对同一个受试者多次调查幸福感，研究不同社区指标对幸福感的影响。主要变量包括：Score（幸福感）、id（不同社区）、Zbuild（标准化后社区建筑密度）、Zroad（标准化后社区路网密度）、Zgreenpro（标准化后社区绿地占比）、Zincome（受试者收入）、Sex（性别：男、女）和Age（年龄）、Job（工作：退休、无业、在业）、Mar（婚姻：离异/丧偶、未婚、已婚）、Edu（学历：初小、高中、大學）。

从标准化回归系数来看，有统计学意义的有绿地密度，学历和年龄。绿地密度的β 为正，说明绿地密度正向影响幸福感。学历为因子变量，以初小为基准，大学比初小幸福感高0.113，而高中对比初小则没有统计学意义。年龄最高，幸福感反而降低。

6 讨论

本文基于面板数据，在CRAN和相关书籍中检索总结了12个常用的R包，包含各个R包的基本模型、主要函数和适用情形，并用R语言举例了两种情形及结果展示，期望为用R语言进行面板数据分析的工作者提供参考。

正文列举的12个R包包含各种模型，那么如何根据研究的样本数据情形选取合适的R包？

面板数据样本结构和分析模型复杂，针对特定的数据结构和特点，选用合适的工具，不仅能节省时间，而且还可以形成特色的分析。而R语言作为完全开源的软件，其丰富的算法工具包和函数，几乎能满足各类型面板数据分析的需要。相比于其他大多数的分析软件，R语言具有以下的优势：

1） R语言中包含很多软件包，都是免费发行的，其中的源代码对用户都可见，用户可根据自己的需求，自由下载参考并使用。

2） R语言兼容性强，可在多种平台下运行，包括UNIX、Windows等。

3） R语言的扩展包功能强大、涉及领域广，且更新速度快。

4）在R扩展包中，有详细的介绍/使用文档及R代码文件夹，可方便查看帮助文档和代码。

5） R语言有强大的绘图功能，在可视化分析中拥有多种多样的展现形式和丰富的交互方式。

6） R语言语法结构简单，能较快地学习和使用。

综合以上优势，相信R语言在面板数据分析领域的发展将会越来越强大。