我国车险费率厘定的实证研究——基于广义线性模型的分析

2011-07-25 09:46赵慧卿王汉章

天津商业大学学报 2011年5期

赵慧卿，王汉章

(天津商业大学经济学院，天津300134)

汽车保险是财产保险中的主要险种，其盈亏直接关系到整个财产保险行业的经济效益。2003年以前，国内保险公司的车险业务采用保监会制定的统一条款和费率体系，较高的费率不但违背了费率厘定和市场竞争的公平原则，而且使得行业缺乏竞争力。随着国外保险公司的纷纷进入，我国车险市场的竞争愈加激烈。

我国与国外汽车保险条款的差异主要是费率制定的原则不同。我国采取的是“从车原则”，而国外则广泛采用“从人原则”。条款制定的差异使得中国车辆保险中的“逆向选择”和“道德风险”远远高于国外同行，这显然不利于我国车险的发展。因此，我国在进行车险费率厘定时应借鉴国外经验，纠正这种“对车不对人”的做法。另外，我国保险费率厘定在“从地因素”上仍然考虑得比较粗略。综合考虑“从车、从人、从地”的因素势必会给车险厘定提供更加公平合理的依据。因此，寻求科学、公平的费率厘定方法，对推动费率市场化改革，促使我国车险行业健康发展，具有积极而深远的意义。

1 相关研究现状

广义线性模型最早是由Nelder和Wedderburn［1］定义的，该模型是传统线性模型的拓展。Duncan Anderson［2］讨论了广义线性模型的两种检验:标准差检验和离差分析检验，同时他还指出，广义线性模型已经成为个人车险、其他个险险种以及部分商业险种定价的指导性方法。

国内对车险费率厘定的研究大多引用国外保险发达国家的车险费率厘定变量，在此基础上对我国机动车辆保险的费率厘定变量提出一些建议。在我国将广义线性模型用于非寿险费率厘定的研究始于20世纪70年代。

毛泽春等［3］简要介绍了广义线性模型，并将其应用于保险的风险分类中，用车险理赔的历史数据分析各个风险分类的费率，最终得到保费点数计价系统。曾辉、范兴华［4］对我国当前使用的影响费率厘定因素提出质疑，使用方差分析方法探讨城区与郊区、不同的城市，年度对费率厘定的影响是否显著，结论是把城市作为厘定费率因素是科学合理的。卢志义和刘乐平［5］提出使用广义线性模型估计保险费率，一般要从索赔频率和平均索赔额两个方面建立模型，并假设单元中的各个风险单位是同质的，同时认为同一风险单位事故发生的频率不受前期索赔的影响，单元中各个风险单位相互独立。

2 车险费率厘定的影响因素及传统厘定方法

2.1 车险费率厘定的影响因素

要对机动车辆保险进行厘定，首先需要确定车险费率与哪些影响因素有关，一般将影响机动车辆费率的因素分为车、人和环境三方面。车辆影响因素主要有:车辆种类、车辆用途、车龄、里程数、生产厂商、车辆型号和行驶区域。人的影响因素依次为:年龄、性别、驾龄、婚姻状况、职业、肇事记录、是否续保、被保险人类型。环境风险因素又可以分为地理环境风险因素和社会环境风险因素。［6］这些因素在车险费率厘定的过程中都是需要考虑的，但是没有必要全部纳入费率厘定系统中。具体到不同保险公司，主要考虑哪些风险是最显著的。一般来说，车辆厂商、型号、被保险人年龄、驾龄、行车里程数等因素是最重要的，都会纳入到费率厘定系统。

2.2 传统的车险费率厘定方法

最小偏差法是传统分类费率厘定中普遍使用的一种方法，用于同时确定两个或两个以上分类变量的相对费率。该方法通过一个方程组建立损失数据和各个费率因子之间的关系，并通过迭代法求解未知参数的最优解。在最小偏差法中，首先需要确定偏差函数，即最小化的目标函数，常用的偏差函数有边际总和函数、最小二乘函数、最小x2函数等，不同的偏差函数得到的相对费率可能存在差异。

最小偏差法的特点是在求各个风险因子相对数时，必须设定某一初始值并进行反复迭代，以求解方程得到最优解，计算颇为复杂，其结果的精确度也有待于进一步探讨。20世纪末以来，广义线性模型广泛应用于分类费率厘定中，并且已经成为某些国家厘定分类费率的行业标准。

3 基于广义线性模型的车险费率厘定

3.1 广义线性模型定义

广义线性模型是一种基于指数族分布，用于评估和分析响应变量和解释变量之间相关关系的模型。广义线性模型假设任何一个响应变量的波动都可以分为两部分波动的综合影响:一是响应变量与解释变量之间具有某种显著性的相关关系而造成的系统波动;另一个是自身随机波动的影响。通过一个适当的函数联结这两者就可以比较准确地反映响应变量真实的波动情况。

广义线性模型在形式上与经典回归模型完全类似，定义如下:已知Y为指数分布族响应变量，X1，X2…，Xn为解释变量，μ =E(Y)，η =g(μ)，有

其中:g(·)称为联结函数，β0，β1，…βr为待估参数，该模型即为广义线性模型。每一个广义线性模型都包括以下三个要素:

(1)随机成分，即响应变量Y或误差项的概率分布。响应变量会受到自身随机成分的影响。广义线性模型允许响应变量的随机波动呈现指数族分布特征，即

指数族分布包括许多常见分布，如正态分布、泊松分布、逆高斯分布、二项分布、伽玛分布等。

(2)系统成分，即自变量的线性组合。响应变量和解释变量之间具有某种显著的相关关系，而且假设这种相关关系可以用解释变量的线性组合来表示

(3)联结函数，有机地联接随机成分和系统成分之间的关系，这种连接的构造通过描述yi的期望和线性预测ηi之间的关联获得，即

可见，广义线性模型对响应变量的预测值并不直接等于解释变量的线性组合，而是该线性组合的一个函数变换。

3.2 广义线性模型的参数估计

使用极大似然法进行参数估计，共涉及r+2个参数，其中 r+1 个是回归参数 β0，β1，…，βr，一个是离散参数φ。在总体分布已知的情况下，离散参数φ已知。

广义线性模型的似然函数为

对数似然函数为

通过联结函数的作用(1)中θi和a(θi)分别是β0，β1，…，βr的函数，使 l(β，φ)达到最小的 β^0，β^1，…，β^

r即为 β0，β1，…，βr的极大似然估计值。

对广义线性模型的极大似然估计进行一阶近似，可以发现其近似等于线性方程g(Y)=Xβ的加权最小二乘估计。推导计算得出β的最小二乘估计值为权重 W 为

3.3 广义线性模型在车险费率厘定中的应用

在广义线性模型中，响应变量的方差是其均值的函数，这一特点很适合保险公司的数据。在车险费率厘定过程中，一般需要估计索赔次数、索赔频率、次均赔款和续保率等，根据这些数据各自的特点，所采用的广义线性模型也不尽相同。

在估计索赔次数或索赔频率时，典型的广义线性模型是泊松乘法模型;在估计次均赔款时，典型的广义线性模型是伽玛乘法模型;在估计续保率和新业务的转换率时，典型的广义线性模型是Logistic模型。

4 我国车险费率厘定的实证研究

4.1 数据说明

我国多数保险公司保单信息不完整，数据库系统中的部分影响因素数据缺乏，因此不能对上述提到的全部影响因素进行建模，只能挑选其中重要因素进行分析。本文以国内某保险公司2006年机动车辆保险中非运营车辆的简单历史理赔资料为样本，对数据进行初步的统计整理后发现，影响车险费率的因素主要有四类，分别是:车辆行驶里程数、车型、被保险人的年龄、车辆所属地区。

4.2 变量的选择

4.2.1 从车因素

(1)车辆行驶里程数分为五个水平:a1～a5分别代表:年行驶10 000千米以下、10 000～15 000、15 000～20 000、20 000～25 000、25 000千米以上;

(2)车型分为七个水平:b1～b7分别代表7种类型的机动车，由于原始数据中车型太多，在进行数据整理的过程中使用车辆价格作为分类标准，b1～b7所代表的车的价格分别为5万以下、5～10、10～20、20～30、30～40、40～50、50万以上。

4.2.2 从人因素

驾驶人年龄分为七个水平:c1～c7代表的年龄段分别为20岁以下、20～24、25～29、30～34、35～39、40 ～49、50岁以上。

4.2.3 从地因素

车辆所属地区分为七个水平:原始数据中的车辆分别取自我国内地31个省市，根据各省会气候地理位置、人口密度、经济发展水平等因素，将31个省市分为7个水平，d1～d2分别代表人口密度逐步递减的7个水平，其中d1包括上海、北京、广州、福建、湖北、江苏，d2包括天津、河南、四川、陕西、山东，d3包括安徽、江西、海南、河北、辽宁、湖南，d4包括山西、贵州、浙江、重庆、吉林，d5包括广西、青海、云南、甘肃，d6包括黑龙江、乌鲁木齐、宁夏、内蒙古，d7仅为西藏。

4.3 运行结果

使用广义线性模型估计保险费率，一般从索赔频率和索赔额度两个方面建立模型，下面分别介绍。

4.3.1 索赔频率模型

对索赔频率数据使用SAS的GENMOD过程构建广义线性模型［7］，分布函数分别使用正态分布和泊松分布，连接函数为对数连接。不同分布下的拟合优度比较见表1。

从表1可以看出，正态分布假设下索赔频率的离差比泊松分布假设下大得多，所以拟合优度比较差，因此在使用索赔频率数据进行广义线性模型分析时应选择泊松分布假设。

将整理后的数据导入SAS系统构建广义线性模型，使用GENMOD过程得到下面的估计结果:

表2 索赔频率的估计结果

表2显示，参数各个水平的估计结果绝大多数都能通过置信水平为1%的显著性检验，只有地区因素中第四个水平的P值为0.08，其P值较大，可能是选取的样本中这个地区的数据比较少。总体来说选择的模型能较好地拟合该公司的历史数据，并能据此厘定车险费率。

可以看到四个参数最后一个水平的自由度均为0，导致这一现象的原因可能是由于模型矩阵中对应于该参数的列与该参数之前的那个参数对应的列是相关的，因此SAS运行的结果会指定该参数为零自由度，此时参数估计和标准误差均为0。除去这一情况我们对四个参数的其他各个水平的估计结果进行分析:

(1)行驶里程数在15 000～20 000千米，20 000～25 000千米这两个段中的估计值明显大于前面两个段的估计值，这是因为机动车辆行驶里程越大，车辆的磨损就越严重，所导致的出险概率也会越高。

(2)车价越高，索赔频率的估计值越小，这是因为车价越高一般来说车的性能也越好，出险概率会越低。表2中10～20万的车辆索赔频率的估计值为0.103 9，在这6个水平中最低，这可能是因为选取的数据中这个价格段的车辆比较多。

(3)从驾驶员年龄看，20岁以下的驾驶员索赔频率的估计值为1.480 6，是6个水平中出险频率最高的，这与年少者逞强好胜的心理、开车速度快有很大关系，30～34岁估计值最小，此后随着年龄的增长，生理机能逐渐衰退，应对突发事件的反应不如年轻人敏捷，所以风险也越大。

(4)从地区因素看，d1～d7各个地区的人口密度逐步递减，损失频率也基本上呈现递减的趋势，第一类城市都是人口密度大、交通拥堵现象比较明显的地区，它的估计值明显超出后面几个水平。

4.3.2 索赔额度模型

对索赔额度数据使用SAS的GENMOD过程构建广义线性模型，连接函数为对数连接，分布函数分别使用伽玛分布和逆高斯分布。不同分布下的拟合优度比较见表3:

表3 索赔额度两种假设分布下的拟合优度比较

表3显示，逆高斯分布假设下的离差比伽玛分布假设大得多，因此伽玛分布假设下模型的拟合优度较好，所以在使用索赔额度数据进行广义线性模型分析时应选择伽玛分布假设。

同样将整理后的数据导入SAS系统构建广义线性模型，使用GENMOD过程得到下面的估计结果:

表4 索赔额度的参数估计值

在初次估计结果中，一些因素水平没能通过显著性检验，所以上面的估计结果是经过多次数据合并后估计得到的。由上面的估计结果可以看出虽然有些因素水平的P值较大，但基本上都通过了95%的显著性检验。下面对四个因素各个水平的估计结果进行分析:

(1)行驶里程越少，参数估计结果越小，这是由于车辆行驶磨损越小，出险的情况就越少，索赔的额度也相应越小。

(2)车价越高，索赔额度的估计值越大。这是因为一旦出现事故，高价车所需的修理费用是很高的，因此索赔额度也高。

(3)29岁以下的年轻人索赔额度较大，30～39岁之间的较小，因为此年龄段相对的平均损失成本较小，之后随着年龄的增大，驾驶的平均损失成本随之增大，所以40岁以上的驾驶员索赔额度又呈上升趋势。

(4)人口稠密地区索赔额度较小;人口稀少地区索赔额度较大。这是因为人口稠密地区多是经济发达地区，这些地区城市建设较好，路况相对来说也比较理想，所以机动车辆虽然由于交通拥堵出险概率较高，但是损失额度相对较小。

［1］Nelder J A，Wedderburn R W M.Generalized Linear Model［J］.Journal of the Royal Statistical Society A，1972，135:370 －384.

［2］Anderson D.A Practitioner’s Guide to Generalized Linear Models［R］.Discussion Paper on Applying and Evaluating Generalized Linear Models，2004:4 －82.

［3］毛泽春，刘锦尊.广义线性模型与保费点数计价系统［J］.统计研究，2002(6):23－25.

［4］曾辉，范兴华.关于我国机动车辆保险费率厘定因素的思考［J］.经济师，2003(2):22 －26.

［5］卢志义，刘乐平.广义线性模型在非寿险精算中的应用及其研究进展［J］.统计与信息论坛，2007(4):26 －29.

［6］孙佳美.对我国机动车辆保险费率厘定因素的思考［J］.保险研究，2004(11):34－37.

［7］吴平，黄燕.SAS统计分析及应用［M］.北京:机械工业出版社，2002.