人口年龄结构模型和它的应用

2023-12-05 12:35黄荣清

人口与经济 2023年6期

摘要：提出了人口年龄结构模型——以年齡为自变量、累计的年龄百分比为因变量的函数形式，通过使用中国历次人口普查数据和其他一些数据对模型的验证，表明模型是成立的。累计的年龄百分比模型经过两次对数变换后，可以表示为线性函数的形式。以这一模型为基础，进一步构建了人口百分比、前后两次人口普查对应的年龄人口百分比之比等数学函数的表达式。在使用人口普查资料检验时发现，模型虽然能很好地拟合累计的年龄人口百分比曲线，但当人口的年龄波动较大时，年龄百分比模型的残差就会变大。由此可以得出这样的结论：用一个简单的数学函数要准确表示一般的年龄人口百分比是做不到的，若没有其他数据支持，根据一次普查的数据要全面准确判断人口普查数据的准确性也是不可能的。为了判别普查数据的报告误差，把普查数据拆分为估计值、偏离值和误报三部分，这里的估计值就是年龄百分比的模型值。本研究证明，在封闭人口条件下，年龄偏离系数（偏离值与估计值之比）是个常数。利用这个性质，可以用两次普查的百分比模型值计算实际人口的年龄存活率，并通过估计年龄偏离系数，估计出普查的误报。利用上述模型，本文估算了1982年全国人口普查的年龄误报情况。根据估算1982年7—91岁的年龄误报有683万人，年龄误报率为6.74‰。由于年龄误报，一些年龄的报告人口比估计的实际人口多，它们主要出现在中青年期，即青年期（24岁和25岁）和中年期，共计340万人，而一些年龄的报告人口少于估计的实际人口，它们主要分布在青年期（17、18岁和21岁），共计342万人。

关键词：年龄结构模型；人口普查；普查数据修正

中图分类号：C92-03 文献标识码：A 文章编号：1000-4149（2023）06-0056-15

DOI：10.3969/j.issn.1000-4149.2023.00.040

人口以规模和结构衡量，在各种结构中，又以人口年龄结构最为重要。年龄是人口研究中最常用的基础变量，人口研究的许多领域都是以年龄为变量而展开的。例如人们熟知的年龄别生育率、年龄别死亡率、年龄别劳动参与率，等等，这些指标分别是人口生育研究、人口死亡研究、就业研究中最重要的基础指标，而这些指标都必须以分年龄人口为基础计算得到。如果人口数据不准，那么以此为基础计算出的结果和得出的结论的可信度就令人存疑了。所以，一个国家和地区的各年龄的人口数以及它所占总人口的比，即人口年龄结构数据的准确性特别受人重视。

在使用人口数据时，首先要检查所用的数据是否准确可靠，这是人口学专业必须的基础训练。人口学学者对人口数据质量的重视程度，可以从人口统计分析教科书的内容看出：这些教科书一般都是从人口数据的来源和对数据质量的评估开始的。在人口数据质量的评估方面，人口学家提出了一些方法，如检验在某个年龄尾数上报告是否有偏好或排斥的方法有惠普尔指数、迈耶尔指数、联合国的年龄—性别准确性指数。黄荣清提出了用差分或者用每个年龄的数量与它左右两边年龄的人口数之差的符号分布来检验年龄尾数上是否有偏好或排斥［1-2］。此外，可以通过两次普查数据的一致性，即对应年龄人口比的大小来判定普查中是否存在漏报和误报，等等。可以说，在判断人口数据的准确性方面，人口学界已经积累了许多方法，虽然这些方法尚有改进的余地。但我们同时也注意到，即使检验出数据有质量问题，如何修正却没有被很好解决，甚至可以说有点束手无策。例如，我们可以判定某个人口的数据在尾数为“0”的年龄上有堆积，但我们并不能确定是在每个尾数为“0”的年龄都有重报，还是在部分年龄上有重报；即使我们能确定在某个年龄上有重报，例如在40岁，但我们并不能确定是40岁以前还是40岁以后的人的误报，若我们已经确定是年龄高报，即40岁年龄以前的人报告到40岁，那到底是39岁，还是38岁，或者是35岁、36岁的人误报，还是35岁到39岁的人都有误报？若进一步问，他们误报的数量和比例是多少？诸如此类的问题，从现有的研究来看，我们并不能清晰地回答。

究其原因，实际上我们对人口数量在各年龄之间的相互联系，或者说人口年龄结构数量变化的规律还没有清楚的认识。在一些特殊的条件下，我们有已知的阐述年龄结构的模型。如在生育水平和死亡水平保持不变，且两者相等的条件下，人口的年龄结构等于生命表中的静止人口年龄结构；在放宽相等的条件，保持死亡水平、生育水平不变的条件下有稳定人口年龄结构。但上述模型都是建立在理论假设下，现实人口中，死亡水平、生育水平保持长期不变几乎不存在，尤其如近现代的中国，经历了百年翻天覆地的变化，生育水平、死亡水平都发生了急剧的变化，显然是无法用稳定人口模型来解释中国人口的年龄结构及其变化的，所以，我们需要设计一个更加普遍适用的模型来刻画人口年龄结构的特征，并解释在现实的人口统计中出现的种种问题。

一、年龄结构模型

人口年龄结构模型，就是以年龄为自变量、年龄结构为因变量的数学函数。

1. 累计的年龄百分比模型

年龄结构常常以某一年龄的人口占总人口的比重来表示。设x年龄的人口为px，x岁及以上的人口为Ρx（在本文中，x岁年龄别人口比例用小写字母表示，如px，x岁及以上的人口用大写字母字母表示，如Ρx。字母加下标表示观测值，如ax，表示x岁人口占总人口的百分比观测值；a（x）表示x岁人口占总人口的百分比模型值。当要表示某个时刻时，观测值用下标加括号，如ax（T）来表示，模型值则用二元函数的形式a（x，T）来表示。），

三、1982年全国人口普查年龄报告误差

1982年第三次全国人口普查，我国开始按照现代人口普查的内容设计，采用了先进的技术手段，在当时的社会环境下，基层组织对人口管理有效，人口流动的规模很小。在全国动员、上下重视和努力下，人口普查非常成功，获得的调查数据质量很高，这一结论得到国内外学术界普遍的认可（1984年3月在北京召开的“中国1982年人口普查北京国际讨论会”上，出席会议的人口学家对这次人口普查的质量一致地给予了很高的评价。）。但普查数据可靠与否，需要通过和其他数据是否一致，包括后来的普查数据是否一致来检验。在1982年普查以后，我国在1987年举行了全国1%人口抽样调查，在1990年又举行了第四次全国人口普查。通过对比，人们发现在死亡数据方面，1982年数据存在着漏报，在年龄人口方面，存在着漏报和误报的问题。这里不讨论死亡数据漏报问题，主要讨论年龄误报问题。

下面，我们来观察1982年和1990年前后兩次普查对应年龄的人口比：设1982年x岁的人口为px（0），它和1990年x+8岁的人口相对应，设为px+T（T）（T=8），对应的人口比为px+T（T）/px（0），如果普查报告的人数无误，这个比表示上次普查x岁的人经过T年后存活的比率，简称存活率。1982年各年龄的人与1990年对应人口之比和存活率（这里暂时把根据模型推算的普查人口之比看作存活率，后面将证明这一推算是成立的。）见图5。

观察图5可以知道，两次普查对应年龄的人口比并不是一条光滑曲线，它是在存活率曲线上下波动的，这在40岁以前特别明显（见图6）。

理论上说，除出生人口外，其他年龄的人口随时间的变化完全由死亡率决定。死亡率的变化一般是很稳定的。由于中国人口基数很大，除了高龄人口外，各个年龄人口数都很大，例如在1982年，50岁以下每个年龄人口都在800万以上，人口死亡率（或者存活率）的随机误差非常小（死亡率标准误差的计算可参见：蒋庆琅.寿命表及其应用［M］.上海：上海翻译出版公司，1984：49-50。），出现上述波动，可以认为是由于人口误差引起的。从这里似乎可以得出结论：普查的人口数据其实也不是很准确的，是有一定差错的。从1982年0—40岁的年龄看（见图6），这些差错是非常明显的。

人口报告的错误最明显地是出现在两次普查的人口比大于1的年龄上。在人口封闭的情况下，人口随时间（或者说年龄）推移发生变化，由于死亡的发生，只会变少，存活率肯定是小于1。如果在某个年龄 x岁人口比大于1的情况出现，可能是以下情况导致的：上次普查x岁的人口有漏报，或是后一次普查x+T岁的人口有重报；当然也可能是人口年龄误报导致，即上一次普查x岁的人报告到其他年龄上去，导致报告人数少于实际人口，或后一次普查非x+T岁的人在普查时报告到了x+T岁，导致在x+T岁报告人数大于实际人口。

在1982—1990年两次普查对应年龄的人口比中，有11个年龄大于1。其中，在0—6岁有5个年龄，在14—32岁，有6个年龄的人口比大于1。由于1982年0—6岁人口少于1990年的8—14岁人口，很可能是在1982年普查时，一部分家庭未按计划生育的规定“超生”，因为担心受罚而瞒报了人口。到了1990年，这些被瞒报的人口都已进入上学年龄，在这以前有些家庭已经作出应对，如已经缴过了罚款，或采取了其他办法，已不必再隐瞒或不再隐瞒，所以出现了1990年8—14岁的人口多于1982年0—6岁人口。这里，我们以1990年8—14岁人口为基础并考虑了死亡的影响对1982年的0—6岁人口进行了调整。在其他年龄，则认为只是由于年龄报告的错误造成的。以下，我们来估计年龄报告的误差。

算出的hx（0）和hx（T）见图7。

由图7可以看出，尽管hx（0）和hx（T）的起伏很大，但在80岁以前，两者却很接近，用hx（0）和hx（T）的平均来估计偏离度hx。

hx=0.5（hx（0）+ hx（T））（48）

把hx代回到公式（43）和公式（44）中，可得1982年和1990年各年龄百分比的报告误差和实际值。

根据1982年和1990年全国人口普查数据，1982年0—6岁的人口中有5个年龄少于对应的1990年的8—14岁的人口。据此，本文以1990年8—14岁的人口为基础，按照1982—1990年的平均死亡率，反推估计1982年0—6岁人口，并把它作为1982年的实际人口，将其和1982年0—6岁的调查人口之差作为人口漏报数，则1982年该年龄组漏报人口为527万人。

在理论上，年龄上限可以无限大，这样两次普查在年龄上可以一一对应。但在实际的统计中，总是会设定一个年龄上限。公布的1982年普查和1990年普查的年龄上限是100岁，该年龄是半开区间，即包括了100及以上的人口，所以能和1990年一一对应的是1982年的91岁以下的年龄。以下的数据都是指1982年0—91岁年龄的数据。

由公式（43）可知，Δ（2）x（0）=ax（0）-a（x，0）（1+ hx），可估计算出各个年龄百分比的报告误差。

在7—91岁的年龄中，年龄误报人口有683万人，年龄误报率为6.74‰。由于年龄误报，一些年龄的报告人口比估计的实际人口多，它们主要出现在中青年期，即青年期（24岁和25岁）和中年期，共计340万人，而一些年龄的报告人口少于估计的实际人口，它们主要分布在青年期（21岁和17、18岁），共计342万人。而多报人数比率较高的主要是高龄（80岁以上），而少报人数比率较高的除了21岁，大多在60—79岁年龄段（各年龄段误报人数和误报人数比率详细数据可向作者索取。）。按1982年人口普查事后质量抽样调查结果，年龄误报率为6.15‰［3］。相比于本文的计算结果，两者还是很接近的。

四、小结和讨论

人口年龄结构是人口研究中最重要的基础数据。人口年龄结构数据的准确性，直接影响到各项人口研究的质量。人口结构形形色色，不同地域在不同时点的人口年龄结构都不同。本文提出了人口年龄结构模型——以年龄为自变量、累计的年龄百分比为自变量的函数形式，并以中国历次人口普查的数据和其他一些数据进行了验证，表明模型是成立的。这个结果是很有意义的。因为根据模型，一个人口的累计百分比的两次对数，通过变量替换后，可以表示为线性函数的形式。由于线性函数的可传递性，任何两个人口的累计百分比的两次对数都可以用线性函数来联系。利用这个结果，可以方便地对不同的人口年龄结构进行区分和归类，也可以利用已知的人口年龄结构来推测未知的或信息缺失的另一个人口的年龄结构。

由人口的年龄累计百分比模型可以推导出年龄百分比模型。年龄百分比模型值也可称为人口年龄变化的估计值，而百分比模型值与观测值差的分布可以作为人口报告是否有特定年龄尾数堆积的判定方法。

本文分析表明，许多人口的年龄分布不是单调均匀变化的，所以，要用一个简单函数来准确地表示出各种人口的年龄百分比几乎是不可能的。特别是如我国的人口在不同年龄的比重起伏很大时，模型值和观测值出现较大的残差是必然的。但可以把年龄百分比模型值作为实际人口的年龄百分比的估计值。本文提出了这样的概念：每个年龄的人口通常可分成估计部分和偏离部分。这两部分的特点是，在人口封闭的条件下，随着时间的推移，各年龄的人口占总人口的比重发生改变，该年龄的估计部分的比重也随之变动，但它的偏离部分与估计部分的比（本文名之为偏离度）是几乎不变的。由此，就可以用两次普查对应年龄人口比的预估值来估计两次普查对应年龄人口的存活率，并估计出人口普查的年龄报告误差。即把实际的年龄人口分成估计部分和偏离部分概念的引入，是估计人口普查报告误差的关键。

但年龄人口的偏离度并不是调查数据直接给出的，它是由现今的人口年龄结构数据或者历史的出生人口数据得到的。它的准确性取决于原始数据的准确性。从表面上看，偏离系数和数据精度的估计相互依赖，成了解不开的结。这里需要注意的是，虽然年龄偏离系数是由调查数据估计出来的，但可利用的调查数据往往不是只有一个。我们可以利用数据质量较高的调查，或者比较分析不同的调查结果，从而估计出较为可靠的年龄偏离系数。

本文1982年普查在高龄部分（80岁以上）的报告误差较大，估计出的年龄偏离系数误差也会比较大。但由于高龄人口数较少，对总的误报数影响较小。这里就不加讨论了。

参考文献：

［1］黄荣清.中国人口普查中人口年龄报告准确性的检验［J］.人口研究，2009（6）：30-41.

［2］黄荣清，肖周燕.人口年龄结构数据异常的检验［J］.人口与经济，2009（5）：1-8，15.

［3］马安. 对中国1982年人口普查资料质量的评估［C］//李成瑞.中国1982年人口普查北京国际讨论会论文集，1984.

Population Age Structure Model and Its Application

HUANG Rongqing

Abstract： In this paper， a model of population age structure is proposed， which is a function taking age as the independent variable and the cumulative age percentage as the dependent variable. The model is verified by the data of Chinese population censuses and other data. This model can be expressed as a linear function after two logarithmic transformations. On the basis of this model， this paper further constructs the expressions of mathematical functions such as the percentage of population and the ratio of the percentage of age population corresponding to the last two censuses. After the test of census data， the model can fit the cumulative age-population percentage curve well， but when the age of the population fluctuates greatly， the residual error of the percentage model will become larger. It can be concluded that it is impossible to accurately represent the general age population percentage with a simple mathematical function， and it is impossible to fully and accurately judge the accuracy of the census data from a single census without other data support. In order to solve the reporting error of the census data， the census data is divided into three parts： the estimated value， the deviation value and false value. The estimated value here is the model value of the age percentage. This study shows that the age deviation coefficient （the ratio of the deviation value to the estimated value） is a constant under closed population conditions. Using this property， we can use the percentage model values of the two censuses to calculate the age survival rate of the actual population， and estimate the census false values by estimating the age deviation coefficient. Finally， the model is used to estimate the age misstatement of the 1982 population census in China. In 1982， it was estimated that 6.83 million people aged 7-91 years were misstated， and the age misstatement rate was 6.74‰. Due to age misstatement， the reported population of some ages is larger than the estimated actual population， and they occur mainly in adolescence （young adulthood （24 and 25 years old） and middle age）， totaling 3.4 million， while the reported population of some ages is smaller than the estimated actual population， and they are mainly distributed in young adulthood （17，18 and 21 years old）， totaling 3.42 million.

Keywords：age structure model; population census; census data revision

［責任编辑武玉］

收稿日期：2023-01-04；修订日期：2023-06-18

作者简介：黄荣清，首都经济贸易大学人口经济研究所教授，博士生导师。