欧洲统计数据科学模型与统计专业教育*

2022-02-15 02:44杨贵军向琳彭影
统计科学与实践 2022年12期
关键词:统计数据科学方法

□杨贵军 向琳 彭影

随着互联网、云存储、5G 和人工智能等信息技术的蓬勃发展,数据生成呈爆发式增长,数据应用已经渗透进社会日常工作和生活的各领域,发挥着越来越大的作用,社会对大数据重视程度达到前所未有的高度。积极推动大数据与政府治理现代化的深度融合成为官方统计工作的重要内容。Ashofteh 和Bravo 提出欧洲官方统计数据科学模型,是大数据与现代统计深度融合的模型,探究数据科学在生成官方统计产品中的影响,以说明数智时代产生的新兴技术如何更好地应用于社会生产和实践中的统计业务流程[1]。本文对欧洲官方统计数据科学模型进行解读,阐述在官方统计数据服务和统计数据产品中新数据源和新技术的应用,以及对统计专业人才的技能及知识的新需求,探讨适应数智时代的统计专业人才培养。

|欧洲官方统计数据科学模型解读

Ashofteh 和Bravo 提出的欧洲官方统计数据科学模型是基于欧洲官方统计业务流程,从指定需求阶段、设计阶段、构建阶段、收集阶段、过程阶段、分析阶段、传播阶段和评估阶段展开的。欧洲统计数据科学模型包括六个部分,分别是官方统计方法论、统计工程、数据分析、数据科学、可信智能统计和推广应用,六个部分紧密联系,并不完全独立,如图1 所示。图1 借鉴了Afshin 和Jorge 的结构,并进行了修订。其中虚线框表示每个部分的覆盖范围。

图1 欧洲官方统计数据科学模型

(一)欧洲官方统计数据科学模型组成

欧洲官方统计数据科学模型由两大部分构成,分别是可信智能统计和推广应用。其中,可信智能统计包含官方统计方法论和数据科学,数据科学包含统计工程和数据分析。下文分别介绍这六个组成部分。

1.可信智能统计。可信智能统计是指国家统计局与私人部门在共享计算设施、代码、日志和最终统计数据等领域合作的安全体系结构,且无需共享原始输入数据。可信智能统计是官方统计在数智时代的自然演变。它并不是要替代现有的数据源和统计流程,而是要进行扩充,建立一个与原系统兼容的新系统[2]。

可信智能统计由国家统计系统进行确认,在该部分有两个途径,一是通过统计工程进行自动化得到智能系统,二是通过统计工程进行工业化得到智能系统。可信智能统计需要使用其他的技术和方法来对其进行呈现,如自然语言处理、专家系统、可对话人工智能、机器人学和工业4.0。

(1)官方统计方法论。官方统计方法论即为与统计相关的科学和与官方统计相关的标准构建而成的方法论。官方统计方法论部分从业务流程角度看为模型的起点,在指定需求阶段,根据社会和政府的需求以及国际标准,检查输出目标、范围和概念是否正确,商业价值是否合理,当前数据是否具有可用性,如果上述要求均得到确认,则准备产生新的官方统计产品。随后进入设计阶段,在该阶段统计人员运用统计专业知识进行变量描述、搭建框架和选择样本。之后进入构建阶段,该阶段以方法论为基础来构建统计方案及模型,包括统计学、经济学和数据科学等,在必要时可发展新的理论和方法。

(2)数据科学。数据科学是一门跨学科的科学,其核心是从数据中提取信息以对问题作出决策,包含收集、管理、分析、展示大数据的理论和技术。数据科学涵盖了处理数据的新方法,包括应用传统统计技术和新的数据挖掘方法对数据进行描述、说明和评估。为了实现数据科学的应用价值,需要开发和维护软件来编制官方统计数据,当前用于欧洲官方统计的热门软件有SAS、R、Python 等,开源编程语言将逐渐在官方统计中普及。

在数据科学部分,应用将进行面向对象的程序设计。之后进行原型试验,依据官方统计框架,统计人员利用编程软件构建基于应用程序的智能调查。智能调查还可通过程序控制面向对象的程序设计。其中,面向对象的程序设计和智能调查被称为软件工程。对于软件工程部分,除了要使用和维护统计软件外,还要注意代码可复制性和可重用性以及数据的输入、存储、交换和共享。构建智能调查后,进入传播阶段,统计素养和数据可视化是影响官方统计产品传播的最重要因素。利用最新技术实现数据可视化是数据传播的必要途径,将大量复杂的数据压缩,通过图形或动态的方式展示有助于更好地接受和理解官方统计产品。除此之外,统计素养是在作出决策时提供统计考量的能力,在统计人员编制统计数据以及公民理解统计产品方面都不可或缺。

①统计工程。统计工程是为了研究如何充分运用统计理论、统计方法和统计工具,以及如何将它们与其他相关学科集成以实现更好的结果[3]。统计工程将统计学与工程学相结合进行数据分析。统计工程基于联系上下文和分析问题结构的多步骤策略,使用统计的方法、技术和工具,为复杂问题找到新的解决方案。统计工程融入了工程学的思想,更注重解决问题的策略和能力,并要求解决问题的较好思维逻辑。同时要求统计人员不仅掌握统计专业知识,还要对其他一些相关领域的知识有所了解,以便官方统计产品能够更好地服务于社会各领域。

在统计工程部分,应在各步骤中应用统计思维。首先进入收集阶段,包括对数据的复杂测量和规模开发,收集不同来源的有效数据。之后进入过程阶段,通过数据仓库或湖仓一体进行匿名原始数据传输,根据官方统计标准进行检验,最终在该阶段得到优良数据,以用来提取可持续算法。这个过程阶段也称数据工程,数据工程被认为是统计工程的一个子集,用来管理微观数据和纳米数据。在数据工程部分,对收集到的数据进行提取和融合,生成可用于后续步骤的数据集,例如进行预处理、数据清洗、数据去重等工作,在此阶段需要统计人员有良好的数据基础,能够处理不同类型的数据。最后统计人员通过方法集成和得到的数据进行数据分析。

②数据分析。在数据分析部分,即进入到分析阶段,利用上个阶段得到的优良数据,分析其数据结构以提取可持续算法,使用机器学习、自然语言处理、时空模型等方法和分析工具以构造合理的应用算法。其中机器学习算法和分析工具不仅用于生成应用,还用于分析数据结构,以改进数据结构和应用新的缺失值插补方法。在未来的官方统计中,机器学习等方法的使用将会大幅增加以适应大数据的处理需要,特别是在对不同种类的数据进行分析时,机器学习等方法可实现对文本的情感分析和图像的理解,适合对复杂的数据进行深层分析。

2.推广应用。推广应用是整个模型的第二大部分,也是产生官方统计产品的最后步骤。统计产品进入评估阶段,用官方统计中的质量管理标准进行检测。同时还要考虑官方统计中的伦理和道德问题,例如关于数据的公平、隐私、安全和包容性。如果通过检测,则该产品准备为社会进行服务,形成最终的官方统计产品。官方统计产品用来解决问题和创造价值。如果国内和国际终端用户有了新的需求,则再次检查其输出目标、范围、商业价值、概念和数据可用性,进入模型的循环,生成新的官方统计产品。

(二)欧洲官方统计数据科学基础

Ashofteh 和Bravo 给出数据科学模型,也归纳了影响模型中各阶段的科学因素及指标,本文对原文中的因素及指标进行分析。

在专业知识方面,包括欧洲官方统计硕士课程、统计学、信息技术、人工智能、数据科学、经济学、数学、欧洲统计培训课程和社会科学。当前官方统计培训的三大学科为统计学、经济学和数据科学。统计学是官方统计人员必须掌握的知识,是一切官方统计业务的基础。而官方统计业务有很大一部分与经济领域息息相关,经济学也成为统计人员必备的素养,数据科学则是统计人员为适应数智时代统计需求而不可或缺的知识和技术。统计人员对这些知识的掌握是建立官方统计数据科学模型的基础。

在数据工程方面,体现了统计业务中如何收集数据。涉及到的数据源有数据湖、大数据(如公民数据)、流动数据(如旅行数据)、高频数据(如扫描数据)、空间数据(如网格数据)、开源数据(如卫星数据)、电信数据(如人口统计)、视觉数据(如卫星图像)、微观数据和纳米数据、数据重用与共享。特别是数据重用与共享,能够让很多有相同需求的人获取有价值的数据,同时避免了收集数据的复杂繁琐工作,使现有的数据资源得到充分的利用。

在统计工程方面,需要的知识有领域知识与学科理论、解决问题的策略、数据谱系、顺序方法、问题上下文或请求上下文的分析。其中,数据谱系也称数据血缘,指数据在产生、处理、流转和消亡中形成的关系。根据数据谱系,可以对来源不同的数据进行溯源,数据发生异常时可用来分析其原因;还可以通过数据谱系从数据的受众、更新量级和更新频率来评价该数据的价值。

在数据分析方面,涉及到机器学习、深度学习、自然语言处理和时空模型等方法。在统计中对文本的转换需要应用自然语言处理技术,在统计方面常用的是基于传统机器学习的自然语言处理,利用支持向量机等方法对自然语言进行处理以提高精度。基于深度学习的自然语言处理后来逐渐登上舞台,深度学习为机器学习的一个分支,应用神经网络等模型完成语言的分类和理解。

在官方统计的软件和工具方面,选用的有R软件、Python 软件、SAS 软件、共享统计服务、统计数据和元数据交换、代码可复制性和可重用性、遥感和卫星图像软件、时间序列工具、统计披露工具。R、Python 和SAS 软件已成为数智时代统计过程中使用最多的软件,共享统计服务、统计数据和元数据交换、代码可复制性和可重用性、遥感和卫星图像软件可以使统计数据的获取和统计过程的重复更为便利和快捷。时间序列工具对于分析时间序列数据十分重要,而统计披露工具可用于官方统计数据发布与推广。

在官方统计的传播方面,利用最新技术的数据可视化和复杂可视化的虚拟现实技术尤为重要。数据可视化是将统计数据呈现给用户的最常用手段,能够将大量繁杂的数据及结果简化并变得通俗易懂。为了迎合技术的变化,可视化的手段也在不断更新,复杂可视化甚至可与虚拟现实技术相融合,给用户带来沉浸性和交互性的体验。

在官方统计的素养方面,需要具备数据读写能力、统计素养、计算机素养、公民科学和统计思维。计算机素养是数智时代统计人员必须具备的,新的数据来源及新的技术方法促使统计从业者要不停更新自己的计算机能力,利用最新的手段更好地进行统计工作。

在官方统计中的道德规范方面,包含隐私和保密、种族平等、公平性和公平数据、安全性、包容性、透明度和问责制。提高统计透明度是官方统计很重要的一项工作,透露数据的来源、覆盖面和流程等不为大众所知的方面,能够减少很多混淆和不必要的质疑。

在可信智能官方统计方面,需要应用物联网、可信智能调查、手机应用与操作系统、官方统计的新数据方法、官方统计的新数据质量、官方统计的网页抓取应用和机器学习等技术和方法来实现。随着数智时代需要分析的数据种类不断增加,如文本情感分析、图像理解和网络数据分析等,使得机器学习技术成为对大数据处理分析的重要动力。

|未来的统计专业教育

大数据技术极大改变了数据的收集、处理和分析的方法和过程,对统计专业教育提出了挑战。《国务院关于印发促进大数据发展行动纲要的通知》 提到要创新人才培养模式,建立健全多层次、多类型的大数据人才培养体系。明确人才培养的新要求,即培养具有社会经济学背景知识、掌握数据科学和计算机科学的方法、能够熟练地运用计算机处理和分析数据的复合型人才。基于欧洲官方统计数据科学模型的解读以及数据科学基础知识结构,未来统计专业教育应加强如下三方面能力。

(一)加强计算机操作学习,提升数据分析方法应用能力

现有统计专业教育的计算机操作要求在大数据技术应用方面存在局限性。常用的统计软件在数据分析方面有所欠缺,需要借助其他工具对大数据进行数据挖掘,计算机操作的重要性更加突出。在处理一些问题时,除了统计方法之外,还可应用算法,如在回归分析中可引入回归树、Boosting 回归、Bagging回归、随机森林回归、LASSO 回归等处理大数据。在数据分析软件方面,除了Excel、SPSS 和SAS 等,开源编程语言成为应用领域的热点。R 语言软件功能强大,在国内外统计工作上被广泛使用。Python语言是当前最受欢迎的程序设计语言之一,简单易读易维护。Hadoop可用于处理多元异构的数据。SQL语言是数据库建立、数据存储和数据查询的最广泛应用的数据库语言。数据可视化是官方统计传播的最重要手段,通过计算机算法处理海量数据进行图像化、动态化后展示给用户,将大量复杂数据的信息简单化,数据变得通俗直观。上述数据分析方法的应用都需要借助计算机软件的帮助,计算机操作成为数智时代的统计专业教育必须强化的技能之一。

(二)夯实统计理论知识基础,提升数据认知和数据思维

统计专业教育需要覆盖统计学、信息技术、数据科学、经济学、数学和社会科学等。顺应官方统计的未来发展趋势,数据科学的基础性作用显著提高。统计理论和统计知识在官方统计应用中仍然发挥主导作用。统计领域专业素养是统计专业教育的核心竞争力,需要坚实的统计理论知识基础。统计领域人才对数据、数据内容和相关背景有深入了解,才能选择最合理的知识和方法,挖掘和分析大数据、流动数据、空间数据、开源数据、电信数据、视觉数据、微观数据和纳米数据等。同时,还要跟踪统计前沿发展趋势,关注统计与其他学科或领域融合形成的新理论和新技术。数据分析方法的合理应用依赖于数据认知,数据思维成为数智时代统计专业教育必须提升的重要能力。

(三)重视和丰富领域知识,提升统计素养和实践能力

鉴于统计应用的复杂性,传统的统计专业培训主要是课堂讲授,案例分析与实践操作主要是针对课堂中统计理论的演示。在现实应用中,统计人才需要分析实际问题,需要经过实践活动的锻炼,具备解决实际问题的能力。各领域知识是解决实际问题的策略基础。在实际问题中,领域知识与解决问题的能力和技巧同样重要。实际应用中,数据分析能力和数据应用技巧都离不开对问题的深入理解和领域知识的掌握,更多的数据分析技巧的产生也是领域知识和理论发展的结果。政府部门和企业等单位的统计工作是领域知识的实践场景,是数据分析的新技能和数据科学方法的重点应用平台。例如联合国全球大数据平台 (UNBigData) 的联合国官方统计大数据全球工作组 (GWG)活动。统计素养是基于领域知识,运用统计方法,进行数据收集、处理和分析,做出决策并解决实际问题的观点和逻辑。统计实践能力是在处理统计工作的过程中,提出问题、选择统计方法、解决问题,并克服其中困难的能力。

综上所述,本文介绍的欧洲官方统计数据科学模型和欧洲官方统计数据科学基础提供了统计专业教育未来发展的方向。随着数据科学在社会生活各方面的不断融合和深入,未来统计专业教育要加强传授统计学知识和其他学科领域知识的力度;夯实数学、英语、计算机基础,以及提升处理和分析数据的方法的应用能力;培养应用数据科学知识的数据思维和解决现实问题的实践能力。

猜你喜欢
统计数据科学方法
创新视角下统计数据的提取与使用
点击科学
科学大爆炸
国际统计数据
2017年居民消费统计数据资料
用对方法才能瘦
四大方法 教你不再“坐以待病”!
赚钱方法
捕鱼
科学拔牙