从事件调查看航空安全系统思维

2020-12-02 15:18中国民航科学技术研究院霍志勤
民航管理 2020年7期
关键词:航空安全要素思维

□ 中国民航科学技术研究院 霍志勤/文

国际民航组织《 安全管理手册》(Doc9859)第四版中,民航安全思维演变模型提出自21世纪开始的“全系统时代”概念,这是继20世纪50年代从关注“技术改进”到20世纪70年代注重“人的因素”,再到20世纪90年代聚焦“组织机构”后的又一思维转变。

该手册只是笼统提出“把整个航空业视为一个系统”“关注系统之间的接口”, 到底什么是“全系统”,并无更详细阐述。“全系统”的内涵是什么?外延又在哪里?如何建立航空安全的系统性思维呢?例如,一旦发生航空事件,调查员通过现场勘察、证人访谈、记录器译码等手段判断机组是否存在不安全行为,分析机组的技术技能和非技术技能,从生理、心理层面来剖析人员状态。调查是否需要延伸到以下方面呢?例如:挖掘飞行员的筛选、培训、考核等经历,评估事发时驾驶舱微环境适宜度以及外部环境的友好性等,验证硬件是否符合工效学原理,测试关键环节的避错、容错、纠错设计,甄别规章标准手册检查单的完备性,查找机组成员沟通协作的漏洞,评估企业或部门制定的任务和目标是否适当,审核组织和管理方面有无缺陷,评价企业的安全文化。以上,能否体现航空安全系统思维呢?制定安全建议时,应该如何面向危险源从系统角度全方位加以改进呢?本文尝试从民航社会技术系统的复杂特征入手,阐述系统思维的必要性和方法论,并从事件调查实践的角度提出操作建议。

系统

系统是指为了达成既定目标(人类系统)或实现预期功能(非人类系统)的一组相互作用的要素集合。系统离不开要素、连接和目标/功能三个方面的支撑。

任何系统都包括若干要素或子系统。例如一家航空公司由若干独立部门(飞行管理部、运行标准部、机务工程部、运行控制部、客舱安全部等)组成,又如一个民用航空系统狭义上由行业政府、航空公司、空管单位、机场等组成,广义上还包括航空器(零部件)的设计制造商、国际民航组织以及各种行业协会等。理解系统需要建立整体观,在整体中认识要素。

系统连接是指内部要素相互联系和相互作用的方式或秩序,也称之为结构。要素之间的无序聚集或相互独立,都不构成真正意义上的系统。理想的民航安全管理系统中,各要素间应互相促进而不是掣肘内耗,从而达到最优的效果。这也正是SHELL模型中5个模块间锯齿边缘不完美耦合的用意所在。

整体是为了实现特定的目标/功能,要素的相互连接也是为了目标/功能,1+1+……>n。整体的目标/功能往往也是单独要素无法实现的。要实现最佳的整体效应,必须注意内部结构的优化。前苏联设计制造的米格-25战斗机,许多零部件都比较落后,但是由于设计者充分考虑到整体性能,所以飞机的总体性能指标在当时均属一流,曾打破和创造过8项飞行速度、9项飞行高度和6项爬高时间的世界纪录,这就是所谓的“米格-25效应”。例如民航系统的目标就是安全、效益和效率的均衡,离开这一目标谈要素以及要素的连接都没有意义。此外,某一要素最优未必对整体目标/功能有利,例如把航空发动机装在停机坪的引导车上,并不能实现额外的收益,还可能损害其他部件。所以,一切要素以及要素的连接关系都要服从系统目标/功能。

以上三个方面缺一不可,否则就不是系统。例如:一台巡场车在夜里开着大灯逆向巡查跑道,这期间存在一个临时系统。要素:管制员、巡场工人、巡场车、跑道、进近的航空器、离场航空器等;连接:跑道被占用期间暂时不提供起降服务,通过通信和监视手段共享情景意识,利益相关方需要相互遵守协议密切协作;目标:避免航空器与车辆相撞,减少跑道资源被车辆占用时间。再如,机坪上静态停放的10架航空器(即便是一个公司的机队)并不能构成一个系统,它们之间没有连接关系,也无所谓目标/功能。如果10架航空器同时在一个终端区中运行呢?它们为了实现安全与高效的运行目标,就与其他要素(如空中交通管理子系统、通信子系统、导航子系统、监视子系统等)构成了一个系统,要素之间离不开信息流交互以及遵守规则统一指挥的协同关系。

一般而言系统分为三类:一是技术系统,例如一架航空器、一个航站楼;二是有机系统,例如一棵树、一个人;三是社会系统,例如一家航空公司、一个空管分局。民用航空安全管理的效能不仅取决于系统的技术水平,还取决于技术与人的协同,人与人、人与环境、人与管理的协同,以及不同子系统之间的协同。Reason教授从组织事故发生路径的角度分析安全,认为现代复杂社会技术系统具有以下四种特征:系统越来越自动化;系统越来越复杂和危险;系统越来越不透明;系统越来越多的防御设施和技术。民用航空正是符合以上特征的典型复杂社会技术系统。

系统思维

(一)还原论与系统论

还原论和系统论都是人类认知世界的重要方法论。与系统论相对应的是工业时代盛行的还原论。还原论中,整体都可以拆解成不同功能的若干部分,整体等于要素之和。实现局部最优时,常常忽略其他部分。世界民航安全演变的模型中,无论是“技术时代”还是“人的因素时代”,其指导思想总体上都是还原论:识别出硬件和人是重要的薄弱环节,集中力量进行改进。应该承认,还原论曾经卓有成效,但其对复杂社会技术系统的安全贡献率越来越微弱,后劲乏力。而系统论注重全局,打破要素间的壁垒,加强要素间的联系,讲究协同效应。如果把还原论比喻为物理反应,系统论就是化学反应。还原论是显微镜,系统论是望远镜。

(二)系统思维

系统思维是把认知对象作为系统,充分考虑系统与要素、要素与要素、系统与环境的相互联系及作用,整体地、动态地、连续地去发现问题、分析问题和解决问题的哲学思想和辩证唯物主义方法论。航空安全管理中,局部优化的努力已经逼近其效能极限,迫切需要在全系统基础上识别危险源、控制风险并加以改进。

系统思维的方法

(一)关注整体的目标/ 功能

为了提升系统目标/功能,应把解决问题的方向对准全局和整体,多管齐下(例如3E原则),把整体放在第一位,不让任何要素凌驾于整体之上,在此过程中甚至需要以削弱抑制要素(局部)的功能为代价。当设置不当的系统目标/功能,可能伤害真正意义上的安全绩效,适得其反。

1988年6月,在美国黄石公园的南部边界,闪电引发了一场森林火灾,烧掉了1500万公顷森林,造成了史无前例的损失。这个结果让很多人无法接受、无法理解。从1890年起,美国森林管理局就对森林火灾采取了“零容忍”的政策。黄石公园管理局有业务精良的消防队,还会派飞机从空中监控火情。火灾一发生,消防队员马上就去灭火。由于他们的努力,火灾的发生率已经大大减少。1998年,康奈尔大学的三位学者经过研究发现,正是因为黄石公园管理局采取“零容忍”政策,才导致了1988年6月无法及时扑灭的森林火灾。为什么呢?长期“零容忍”的政策,使黄石公园树木数量的增长速度加快,也导致森林老化速度也加快,枯萎的树木在森林中横七竖八地躺着,随处的灌木、树枝和落叶都是易燃物质。这使得黄石公园的森林处于一种极其不稳定的状态:一旦爆发火灾,很快就会蔓延到整个区域。注意:这里的树木(要素)、树木密密麻麻相邻及易燃物质覆盖地面(连接)、引发大火(目标/功能),实际上自然形成了一个与人类安全目标背离的危险系统。为了避免出现毁灭性的灾难,或许需要容忍小的风险。森林里偶尔的小火灾,给森林留下了一个隔离带,有效防止森林大火的蔓延,即破坏危险系统的内部连接关系,有利于人类安全目标。风险是民航运行系统中的一部分,正如起火是森林生态系统中的一部分。此后,公园的防火政策是禁止一切人为造成的火灾,但如果发生自然火灾,只要火势没有失控,没有威胁到人类和建筑,就会听任这些火苗自生自灭。甚至,公园的工作人员故意把一部分存在火灾隐患的死亡树木烧掉,人为地烧出来一些隔离带。

航空安全管理者得到的启发是:为了避免重大事故,需要确立合适的安全目标,常常需要容忍小的风险,保持适度的危机。我国民航曾经将发动机空中停车一律界定为事故征候,往往由机组承担责任。于是乎,某公司机组在发动机故障情况下为了规避责任故意不关车,导致一台发动机报废的严重后果。由于我国民航长期以来施行“四不放过”政策,导致一些单位发生安全事件后,出现瞒报隐报现象,更为甚者在事件后蓄意抹去舱音,导致宝贵的安全信息被人为抹去。

一些民航安全管理者提出,对危险源、安全事件零容忍,一票否决。笔者认为,安全管理中不当的目标和政策是伤害安全绩效的。危险源与航空活动相互伴生,不可能都消灭。为了应付上级“危险源和安全事件零容忍”的要求,一线工作重心可能不是危险源识别和风险管控,而是被迫瞒报、隐报,制造安全形势平稳的假象。如此一来,没有危险源,没有安全信息,却是最坏的安全形势。

(二)区分要素和要素连接对于事件的影响

为了实现整体的目标/功能,有时需要全方位改进要素,有时需要改善要素的连接关系,有时还需要两者得兼。但不可混淆这两者的区别。在民航安全管理中,有一个耳熟能详的“多米诺骨牌效应”。从小到大的多块多米诺骨牌排在一起,最小的一块骨牌意外倒了(例如一个管制员出现失误或违章),其他骨牌就会连锁反应,最终把最大的一块骨牌也推倒(两架航空器空中相撞)。传统的调查思想往往认为,事件原因在于倒下的第一块骨牌(管制员的不安全行为——要素)。其实不然,根原因在于这些骨牌的排列方式(管制员不可逃避的区位以及承担系统其他模块的耦合应力——要素的连接)。众多骨牌构成一个极其危险的系统(不考虑游戏场景),内部要素的连接方式不利于风险防范。就算最小的骨牌不倒,中间任何一块骨牌倒下,都会导致前面或后面的骨牌悉数倒下。因此,笔者认为,应该改进的是系统要素的连接关系,而不是指责要素。

复杂的技术系统中,存在着一个要素之间的“紧致耦合(Tight Coupling)”现象,一环套一环丝丝入扣,缺少缓冲地带,没有冗余度。民航事故的损失往往遵从两极化分布,如果系统是紧致耦合,没有应急方案或通道,容易发生灾难性事故。

航空安全系统思维的实践

(一)因与果的大时空跨度

因与果的大时空跨度是指:两者在时间上间隔很长,事件的原因远离事发现场,因果关系并非立竿见影,肉眼甚至人脑不易察觉。如果缺乏系统思维,只会将事发现场的受害者当作肇事者,其实他们不过是无辜的“触发器”“背锅侠”。1994年6月6日,一架执行从西安至广州航班任务的飞机,起飞后飞机发生飘摆,失去控制,约10分钟后空中解体坠毁。调查发现,该机在维修过程中,机务维修人员出现失误,将倾斜阻尼插头(Ⅲ7)和航向阻尼插头(Ⅲ8)插反,导致飞机带故障起飞。机组在空中未按照手册关断“航向”和“倾斜”阻尼器。一些专家认为,机组特情处置能力弱,只要关断舵机,就可以改出飘摆。也有一些专家认为,机务维修人员插反了两个插头,是事故的原因。机务维修人员固然存在失误,但是经过调查发现这种失误不是一个小概率事件,盯住这个环节改进安全的空间并不大。真正的根原因是大时空跨度之外的航空器的设计制造商:倾斜阻尼插头和航向阻尼插头彼此相邻,几何尺寸相同,插头的线数相同,惟一的区别是颜色。这种设计是陷阱,而且内检和自检程序也无法检测出插错的故障,相应的维护程序和快速检查单也不完善。

(二)中间结果不是原因

理论流行病学(theoretical epidemiology)使用数学公式明确且定量地表达病因、宿主和环境之间构成的疾病流行规律,同时从理论上探讨不同防制措施的效应。它启发航空事故所谓的“因”,很可能是“宿主”,而不是真正的“因”。某些“因”是事故前的症状或事故的结果之一。不妨以化学反应做类比。一般而言,由于化学反应太快,我们不容易肉眼捕捉到从反应之前的物质到反应后物质的渐变过程,但这个过程是客观存在的。通过科技手段,在慢放这个过程的时候,可以抓拍一些中间状态,是否把中间状态当做化学反应的“因”呢?航空事故的发生当然不会像化学反应那么快,从正常状态到事故结果之间有大量的中间状态,我们常常把中间状态认为是事故的“因”,其实是“果”。这样的“因”不是源头,即便抓住了对于改进系统没有多大意义。

1972 年12 月29 日,美国东方航空公司EA401 航班(L-1011)执行从肯尼迪机场至迈阿密机场航班任务时坠毁,机上176 人中的101 人死亡。事故前机组发现前起落架灯故障(没有显示放下并锁好),将飞行高度设定在2000 英尺后,开始研究该故障,而飞机正悄悄处于下降模式,飞机低于安全高度但驾驶舱没人听到地形警告音响。管制员发现,EA401 已经从2000 英尺高度下降到900英尺,但认为是雷达的错误显示。当机组发现飞机正处于极低的飞行高度,为时过晚。美国国家运输安全委员会(NTSB)调查报告认为事故可能的原因是:飞行的最后4 分钟机组未有效监控飞行仪表,未监测到飞机预期以外的下降,机组全神贯注在研究起落架位置指示系统,干扰了对仪表的注意。试问:这样的事故原因有什么作用?难道指望在未来的运行中,某个驾驶舱出现一模一样的起落架指示故障,机组脑海中飞快回忆起这起事故的原因,然后开始警觉监控飞行仪表吗?这种“原因”充其量只是事故发生前驾驶舱里一个中间状态。一旦“原因”中涉及诸如“未察觉”“没有执行”“违反了”“偏离了”“丧失情景意识”等等标签,真正需要关注的是它们背后的“为什么”,以及“为什么”背后的“为什么”。

(三)因与果的非线性关系

顾名思义,非线性关系是指不存在固定或稳定的比例关系。在航空安全管理的各种逻辑关系中,最难建立的是因果关系。航空安全系统思维之下的复杂因果关系往往不是线性关系,难以找到确切的映射连接。

从混沌理论讲,一只在巴西翩翩起舞的蝴蝶有可能两周后在美国得克萨斯州引起龙卷风。这既体现了因与果的大时空跨度,还表现了非线性关系。民航安全管理,常常需要对小微事情保持足够的警惕,并及时采取行动。

没有系统思维,很难警觉到这样的非线性因果关系。

(四)相关性不等于因果性

在诸多变量的航空安全世界里,有众多让人迷惑的信息或数据。安全信息或数据可以说明统计学上的相关性,但如果要证明因果,就需要寻找连接逻辑链条的中介变量,同时排除其他变量的影响。

在事件调查因素分析时常有混淆因素或混杂因子,需要克服直觉带来的偏见,借助诸如贝叶斯网络、结构方程模型等方法,或设计针对性实验验证方案,寻找中介变量,识别弱相关或伪相关,判断其因果关系。当考虑自变量X对因变量Y的影响时,如果X通过影响变量M 而对Y产生影响,则称M 为中介变量。例如“公鸡打鸣”与“太阳升起”强相关,但并无因果联系,“公鸡打鸣”既不是“太阳升起”的充分条件,也不是必要条件。在“公鸡打鸣”和“太阳升起”之间,迄今没有发现中介变量,所以无法确认它们之间的因果关系。

分析因果关系的难度还在于,调查员并不知道有多少未知自变量影响了结果。2004年11月21日,一架CRJ200在执行包头至上海航班任务过程中,起飞时失速坠毁,调查认为最有可能的原因是机翼结霜污染。本文尊重该结论,但依然认为:并不敢保证穷尽和排除了其他所有导致失速的自变量。

当然,民航事件调查中有许多现象的因果关系比较复杂,一时还难以探究其中还有哪些中介变量,但不清楚不等于不存在。

(五)防范“幸存者偏差”

“幸存者偏差(survivorship bias)”也称之为“沉默的数据”,人们都试图在幸存者(有发言机会的人)身上寻找一些特质来说服每一位幸存者都绝非偶然。之所以产生偏差,是由于想当然地选择样本。人们只能看到经过某种筛选而产生的结果,有意或无意忽略了关键信息,这是一种常见的逻辑谬误。

二战时期空战激烈。盟军不希望自己的飞机被敌人击落,因此需要为飞机披上装甲,但是装甲会增加飞机的重量,这样飞机的机动性会减弱,还会消耗更多的燃油。防御过度并不可取,但是防御不足又会带来问题。为此,需要在这两个极端之间找一个平衡方案,那就是在关键的部位披上装甲。可是,哪些部位是关键的呢?大部分人认为,应该给弹孔密集的部位披上装甲,因为那里遭受攻击的概率高。但是,有深厚统计学背景的专家亚伯拉罕·瓦尔德提出一个截然不同的建议:需要加装装甲的不应该是弹孔密集的部位,而应该是弹孔稀疏甚至没有弹孔的部位,比如飞机的发动机。理由是:1.飞机各部位受到子弹攻击的概率大体是均等的;2.大多数人统计的样本,只涵盖平安返回的飞机;3.返航落地的飞机,弹孔最多的部位最不要紧,在机身被打得千疮百孔的情况下仍能返回基地,这说明机身可以经受住打击,不是关键部位,无须加装装甲;4.那些失踪的弹孔应该在未能返航的飞机上,比如发动机很少发现弹孔的原因并非真的不会中弹,而是一旦中弹,其安全返航的概率就微乎其微。军方采用了亚伯拉罕·瓦尔德的建议,后来证实该决策是正确的,看不见的弹痕最致命!

2020年新冠肺炎肆虐初期,有专家认为儿童不易感染。这个观点的漏洞是:儿童只是因为获得家长的保护比较多,与传染源的接触少,同时可能儿童自身免疫能力弱,感染后也不会有明显的反应。这些例子中,之所以得到了错误的判断,是因为研究者选择非正常研究样本导致的偏见或者只看到了部分事实。

(六)航空安全的多模型思维

借助模型是人类认知复杂世界的一种快捷方式。模型就是对现实世界进行简化、浓缩、抽象,形成可以清晰表述的谚语、公式、规律、框架、图形等。民航安全管理涉及的生产保障要素越来越密集、彼此之间的关系越来越盘根错节,时常需要我们借助一定的思维模型去推理、解释、设计、沟通、行动、预测、探索。民航事件调查中,调查员思维方式的差异,很大程度上与不同调查员使用的模型不一样或者对同一个模型的理解不一样以及掌握模型的多寡有关。

所有的模型只在特定的尺度特定的场景特定的对象上成立。航空安全领域中,常用的模型有:SHELL、Reason、HFACS、MEDA、TEM、Bow-Tie、5M、DECIDE、PDCA、墨菲定律、金字塔定律、冰山理论、故障树、鱼骨图、风险矩阵、世纪偏移理论等。事件调查员不应该相信某一模型完全适用于一起具体事件的分析,更不宜“削足适履”“生搬硬套”,不可产生“锤子效应”(手里拿着锤子,看什么都是钉子),应了解调查中需要的不仅仅是个别模型,而是多模型。

结论:

航空事件调查需要的不仅仅是技术因素、人的因素和组织因素方面的视角,更需要全系统方面的思维,但不能认为系统论一定比还原论更科学,二者是互补关系,相得益彰。

要素、连接和目标/功能是系统的3大支柱。航空安全管理面对的是复杂社会技术系统,需要确立适当的系统边界和要素颗粒度,摒弃线性思维,启用系统性思维模式,区分要素和要素连接对于事件的影响,重点关注整体的目标/功能。

航空安全系统思维需要考虑因与果的大时空跨度和非线性关系、勿将中间结果当原因、区别相关性和因果性,防范“幸存者偏差”、借助多模型思维,使民航事件调查更趋近真相、安全建议更全面更切合实际。

猜你喜欢
航空安全要素思维
思维跳跳糖
思维跳跳糖
思维跳跳糖
思维跳跳糖
考虑误差不确定性的航空安全预测新方法
掌握这6点要素,让肥水更高效
在世界各地,航空安全问题变成了美国领导地位问题
观赏植物的色彩要素在家居设计中的应用
论美术中“七大要素”的辩证关系
加拿大严格立法保障航空安全