司法鉴定意见的概率表述体系
——法庭统计学理论与实践展望

2024-01-19 11:36徐嘉烨

中国司法鉴定 2023年6期

徐嘉烨

（南开大学经济学院数量经济研究所，天津 300071）

司法鉴定意见是证据评价全流程的最终步骤，其以科学严谨的语言描述证据的价值和证明力度。因此，出于科学性、有效性、方便理解且易于标准化的考虑，以及与目前法庭科学中普遍采用的统计分析方法相配合的需求，以似然比（likelihood ratio,LR）为主要形式的概率表述体系，逐渐成为证据价值量化陈述的必要方式，在实践中已经被许多国家和地区认可为司法鉴定意见的标准表述形式[1]。同时，在我国司法鉴定公信力建设方面，司法鉴定的合规管理、标准化建设，以及依靠科技手段健全司法鉴定管理体制，既是我国近年来司法实践中的迫切需求，也是理论界的研究热点专题[2-3]。因此，从鉴定标准和鉴定制度的科学性出发，以LR 为主要形式的概率表述体系，是值得纳入我国司法鉴定技术标准的。

1 法庭统计学中的概率表述

从发展历程来看，法庭科学中的物证鉴定方法离不开多学科的各自发展与交叉应用，其中，证据价值评估、不确定性量化及最终的鉴定意见表述，依赖于法庭统计学①法庭统计学（forensic statistics），也译作法证统计学、刑事技术统计学。的理论支持。自1977 年LINDLEY[4]在Biometrika杂志上发表第一篇关于法庭科学统计方法的论文以来，法庭统计学作为统计学在法庭科学/司法鉴定领域的重要应用分支，一直以刑事案件物证的量化分析、价值评估和结论表述为核心研究对象，为提升鉴定有效性和可靠性持续提供并逐渐完善统计模型和推理方法，支持法庭科学的制度与标准建设[5]。

1.1 贝叶斯因子与LR

与统计学在其他应用领域表述“可能性”的方式不同，法庭科学中的概率以“赔率”②赔率（odds），也译作胜算、几率，由于概率论起源于博彩问题，统计学沿用了“赔率”这一术语。的形式出现，于是，当把贝叶斯定理以“赔率”形式表示以后，便得到了证据价值的关键度量——贝叶斯因子（Bayes factor，BF），在特定条件下也被称作LR。尽管在实践中BF 和LR 常常被混用，从业者也习惯将这两种度量统称为LR，然而在理论上却有区分这两种度量的必要，因为两者在定义、计算方法和性质上都有所不同。首先，因为假设的概率模型中含有未知参数，所以在计算BF（或LR）之前需要先进行参数估计，当采用频度方法估计参数时，得出的度量被称为LR，当采用贝叶斯方法先推断整个后验分布进而再推断参数，之后得出的度量则是BF。其次，OMMEN等[6]严格证明了应用于“同一认定”问题的BF 和LR从理论上并不等价，并且LR 是BF 的极限形式，且这一极限性质在“共同（未知）来源”和“特定来源”这两种情景假设下均成立。以上差异导致了由两者量化得出的证据价值不同，相应的，鉴定意见表述在内容（数值）上也会存在差异，这是本文辨析BF 和LR概念及理论差异的原因。在后文中，出于对业界称呼习惯的尊重，除非确有区分讨论的必要，否则BF 和LR 将统一表述为LR。

1.2 LR 表述的科学性与有效性

针对基于LR 的证据价值度量，GOOD[7]于1991年给出了数学证明，CRUPI 等[8]于2013 年完成了LR 度量的公理化。至此，这一度量和表述形式的科学性便有了理论保障。经过多年实证研究和实践探索，LR 已成为国际上广泛认可的科学有效的证据评价方法和鉴定表述形式。例如：1996 年，美国国家科学研究委员会（National Research Council，NRC）在《法庭DNA 证据评估》报告中，提出使用LR 进行DNA鉴定意见的表述[9]，之后又在2004版和2009版NRC 报告中，提出了在其他证据类别上的LR 法的应用[10-11]；欧洲法庭科学研究所联盟（European Network of Forensic Science Institutes， ENFSI）在《ENFSI 法庭科学评价报告指南（2015 版）》中也规定了LR 方法的实施细则[1]；英国法庭科学管理局（UK Forensic Science Regulator）在其2017 年版的技术准则中推荐使用LR 表述法[12]。

2 概率表述体系的主要内容

本节将详细介绍司法鉴定意见概率表述体系的主要组成部分，以单项证据的鉴定意见为例，逐一介绍以“赔率”表示的贝叶斯定理、LR、LR 数值型结论与描述型结论的对应关系，以及基于相似度分数的LR。

2.1 单项证据的统计假设与LR

首先将待评价的证据记作E，E=（Ex，Ey），其中Ex表示从犯罪现场采集的证据，Ey表示采集自嫌疑人的证据。在这里，E可以代表多种类别的证据，比如DNA 图谱，玻璃碎片中的化学成分，潜在指纹、足迹、笔迹等以形态特征为主的证据。接下来，是在假设（或称“主张”）的语境下进行证据评价。需要说明的是，此处仅讨论出于“同一认定”目的的假设，即“来源级别的主张”而非“犯罪级别的主张”所对应的统计假设。先将控方主张和辩方主张分别记作假设Hp和假设Hd（Hp和Hd满足互斥性和完备性），即Hp：Ex、Ey具有相同来源；Hd：Ex、Ey具有不同来源。之后将贝叶斯定理写成“赔率”形式并化简，可得：

其中，I表示可控的附加背景信息，例如物证采集所用的工具和材料。

2.2 数值型结论与描述型结论之间的对应

计算出LR 数值之后，在给出司法鉴定意见时，通常还需要同时给出该数值型结论所对应的描述型结论，又称作证据的“支持程度”，此处的支持程度是指相比于Hd，证据对Hp的（相对）支持程度。构建数值型结论和描述型结论（即“支持程度”）的意义在于，方便那些对概率统计知识了解不充分的公众理解LR 的含义，即数值对主张（假设）的相对支持力度。为方便读者对描述型结论量表形成直观印象，本文引用了《ENFSI 法庭科学评价报告指南（2015 版）》中的一个示例[1]：表1 给出了可能存在的不同LR 数值区间所对应的7 种支持程度。必须说明的是，这种对应关系需要在大量的实证研究并充分结合专家意见之后才能确定下来，事实上，描述型结论量表的制定并不像数值型LR 结论那样在业界和学界形成共识和标准，对于区间划分、程度等级数量、描述用语等问题的研究和讨论仍在继续[14-15]。

表1 ENFSI 准则中的示例：LR 数值区间与（相对）支持程度的对应关系

2.3 基于相似度分数的LR

当LR 遇到概率模型中参数的高维推断问题时，通常采用“基于相似度分数的似然比”（scorebased likelihood ratios, SLRs）来趋近LR、近似量化证据价值，SLR 的定义式为：

其中，△（Ex，Ey）表示不同来源证据异同程度的相似度分数。这种以SLR 为表述形式的近似LR法，避免了对于模型的概率分布假设，转而将重点放在了量化相似度上，其来源于机器学习中应对大数据问题的思路，也是高维推断方法在解决证据价值近似量化问题上的成功应用。在目前的法庭科学研究和实践中，SLRs 方法及其相应的SLR 表述形式主要应用于以形态特征为主的证据评价。例如，JOHNSON 等[16]于2021 年发布的笔迹鉴定算法“基于随机森林相似度分数的LR 法”（RF-SLRs），其鉴定意见就表述为SLR 的形式。需要补充说明的是，在SLR 的表达式中，为了与前述基于特征的普通LR 法相区分，采用f（·）表示以非参数方法估计出的概率密度函数。

3 前景与挑战

近十年来，我国学者在司法鉴定意见的概率化表述问题上做了丰富的探索和论述：从特定某一类证据的鉴定意见表述到整个表述体系的构建设想，都为我国司法鉴定意见概率表述的科学化、标准化和制度化做了充分的理论准备[17-19]。该领域未来的研究还需多方面的努力，恰如法庭科学作为交叉学科，其发展离不开各领域的理论和技术迭代。仅就法庭统计学而言，在以LR 形式为基础的概率表述体系框架确定下来之后，未来的应用难点和技术难点主要集中在以下方面。

3.1 在多重证据分析上的应用难点

前文中以单项证据为例，阐述了司法鉴定意见的概率表述体系，然而现实中的复杂应用情景，使得鉴定意见的使用者在面对多重证据③多重证据包括同类别多项证据和多类别证据。的案件时，需要分析判断各个证据之间以及各个证据的鉴定意见之间的相关关系，以便确定综合LR。为了简明且不失一般性，此处以二重证据为例，阐述多重证据分析应用中综合LR 计算可能遇到的复杂情景：

当新证据E2出现，在对现有的多重证据进行整体评价时，需要考虑所有证据的联合分布，此时的综合LR 公式为：

当各证据之间具有条件独立性时，联合分布概率可简化为边际概率之积，由此，多重证据的LR 计算问题就分解为各个单项证据的LR 分别计算的问题，此时化简后的综合LR 公式为：

上式可以推广到一般多重证据（三件及以上）的实践中：对于某个具体案件，当各证据之间具有科学合理的独立假设时，当前案件所涉及的全部证据的综合LR 等于所有证据各自被单独鉴定时得出的边际LR 之积。然而，当证据之间没有条件独立性时，比如某两件证据是协同证据的情况，联合分布问题会变得十分复杂，此时需要先分析两件证据之间的关系，进而确定条件概率，这种情形的综合LR公式为：

此种应用场景的难点在于：一是复杂的条件概率模型难以确定，并且模型假设具有很大的主观性；二是当前案件所涉及证据的各自单独司法鉴定意见中的LR 不能简单相乘，因为P（Ei|Hp，I）中没有包含Ej的条件性信息④本文使用了适用于多重证据的数学记号：假设n 是当前案件涉及的证据数量，i，j∈{1，2，…，n}，对于任一i≠j 的非独立证据，两者各自单独的鉴定意见中的LR 不能简单相乘。。由此可见，在具体案件中，未来可预见的以概率表述的司法鉴定意见的应用难点来源于证据之间的复杂关系，需要专门的证据分析方法来应对这一情形。当然，法庭统计学中也有用来辅助分析证据关系的量化方法，比如贝叶斯网络，其作为一种基于有向无环图（directed acyclic graph, DAG）的概率模型，通过画图来厘清并展示各个证据之间的关系，利用马尔科夫假设将模型的联合分布概率进行因子化分解，再根据专家意见假定出必要的证据之间的条件概率，并计算出供参考的综合LR。由于本文专注于概率表述体系而非证据分析的数量方法，故不在此处介绍模型细节，感兴趣的读者可以参考TARONI 等[20]有关应用于法庭科学的贝叶斯网络的研究。

3.2 法庭统计学方法上的技术难点

（1）开发应用于以形态特征为主的证据鉴定的统计推断方法。与DNA 证据中成熟的鉴定方法不同，以形态特征为主的证据（如笔迹、足迹等）的同一认定目前仍然主要依靠专家意见，具有很强的主观性。因此，以SLRs 为基础结合现代统计学方法，开发专门的算法及（开源）程序，与建立专门的数据库用以训练模型估计总体参数，应处于同等优先级。

（2）发展用于多重证据分析的统计方法。上述介绍过的贝叶斯网络正是目前受法庭统计学界关注度较高的一种分析多重证据方法，但是在应用中还有很多技术细节有待完善，距离其成为多重证据分析的标准方法，尚需进行大量情境模拟实验和模拟数据分析，以及利用案例数据库进行实际数据建模分析。另外，本文并不推崇以神经网络模型为代表的深度学习方法，因为法庭科学的具体问题更偏重于统计模型的可解释性，而这一点恰恰是深度学习这类“黑盒子”方法的短板。

（3）数值型结论与专家意见类型的科学对应。上述提到在整个概率表述体系中，除了LR 的数值型结论之外，还应有与之对应的描述型结论。为了使统计方法真正成为与专家意见相辅相成的科学工具，未来需要通过实证研究来确定在不同证据评价中的数值结论与专家意见之间的一一对应关系。

司法鉴定意见的概率表述体系——法庭统计学理论与实践展望