法庭统计学辅助证据评价与分析

概率表述体系与贝叶斯推理

Author
Affiliation

徐嘉烨

南开大学 经济学院数量经济研究所

1 法庭科学/司法鉴定中的不确定性

1.1 实践中”不确定性”的多重含义

  1. 司法鉴定专业人员根据法院提供的资料,得出的”某一结论成立的可能性”;

  2. 法院根据鉴定人员出具的”可能的结论”,认定”某一构成要件事实存在的可能性”;

  3. 法院对司法鉴定人员所用方法及得出的结论的信任程度

1.2 不确定性的分类

根据证据评价与分析工作流程的不同环节,不确定性可以分为两类:一是证据评价中的不确定性;二是证据分析中的不确定性。

  1. 证据评价工作中的不确定性,是存在于鉴定意见生产过程中的不确定性,体现在鉴定报告中,由专业的鉴定人员给出。

  2. 证据分析环节中在形成推理链过程中的不确定性,是存在于鉴定意见使用过程中的不确定性,由具体使用者(如法官等)给出。

1.3 不确定性的量化

“不确定性”本质上是一种”可能性” (possibility), 其量化测度是概率 (probability)。

  1. 证据评价中的不确定性量化:鉴定意见的概率表述体系

  2. 证据分析中的不确定性量化:贝叶斯推理(贝叶斯信念更新)

理论基础及方法支持:概率论与法庭统计学

2 法庭统计学

2.1 法庭统计学的含义

法庭统计学 (Forensic Statistics) 是统计学的一个重要应用分支,它从法庭科学(司法鉴定)领域内的实际问题出发,以概率论为理论基础,以刑事案件物证的量化分析、证据评价方法和鉴定意见表述为核心研究对象,为保障和提升鉴定可靠性提供日益完善的统计模型和推断方法,服务于司法裁决,支持着司法鉴定制度与标准化建设,促进司法鉴定公信力的提升。

“Statisticians and Forensic Science: A Perfect Match”——Karen Kafadar, 2016, CHANCE.

2.2 法庭统计学的源流

  1. 1977年英国著名统计学家Dennis V. Lindley于上世纪70年代首次提出将”贝叶斯因子”(似然比)作为DNA证据价值的度量(LINDLEY 1977)

  2. 统计学在法庭科学中的有限参与:如,DNA匹配。

  3. 纳入技术标准的需求:

    • 2009美国国家科学院报告《强化法庭科学:未来之路》,由包括”应用与理论统计学委员会”在内的多个专家委员会共同编写(NRC 2009)

    • 2015版《ENFSI 法庭科学评价报告指南》

  4. 证据评价的统计学方法持续研究:例如,用于形态特征证据的基于相似度分数的似然比法。

  5. 专门研究机构和成果汇编:

    • 2015年由美国国家标准与技术研究院(NIST)和六所美国高校合作共建了法庭证据统计与应用中心(Center for Statistics and Applications in Forensic Evidence,简称CSAFE),该中心是法庭统计学的专门研究机构,致力于法庭统计学理论方法及其在法庭科学各领域应用,进行中的项目涵盖各类证据评价方法、法庭统计学科普、从业人员培训等诸多方面;

    • 2021年《法庭统计学手册》(Handbook of Forensic Statistics) (Banks 2020)

3 概率表述体系

3.1 单项证据的统计假设和似然比

单项待评价证据\(E\),此处不考虑其他可控的附加背景信息\(I\),例如物证采集所用的工具和材料。

首先列出互斥的主张(即控辩双方的主张)\(H_p\)\(H_d\), 则在\(H_p\)\(H_d\) 各自成立的条件下获得该证据 \(E\) 的概率分别记作\(P(E \vert H_p)\)\(P(E \vert H_d)\) ,这两个条件概率之比 \(\frac{P(E \vert H_p)}{P(E \vert H_d)}\),定义为似然比 (Likelihood-Ratio, 简称LR)1,用来衡量该项证据对于控辩双方主张的相对支持程度,是包含不确定性的证据价值的度量。

在似然比的具体计算中, \(\frac{P(E \vert H_p)}{P(E \vert H_d)}\)中分子分母均为条件概率,不同的条件\(H_p\)\(H_d\) 意味着不同的模型,即不同的概率分布和其中相应的参数,记作 \(\Theta_{H_p}\)\(\Theta_{H_d}\),收集到的证据 \(E\) 对应着服从概率分布的观测值向量 \(y\),由此以似然比 (LR) 表示的该项证据的价值,可由以下公式计算得出,

\[LR=\frac{f(y \vert \Theta_{H_p})}{f(y \vert \Theta_{H_d})},\]

其中 \(f(\cdot)\) 表示概率密度函数。

3.2 数值型结论与描述型结论之间的对应

ENFSI准则中的示例:似然比数值区间与(相对)支持程度的对应关系
支持程度 LR数值区间
不支持 \(1<LR\leq 2\)
\(2<LR\leq 10\)
一般 \(10<LR\leq 100\)
较强 \(100<LR\leq 1000\)
\(1000<LR\leq 10000\)
很强 \(10^4<LR\leq 10^6\)
极强 \(LR> 10^6\)

3.3 基于相似度分数的似然比

形态特征证据价值的近似量化(高维推断问题),例如,指纹、足迹、笔迹等以形态特征为主的证据。

基于相似度分数的似然比(score-based likelihood ratios, SLRs)

\[SLR=\frac{f\left(\Delta\left(E_x,\ E_y\right)\ \middle|\ H_p,\ \ I\right)}{f\left(\Delta\left(E_x,E_y\right)\ \middle|\ H_d,\ \ I\right)}\]

其中,\(\Delta\left(E_x,\ E_y\right)\) 表示不同来源证据异同程度的相似度分数(similarity-score)。

4 贝叶斯推理与信念更新

4.1 基本概念

理解”概率”:频率vs. 信念

频度学派 (frequentist): 概率是多次重复试验的稳定频率或比率(强大数定理, strong law of large numbers)

贝叶斯学派 (Bayesian): 概率是信念,是个人的主观的相信程度 (degree-of-belief)。

“主观”不代表片面或错误,初始信念可以无信息,会被证据价值更新。

4.2 贝叶斯推理

“当你排除了一切不可能情况,那么剩下的,无论多么令人难以置信,它都是真相。”——亚瑟·柯南·道尔《福尔摩斯探案集·四签名》

引言对应的贝叶斯推理(Kadane 2009):有\(H_1, \ldots, H_k\)互斥且完备 (exclusive & exhaustive) 的结论,其中,\(H_1\)是”令人难以置信的”结论,余下\(H_2, \ldots, H_k\)是已经根据信息(数据)\(X\)“排除了的”结论,即有

\[ P(X\vert H_i)=0, \quad i= 2,\ldots,k,\\ P(X\vert H_1)\neq 0 \]

则有

\[ P(H_1\vert X)=\frac{P(X \vert H_1) P(H_1)}{\sum_{i=1}^{k}P(X \vert H_i) P(H_i)}=1 \]

使用贝叶斯公式推理得出,无论先验概率\(P(H_1)\)取值多么小,在此情景下的后验概率\(P(H_1\vert X)\)都是1.

4.3 贝叶斯信念更新

\[\frac{P( H_p\vert E )}{P(H_d\vert E)}=\frac{P(E \vert H_p)}{P(E \vert H_d)}\frac{P( H_p)}{P( H_d)}\]

Dennis V. Lindley提出,贝叶斯更新的思想可以辅助证据推理与司法裁决:将先验信念记作 \(o(G)=\frac{P( H_p)}{P( H_d)}\), 则贝叶斯更新公式可以简写作

\[o(G\vert E)=\frac{P(E \vert H_p)}{P(E \vert H_d)}o(G)\]

注:更新后的信念(后验概率比)会作为下一次更新的初始信念。多个相互独立的证据价值的整体影响(称作综合似然比)是各个证据的似然比之积2

由贝叶斯信念更新还可以看出,证据评价工作对后续的证据分析与推理工作有着重要而深远的影响:以无偏向的初始信念为例,更新后的后验概率比从数值上等于相关证据价值的似然比之积。

4.4 其他贝叶斯分析工具

贝叶斯决策:结合效用理论,选取”最佳裁决” (optimum sentense).

贝叶斯网络:多重证据,复杂关系。

贝叶斯决策网络(又名”影响图”):加入决策节点。

参考文献

Banks, Kafadar, D. L. 2020. Handbook of Forensic Statistics. Chapman; Hall/CRC. https://doi.org/10.1201/9780367527709.
Kadane, Joseph B. 2009. Bayesian Thought in Early Modern Detective Stories: Monsieur Lecoq, C. Auguste Dupin and Sherlock Holmes.” Statistical Science 24 (2): 238–43. https://doi.org/10.1214/09-STS298.
LINDLEY, D. V. 1977. A problem in forensic science.” Biometrika 64 (2): 207–13. https://doi.org/10.1093/biomet/64.2.207.
NRC, National Research Council. 2009. Strengthening Forensic Science in the United States: A Path Forward. Washington, DC: National Academy Press. https://doi.org/10.17226/12589.
Ommen, Danica M., and Christopher P. Saunders. 2021. A Problem in Forensic Science Highlighting the Differences between the Bayes Factor and Likelihood Ratio.” Statistical Science 36 (3): 344–59. https://doi.org/10.1214/20-STS805.

Footnotes

  1. 理论上这一形式应被称作”贝叶斯因子” (Bayes Factor, 简称BF),且与似然比有理论上的区别,但实践中可以混用或统称为”似然比”(Ommen and Saunders 2021)↩︎

  2. 此处不讨论不具备条件独立性的复杂多重证据关系。↩︎