Skip to content

Lecture 19:条件概率

来源:MIT 6.1200J / 18.062J Mathematics for Computer Science,Spring 2024


1. 概率运算规则

以下规则均从概率的定义 Pr[A]:=ωAPr[ω] 直接推出。

命题(求和规则):AB 互斥,则

Pr[AB]=Pr[A]+Pr[B]

由此可推出以下推论:

推论(补集规则): $$\Pr[\bar{A}] = 1 - \Pr[A]$$

推论(差集规则): $$\Pr[A \setminus B] = \Pr[A] - \Pr[A \cap B]$$

推论(容斥原理): $$\Pr[A \cup B] = \Pr[A] + \Pr[B] - \Pr[A \cap B]$$

推论(联合界): $$\Pr[A \cup B] \leq \Pr[A] + \Pr[B]$$

推论(单调性):AB,则 Pr[A]Pr[B]

以上规则均可推广至有限或可数多个事件(参见 PIE 广义形式)。


2. 条件概率(Conditional Probability

定义: 对于两个事件 ABA 在给定 B 条件下的条件概率conditional probability)为: $$\Pr[A \mid B] = \frac{\Pr[A \cap B]}{\Pr[B]}$$

由此可得乘积规则Product Rule):

Pr[AB]=Pr[AB]Pr[B]

推广至三个事件:

Pr[ABC]=Pr[ABC]Pr[BC]Pr[C]

树图法的理论依据: 树图各边上的数值(除最顶层外)即为条件概率,路径上各边概率之积即为该结果的联合概率。


3. 示例一:锦标赛系列赛

问题: Ash 与 Gary 进行系列赛,先赢两局者获胜。规则:

  • 第一局各 1/2 概率获胜
  • 若某方赢得上一局,则下一局赢的概率为 2/3

A = "Ash 赢得系列赛",B = "Ash 赢得第一局",求 Pr[AB]

Pr[AB]=Pr[AB]Pr[B]=1/3+1/181/2=79

4. 贝叶斯定理(Bayes' Rule

核心思想: 已知"前向"条件概率 Pr[AB],推断"后向"概率 Pr[BA]

Pr[BA]=Pr[AB]Pr[B]Pr[A]

术语:

  • Pr[B]先验概率prior probability
  • Pr[AB]似然度likelihood
  • Pr[BA]后验概率posterior probability

比值形式(常用):

Pr[BA]Pr[CA]=Pr[AB]Pr[B]Pr[AC]Pr[C]

5. 示例二:有偏硬币与公平硬币

从有偏硬币(正面概率为 1)和公平硬币(正面概率 1/2)中等概率取一枚,抛出正面,求该硬币是公平硬币的概率:

Pr[FH]Pr[BH]=Pr[HF]Pr[F]Pr[HB]Pr[B]=(1/2)(1/2)1(1/2)=12

因此 Pr[FH]=1/3Pr[BH]=2/3

要点: 先验概率 Pr[F] 越小(即偏向认为是有偏币),观测到正面后认为是公平币的后验概率越低。


6. 示例三:COVID 检测与基率忽视

场景: MIT 社区中 10% 的人患有 COVID,检测假阳性率 0.3,假阴性率 0.1。检测阳性时,实际患病的概率?

设事件:H(健康),S(患病),+(阳性),(阴性)。

已知:Pr[H]=0.9Pr[S]=0.1Pr[+S]=0.9Pr[+H]=0.3

Pr[S+]Pr[H+]=Pr[+S]Pr[S]Pr[+H]Pr[H]=0.9×0.10.3×0.9=13

因此 Pr[S+]=1/4Pr[H+]=3/4

结论: 即使检测阳性,仍有 75% 概率是健康的!基率(先验概率)是决定性因素。


7. 示例四:辛普森悖论(Simpson's Paradox

现象: 1973 年 UC Berkeley 录取数据——全校总录取率男性高于女性,但每个院系单独看录取率女性均不低于男性。

数学解释:

Pr[AF]=Pr[AFCS]Pr[CSF]+Pr[AFEE]Pr[EEF]

由于女性更多申请竞争激烈的 CS 系,而 CS 整体录取率低,因此女性总录取率被压低,并非各院系直接歧视女性。

教训: 在混合子群体时,各子群体的基率差异base rate)可能导致与直觉完全相反的聚合结果。


8. 示例五:O. J. 辛普森案

争议: 虐待妻子的历史是否可作为谋杀证据?

  • 检方论据: 施暴者谋杀概率是普通人的 10 倍,故施暴历史应纳入证据。
  • 辩方论据: Pr[谋杀施暴]1/2500,概率极低,与案无关。

正确分析: 双方均忽视了"Nicole 已被谋杀"这一已知事实,正确的概率是 Pr[GAM](即:在妻子已死且丈夫曾施暴的条件下,丈夫是凶手的概率),实际约为 80%

教训: 遇到条件概率问题,务必精确化所有事件,回归基本定义。