Lecture 19:条件概率
来源:MIT 6.1200J / 18.062J Mathematics for Computer Science,Spring 2024
1. 概率运算规则
以下规则均从概率的定义
命题(求和规则): 若
由此可推出以下推论:
推论(补集规则): $$\Pr[\bar{A}] = 1 - \Pr[A]$$
推论(差集规则): $$\Pr[A \setminus B] = \Pr[A] - \Pr[A \cap B]$$
推论(容斥原理): $$\Pr[A \cup B] = \Pr[A] + \Pr[B] - \Pr[A \cap B]$$
推论(联合界): $$\Pr[A \cup B] \leq \Pr[A] + \Pr[B]$$
推论(单调性): 若
以上规则均可推广至有限或可数多个事件(参见 PIE 广义形式)。
2. 条件概率(Conditional Probability)
定义: 对于两个事件
、 , 在给定 条件下的条件概率(conditional probability)为: $$\Pr[A \mid B] = \frac{\Pr[A \cap B]}{\Pr[B]}$$
由此可得乘积规则(Product Rule):
推广至三个事件:
树图法的理论依据: 树图各边上的数值(除最顶层外)即为条件概率,路径上各边概率之积即为该结果的联合概率。
3. 示例一:锦标赛系列赛
问题: Ash 与 Gary 进行系列赛,先赢两局者获胜。规则:
- 第一局各
概率获胜 - 若某方赢得上一局,则下一局赢的概率为
设
4. 贝叶斯定理(Bayes' Rule)
核心思想: 已知"前向"条件概率
术语:
:先验概率(prior probability) :似然度(likelihood) :后验概率(posterior probability)
比值形式(常用):
5. 示例二:有偏硬币与公平硬币
从有偏硬币(正面概率为 1)和公平硬币(正面概率
因此
要点: 先验概率
6. 示例三:COVID 检测与基率忽视
场景: MIT 社区中 10% 的人患有 COVID,检测假阳性率
设事件:
已知:
因此
结论: 即使检测阳性,仍有 75% 概率是健康的!基率(先验概率)是决定性因素。
7. 示例四:辛普森悖论(Simpson's Paradox)
现象: 1973 年 UC Berkeley 录取数据——全校总录取率男性高于女性,但每个院系单独看录取率女性均不低于男性。
数学解释:
由于女性更多申请竞争激烈的 CS 系,而 CS 整体录取率低,因此女性总录取率被压低,并非各院系直接歧视女性。
教训: 在混合子群体时,各子群体的基率差异(base rate)可能导致与直觉完全相反的聚合结果。
8. 示例五:O. J. 辛普森案
争议: 虐待妻子的历史是否可作为谋杀证据?
- 检方论据: 施暴者谋杀概率是普通人的 10 倍,故施暴历史应纳入证据。
- 辩方论据:
,概率极低,与案无关。
正确分析: 双方均忽视了"Nicole 已被谋杀"这一已知事实,正确的概率是
教训: 遇到条件概率问题,务必精确化所有事件,回归基本定义。