当前位置：首页 > news >正文

概率论与数理统计

news 2026/3/27 9:07:20

第一章随机事件与概率

我们没法确定抛一个硬币后是正面还是反面，这是一个随机现象。

抛多次硬币后，正面和反面数量相近，这是一个神奇的统计规律。

随机现象可以总结出两个性质：随机性，必然性。单次的随机性和统计的必然性。

1.1 随机事件及其运算

为了研究这个神奇的数学规律，把抛一次硬币称为一次试验 E。

试验的特点就是可重复，多结果，不确定。

1.1.1 样本空间与随机事件

将试验的结果称为样本空间 \(\Omega\)，某个具体的结果是 \(\omega\)。例如抛硬币试验的 \(\Omega=\{\text{up},\text{down}\},\omega_1=\text{up}\)。

样本空间按照集合大小分为有限，可列和不可列的。

抛骰子这个试验中 \(\Omega=\{1,2,3,4,5,6\}\)，我们想研究某个子集 \(A=\{2,4,6\}\) 表示投到偶数，这个 \(A\) 就被称为一个随机事件。

有一些事件较为特殊，有基本事件，必然事件，不可能事件等称呼。

1.1.2 随机事件的关系与运算

事件是一个集合，运算也就是集合运算，例如交，并，差，取反等。

关系也是集合的关系，例如包含，互斥等。

1.1.3 \(\sigma\)-代数

记 \(2^\Omega\) 表示 \(\Omega\) 的幂集，例如 \(\Omega=\{0,1\}\implies 2^\Omega=\{\emptyset,\{0\},\{1\},\{0,1\}\}\)。

换句话说，就是所有随机事件的集合。

若 \(\Sigma\subset 2^\Omega\)（换句话说，就是一些随机事件的集合），且满足三个条件：

\(\Omega\in\Sigma\)，必然事件属于 \(\Sigma\)
\(A\in\Sigma\implies \overline{A}\in\Sigma\)，对立事件成对出现
\(A_i\in\Sigma(i=1,\dots)\implies \cup_i \ A_i\in \Sigma\)，事件的并也出现

称 \(\Sigma\) 是 \(\Omega\) 的 \(\sigma\)-代数，\(\Sigma\) 中的元素称为可测集，\((\Omega,\Sigma)\) 称为可测空间。

\(\Sigma\) 通过上面三条性质，还可以推理出 \(\emptyset\in\Sigma\) 和对于交运算封闭的性质。

好像不考，先跳过了。

1.2 古典概型

\(\Omega=\{\omega_1,\cdots,\omega_n\}\) 满足 \(P(\{\omega_i\})=P(\{\omega_j\})\)。

比如投硬币就是古典概型。符合古典概型的问题，难点主要在计数，各种组合计数。

1.3 几何概型

样本空间无限可测，无限指样本点不可列，可测指由响应的几何测度表示（比如长度，面积等）。

基本事件等可能性，这里想说的是，任意两个“同样大小”的区域（测度相同）发生的概率相同。

贝特朗奇论：在半径为 1 的圆内随机选一条弦，长度超过根号 3 的概率是多少？

对于等可能性的不同解释，会导致这个概率数值不一样：

随机选择两个点确定一条弦
在某条直径上随机选择一个点作为弦的中点
在整个圆中随机选择一个点作为弦的重点

1.4 概率公理化

贝特朗奇论说明了“等可能性”的说法并不那么牢靠，因此需要引入更加严谨的数学定义。

1.4.2 概率公理化

概率 \(P:\Sigma\to \mathbb{R}\) 是一个函数，满足：

非负性：\(P(A)\ge 0\)
规范性：\(P(\Omega)=1\)
可列可加性：可列个互不相容的事件的并的概率为每个事件概率之和

Union Bound：

\[P(A_1\cup\cdots,A_n)\le \sum_{i=1}^n P(A_i) \]

1.5 组合计数

难的不考，跳过

第二章条件概率与独立性

2.1 条件概率

若 \(P(A)>0\) 可以定义条件概率 \(P(B|A)=\frac{P(AB)}{P(A)}\)。

条件概率的本质是缩小了有效的样本空间，毕竟原来的概率可以视为是在 \(\Omega\) 条件下的。

2.2 全概率公式和贝叶斯公式

2.2.2 贝叶斯公式

\[P(A|B)=\frac{P(A)P(B|A)}{P(B)} \]

这个公式有一些深刻的理解方法。

从结果找成因

我们都知道，感冒（事件A）很可能就会咳嗽事件（B）。

那么如果现在你咳嗽了，有多大概率感冒呢？求 P(A|B)。

从先验概率修正到后验经验

这是贝叶斯最深刻的内涵，它不仅是一个公式，更是一种学习观。

后验概率 ∝ 先验概率 × 似然度

在这里我们应当把公式写成：

\[P(A|B)=P(A)\frac{P(B|A)}{P(B)} \]

就是比如A表示一开始的认知中，某人是小偷的概率，而经验B是证明他没偷东西的证据，那么 P(A|B) 就是结合了证据 B 之后的认知中，那人是小偷的概率。

2.3 事件独立性

若 \(P(AB)=P(A)P(B)\) 则称为独立。

如果还有 \(P(A)P(B)>0\)，结合条件概率公式就有 \(P(A|B)=P(A)\)。

2.3.2 多个事件的独立性

小概率原理，小概率 p 很多次不发生的概率是 \((1-p)^n\) 会很小。

第三章离散型随机变量

期望和方差。

若 g 为凸函数则：\(g(E(X))\le E(g(x))\)

方差

Bahatia-Davis 不等式，对随机变量 \(X\in[a,b]\)，有：

\[Var(X)\le (b-E[x])(E[x]-a)\le \frac{(b-a)^2}{4} \]

显然，固定 E[x] 后，想要最大化方差就是让数值都挤在 a,b 两头（同时维持 E[x]）正确。

根据杠杆原理：

\[\begin{aligned} & num_1(b-E[x])=num_2(E[x]-a)\\ & \frac{1}{num_1+num_2}((b-E[x])^2num_1+(E[x]-a)^2num_2)=(b-E[x])(E[x]-a) \end{aligned} \]

常用离散型随机变量

3.4.2 二项分布

\(X~B(n,p)\)：

\(P(X=k)=\binom{n}{k}p^k(1-p)^{n-k}\)

\(E[x]=np,Var(X)=n*Var(X_1)=np(1-p)\)。有趣的是，\(Var(X_1)\) 刚好能用刚才的 Bahatia-Davis 不等式来计算。

3.4.3 泊松分布

泊松分布是二项分布的极限版本。

比如说我想知道一本书有 10000 字，然后我知道前 5000 个字中错别字有 \(\lambda\) 个，我们可以近似估计一个字是错别字的概率 \(p=\lambda/5000\)，然后再通过二项分布就可以估计后 5000 个字有多少个错别字了。

但是这样的计算量太大了，于是我们笼统将前 5000 字认为是一个单位长度，\(\lambda\) 表示一个单位长度预计有这么多错别字，设 \(n\) 表示一个单位长度的字数，\(p=\lambda/n\)，令 \(n\to\inf\) 得到一个新的错别字数量分布，这个新的分布就是泊松分布，因为原来的 5000 已经很大了，所以新的分布和二项分布的结果其实差不多。

\(X~P(\lambda)\)

\(P(X=k)\frac{\lambda^k}{k!}e^{-\lambda}\)

\(E[X]=Var(X)=\lambda\)，这里很好理解直接使用二项分布的公式即可 \(\lambda=np=np(1-p)\)，因为 \(n\to \inf,p\to 0\)。