Skip to content

抛硬币

一般概率论的老师都会选择抛硬币作为研究概率问题的引子,是因为抛硬币是最简单的概率实验,甚至没有之一,一枚普通的硬币有两面,正面和反面,抛硬币的结果只有“正”与“反”两种,我们不难想到正反面如果在理想状态下,出现的概率应该是相等的,均为 50%。

ProbCraft的抛硬币工具,我们可以实现在手机上模拟抛硬币的过程,在这里我们也有一个简易版本可以尝试:

硬币正反面随机数:

实验次数出现正面次数概率出现反面面次数概率
00-0-

当我们进行抛硬币实验时,要明确每一次抛硬币的结果是独立的,即前一次抛硬币的结果不会影响下一次抛硬币的结果。虽然会出现连续正面或者连续反面的情况,但即使连续出现了10次正面,下一次抛硬币的结果仍然是50%的概率。

什么?你用上面的工具模拟发现,概率并不趋近1/2,而是有很大差距?这是因为你的抛硬币次数太少了,请打开100次抛硬币的模拟进行大量测试:

100次模拟开关:

概率论的基本概念

通过抛硬币这个例子,我们可以引出概率论的一些基本概念:

名称含义抛硬币
样本空间事件的所有可能结果的集合。一枚硬币落地后的所有可能状态,即{正, 反}
事件样本空间的子集,即样本空间的某个子集合。抛硬币出现正面的事件,即{正}
概率事件发生的可能性大小。抛硬币出现正面的概率,即1/2

在概率论中,我们通常用 P(A)P(A) 表示事件 AA 发生的概率,概率的取值范围是 0P(A)10 \leq P(A) \leq 1,即概率不会小于0,也不会大于1。

像抛硬币这种事件,因为前一次的结果不会影响下一次的结果,我们称之为独立事件。如果我们投掷两枚硬币,请判断下面的事件组是否独立:

  1. A:第一枚硬币出现正面,B:第二枚硬币出现反面。
  2. C:第一枚硬币出现正面,D:两枚硬币出现2次正面。
  3. E:第一枚硬币出现正面,F:第二枚硬币与第一枚硬币不同。

首先第一组两个事件是相互独立的,两枚硬币是正是反,并不会相互影响,即 P(AB)=P(A)×P(B)P(A \cap B) = P(A) \times P(B)

TIP

集合论中的 \cap 表示交集,即两个集合的交集,在概率论中表示两个事件同时发生的概率。

完全独立的两个事件同时发生的概率,是可以通过各自事件发生的概率相乘得到的,这就是独立事件的特点。对于第一组事件,有 P(A)=P(B)=1/2P(A) = P(B) = 1/2,所以 P(AB)=1/2×1/2=1/4P(A \cap B) = 1/2 \times 1/2 = 1/4

对于第二组事件,P(C)=1/2P(C) = 1/2P(D)=1/4P(D) = 1/4,但是 P(CD)=1/4P(C \cap D) = 1/4,因为 P(C)×P(D)=1/2×1/4=1/81/4P(C) \times P(D) = 1/2 \times 1/4 = 1/8 \neq 1/4,所以这两个事件并不是独立的。

对于第三组事件,P(E)=1/2P(E) = 1/2P(F)=1/2P(F) = 1/2P(EF)=1/4P(E \cap F) = 1/4,因为 P(E)×P(F)=1/2×1/2=1/4P(E) \times P(F) = 1/2 \times 1/2 = 1/4,所以这两个事件是独立的。

补充解释一下每个事件的概率如何得到:两枚硬币的样本空间是:{正正, 正反, 反正, 反反},每个事件的概率都是1/4。

事件计算过程
A第一枚硬币出现正面,即{正正, 正反},概率是2/4 = 1/2
B第二枚硬币出现反面,即{正反, 反反},概率是2/4 = 1/2
C第一枚硬币出现正面,即{正正, 正反},概率是2/4 = 1/2
D两枚硬币出现2次正面,即{正正},概率是1/4
E第一枚硬币出现正面,即{正正, 正反},概率是2/4 = 1/2
F第二枚硬币与第一枚硬币不同,即{正反, 反正},概率是2/4 = 1/2

多次独立重复试验

多次独立重复试验”指的是在相同条件下重复进行多次的独立试验,其中每次试验的结果不会影响其他试验的结果。每次试验的独立性和重复性是这个概念的核心。常见例子有:

名称说明
抛硬币连续多次抛掷一枚硬币,每次出现正面或反面的结果相互独立。
掷骰子连续多次掷骰子,每次掷出某个数字的结果相互独立。
抽样从一个大样本中多次有放回地抽取样本,每次抽取的结果相互独立。

有个大学教授在概率课上给同学们布置了记录抛硬币结果的作业,同学们每次抛硬币,记录下正反面的结果,一共记录200次试验结果。有些同学按照老师的要求,进行了200次抛硬币的实验,但有些同学因为懒惰,只进行了100次实验,或者干脆一次都没做。这些同学认为自己学了概率论,知道抛硬币的结果是独立的,所以不需要进行200次实验,也可以伪造出200次实验的数据。

其中就有有一份伪造的作业如下:

plaintext
正, 反, 反, 正, 反, 正, 正, 反, 正, 反, 反, 正, 正, 反, 正, 反, 反, 正, 反, 正,
正, 反, 正, 反, 反, 正, 正, 反, 正, 反, 反, 正, 反, 正, 正, 反, 反, 正, 正, 反,
反, 反, 正, 反, 反, 正, 反, 正, 反, 正, 反, 反, 正, 反, 正, 反, 正, 反, 正, 反,
正, 反, 反, 正, 正, 反, 正, 反, 正, 反, 反, 正, 正, 反, 反, 正, 反, 正, 反, 正,
反, 正, 反, 正, 正, 反, 反, 正, 正, 反, 正, 正, 反, 正, 正, 反, 反, 正, 反, 正,
正, 反, 正, 反, 反, 正, 正, 反, 正, 反, 反, 反, 反, 正, 正, 反, 正, 反, 正, 反,
正, 反, 正, 反, 反, 正, 正, 反, 正, 反, 反, 正, 正, 反, 正, 反, 反, 正, 反, 正,
正, 正, 正, 反, 反, 正, 正, 反, 正, 反, 反, 正, 反, 正, 正, 反, 反, 正, 正, 反,
反, 反, 正, 反, 反, 正, 反, 正, 反, 正, 正, 反, 正, 反, 正, 反, 正, 反, 正, 反,
正, 反, 反, 正, 正, 反, 正, 反, 正, 反, 反, 正, 正, 反, 反, 正, 反, 正, 反, 正,

TIP

你能从伪造的作业中发现什么问题吗?

第二天上课,教授看到了这张伪造的抛硬币记录,只用了不到3秒钟的时间,就认定这份作业大概率是伪造的。造假的同学内心很慌,按照他的认知,抛硬币的结果是独立的,正面反面交替出现,总数接近一半,这样的数据应该是合理的,但他忽略了一个另一个重要的概率问题:

多次进行200次硬币投掷实验时,连续出现正面或反面的平均长度趋近于多少?

这个问题可能表达地有些绕,但请亲手试一试连续抛硬币,并观察随机结果:

0次结果:

试验结果中标黄的是连续出现的正面或反面的长度,200次独立实验中,连续出现正面或者反面的情况远比造假的同学想象的要多,并且最大连续长度也远远超过了他的预期,每进行200次投掷,基本都有一次连续出现6次以上同一面的情况。所以当教授扫了一眼这份作业,就发现了问题,因为这份作业中连续出现的正面或反面的长度太少了,并不符合实际情况。

实际上,我通过,通过多次重复独立模拟,分别模拟10000次取平均值,我得到了如下的结果:

投掷次数最长连续个数平均数
102.31
1005.95
10009.29
1000012.62

可见,连续投掷100次,大概率就会有连续出现6次以上同一面的情况,进一步验证了我们前面的结论。那么问题来了,这个平均数能否用数学方法计算出来呢?答案是肯定的,但我好像没有这个能力,有兴趣的朋友可以参考连续抛了10000次硬币,每次正反概率1/2,问最多几连正的概率最大? - Yves S的回答 - 知乎