概率论与数理统计

1. 基本概念

概率,通常指的是一个不确定事件发生的可能性。在机器学习和统计学中,有两个主要的流派:频率学派与贝叶斯学派。贝叶斯学派研究的是观察者对事物的看法,因此也称为主观概率;频率学派认为概率只能通过反复实验去逼近事件本身从而得到结果。频率学派试图描述的是事物本体,而贝叶斯学派试图描述的是观察者知识状态在新的观测发生后如何更新,描述的是观察这的对事物看法。

数理统计是以概率论为基础,研究如何有效地收集、整理和分析带有随机性的数据,以便对所考察的问题作出推断和预测的一门学科。简单来说,概率论研究的是从总体到样本的推导过程,而数理统计研究的是从样本到总体的推断过程。

1.1 概率空间

1.1.1 定义

一个概率空间由三元组定义(Ω, F, P):

状态空间/样本空间 Ω

指一个试验所有可能出现的结果,一般用 Ω 表示。例如,连续投掷两次硬币的状态空间是 {正正,反反,正反,反正}。

事件空间 F

试验的每一个单一的结果为一个事件,它是状态空间的子集,而事件空间就是所有事件构成的集合。

概率 P(A)

对于每一个单独的事件 A(属于F),我们可以将其与一个数字 P(A) 联系起来,P(A) 即描述了该事件发生的可能性,也称为概率函数。对于单个事件,其概率必定在 [0,1] 之间;状态空间内所有可能结果的概率之和必定为等于1.

举个例子来理解上述三个概念。假如我们投掷一个6面骰子,那么样本空间 Ω = {1,2,3,4,5,6}。如果我们关注的事件是骰子点数是奇数还是偶数,那么事件空间就是 F = {∅,{1,3,5},{2,4,6}}

1.1.2 概率法则

给定一个事件空间F,概率函数P需要满足几个法则:

  • 对于F中任意一个事件,其概率 P 在 [0,1] 之间

  • 整个事件空间的概率之和为1

  • 如果两事件互斥(即两事件不可能同时发生),那么这两个事件其中有一个发生的概率等于各个事件发生的(边缘)概率之和。即:对于所有 α,β∈F 和 α∩β=∅,P(α∪β)=P(α)+P(β)

第三个法则也叫互斥事件的加法法则。例如,投掷点数为偶数的概率为:P({2,4,6})=P({2})+P({4})+P({6})=3/6

1.2 随机变量

关于随机变量,有两个重要的误解:它既不是随机的,也不是一个变量。 它指的是把样本空间中某个特定结果与其发生的概率值(数字)关联起来的映射关系,本质是一个函数 。通常用一个大写字母来表示随机变量。

从某种意义上说,随机变量让我们可以将事件空间的形式概念抽象出来,通过定义随机变量来采集相关事件。例如,考虑掷骰子中投掷点数为奇/偶的事件空间,可以定义一个随机变量,当结果为奇数时取值为1,否则随机变量取值为0。

取值为 a 的随机变量 X 的概率可以记为: \(P(X=a)\)

同时,随机变量 X 的取值范围记作:Val(X)。

根据状态空间的不同,随机变量可以分为离散的和连续的。比如,一次掷10个硬币,定义随机变量为有多少个硬币正面朝上,则该随机变量就是离散的,因为只能取有限多个值。相反,能取无限多个值的随机变量就是连续随机变量。

1.3 联合分布、边缘分布与条件分布

1.3.1 概率分布

概率分布,指的是随机变量取某一个特定值的概率,例如:假设在投掷一个骰子的样本空间 Ω 上定义一个随机变量 X,如果骰子是均匀的,则 X 的分布为: P(X=1) = P(X=2)…= P(X=6) = 1/6。 虽然这个例子形式上和事件发生的概率类似,但两者的语义不同:前者是指 某件具体事件发生的概率 ,而这里指的是一个 随机变量的概率分布 。我们用 P(X) 表示随机变量 X 的概率分布。

1.3.2 联合分布

联合分布指的就是由多于一个变量决定的概率分布,即多件事件同时发生的情况。例如,在投掷一个骰子的样本空间上定义一个随机变量 X。定义一个指示变量 Y,当抛硬币结果为正面朝上时取1,反面朝上时取0。假设骰子和硬币都是均匀的,则 X 和 Y 的联合分布如下:

一般用 P(X and Y) 或更简便的 P(X,Y) 来表示它们的联合分布。

1.3.3 边缘分布

边缘分布指的就是一个随机变量对于其自身的概率分布。简单的理解,就是一个事件自身发生的概率分布,而不考虑其他变量。换句话说,在联合分布的情境下,边缘分布就是把另一个变量的所有可能取值相加。之所以取名为边缘分布也是这个原因,它将联合分布中(假设是两个变量组成的联合分布)其中的一个变量相加,把结果写在边缘。

1.3.4 条件分布

条件分布是已知某(些)事件已经发生的前提下,另一(些)事件发生的概率的分布。正式地,给定 Y=b 时,X=a 的条件概率定义为:

\[P(X=a | Y=b) = \frac{P(X=a, Y=b)}{P(Y=b)}\]

假设我们已知一个骰子投出的点数为奇数,想要知道投出的点数为”1”的概率。令 X 为代表点数的随机变量, Y 为指示变量,当点数为奇数时取值为1,那么我们期望的概率可以写为:

\[P(X=1 | Y=1) = \frac{P(X=1, Y=1)}{P(Y=1)} = \frac{1/6}{3/6} = \frac{1}{3}\]

条件概率的思想可以自然地扩展到一个随机变量的分布是以多个变量为条件时,即:

\[P(X | Y=y, Z=z)\]

我们用 P(X|Y=b) 来表示当 Y=b 时随机变量 X 的分布,也可以用 P(X|Y) 来表示 X 的一系列分布,其中每一个都对应不同的 Y 可以取的值。

1.4 随机变量的独立性

在概率论中,独立性是一个核心概念。随机变量 X 独立于 Y 意味着知道 Y 的值不会改变 X 的分布,即:

\[P(X | Y) = P(X)\]

对于离散随机变量,这意味着 P(X=x|Y=y) = P(X=x) 对所有可能的 x, y 都成立。

对于连续随机变量,独立性等价于联合概率密度函数等于边缘概率密度函数的乘积:

\[f_{X,Y}(x,y) = f_X(x) \cdot f_Y(y)\]

独立性在机器学习中非常重要。许多算法都假设训练样本是独立同分布(i.i.d.)的,即每个样本都是从同一概率分布中独立抽取的。这一假设使得我们可以使用最大似然估计等方法。

1.5 连接概率类型:加法法则与乘法法则

1.5.1 加法法则

加法法则用来连接联合分布与边缘分布,即

\[P(X) = \sum_y P(X, Y=y)\]

对于连续随机变量:

\[f_X(x) = \int_{-\infty}^{\infty} f_{X,Y}(x,y) dy\]

换言之,当有两个以上随机变量构成的联合分布时,加法法则可以应用到其中任意一个(或多个)随机变量,得到该变量的边缘分布。

1.5.2 乘法法则(链式法则)

乘法法则是一个连接联合分布与条件分布的等式,任何多元随机变量的联合分布,都可以分解成其他两个类型概率相乘的形式,其一是第一个随机变量的边缘分布,另一个是第二个随机变量的条件分布,即 P(X,Y) = P(X)P(Y|X)。推广到n个随机变量:

\[P(X_1, X_2, ..., X_n) = P(X_1) \cdot P(X_2|X_1) \cdot P(X_3|X_1,X_2) \cdots P(X_n|X_1,...,X_{n-1})\]

乘法法则通常用于计算多个随机变量的联合概率,特别是在变量之间相互为(条件)独立时会非常有用。注意,在使用乘法法则时,我们可以选择展开随机变量的顺序;选择正确的顺序通常可以让概率的计算变得更加简单。

1.5.3 贝叶斯定理

将加法法则与乘法法则结合在一起,就得到了我们的贝叶斯公式。首先,根据乘法法则 P(X,Y) = P(X)P(Y|X),由于随机变量的顺序是人为设定的,所以交换顺序也成立: P(X,Y) = P(X)P(Y|X) = P(Y)P(X|Y),两边同时除以P(Y)(假设不为0),就得到了贝叶斯定理:

\[P(X|Y) = \frac{P(Y|X) \cdot P(X)}{P(Y)}\]

贝叶斯定理在机器学习中有广泛应用,例如朴素贝叶斯分类器、贝叶斯优化等。

1.6 全概率公式

公式表示若事件 B1,B2,…,Bn 构成一个完备事件组且都有正概率,则对任意一个事件A都有公式成立。注意:Bi是两两互斥的:

\[P(A) = \sum_{i=1}^{n} P(A|B_i) \cdot P(B_i)\]

全概率公式是计算复杂事件概率的重要工具,它将一个复杂事件的概率分解为若干简单事件概率的加权和。

2. 定义概率分布

之前提到过,根据状态空间的不同,随机变量可以是离散的(只能取有限个值)或者连续的(可以取无限个值),那么它们对应的概率分布也分为离散分布与连续分布。

2.1 离散分布:概率质量函数

在定义一个离散分布时,我们可以简单地列举出随机变量取每一个可能值的概率。这种列举方式称为概率质量函数(probability mass function, PMF),因为它将(总概率的)每一个单元块分开,并将它们和随机变量可以取的不同值对应起来。这个可以类似的扩展到联合分布和条件分布。

假设X是抛硬币的结果,反面取值为0,正面取值为1。则在状态空间 {0, 1}中, X=x 的概率都是0.5,其概率质量函数是:

\[\begin{split}P(X=x) = \begin{cases} 0.5 & x=0 \\ 0.5 & x=1 \end{cases}\end{split}\]

2.1.1 常见离散分布

伯努利分布(0-1分布)

是最简单的离散分布,只涉及一次试验,只有两种结果:成功(1)或失败(0)。设成功概率为 p,则:

\[P(X=x) = p^x (1-p)^{1-x}, \quad x \in \{0, 1\}\]

二项分布 Bin(n, p)

描述 n 次独立伯努利试验中成功的次数。设 X ~ Bin(n, p),则:

\[P(X=k) = \binom{n}{k} p^k (1-p)^{n-k}, \quad k = 0, 1, 2, ..., n\]

二项分布的期望为 np,方差为 np(1-p)。

泊松分布 Poisson(λ)

描述单位时间或单位空间内稀有事件发生的次数。设 X ~ Poisson(λ),则:

\[P(X=k) = \frac{\lambda^k e^{-\lambda}}{k!}, \quad k = 0, 1, 2, ...\]

泊松分布的期望和方差都是 λ。泊松分布在实际中有广泛应用,如电话交换台收到的呼叫次数、网站的访问量等。

2.2 连续分布:概率密度函数

连续分布相比离散分布来说是一种更加需要揣摩的情况,因为如果我们将每一个值取非零质量数,那么总质量相加就会是一个无限值,这样就不符合总概率相加等于1的要求。

在定义一个连续分布时,我们会使用概率密度函数(probability density function, PDF)。概率密度函数是一个非负,可积(分)的函数,类似于:

\[f(x) \geq 0, \quad \int_{-\infty}^{+\infty} f(x) dx = 1\]

连续型随机变量 X 的概率分布可以用如下公式计算:

\[P(a \leq X \leq b) = \int_a^b f(x) dx\]

值得注意的是,虽然概率质量函数和概率密度函数的总概率质量之和都必须为1,但其中会有一些细微的差别,对于离散随机变量而言,每一个事件的概率必须在[0,1]之间,因为它只能取有限个值,而对于连续随机变量而言却不一定满足这一点,下图是用均匀分布在离散和连续随机变量举的例子:

注意到,对于连续随机变量,概率密度的高度可能大于1,但记住总的概率密度和为1。

2.2.1 常见连续分布

均匀分布 U(a, b)

在区间 [a, b] 上均匀分布的随机变量,其概率密度函数为常数:

\[\begin{split}f(x) = \begin{cases} \frac{1}{b-a} & a \leq x \leq b \\ 0 & \text{otherwise} \end{cases}\end{split}\]

均匀分布的期望为 (a+b)/2,方差为 (b-a)²/12。

正态分布(高斯分布)N(μ, σ²)

正态分布是统计学中最重要的分布,在自然界和社会现象中广泛存在。设 X ~ N(μ, σ²),则:

\[f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)\]

其中 μ 是均值,σ² 是方差。标准正态分布是 μ=0, σ²=1 的正态分布,记为 N(0, 1)。

正态分布具有以下重要性质: - 密度函数关于均值 μ 对称 - 68-95-99.7 法则:约 68% 的数据落在 μ±σ 内,约 95% 落在 μ±2σ 内,约 99.7% 落在 μ±3σ 内 - 线性组合的正态分布仍然是正态分布

指数分布 Exp(λ)

描述独立事件发生的时间间隔。设 X ~ Exp(λ),则:

\[\begin{split}f(x) = \begin{cases} \lambda e^{-\lambda x} & x \geq 0 \\ 0 & x < 0 \end{cases}\end{split}\]

指数分布的期望为 1/λ,方差为 1/λ²。指数分布具有无记忆性,即 P(X > s + t | X > s) = P(X > t)。

2.3 累积分布函数

有时我们也会讨论累积分布函数,这种函数给出了随机变量在小于某一值的概率。累积分布函数F和基本概率密度函数f的关系如下:

\[F(x) = P(X \leq x) = \int_{-\infty}^{x} f(t) dt\]

要将连续分布的定义扩展到联合分布,需要把概率密度函数扩展为多个参数,即:

\[F(x_1, x_2, ..., x_n) = \int_{-\infty}^{x_1} \int_{-\infty}^{x_2} ... \int_{-\infty}^{x_n} f(t_1, t_2, ..., t_n) dt_n ... dt_2 dt_1\]

累积分布函数具有以下性质: - 单调非递减 - 右连续 - lim(x→-∞) F(x) = 0, lim(x→+∞) F(x) = 1

3. 描述统计与独立性

很多时候我们想在随机变量之间进行总结和对比,这时就需要描述统计。一个变量的描述统计信息告诉了我们变量的一些基本行为特点,其中最重要的是期望与方差。

3.1 期望

数学期望是试验中每次可能结果的概率乘以其结果的总和。它是最基本的数学特征之一,反映随机变量平均值的大小,也称为一阶矩,记作 E(x)。公式如下:

\[E[X] = \sum_{i} x_i \cdot P(X=x_i) \quad \text{(离散)}\]
\[E[X] = \int_{-\infty}^{+\infty} x \cdot f(x) dx \quad \text{(连续)}\]

当遇到随机变量的和时,一个最重要的规则之一是线性期望。令 X₁, X₂, …, Xₙ 为(可能独立的)随机变量:

\[E[aX + bY] = aE[X] + bE[Y]\]

它们的期望为线性函数。

期望的线性 非常强大,因为它对于 变量是否独立没有限制 。当我们对随机变量的结果进行处理时,通常没什么可说的,但是,当随机变量 X Y 相互独立时,有:

\[E[XY] = E[X] \cdot E[Y]\]

3.2 方差

一个随机变量的方差描述的是它的离散程度,也就是该变量离其期望值的偏离程度。一个实随机变量的方差也称为它的二阶矩或二阶中心动差,恰巧也是它的二阶累积量。方差的算术平方根称为该随机变量的标准差。

方差公式:

\[Var(X) = E[(X - E[X])^2]\]

随机变量的方差通常记为 σ²,给它取平方的原因是因为我们通常想要找到 σ,也就是标准差。方差就是标准差的二次方。

为了找到随机变量 X 的方差,通常用以下替代公式更简单。这种形式在机器学习的计算中更常用。

\[Var(X) = E[X^2] - (E[X])^2\]

注意,不同于期望,方差不是关于随机变量 X 的线性函数,事实上,我们可以证明 (aX+b) 的方差为:

\[Var(aX + b) = a^2 Var(X)\]

如果随机变量X和Y相互独立,那么:

\[Var(X + Y) = Var(X) + Var(Y)\]

3.3 协方差

有时我们也会讨论两个随机变量的协方差,它可以用来度量两个随机变量的相关性,定义如下:

\[Cov(X, Y) = E[(X - E[X])(Y - E[Y])]\]

即两个随机变量各自与其期望的偏差的乘积的期望值。一个变量与自身的协方差就是上一节里提到的方差。从直觉上我们可以知道协方差体现的是两个变量的互相依赖度。

协方差有以下重要性质: - Cov(X, Y) = E(XY) - E(X)E(Y) - Cov(aX, bY) = abCov(X, Y) - Cov(X + Y, Z) = Cov(X, Z) + Cov(Y, Z) - 如果 X 和 Y 相互独立,则 Cov(X, Y) = 0

协方差矩阵

对于 n 维随机向量 (X₁, X₂, …, Xn),其协方差矩阵是一个 n×n 的对称矩阵,其中第 i 行第 j 列的元素为 Cov(Xi, Xj):

\[\begin{split}\Sigma = \begin{pmatrix} Var(X_1) & Cov(X_1, X_2) & \cdots & Cov(X_1, X_n) \\ Cov(X_2, X_1) & Var(X_2) & \cdots & Cov(X_2, X_n) \\ \vdots & \vdots & \ddots & \vdots \\ Cov(X_n, X_1) & Cov(X_n, X_2) & \cdots & Var(X_n) \end{pmatrix}\end{split}\]

协方差矩阵在多元统计分析、机器学习(如主成分分析、线性判别分析)中非常重要。

3.4 独立性与条件独立性

3.4.1 独立性

在概率论中,独立性是指随机变量的分布不因知道其它随机变量的值而改变。在机器学习中,我们通常都会对数据做这样的假设。例如,我们会假设训练样本是从某一底层空间独立提取;并且假设样例i的标签独立于样例 j(i≠j)的特性。违反这一假设会对某些算法带来严重的影响。

从数学角度来说,随机变量 X 独立于 Y,即 X 的结果不会影响 Y 的发生,则 X 的概率分布 = X 事件单独发生的概率,P(X) = P(X|Y) , 对任意 X 和 Y 可能的取值都成立。

如果 X 与 Y 独立,也容易获得 X 与 Y 同时发生的概率(联合分布)等于两者分别的乘积,即 P(X,Y) = P(X)P(Y)。 另外,两者的协方差也为0, Cov(X,Y) = 0。

反过来,如果 Y 的结果会影响 X 的发生,如:若头天下雨,则第二天下雨的可能性会增大,则 X 和 Y 的联合分布 P(X,Y) = P(X)P(Y|X)。

3.4.2 条件独立性

类似的,如果关于 X 和 Y 的条件概率分布对于 Z 的每一个值都可以写成乘积的形式,那么这两个随机变量 X 和 Y 在给定随机变量 z 时是条件独立的(conditionally independent): P(X,Y|Z) = P(X|Z)P(Y|Z)

我们可以采用一种简化形式来表示独立性和条件独立性: X⊥Y 表示 X 和 Y 相互独立, X⊥Y | Z 表示 X 和 Y 在给定 Z 时条件独立。

条件独立性在贝叶斯网络(一种概率图模型)中尤为重要,贝叶斯网络正是利用条件独立性来简化联合概率分布的表示。

3.5 相关系数

常用的有皮尔逊相关系数,公式:

\[\rho_{X,Y} = \frac{Cov(X, Y)}{\sigma_X \sigma_Y}\]

即将两个变量的协方差除以两者的标准差,从而将该参数归一化到[-1,1]的区间内。

通常情况下通过以下相关系数取值范围判断变量的相关强度:

  • 0.8-1.0 极强相关

  • 0.6-0.8 强相关

  • 0.4-0.6 中等程度相关

  • 0.2-0.4 弱相关

  • 0.0-0.2 极弱相关或无相关

需要注意的是,皮尔逊相关系数只能衡量线性相关性,对于非线性关系可能无法准确反映。此外,相关系数为0只意味着无线性相关,但不排除存在非线性相关。

4. 大数定律

大数定律是指在随机试验中,每次出现的结果不同,但是大量重复试验出现的结果的平均值却几乎总是接近于某个确定的值。

其原因是,在大量的观察试验中,个别的、偶然的因素影响而产生的差异将会相互抵消,从而使现象的必然规律性显示出来。

4.1 切比雪夫大数定律

设 X₁, X₂, … 是相互独立的随机变量,它们具有相同的期望 μ 和相同的方差 σ²,则样本均值:

\[\bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i\]

当 n → ∞ 时,样本均值依概率收敛于期望 μ:

\[\lim_{n \to \infty} P(|\bar{X} - \mu| < \varepsilon) = 1\]

这意味着,当我们有足够多的独立样本时,样本均值可以作为总体期望的良好估计。

4.2 辛钦大数定律

辛钦大数定律进一步放宽了条件,不需要随机变量具有方差,只需要期望存在即可。

4.3 伯努利大数定律

伯努利大数定律是辛钦大数定律的特殊情况,设 n 次独立伯努利试验中事件 A 发生的次数为 n_A,事件 A 的概率为 p,则:

\[\lim_{n \to \infty} P\left(\left|\frac{n_A}{n} - p\right| < \varepsilon\right) = 1\]

伯努利大数定律为频率近似概率提供了理论依据,这也是为什么我们可以通过大量重复试验来估计概率。

5. 中心极限定理

中心极限定理是概率论中最重要的一组定理。设从均值为μ、方差为σ²(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ²/n的正态分布。

\[\bar{X} \approx N\left(\mu, \frac{\sigma^2}{n}\right)\]

中心极限定理的意义在于:无论原始总体的分布是什么,当样本量足够大时,样本均值的分布都会趋近于正态分布。这使得我们可以利用正态分布来进行统计推断。

5.1 中心极限定理的理解

让我们通过一个直观的例子来理解中心极限定理。假设我们从均匀分布的总体中抽取样本,并计算样本均值。最初样本均值的分布可能与均匀分布相似。但随着样本量 n 的增加,样本均值的分布会越来越接近正态分布。

中心极限定理在机器学习中有重要应用,例如: - 线性回归中系数假设检验的理论基础 - 置信区间的构建 - 大规模数据的近似计算

6. 抽样分布

在数理统计中,我们通常从总体中抽取样本来推断总体的性质。理解抽样分布是进行统计推断的关键。

6.1 统计量与样本

设 X₁, X₂, …, Xn 是从总体中抽取的样本,它们是相互独立且与总体同分布的随机变量。统计量是样本的函数,用于对总体进行推断。

常见的统计量包括:

样本均值

\[\bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i\]

样本方差

\[S^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2\]

注意,样本方差使用的是 n-1 而不是 n,这是为了保证无偏性。

样本标准差

\[S = \sqrt{S^2}\]

6.2 卡方分布

设 X₁, X₂, …, Xn 是相互独立的标准正态随机变量,则它们的平方和服从自由度为 n 的卡方分布:

\[\chi^2 = \sum_{i=1}^{n} X_i^2 \sim \chi^2(n)\]

记为 χ² ~ χ²(n)。

卡方分布的性质: - 期望为 n,方差为 2n - 可加性:若 X ~ χ²(m), Y ~ χ²(n),且独立,则 X + Y ~ χ²(m+n)

卡方分布在方差估计和独立性检验中有重要应用。

6.3 t分布

设 X ~ N(0, 1),Y ~ χ²(n),且 X 与 Y 独立,则:

\[t = \frac{X}{\sqrt{Y/n}} \sim t(n)\]

服从自由度为 n 的 t 分布,记为 t ~ t(n)。

t 分布的性质: - 当 n → ∞ 时,t 分布趋近于标准正态分布 - 与正态分布相比,t 分布的尾部更厚

t 分布主要用于小样本情况下总体均值的推断。

6.4 F分布

设 X ~ χ²(m),Y ~ χ²(n),且 X 与 Y 独立,则:

\[F = \frac{X/m}{Y/n} \sim F(m, n)\]

服从自由度为 (m, n) 的 F 分布,记为 F ~ F(m, n)。

F 分布在方差分析和回归分析中有重要应用。

6.5 样本均值与样本方差的分布

设总体服从正态分布 N(μ, σ²),X₁, X₂, …, Xn 是从中抽取的样本,则:

  • 样本均值 X̄ ~ N(μ, σ²/n)

  • 样本方差 S² 与样本均值 X̄ 独立

  • (n-1)S²/σ² ~ χ²(n-1)

这些结论是正态总体下统计推断的基础。

7. 参数估计

参数估计是数理统计的核心问题之一。给定总体分布的形式,但其中的参数未知,我们需要根据样本数据来估计这些参数。

7.1 点估计

7.1.1 矩估计法

矩估计法的思想是用样本矩来估计相应的总体矩。样本矩是样本的函数,作为总体矩的估计。

原理

  • 用样本均值估计总体均值:μ̂ = X̄

  • 用样本方差估计总体方差:σ̂² = S²

矩估计法的优点是简单直观,缺点是可能不是最优估计。

7.1.2 最大似然估计

最大似然估计(MLE)是更重要也更常用的估计方法。其思想是:选择参数的值,使得观测到当前样本的概率(似然)最大。

似然函数

对于离散总体,似然函数为:

\[L(\theta) = \prod_{i=1}^{n} P(X_i = x_i | \theta)\]

对于连续总体,似然函数为:

\[L(\theta) = \prod_{i=1}^{n} f(x_i | \theta)\]

求最大似然估计的步骤

  1. 写出似然函数 L(θ)

  2. 对似然函数取对数得到对数似然函数 ℓ(θ) = ln L(θ)

  3. 求导 dℓ(θ)/dθ 并设为 0

  4. 解方程得到 θ 的估计值

一个例子

假定我们从某一过程中观测到了10个数据点。我们首先要决定使用哪种模型来描述生成这些数据的最佳模型。对这些数据而言,我们假定数据生成过程可以通过高斯(正态)分布充分表达。

高斯分布有两个参数,均值 μ 和标准差 σ。我们想知道哪组参数最可能生成了我们观测到的数据点?

最大似然的目标是找到一些参数值,这些参数值对应的分布可以最大化观测到数据的概率。生成数据的真正分布是 f1 ~ N(10, 2.25)。

我们假设有3个数据点:9、9.5、11。我们想要计算高斯分布的参数 μ、σ 的最大似然估计。

假设每个数据点的生成和其他点是独立的,那么观测到所有数据的全(联合)概率为各数据点概率的乘积。我们只需找出能最大化以上表达式的值的 μ 和 σ 的值。

通过求导并设为零,我们可以得到参数的 MLE 值。

对数似然

实际上,对全概率表达式求导很麻烦。所以我们通常通过取自然对数对其加以简化。由于自然对数是单调递增函数,这么做不会影响最大化结果。因此我们可以操作简化了的对数似然,而不是原本的似然。

7.1.3 估计量的评价标准

无偏性

如果估计量 θ̂ 的期望等于参数真值 θ,则称 θ̂ 是 θ 的无偏估计量:

\[E[\hat{\theta}] = \theta\]

例如,样本均值 X̄ 是总体均值 μ 的无偏估计,样本方差 S² 是总体方差 σ² 的无偏估计(注意使用 n-1)。

有效性

如果两个估计量都是无偏的,方差较小的更有效。

一致性(相合性)

当样本量 n 增大时,估计量依概率收敛于参数真值。

7.2 区间估计

点估计给出了一个具体值,但我们还需要知道估计的精度。区间估计提供了一个置信区间,表示参数真值落入该区间的概率。

7.2.1 置信区间

设 θ 是总体参数,X̄ 是样本均值,S² 是样本方差。对于正态总体,置信水平为 1-α 的置信区间为:

\[\bar{X} - t_{\alpha/2, n-1} \frac{S}{\sqrt{n}} \leq \mu \leq \bar{X} + t_{\alpha/2, n-1} \frac{S}{\sqrt{n}}\]

其中 t_{α/2, n-1} 是自由度为 n-1 的 t 分布的上 α/2 分位点。

置信区间的含义是:如果重复抽样多次,大约有 1-α 的区间会包含参数真值。

7.2.2 两个正态总体的区间估计

设有两个正态总体 N(μ₁, σ₁²) 和 N(μ₂, σ₂²),样本分别为 X̄₁, S₁² 和 X̄₂, S₂²。

均值差 μ₁ - μ₂ 的置信区间

当 σ₁² = σ₂² = σ² 未知时:

\[(\bar{X}_1 - \bar{X}_2) \pm t_{\alpha/2, n_1+n_2-2} \cdot S_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}\]

其中 Sp² 是合并方差:

\[S_p^2 = \frac{(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1 + n_2 - 2}\]

方差比 σ₁²/σ₂² 的置信区间

\[\frac{S_1^2/S_2^2}{F_{\alpha/2}(n_1-1, n_2-1)} \leq \frac{\sigma_1^2}{\sigma_2^2} \leq \frac{S_1^2/S_2^2}{F_{1-\alpha/2}(n_1-1, n_2-1)}\]

8. 假设检验

假设检验是统计推断的另一重要分支。它先对总体参数提出一个假设,然后根据样本数据来判断是否拒绝这个假设。

8.1 假设检验的基本思想

假设检验的基本思想是”证伪”而非”证实”。我们先建立一个原假设 H₀,然后寻找证据来拒绝它。如果样本数据提供了足够的证据,我们就拒绝 H₀;否则,我们不能拒绝 H₀。

两类错误

  • 第一类错误(弃真):原假设为真但我们拒绝了它,概率为 α(显著性水平)

  • 第二类错误(取伪):原假设为假但我们没有拒绝它,概率为 β

检验的势

1-β 表示当原假设为假时正确拒绝它的概率。

8.2 正态总体均值的检验

8.2.1 单样本 t 检验

检验 H₀: μ = μ₀

当 σ 未知时,使用 t 检验:

\[t = \frac{\bar{X} - \mu_0}{S / \sqrt{n}}\]

在原假设为真时,统计量 t 服从 t(n-1) 分布。

8.2.2 双样本 t 检验

检验两个正态总体均值是否相等:

\[t = \frac{\bar{X}_1 - \bar{X}_2}{S_p \sqrt{1/n_1 + 1/n_2}}\]

8.3 正态总体方差的检验

使用卡方检验来检验方差:

\[\chi^2 = \frac{(n-1)S^2}{\sigma_0^2}\]

8.4 卡方拟合优度检验

卡方拟合优度检验用于检验观测数据是否服从某个特定分布。

\[\chi^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i}\]

其中 Oi 是观测频数,Ei 是期望频数。

8.5 独立性检验

在列联表中检验两个分类变量是否独立:

\[\chi^2 = \sum_{i} \sum_{j} \frac{(O_{ij} - E_{ij})^2}{E_{ij}}\]

9. 最大似然估计

在机器学习中,我们经常使用模型描述从数据中观测结果的过程。例如,我们可能使用随机森林模型来分类客户是否会退订某项服务(称为客户翻转),也可能使用线性模型来基于广告开销预测利润(这将是线性回归的一个例子)。每个模型都包含各自的参数集合,参数集合最终定义了模型是什么样的。

我们可以用 y = mx + c 来表示线性模型。

最大似然估计是一个决定模型参数值的方法。参数值的选定最大化模型描述的过程的结果与数据实际观测所得的似然。

是利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值的一种方法。

9.1 最大似然估计的深入讨论

9.1.1 MLE 的性质

最大似然估计具有以下优良性质:

一致性:当样本量足够大时,MLE 趋近于参数真值。

渐近正态性:MLE 的分布近似为正态分布,其方差为费舍尔信息量的倒数。

有效性:在所有一致估计量中,MLE 的方差最小(渐近有效)。

9.1.2 约束最大似然估计

有时我们需要估计带有约束的参数,例如概率的和为1。这时可以使用约束最大似然估计(CMLE)。

9.2 最小二乘法与最大似然估计的关系

最小二乘法是另一个估计机器学习模型的参数值的方法。当模型像上文的例子中一样呈高斯分布的时候,MLE 估计等价于最小二乘法。

直觉上,我们可以通过理解两者的目标来解释两个方法之间的联系。最小二乘法想要找到最小化数据点和回归线之间的距离平方和的直线。最大似然估计想要最大化数据的全概率。如果数据符合高斯分布,那么当数据点接近均值时,我们找到了最大概率。由于高斯分布是对称的,因此这等价于最小化数据点和均值之间的距离。

10. 贝叶斯统计

贝叶斯统计是机器学习中另一个重要的概率论分支。与频率学派不同,贝叶斯学派认为参数本身也有不确定性,需要用概率分布来描述。贝叶斯方法的核心是贝叶斯定理,它允许我们在获得新数据后更新对参数的信念。

贝叶斯定理:

\[P(\theta | D) = \frac{P(D | \theta) P(\theta)}{P(D)}\]

其中: - P(θ) 是先验分布,表示在观测数据之前对参数 θ 的信念 - P(D|θ) 是似然函数,表示在给定参数 θ 下观测到数据 D 的概率 - P(θ|D) 是后验分布,表示观测数据之后对参数 θ 的更新信念 - P(D) 是边际似然(证据),用于归一化

10.1 先验分布的选择

先验分布的选择是贝叶斯统计中的重要问题。

无信息先验

当对参数几乎没有先验知识时,可以使用无信息先验,如均匀分布。

共轭先验

共轭先验是指与似然函数共轭的先验分布,使用共轭先验可以简化后验分布的计算。例如: - 二项分布的共轭先验是 Beta 分布 - 正态分布的共轭先验是正态分布 - 泊松分布的共轭先验是 Gamma 分布

10.2 贝叶斯估计

贝叶斯估计是后验分布的某种特征值,如后验均值、后验众数或后验中位数。

\[\hat{\theta}_{Bayes} = E[\theta | D] = \int \theta \cdot p(\theta | D) d\theta\]

10.3 贝叶斯方法在机器学习中的应用

贝叶斯方法在机器学习中有广泛应用:

朴素贝叶斯分类器

基于贝叶斯定理和特征条件独立性假设进行分类。

贝叶斯优化

用于超参数调优,在目标函数评估成本高时特别有效。

贝叶斯神经网络

将神经网络的权重视为随机变量,用概率分布来描述权重的不确定性。

高斯过程回归

一种非参数的贝叶斯方法,用于函数估计。

11. 方差分析

方差分析(ANOVA)是一种用于比较多个组别均值差异的统计方法。

11.1 单因素方差分析

设因素 A 有 k 个水平,每个水平下有 n 个观测值。

假设检验

H₀: μ₁ = μ₂ = … = μ_k(所有组均值相等) H₁: 至少有两个均值不相等

检验统计量

\[F = \frac{MSB}{MSW} = \frac{SSB/(k-1)}{SSW/(k(n-1))}\]

其中 MSB 是组间均方,MSW 是组内均方。

当 F > F_{α}(k-1, k(n-1)) 时拒绝原假设。

11.2 双因素方差分析

考虑两个因素的方差分析,可以分析主效应和交互效应。

12. 回归分析

回归分析是研究自变量与因变量之间关系的统计方法。

12.1 一元线性回归

设因变量 y 与自变量 x 满足线性关系:

\[y = \beta_0 + \beta_1 x + \varepsilon\]

其中 ε 是误差项,满足 E(ε) = 0, Var(ε) = σ²。

参数估计

使用最小二乘法估计回归系数:

\[\hat{\beta}_1 = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n}(x_i - \bar{x})^2}\]
\[\hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x}\]

回归系数的显著性检验

检验 H₀: β₁ = 0(自变量对因变量没有显著影响)

\[t = \frac{\hat{\beta}_1}{SE(\hat{\beta}_1)}\]

12.2 多元线性回归

扩展到多个自变量:

\[y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + ... + \beta_p x_p + \varepsilon\]

多元线性回归需要使用矩阵形式进行参数估计和假设检验。

12.3 线性回归的诊断

残差分析

检查残差是否满足独立同正态分布的假设。

多重共线性

当自变量之间存在高度相关时,会导致估计不稳定。

异方差性

当误差方差不是常数时,需要使用加权最小二乘法或稳健标准误。

References