1 Basic
补补基础,主要参考 AI 算法工程师手册 。
线性代数 ¶
标量对向量 / 矩阵的偏导数:假设 \(f=f(X)\) 是标量函数,矩阵偏导数 \(\frac{\partial f}{\partial X}\) 就是所有元素偏导数的矩阵:
概率论 ¶
- 如何通俗并深刻的理解 beta 分布 & 带你理解 beta 分布
- applets
- 概率分布可视化
机器学习 ¶
参考机器学习方法概论
- 机器学习三要素:模型、策略、算法。
模型 ¶
- 线性模型举例:感知机,k 近邻,k 均值,线性支持向量机
-
非线性模型举例:基于核函数的支持向量机,深度学习
-
参数化模型:假设模型参数的维度固定,模型可以由有限维参数完全刻画。
-
非参数化模型:假设模型参数的维度不固定或者无穷大,随着训练数据量的增加不断增大。
-
在线学习(online learning)
-
批量学习(batch learning)/ 离线学习(offline learning)
-
贝叶斯学习(Bayesian learning)
- 核方法(Kernel method)
策略 ¶
参考决策
- 数据 (Data): 假设我们有一个训练数据集 \(D = \{(x_1, y_1), (x_2, y_2), \dots, (x_N, y_N)\}\),其中每个样本 \((x_i, y_i)\) 都是从一个未知的真实数据联合分布 \(P(x, y)\) 中独立同分布 (i.i.d.) 采样得到的。
- 模型 (Model): 我们的目标是学习一个假设函数 \(f(x; \theta)\),它由参数 \(\theta\) 决定,用来预测输入 \(x\) 对应的输出 \(y\)。
- 损失函数 (Loss Function): \(L(y, f(x; \theta))\) 是一个非负实值函数,用于量化预测值 \(f(x; \theta)\) 与真实值 \(y\) 之间的差异。损失越小,代表模型预测得越好。
第一部分:风险最小化框架 (Risk Minimization) ¶
风险最小化框架的目标是找到一个最优的参数 \(\theta\),使得模型的损失最小。
1. 期望风险 (Expected Risk) ¶
期望风险是指模型在 所有可能的数据(真实数据分布) 上的平均损失。这是我们理论上最想最小化的目标。
- 核心问题 : 真实分布 \(P(x, y)\) 是未知的,所以期望风险无法直接计算。
2. 经验风险 (Empirical Risk) ¶
由于无法计算期望风险,我们退而求其次,使用已有的 训练数据 上的平均损失来近似它。
- 经验风险最小化 (Empirical Risk Minimization, ERM): 寻找使经验风险最小的参数 \(\theta\) 的原则。 $$ \hat{\theta}{ERM} = \arg\min(\theta) $$} R_{emp
- 核心问题 : 当模型复杂度过高或数据量不足时,ERM 容易导致 过拟合 (Overfitting)。模型在训练集上表现完美,但在未见过的测试集上表现很差。
3. 结构风险 (Structural Risk) ¶
为了解决过拟合问题,在经验风险的基础上增加了一个代表模型复杂度的 正则化项 (Regularizer) 或 惩罚项 (Penalty Term),构成了结构风险。
- 结构风险最小化 (Structural Risk Minimization, SRM): 寻找使结构风险最小的参数 \(\theta\) 的原则。 $$ \hat{\theta}{SRM} = \arg\min(\theta) $$} R_{srm
- \(J(\theta)\) 是一个关于模型参数 \(\theta\) 的函数,\(\theta\) 越复杂,\(J(\theta)\) 的值越大。例如,\(L_2\) 正则化项 \(J(\theta) = ||\theta||_2^2\)。
- \(\lambda\) 是一个超参数,用于权衡经验风险和模型复杂度。
第二部分:概率估计框架 (Probabilistic Estimation) ¶
概率估计框架将模型学习看作一个参数估计问题,目标是找到最能解释观测数据的参数 \(\theta\)。
1. 极大似然估计 (Maximum Likelihood Estimation, MLE) ¶
MLE 的目标是寻找参数 \(\theta\),使得 观测到的数据出现的概率最大。它假设参数 \(\theta\) 是一个未知的固定值。
- 似然函数 (Likelihood): 假设数据点之间独立同分布,给定参数 \(\theta\) 时,整个数据集 \(D\) 的似然函数是: $$ P(D|\theta) = \prod_{i=1}^{N} P(y_i|x_i; \theta) $$
- 为了计算方便,通常最大化对数似然函数 (Log-Likelihood): $$ \mathcal{L}(\theta) = \log P(D|\theta) = \sum_{i=1}^{N} \log P(y_i|x_i; \theta) $$
- MLE 估计量 : $$ \hat{\theta}{MLE} = \arg\max \log P(y_i|x_i; \theta) $$} \mathcal{L}(\theta) = \arg\max_{\theta} \sum_{i=1}^{N
2. 最大后验估计 (Maximum a Posteriori, MAP) ¶
MAP 不仅考虑数据的似然性,还引入了关于参数 \(\theta\) 的 先验知识 (Prior Knowledge)。它假设参数 \(\theta\) 本身也服从一个分布 \(g(\theta)\)。MAP 的目标是找到在观测到数据后,后验概率 \(P(\theta|D)\) 最大的参数。
- 根据贝叶斯定理 (Bayes' Theorem): $$ P(\theta|D) = \frac{P(D|\theta)g(\theta)}{P(D)} $$
- 其中 \(P(D)\) 与 \(\theta\) 无关,因此最大化后验概率等价于最大化分子: $$ \hat{\theta}{MAP} = \arg\max P(D|\theta)g(\theta) $$} P(\theta|D) = \arg\max_{\theta
- 同样,我们可以最大化其对数形式: $$ \hat{\theta}{MAP} = \arg\max \log P(y_i|x_i; \theta) + \log g(\theta) \right) $$} (\log P(D|\theta) + \log g(\theta)) = \arg\max_{\theta} \left( \sum_{i=1}^{N
第三部分:建立对应关系与证明 ¶
现在我们将风险最小化和概率估计联系起来。核心思想是:通过选择特定的损失函数 \(L\) 和正则化项 \(J\),可以使风险最小化等价于概率估计。
1. 经验风险最小化 (ERM) \(\iff\) 极大似然估计 (MLE) ¶
结论 : 当我们选择 损失函数为负对数似然函数 时,经验风险最小化就等价于极大似然估计。
证明 :
将 MLE 的目标转换为一个最小化问题:
$$ \hat{\theta}{MLE} = \arg\max \log P(y_i|x_i; \theta) \right) $$ 现在,我们来看 ERM 的目标:} \sum_{i=1}^{N} \log P(y_i|x_i; \theta) = \arg\min_{\theta} \left( -\sum_{i=1}^{N
$$ \hat{\theta}{ERM} = \arg\min L(y_i, f(x_i; \theta)) $$ 如果我们定义损失函数为负对数似然: $$ L(y_i, f(x_i; \theta)) := -\log P(y_i|x_i; \theta) $$ 那么 ERM 的目标就变为: $$ \hat{\theta}} \frac{1}{N} \sum_{i=1}^{N{ERM} = \arg\min \log P(y_i|x_i; \theta) \right) $$ 由于 } \frac{1}{N} \sum_{i=1}^{N} (-\log P(y_i|x_i; \theta)) = \arg\min_{\theta} \left( -\frac{1}{N} \sum_{i=1}^{N\(1/N\) 是一个正的常数,最小化上式等价于最小化括号内的求和项,这与 MLE 的最小化形式完全相同。
示例 : 在线性回归中,假设噪声服从均值为 0、方差为 \(\sigma^2\) 的高斯分布,即 \(y \sim \mathcal{N}(f(x;\theta), \sigma^2)\)。
\(P(y_i|x_i; \theta) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{(y_i - f(x_i; \theta))^2}{2\sigma^2}\right)\)。 其负对数似然损失为: \(-\log P(y_i|x_i; \theta) = \frac{(y_i - f(x_i; \theta))^2}{2\sigma^2} + \text{const}\)。 最小化这个损失,就等价于最小化 平方误差损失 (Squared Error Loss)。因此,在线性回归中,最小二乘法(ERM 的一种)等价于高斯噪声假设下的极大似然估计。
2. 结构风险最小化 (SRM) \(\iff\) 最大后验估计 (MAP) ¶
结论 : 当我们选择 损失函数为负对数似然函数,并且 正则化项为负对数先验 时,结构风险最小化就等价于最大后验估计。
证明 :
将 MAP 的目标转换为一个最小化问题: $$ \hat{\theta}{MAP} = \arg\max \log P(y_i|x_i; \theta) - \log g(\theta) \right) $$ 现在,我们来看 SRM 的目标: $$ \hat{\theta}} \left( \sum_{i=1}^{N} \log P(y_i|x_i; \theta) + \log g(\theta) \right) = \arg\min_{\theta} \left( -\sum_{i=1}^{N{SRM} = \arg\min J(\theta) \right) $$ (这里用 } \left( \sum_{i=1}^{N} L(y_i, f(x_i; \theta)) + \tilde{\lambda\(\tilde{\lambda}\) 是为了和前面公式的 \(\lambda\) 区分,因为 \(\lambda=1/N\))
如果我们定义: 1. 损失函数 : \(L(y_i, f(x_i; \theta)) := -\log P(y_i|x_i; \theta)\) 2. 正则化项 : \(J(\theta) := -\log g(\theta)\)
那么 SRM 的目标就变为: $$ \hat{\theta}{SRM} = \arg\min (-\log g(\theta)) \right) $$ 当超参数 } \left( \sum_{i=1}^{N} (-\log P(y_i|x_i; \theta)) + \tilde{\lambda\(\tilde{\lambda}=1\) 时,上式与 MAP 的最小化形式完全相同。因此,MAP 估计可以被看作是正则化的极大似然估计,也等价于一种特殊的结构风险最小化。
示例 :
- L2 正则化 (Ridge Regression): 如果参数的先验分布 \(g(\theta)\) 是一个均值为 0 的高斯分布 \(g(\theta) \sim \mathcal{N}(0, \alpha^2 I)\),那么负对数先验 \(-\log g(\theta) = \frac{1}{2\alpha^2}||\theta||_2^2 + \text{const}\)。这正好对应了 \(L_2\) 正则化项。
- L1 正则化 (Lasso): 如果参数的先验分布 \(g(\theta)\) 是一个拉普拉斯分布 (Laplace Distribution),那么负对数先验 \(-\log g(\theta)\) 正好对应了 \(L_1\) 正则化项 \(||\theta||_1\)。
3. 后验概率最大化 (Bayesian Estimation) ¶
“后验概率最大化” 通常就是指 MAP;然而,一个完整的 贝叶斯估计 (Bayesian Estimation) 观点与 MAP 是不同的。贝叶斯方法并不寻求一个单一的点估计 \(\hat{\theta}\),而是计算参数的 完整后验分布 \(P(\theta|D)\)。在做预测时,它会通过积分(或求和)来考虑所有可能的参数值,并用后验概率加权:
后验预测分布 (Posterior Predictive Distribution): $$ P(y_{new}|x_{new}, D) = \int P(y_{new}|x_{new}, \theta) P(\theta|D) \,d\theta $$
这种方法通过模型平均,更充分地利用了后验信息,是比 MAP 更彻底的贝叶斯方法,通常能提供更好的不确定性估计和更强的抗过拟合能力。
总结与辨析 ¶
框架 | 目标函数 | 对应关系 | 核心思想 |
---|---|---|---|
经验风险最小化 (ERM) | \(R_{emp} = \frac{1}{N}\sum L(y_i, f_i)\) | 极大似然估计 (MLE) | 最小化训练集上的平均损失。 |
结构风险最小化 (SRM) | \(R_{srm} = R_{emp} + \lambda J(\theta)\) | 最大后验估计 (MAP) | 在最小化训练损失的同时,惩罚模型复杂度以防过拟合。 |
极大似然估计 (MLE) | \(\sum \log P(y_i\|x_i; \theta)\) | ERM ( 当 \(L = -\log P\)) | 找到最能解释观测数据的参数。 |
最大后验估计 (MAP) | \(\sum \log P(y_i \| x_i; \theta) + \log g(\theta)\) | SRM ( 当 \(L = -\log P\), \(J = -\log g(\theta)\)) | 结合数据和先验知识,找到后验概率最大的参数。 |
贝叶斯估计 | \(P(\theta\|D)\) ( 整个分布 ) | ( 无直接对应 ) | 不找单一最优参数,而是计算参数的完整后验分布,并用于预测。 |