机器学习——期末复习（查漏补缺）

发表于 2025-06-10 更新于 2025-06-16 分类于大二下，机器学习阅读次数：

高斯核（RBF核）中 σ² 的作用及其对模型的影响

高斯核（RBF核）的形式为： $$ K(x, x') = \exp\left(-\frac{\|x - x'\|^2}{2\sigma^2}\right) $$ 其中 $ |x - x’| $ 是两个样本点之间的欧氏距离，$ ^2 $ 是高斯核的方差参数，控制核函数的“宽度”或“局部性”。

1. σ² 的几何意义：核函数的“影响范围”

σ² 较小时：
分母较小，指数项中的 $ $ 会更大，导致指数函数值快速衰减。
结果：只有当 $ x $ 和 $ x’ $ 非常接近时，核函数值才接近1；稍远一点的距离会导致核函数值迅速趋近于0。
直观理解：模型只关注局部区域内的样本点，决策边界会围绕每个样本点“弯曲”，形成复杂的非线性形状。
σ² 较大时：
分母较大，指数项中的 $ $ 会更小，指数函数值衰减缓慢。
结果：即使 $ x $ 和 $ x’ $ 相距较远，核函数值仍可能较大。
直观理解：模型会考虑更大范围的样本点，决策边界更平滑，接近线性分隔。

2. σ² 如何影响模型的复杂度

σ² 小 → 局部敏感，高复杂度：
- 每个样本点的影响范围有限，模型需要“记住”每个局部区域的细节。
- 决策边界会围绕每个样本点剧烈弯曲，甚至形成孤立的环形区域（如图1）。
- 容易过拟合：模型过度适应训练数据的噪声和细节。
σ² 大 → 全局平滑，低复杂度：
- 样本点的影响范围扩大，模型倾向于用简单的全局模式区分数据。
- 决策边界接近线性（如图2），可能无法捕捉数据中的非线性结构。
- 容易欠拟合：模型无法拟合数据中的局部特征。

3. 数学与直观示例

假设两个样本点 $ x_1 $ 和 $ x_2 $ 距离为 $ d $，核函数值 $ K(x_1, x_2) $ 随 $ ^2 $ 的变化如下：

$ ^2 $	$ d = 1 $	$ d = 2 $	$ d = 3 $
$ ^2 = 0.1 $	$ (-5) $	$ (-20) ^{-9} $	$ (-45) ^{-20} $
$ ^2 = 1 $	$ (-0.5) $	$ (-2) $	$ (-4.5) $
$ ^2 = 10 $	$ (-0.05) $	$ (-0.2) $	$ (-0.45) $

σ² 小（如 0.1）：距离稍大的样本点之间几乎无关联，模型仅依赖极邻近的点做决策。
σ² 大（如 10）：即使距离较远的样本点仍有显著关联，模型决策边界更平滑。

为什么使用高斯核之前要归一化

在使用高斯核（RBF核）之前对数据进行归一化，是机器学习中至关重要的预处理步骤。其核心原因是高斯核对特征的尺度（scale）极度敏感，而归一化能消除特征间尺度差异带来的负面影响。以下是详细解释：

高斯核的本质依赖距离计算

高斯核的公式为： $$ K(x, x') = \exp\left(-\frac{\|x - x'\|^2}{2\sigma^2}\right) $$ 其中 ∥x − x^′∥ 是两个样本点之间的欧氏距离。
问题：欧氏距离的计算受特征尺度影响极大。例如： - 假设特征A的取值范围是 [0,1]，特征B的取值范围是 [0,1000]。 - 此时特征B的差异会主导距离计算（如 $ (0.5)^2 + (500)^2 $），特征A的贡献几乎被忽略。

结果：模型决策边界会过度依赖尺度大的特征，导致性能下降。

归一化消除特征尺度差异

归一化（如标准化或最小-最大缩放）将所有特征调整到相似的数值范围（如 [0,1] 或均值为0、方差为1）。
效果： - 公平比较特征：每个特征对距离的贡献权重均衡。 - 防止“大尺度特征主导”：避免模型因某些特征数值过大而忽略其他重要特征。

示例：
假设两个样本：
- 未归一化：$ x_1 = [1, 100], x_2 = [2, 200] $，距离为 $ 。 − 归一化后（假设缩放到[0, 1]）： x_1 = [0.1, 0.1], x_2 = [0.2, 0.2] $，距离为 $ $。
此时两个特征的贡献比例从 1:100 变为 1:1。

高斯核参数 σ² 的有效性依赖归一化

高斯核的参数 σ²（或 γ = 1/σ²）决定了核函数的“局部性”（即模型关注局部还是全局模式）。
- 未归一化时：σ² 的选择必须同时适应不同尺度的特征，导致参数调优困难。 - 例如：若某特征尺度极大，需要极小的 σ² 才能捕捉其局部变化，但这可能使其他小尺度特征的核函数失效。 - 归一化后：所有特征尺度一致，σ² 的调参只需关注数据整体分布，而非单个特征的尺度。

SVM的Hinge损失函数

Hinge损失函数是支持向量机（SVM）中用于分类任务的核心损失函数，其核心思想是最大化分类间隔，同时惩罚分类错误或置信度不足的样本。以下是详细解析：

1. 数学定义

对于二分类问题，假设真实标签 $ y {+1, -1} $，模型输出 $ f(x) = w^T x + b ，则 * *Hinge损失 * *的定义为：$ (y, f(x)) = (0, 1 - y f(x)) $$ - 关键含义： - 当 $ y f(x) $：样本被正确分类且置信度足够（位于间隔边界外），损失为0。 - 当 $ y f(x) < 1 $：样本位于间隔内或被错误分类，损失随 $ y f(x) $ 线性增长。

2. 几何意义：最大化间隔

Hinge损失的设计与SVM的硬间隔（Hard Margin）和软间隔（Soft Margin）目标直接相关： - 硬间隔：要求所有样本严格满足 $ y_i (w^T x_i + b) $，即完全线性可分。 - 软间隔：允许部分样本违反间隔约束，通过Hinge损失将约束转化为优化目标： $$ \min_{w,b} \left( \frac{1}{2} \|w\|^2 + C \sum_{i=1}^n \max(0, 1 - y_i (w^T x_i + b)) \right) $$ - 第一项 $ |w|^2 $：最大化间隔（间隔宽度与 $ |w| $ 成反比）。 - 第二项 Hinge损失：惩罚违反间隔约束的样本，$ C $ 控制惩罚强度。

为什么树的数量增加不会导致过拟合？

核心原因：随机森林通过集成学习和多样性机制抑制了单棵决策树的过拟合风险。具体来说：

Bagging（自助聚合）机制：
每棵树的训练数据是通过有放回采样（Bootstrap）得到的子集，这意味着每棵树看到的数据略有不同，减少了对训练数据的“记忆”依赖。
特征随机选择：
每次分裂节点时，仅从随机选择的特征子集中挑选最优特征，进一步降低了各树之间的相关性。
投票/平均机制：
多棵树的预测结果通过投票（分类）或平均（回归）结合，高方差的个体树被平滑，整体模型的泛化能力增强。
收敛性保证：
随着树的数量增加，模型性能逐渐收敛到一个稳定值。即使继续增加树的数量，也不会显著提升训练集性能，更不会过拟合。

欧式距离的特性分析

欧式距离（Euclidean Distance）是衡量欧几里得空间中两点之间直线距离的常用方法，其公式为： $$ d(x, y) = \sqrt{\sum_{i=1}^n (x_i - y_i)^2} $$ 以下是对其特性的详细分析：

A. 旋转不变性

正确
- 定义：若坐标系旋转，两点间的欧式距离保持不变。
- 原因：旋转是刚性变换（rigid transformation），仅改变点的坐标表示，但不改变几何距离。
- 示例：在二维平面中，将坐标系旋转θ角度，两点 (x₁, y₁) 和 (x₂, y₂) 的旋转后坐标分别为： (x_1^′, y_1^′) = (x₁cos θ − y₁sin θ, x₁sin θ + y₁cos θ) (x_2^′, y_2^′) = (x₂cos θ − y₂sin θ, x₂sin θ + y₂cos θ) 计算旋转后的距离仍等于原始距离。

B. 尺度缩放不变性

错误
- 定义：若对坐标轴进行非均匀或均匀缩放，欧式距离会发生变化。
- 反例：假设对某维特征缩放 k 倍（如将 x_i 变为 kx_i），则距离变为原来的 k 倍。
- 结论：欧式距离依赖于特征的绝对尺度，不具备缩放不变性。

C. 不受量纲影响的特性

错误
- 定义：若不同特征的量纲不同（如身高[m]与体重[kg]），欧式距离的计算会因量纲差异而失真。
- 反例：
- 点A：(1.8m, 70kg)，点B：(1.7m, 65kg)
- 若不标准化，身高差（0.1m）与体重差（5kg）的贡献会被直接相加，但两者量纲不同，结果无实际意义。
- 解决方法：需通过标准化（如Z-score归一化）消除量纲影响。

下列哪个不属于特征提取

答案：D. 主成分分析

解析：

在文本分类的特征选择中，常用的方法包括：

A. 卡方检验值：通过统计检验评估特征与类别的相关性，属于过滤式特征选择方法。
B. 互信息：基于信息论，衡量特征与类别的依赖关系，属于无监督或半监督的特征选择方法。
C. 信息增益：基于熵的指标，评估特征对分类的贡献，常用于决策树等算法中的特征选择。

而 D. 主成分分析（PCA） 是一种 降维技术，通过线性变换将高维数据映射到低维空间，其核心目标是保留数据的主要方差，而非直接选择原始特征。它属于 特征提取（Feature Extraction）而非传统意义上的 特征选择（Feature Selection）。因此，主成分分析不属于常用的文本分类特征选择算法。

### ridge回归和lasso回归

Ridge回归（岭回归）和Lasso回归（套索回归）是两种常用的正则化线性回归方法，主要用于解决线性回归中的过拟合问题和特征选择问题。它们的核心思想是在损失函数中添加正则化项（惩罚项），从而限制模型参数的大小，提升模型的泛化能力。

1. Ridge回归（岭回归）

目标函数 $$ \min_{\mathbf{w}} \left\{ \sum_{i=1}^n (y_i - \mathbf{w}^T \mathbf{x}_i)^2 + \lambda \|\mathbf{w}\|_2^2 \right\} $$ - 第一项是普通线性回归的均方误差（MSE）。 - 第二项是L2正则化项（权重平方的和），λ ≥ 0 是正则化系数，控制惩罚强度。

特点

L2正则化：通过缩小权重系数（但不会完全置零）来减少模型复杂度。
解决多重共线性：当特征之间存在高度相关性时，Ridge回归能稳定回归系数。
唯一解：目标函数是凸函数，且严格凸，因此有唯一最优解。
计算效率高：可以通过解析解（闭式解）求解： w_Ridge = (X^TX + λI)⁻¹X^Ty

应用场景

特征维度较低，但存在多重共线性。
需要保留所有特征，但希望抑制其影响（如基因数据分析）。

2. Lasso回归（套索回归）

目标函数 $$ \min_{\mathbf{w}} \left\{ \sum_{i=1}^n (y_i - \mathbf{w}^T \mathbf{x}_i)^2 + \lambda \|\mathbf{w}\|_1 \right\} $$ - 第一项是均方误差。 - 第二项是L1正则化项（权重绝对值的和），λ ≥ 0 是正则化系数。

特点

L1正则化：强制部分权重系数为零，实现特征选择。
稀疏模型：适用于高维数据（如文本分类、基因数据），自动筛选关键特征。
非唯一解：目标函数是凸函数，但可能有多个解（当特征高度相关时）。
计算复杂度较高：通常需要迭代优化算法（如坐标下降法、近端梯度下降）。

应用场景

特征维度极高（如万维以上），需降维。
需要可解释性强的模型（如金融风控中的关键特征筛选）。

3. 总结

Ridge回归：适合特征较少且需要稳定系数的场景。
Lasso回归：适合高维数据和特征选择场景。
实际选择：
- 如果特征数量远大于样本数量（p ≫ n），优先使用Lasso。
- 如果特征间存在强相关性，优先使用Ridge或弹性网络。

通过调整正则化系数 λ，可以控制模型的复杂度与泛化能力。