机器学习——期末复习(查漏补缺)

高斯核(RBF核)中 σ² 的作用及其对模型的影响

高斯核(RBF核)的形式为: $$ K(x, x') = \exp\left(-\frac{\|x - x'\|^2}{2\sigma^2}\right) $$ 其中 $ |x - x’| $ 是两个样本点之间的欧氏距离,$ ^2 $ 是高斯核的方差参数,控制核函数的“宽度”或“局部性”。

1. σ² 的几何意义:核函数的“影响范围”

  • σ² 较小时
    分母较小,指数项中的 $ $ 会更大,导致指数函数值快速衰减。
    结果:只有当 $ x $ 和 $ x’ $ 非常接近时,核函数值才接近1;稍远一点的距离会导致核函数值迅速趋近于0。
    直观理解:模型只关注局部区域内的样本点,决策边界会围绕每个样本点“弯曲”,形成复杂的非线性形状。

  • σ² 较大时
    分母较大,指数项中的 $ $ 会更小,指数函数值衰减缓慢。
    结果:即使 $ x $ 和 $ x’ $ 相距较远,核函数值仍可能较大。
    直观理解:模型会考虑更大范围的样本点,决策边界更平滑,接近线性分隔。

2. σ² 如何影响模型的复杂度

  • σ² 小 → 局部敏感,高复杂度
    • 每个样本点的影响范围有限,模型需要“记住”每个局部区域的细节。
    • 决策边界会围绕每个样本点剧烈弯曲,甚至形成孤立的环形区域(如图1)。
    • 容易过拟合:模型过度适应训练数据的噪声和细节。
  • σ² 大 → 全局平滑,低复杂度
    • 样本点的影响范围扩大,模型倾向于用简单的全局模式区分数据。
    • 决策边界接近线性(如图2),可能无法捕捉数据中的非线性结构。
    • 容易欠拟合:模型无法拟合数据中的局部特征。

3. 数学与直观示例

假设两个样本点 $ x_1 $ 和 $ x_2 $ 距离为 $ d $,核函数值 $ K(x_1, x_2) $ 随 $ ^2 $ 的变化如下:

$ ^2 $ $ d = 1 $ $ d = 2 $ $ d = 3 $
$ ^2 = 0.1 $ $ (-5) $ $ (-20) ^{-9} $ $ (-45) ^{-20} $
$ ^2 = 1 $ $ (-0.5) $ $ (-2) $ $ (-4.5) $
$ ^2 = 10 $ $ (-0.05) $ $ (-0.2) $ $ (-0.45) $
  • σ² 小(如 0.1):距离稍大的样本点之间几乎无关联,模型仅依赖极邻近的点做决策。
  • σ² 大(如 10):即使距离较远的样本点仍有显著关联,模型决策边界更平滑。

为什么使用高斯核之前要归一化

在使用高斯核(RBF核)之前对数据进行归一化,是机器学习中至关重要的预处理步骤。其核心原因是高斯核对特征的尺度(scale)极度敏感,而归一化能消除特征间尺度差异带来的负面影响。以下是详细解释:

  1. 高斯核的本质依赖距离计算

高斯核的公式为: $$ K(x, x') = \exp\left(-\frac{\|x - x'\|^2}{2\sigma^2}\right) $$ 其中 x − x 是两个样本点之间的欧氏距离。
问题:欧氏距离的计算受特征尺度影响极大。例如: - 假设特征A的取值范围是 [0,1],特征B的取值范围是 [0,1000]。 - 此时特征B的差异会主导距离计算(如 $ (0.5)^2 + (500)^2 $),特征A的贡献几乎被忽略。

结果:模型决策边界会过度依赖尺度大的特征,导致性能下降。

  1. 归一化消除特征尺度差异

归一化(如标准化或最小-最大缩放)将所有特征调整到相似的数值范围(如 [0,1] 或均值为0、方差为1)。
效果: - 公平比较特征:每个特征对距离的贡献权重均衡。 - 防止“大尺度特征主导”:避免模型因某些特征数值过大而忽略其他重要特征。

示例
假设两个样本:
- 未归一化:$ x_1 = [1, 100], x_2 = [2, 200] $,距离为 $ 。 − [0, 1]): x_1 = [0.1, 0.1], x_2 = [0.2, 0.2] $,距离为 $ $。
此时两个特征的贡献比例从 1:100 变为 1:1。

  1. 高斯核参数 σ² 的有效性依赖归一化

高斯核的参数 σ²(或 γ = 1/σ²)决定了核函数的“局部性”(即模型关注局部还是全局模式)。
- 未归一化时:σ² 的选择必须同时适应不同尺度的特征,导致参数调优困难。 - 例如:若某特征尺度极大,需要极小的 σ² 才能捕捉其局部变化,但这可能使其他小尺度特征的核函数失效。 - 归一化后:所有特征尺度一致,σ² 的调参只需关注数据整体分布,而非单个特征的尺度。

SVM的Hinge损失函数

Hinge损失函数是支持向量机(SVM)中用于分类任务的核心损失函数,其核心思想是最大化分类间隔,同时惩罚分类错误或置信度不足的样本。以下是详细解析:

1. 数学定义

对于二分类问题,假设真实标签 $ y {+1, -1} $,模型输出 $ f(x) = w^T x + b  * *Hinge * *$ (y, f(x)) = (0, 1 - y f(x)) $$ - 关键含义: - 当 $ y f(x) $:样本被正确分类且置信度足够(位于间隔边界外),损失为0。 - 当 $ y f(x) < 1 $:样本位于间隔内或被错误分类,损失随 $ y f(x) $ 线性增长。

2. 几何意义:最大化间隔

Hinge损失的设计与SVM的硬间隔(Hard Margin)软间隔(Soft Margin)目标直接相关: - 硬间隔:要求所有样本严格满足 $ y_i (w^T x_i + b) $,即完全线性可分。 - 软间隔:允许部分样本违反间隔约束,通过Hinge损失将约束转化为优化目标: $$ \min_{w,b} \left( \frac{1}{2} \|w\|^2 + C \sum_{i=1}^n \max(0, 1 - y_i (w^T x_i + b)) \right) $$ - 第一项 $ |w|^2 $:最大化间隔(间隔宽度与 $ |w| $ 成反比)。 - 第二项 Hinge损失:惩罚违反间隔约束的样本,$ C $ 控制惩罚强度。

为什么树的数量增加不会导致过拟合?

核心原因:随机森林通过集成学习多样性机制抑制了单棵决策树的过拟合风险。具体来说:

  1. Bagging(自助聚合)机制
    每棵树的训练数据是通过有放回采样(Bootstrap)得到的子集,这意味着每棵树看到的数据略有不同,减少了对训练数据的“记忆”依赖。

  2. 特征随机选择
    每次分裂节点时,仅从随机选择的特征子集中挑选最优特征,进一步降低了各树之间的相关性。

  3. 投票/平均机制
    多棵树的预测结果通过投票(分类)或平均(回归)结合,高方差的个体树被平滑,整体模型的泛化能力增强。

  4. 收敛性保证
    随着树的数量增加,模型性能逐渐收敛到一个稳定值。即使继续增加树的数量,也不会显著提升训练集性能,更不会过拟合。

欧式距离的特性分析

欧式距离(Euclidean Distance)是衡量欧几里得空间中两点之间直线距离的常用方法,其公式为: $$ d(x, y) = \sqrt{\sum_{i=1}^n (x_i - y_i)^2} $$ 以下是对其特性的详细分析:

A. 旋转不变性

正确
- 定义:若坐标系旋转,两点间的欧式距离保持不变。
- 原因:旋转是刚性变换(rigid transformation),仅改变点的坐标表示,但不改变几何距离。
- 示例:在二维平面中,将坐标系旋转θ角度,两点 (x1, y1)(x2, y2) 的旋转后坐标分别为: (x1, y1) = (x1cos θ − y1sin θ, x1sin θ + y1cos θ) (x2, y2) = (x2cos θ − y2sin θ, x2sin θ + y2cos θ) 计算旋转后的距离仍等于原始距离。

B. 尺度缩放不变性

错误
- 定义:若对坐标轴进行非均匀或均匀缩放,欧式距离会发生变化。
- 反例:假设对某维特征缩放 k 倍(如将 xi 变为 kxi),则距离变为原来的 k 倍。
- 结论:欧式距离依赖于特征的绝对尺度,不具备缩放不变性。

C. 不受量纲影响的特性

错误
- 定义:若不同特征的量纲不同(如身高[m]与体重[kg]),欧式距离的计算会因量纲差异而失真。
- 反例
- 点A:(1.8m, 70kg),点B:(1.7m, 65kg)
- 若不标准化,身高差(0.1m)与体重差(5kg)的贡献会被直接相加,但两者量纲不同,结果无实际意义。
- 解决方法:需通过标准化(如Z-score归一化)消除量纲影响。

下列哪个不属于特征提取

答案:D. 主成分分析

解析:

在文本分类的特征选择中,常用的方法包括:

  • A. 卡方检验值:通过统计检验评估特征与类别的相关性,属于过滤式特征选择方法。
  • B. 互信息:基于信息论,衡量特征与类别的依赖关系,属于无监督或半监督的特征选择方法。
  • C. 信息增益:基于熵的指标,评估特征对分类的贡献,常用于决策树等算法中的特征选择。

D. 主成分分析(PCA) 是一种 降维技术,通过线性变换将高维数据映射到低维空间,其核心目标是保留数据的主要方差,而非直接选择原始特征。它属于 特征提取(Feature Extraction)而非传统意义上的 特征选择(Feature Selection)。因此,主成分分析不属于常用的文本分类特征选择算法。

### ridge回归和lasso回归

Ridge回归(岭回归)和Lasso回归(套索回归)是两种常用的正则化线性回归方法,主要用于解决线性回归中的过拟合问题特征选择问题。它们的核心思想是在损失函数中添加正则化项(惩罚项),从而限制模型参数的大小,提升模型的泛化能力。

1. Ridge回归(岭回归)

目标函数 $$ \min_{\mathbf{w}} \left\{ \sum_{i=1}^n (y_i - \mathbf{w}^T \mathbf{x}_i)^2 + \lambda \|\mathbf{w}\|_2^2 \right\} $$ - 第一项是普通线性回归的均方误差(MSE)。 - 第二项是L2正则化项(权重平方的和),λ ≥ 0 是正则化系数,控制惩罚强度。

特点

  • L2正则化:通过缩小权重系数(但不会完全置零)来减少模型复杂度。
  • 解决多重共线性:当特征之间存在高度相关性时,Ridge回归能稳定回归系数。
  • 唯一解:目标函数是凸函数,且严格凸,因此有唯一最优解。
  • 计算效率高:可以通过解析解(闭式解)求解: wRidge = (XTX + λI)−1XTy

应用场景

  • 特征维度较低,但存在多重共线性。
  • 需要保留所有特征,但希望抑制其影响(如基因数据分析)。

2. Lasso回归(套索回归)

目标函数 $$ \min_{\mathbf{w}} \left\{ \sum_{i=1}^n (y_i - \mathbf{w}^T \mathbf{x}_i)^2 + \lambda \|\mathbf{w}\|_1 \right\} $$ - 第一项是均方误差。 - 第二项是L1正则化项(权重绝对值的和),λ ≥ 0 是正则化系数。

特点

  • L1正则化:强制部分权重系数为零,实现特征选择。
  • 稀疏模型:适用于高维数据(如文本分类、基因数据),自动筛选关键特征。
  • 非唯一解:目标函数是凸函数,但可能有多个解(当特征高度相关时)。
  • 计算复杂度较高:通常需要迭代优化算法(如坐标下降法、近端梯度下降)。

应用场景

  • 特征维度极高(如万维以上),需降维。
  • 需要可解释性强的模型(如金融风控中的关键特征筛选)。

3. 总结

  • Ridge回归:适合特征较少且需要稳定系数的场景。
  • Lasso回归:适合高维数据和特征选择场景。
  • 实际选择
    • 如果特征数量远大于样本数量(p ≫ n),优先使用Lasso。
    • 如果特征间存在强相关性,优先使用Ridge或弹性网络。

通过调整正则化系数 λ,可以控制模型的复杂度与泛化能力。