交叉熵损失函数
引言
交叉熵损失函数是衡量模型预测分布与真实分布差异的核心工具。其设计遵循对高置信度错误施以重罚的原则,能够有效引导模型学习。
直观理解:交叉熵就像一个评分系统,其扣分逻辑是“越是自认为正确的错误,惩罚越重”。
一、数学定义
1.1 二分类交叉熵
对于二分类任务,模型输出一个概率值 (属于类别 1 的概率),真实标签 。
单个样本的损失公式:
直观理解:
- 当 时,: 越接近 1,损失越小。
- 当 时,: 越接近 0,损失越小。
个样本的平均损失:
1.2 多分类交叉熵
用于类别数 的情况,通常配合 Softmax 激活函数使用。
公式:
其中:
- :类别总数
- :One-hot 编码的真实标签向量
- :模型预测样本属于第 类的概率
简化: 由于 中只有一个 1,其余为 0,公式简化为:
只关心正确类别对应的预测概率。预测越准,损失越小。
二、信息论基础
2.1 信息量(自信息/惊奇度)
定义: 量化单个事件发生时带来的信息量。
直观理解:
- 大概率事件():信息量 ,不令人惊奇
- 小概率事件():信息量 很大,令人惊奇
结论:事件概率越小,发生后的”惊喜”越大,包含的信息量就越大。
2.2 香农熵(信息熵)
定义: 衡量一个随机变量的平均不确定性,是所有可能事件信息量的期望值。
期望形式:
性质:
- 当分布完全确定时(如 one-hot),熵为 0
- 当分布完全均匀时,熵取最大值
- 分布越均匀,不确定性越高,熵值越大
- 分布越集中,不确定性越低,熵值越小
2.3 交叉熵
定义: 使用预测分布 来描述真实分布 所需的平均信息量。
与香农熵的关系:
- 当 时,交叉熵等于香农熵 (理想情况)
- 当 时,
直观解释:
- 站在真实分布 的角度(用 加权),衡量预测分布 的”惊奇程度”
- 为 1 的事件,如果 预测概率低,则 很大,损失爆炸
- 这是模型的惩罚机制:对真相预测不准,就给予重罚
2.4 KL散度(相对熵)
定义: 衡量两个概率分布之间的差异。
与交叉熵的关系(黄金恒等式):
物理意义:
- :理论最小编码长度(数据的本质难度)
- :使用 编码时的实际长度
- :因使用错误分布 而额外浪费的编码长度
机器学习意义: 真实数据的熵 是常数,因此最小化交叉熵等价于最小化 KL 散度。
2.5 KL散度的非对称性
KL散度不是真正的距离度量,因为 。
前向 KL()
公式: 权重依据: 真实分布 惩罚: 有值但 没预测到(怕”漏报”) 行为: Mean-seeking(求均值)模型会覆盖 的所有支撑集 应用: 监督学习(分类任务)
反向 KL()
公式: 权重依据: 近似分布 惩罚: 预测有值但 没有(怕”误报”) 行为: Mode-seeking(求众数)模型会锁定 的一个峰值 应用: 变分推断(如 VAE)
对比总结
| 特性 | 前向 KL () | 反向 KL () |
|---|---|---|
| 别名 | Moment Matching | Information Projection |
| 权重依据 | 真实分布 | 近似分布 |
| 害怕什么 | 漏报 (Zero-avoiding) | 误报 (Zero-forcing) |
| 几何行为 | Mean-Seeking(覆盖所有峰) | Mode-Seeking(锁定一个峰) |
| 视觉效果 | 模糊(平均化多种可能性) | 清晰但单一(忽略多样性) |
| 典型应用 | 最大似然估计 (MLE) | 变分推断 |
三、统计学基础:最大似然估计
3.1 核心结论
在机器学习分类问题中: 最小化交叉熵损失 最大化对数似然估计
最大似然的核心思想:寻找一组模型参数 ,使得在这组参数下,观察到当前训练数据的概率最大。
3.2 数学推导
似然函数
对于 个独立同分布样本 :
对数似然
取对数简化计算:
二分类情况
真实标签 ,模型输出概率 ,服从伯努利分布:
对数似然:
负对数似然(即损失函数):
这正是二分类交叉熵损失。
多分类情况
对于 个类别,真实标签为 One-hot 向量 :
这正是多分类交叉熵损失。
3.3 两种视角的统一
| 视角 | 衡量对象 | 优化目标 | 本质联系 |
|---|---|---|---|
| 信息论视角 | 交叉熵 | 最小化分布差异 | |
| 统计学视角 | 负对数似然 | 最大化数据似然 | 数学形式完全一致 |
关键洞见:
- 在分类任务中,真实分布 是 One-Hot 分布,熵
- 因此,最小化交叉熵 等价于最小化 KL 散度
- 交叉熵损失易于计算和求导,为梯度优化提供便利
四、为什么对高置信度错误惩罚更重?
这是交叉熵的核心设计特点,源于对数函数的性质。
考虑二分类情况:
- 真实标签
- 模型预测 :
- 模型预测 :
分析:
- 预测正确但不够自信():损失较小
- 预测错误且非常自信():损失很大
- 预测错误但不太自信():,介于两者之间
数学原因: 对数函数 在 区间是单调递减的凸函数:
- 当 (高置信度错误)时,
- 当 (高置信度正确)时,
训练意义: 这种性质迫使模型不仅要预测正确,还要对自己的预测有足够的信心,从而学习到更确定的决策边界。
部分信息可能已经过时









