[人工智能数学基础] 不确定度量与熵

566 字

3 分钟

[人工智能数学基础] 不确定度量与熵

2026-05-03

人工智能数学基础

/

数学

自信息量#

一个随机事件的自信息量定义为该事件发生的概率的负对数：

$I(x) = -\log P(x)$

信息量的单位取决于对数所用的底数

2: 比特
$e$ : 奈特
10: 哈特

该事件的不确定性越大，信息量越大；反之亦然

满足相加性：对于两个独立事件 $x$ 和 $y$ ，有

$I(x, y) = -\log(P(x)P(y)) = -\log P(x) -\log P(y) = I(x) + I(y)$

熵#

熵是一个随机变量的不确定性的度量。对于一个离散随机变量 $X$ ，其熵定义为：

$H(X) = -\sum_{x \in X} P(x) \log P(x)$

熵是自信息量的期望值，表示平均每个事件的信息量

因此也满足自信息量的性质

互信息量#

由于已知变量 $Y$ 的值，变量 $X$ 的不确定性减少了多少？

假设有两个随机变量 $X$ 和 $Y$ ，它们的联合概率分布为 $P(X, Y)$ ，边缘概率分布分别为 $P(X)$ 和 $P(Y)$

互信息量定义为：

\begin{aligned} I(X; Y) &= \sum_{x \in X} \sum_{y \in Y} P(x, y) \log \frac{P(x, y)}{P(x)P(y)} \\[1.5em] &= H(X) - H(X|Y) \\ &= H(X) + H(Y) - H(X, Y) \end{aligned}

性质：

非负性： $I(X; Y) \geq 0$
对称性： $I(X; Y) = I(Y; X)$
极值： $I(X; Y) \leq \min(H(X), H(Y))$

交叉熵#

交叉熵是衡量两个概率分布之间差异的度量。对于两个概率分布 $P$ 和 $Q$ ，交叉熵定义为：

$H(P, Q) = -\sum_{x} P(x) \log Q(x)$

交叉熵可以看作是使用分布 $Q$ 来编码分布 $P$ 的平均编码长度

交叉熵与 KL 散度的关系：

$H(P, Q) = H(P) + D_{KL}(P \| Q)$

相对熵（KL 散度）#

KL 散度是衡量两个概率分布之间差异的度量。对于两个概率分布 $P$ 和 $Q$ ，KL 散度定义为：

$D_{KL}(P \| Q) = \sum_{x} P(x) \log \frac{P(x)}{Q(x)}$

KL 散度可以看作是使用分布 $Q$ 来编码分布 $P$ 的额外编码长度

KL 散度的性质：

非负性： $D_{KL}(P \| Q) \geq 0$
不对称性： $D_{KL}(P \| Q) \neq D_{KL}(Q \| P)$
当且仅当 $P = Q$ 时， $D_{KL}(P \| Q) = 0$

詹森不等式#

詹森不等式是一个重要的数学工具，用于证明熵和 KL 散度的非负性。对于一个凸函数 $f$ 和一个随机变量 $X$ ，詹森不等式表明：

$f(\mathbb{E}[X]) \leq \mathbb{E}[f(X)]$

[人工智能数学基础] 不确定度量与熵

https://a1kari8.github.io/posts/ai_math/info/

作者

A1kari8

发布于

2026-05-03

许可协议

CC BY-NC-SA 4.0

[人工智能数学基础] 凸优化

[人工智能数学基础] 快速写出旋转矩阵