566 字
3 分钟
[人工智能数学基础] 不确定度量与熵

自信息量#

一个随机事件的自信息量定义为该事件发生的概率的负对数:

I(x)=logP(x)I(x) = -\log P(x)

信息量的单位取决于对数所用的底数

  • 2: 比特
  • ee: 奈特
  • 10: 哈特

该事件的不确定性越大,信息量越大;反之亦然

满足相加性:对于两个独立事件 xxyy,有

I(x,y)=log(P(x)P(y))=logP(x)logP(y)=I(x)+I(y)I(x, y) = -\log(P(x)P(y)) = -\log P(x) -\log P(y) = I(x) + I(y)

#

熵是一个随机变量的不确定性的度量。对于一个离散随机变量 XX,其熵定义为:

H(X)=xXP(x)logP(x)H(X) = -\sum_{x \in X} P(x) \log P(x)

熵是自信息量的期望值,表示平均每个事件的信息量

因此也满足自信息量的性质

互信息量#

由于已知变量 YY 的值,变量 XX 的不确定性减少了多少?

假设有两个随机变量 XXYY,它们的联合概率分布为 P(X,Y)P(X, Y),边缘概率分布分别为 P(X)P(X)P(Y)P(Y)

互信息量定义为:

I(X;Y)=xXyYP(x,y)logP(x,y)P(x)P(y)=H(X)H(XY)=H(X)+H(Y)H(X,Y)\begin{aligned} I(X; Y) &= \sum_{x \in X} \sum_{y \in Y} P(x, y) \log \frac{P(x, y)}{P(x)P(y)} \\[1.5em] &= H(X) - H(X|Y) \\ &= H(X) + H(Y) - H(X, Y) \end{aligned}

性质:

  • 非负性:I(X;Y)0I(X; Y) \geq 0
  • 对称性:I(X;Y)=I(Y;X)I(X; Y) = I(Y; X)
  • 极值:I(X;Y)min(H(X),H(Y))I(X; Y) \leq \min(H(X), H(Y))

交叉熵#

交叉熵是衡量两个概率分布之间差异的度量。对于两个概率分布 PPQQ,交叉熵定义为:

H(P,Q)=xP(x)logQ(x)H(P, Q) = -\sum_{x} P(x) \log Q(x)

交叉熵可以看作是使用分布 QQ 来编码分布 PP 的平均编码长度

交叉熵与 KL 散度的关系:

H(P,Q)=H(P)+DKL(PQ)H(P, Q) = H(P) + D_{KL}(P \| Q)

相对熵(KL 散度)#

KL 散度是衡量两个概率分布之间差异的度量。对于两个概率分布 PPQQ,KL 散度定义为:

DKL(PQ)=xP(x)logP(x)Q(x)D_{KL}(P \| Q) = \sum_{x} P(x) \log \frac{P(x)}{Q(x)}

KL 散度可以看作是使用分布 QQ 来编码分布 PP 的额外编码长度

KL 散度的性质:

  • 非负性:DKL(PQ)0D_{KL}(P \| Q) \geq 0
  • 不对称性:DKL(PQ)DKL(QP)D_{KL}(P \| Q) \neq D_{KL}(Q \| P)
  • 当且仅当 P=QP = Q 时,DKL(PQ)=0D_{KL}(P \| Q) = 0

詹森不等式#

詹森不等式是一个重要的数学工具,用于证明熵和 KL 散度的非负性。对于一个函数 ff 和一个随机变量 XX,詹森不等式表明:

f(E[X])E[f(X)]f(\mathbb{E}[X]) \leq \mathbb{E}[f(X)]

[人工智能数学基础] 不确定度量与熵
https://a1kari8.github.io/posts/ai_math/info/
作者
A1kari8
发布于
2026-05-03
许可协议
CC BY-NC-SA 4.0