自信息量#
一个随机事件的自信息量定义为该事件发生的概率的负对数:
I(x)=−logP(x)
信息量的单位取决于对数所用的底数
该事件的不确定性越大,信息量越大;反之亦然
满足相加性:对于两个独立事件 x 和 y,有
I(x,y)=−log(P(x)P(y))=−logP(x)−logP(y)=I(x)+I(y)
熵是一个随机变量的不确定性的度量。对于一个离散随机变量 X,其熵定义为:
H(X)=−∑x∈XP(x)logP(x)
熵是自信息量的期望值,表示平均每个事件的信息量
因此也满足自信息量的性质
互信息量#
由于已知变量 Y 的值,变量 X 的不确定性减少了多少?
假设有两个随机变量 X 和 Y,它们的联合概率分布为 P(X,Y),边缘概率分布分别为 P(X) 和 P(Y)
互信息量定义为:
I(X;Y)=x∈X∑y∈Y∑P(x,y)logP(x)P(y)P(x,y)=H(X)−H(X∣Y)=H(X)+H(Y)−H(X,Y)性质:
- 非负性:I(X;Y)≥0
- 对称性:I(X;Y)=I(Y;X)
- 极值:I(X;Y)≤min(H(X),H(Y))
交叉熵#
交叉熵是衡量两个概率分布之间差异的度量。对于两个概率分布 P 和 Q,交叉熵定义为:
H(P,Q)=−∑xP(x)logQ(x)
交叉熵可以看作是使用分布 Q 来编码分布 P 的平均编码长度
交叉熵与 KL 散度的关系:
H(P,Q)=H(P)+DKL(P∥Q)
相对熵(KL 散度)#
KL 散度是衡量两个概率分布之间差异的度量。对于两个概率分布 P 和 Q,KL 散度定义为:
DKL(P∥Q)=∑xP(x)logQ(x)P(x)
KL 散度可以看作是使用分布 Q 来编码分布 P 的额外编码长度
KL 散度的性质:
- 非负性:DKL(P∥Q)≥0
- 不对称性:DKL(P∥Q)=DKL(Q∥P)
- 当且仅当 P=Q 时,DKL(P∥Q)=0
詹森不等式#
詹森不等式是一个重要的数学工具,用于证明熵和 KL 散度的非负性。对于一个凸函数 f 和一个随机变量 X,詹森不等式表明:
f(E[X])≤E[f(X)]