熵 (信息论)


熵 (信息论) (正體)

跳过字词转换说明

的概念最先在1864年首先由鲁道夫·克劳修斯提出,并应用在热力学中。后来在1948年由克劳德·艾尔伍德·香农第一次引入到信息论中来。

定义

如果有一个系统S内存在多个事件S = {E1,...,En},每个事件的机率分布 P = {p1, ..., pn},则每个事件本身的讯息为:

Ie = − log2pi(对数以2为底,单位是比特(bit))
Ie = − lnpi(对数以e为底,单位是纳特/nats)

如英语有26个字母,假如每个字母在文章中出现次数平均的话,每个字母的讯息量为:

I_e = -\log_2 {1\over 26} = 4.7

而汉字常用的有2500个,假如每个汉字在文章中出现次数平均的话,每个汉字的信息量为:

I_e = -\log_2 {1\over 2500} = 11.3

熵是整个系统的平均消息量,即:

H_s = \sum_{i=1}^n p_i I_e = -\sum_{i=1}^n p_i \log_2 p_i

因为和热力学中描述热力学熵玻尔兹曼公式形式一样,所以也称为“熵”。

如果两个系统具有同样大的消息量,如一篇用不同文字写的同一文章,由于是所有元素消息量的加和,那么中文文章应用的汉字就比英文文章使用的字母要少。所以汉字印刷的文章要比其他应用总体数量少的字母印刷的文章要短。即使一个汉字占用两个字母的空间,汉字印刷的文章也要比英文字母印刷的用纸少。

实际上每个字母和每个汉字在文章中出现的次数并不平均,因此实际数值并不如同上述,但上述计算是一个总体概念。使用书写单元越多的文字,每个单元所包含的讯息量越大。

熵的特性

  1. 熵均大于等于零,即,H_s \ge 0
  2. 设N是系统S内的事件总数,则熵H_s \le log_2N。当且仅当p1=p2=...=pn时,等号成立,此时系统S的熵最大。
  3. 联合熵:H(X,Y) \le H(X) + H(Y),当且仅当X,Y在统计学上相互独立时等号成立。
  4. 条件熵H(X|Y) = H(X,Y) - H(Y) \le H(X),当且仅当X,Y在统计学上相互独立时等号成立。

参见







stock | retire | vm
Why are we here?
All text is available under the terms of the GNU Free Documentation License
This page is cache of Wikipedia. History