以下采用通信学组全文转换 [编辑]
熵的概念最先在1864年首先由鲁道夫·克劳修斯提出,并应用在热力学中。后来在1948年由克劳德·艾尔伍德·香农第一次引入到信息论中来。
如果有一个系统S内存在多个事件S = {E1,...,En},每个事件的机率分布 P = {p1, ..., pn},则每个事件本身的讯息为:
如英语有26个字母,假如每个字母在文章中出现次数平均的话,每个字母的讯息量为:

而汉字常用的有2500个,假如每个汉字在文章中出现次数平均的话,每个汉字的信息量为:

熵是整个系统的平均消息量,即:

因为和热力学中描述热力学熵的玻尔兹曼公式形式一样,所以也称为“熵”。
如果两个系统具有同样大的消息量,如一篇用不同文字写的同一文章,由于是所有元素消息量的加和,那么中文文章应用的汉字就比英文文章使用的字母要少。所以汉字印刷的文章要比其他应用总体数量少的字母印刷的文章要短。即使一个汉字占用两个字母的空间,汉字印刷的文章也要比英文字母印刷的用纸少。
实际上每个字母和每个汉字在文章中出现的次数并不平均,因此实际数值并不如同上述,但上述计算是一个总体概念。使用书写单元越多的文字,每个单元所包含的讯息量越大。
。
。当且仅当p1=p2=...=pn时,等号成立,此时系统S的熵最大。
,当且仅当X,Y在统计学上相互独立时等号成立。
,当且仅当X,Y在统计学上相互独立时等号成立。stock | retire | vm
Why are we here?
All text is available under the terms of the GNU Free Documentation License
This page is cache of Wikipedia. History