type
status
date
slug
summary
tags
category
icon
password
Property
信息熵
熵是热力学的一个物理概念,是体系混乱度或无序度的度量,熵越大表示系统越乱(即携带的信息越少),熵越小表示系统越有序(即携带的信息越多)。信息熵借鉴了热力学中熵的概念,用于描述平均而言事件信息量的大小,所以在数学上,信息熵是事件所包含的信息量的期望(mean,或称均值,或称期望,是试验中每次可能结果的概率乘以其结果的总和),根据期望的定义,可以设想信息熵的公式大概是:
每种可能事件包含的信息量的计算采用不确定性函数:
采用不确定性函数,一方面可以保证信息量是概率P的单调递减函数,另一方面可以保证两个独立事件所产生的不确定性应等于各自不确定性纸和,即具备可加性。
将不确定性函数带入开始时设想的公式:
是熵,是所有可能事件的集合,有中取值:对应概率为:对数的底一般为2。
熵权法
根据信息熵的定义,对于某项指标,可以用熵值来判断某个指标的离散程度,其熵值越小,指标的离散程度越大,该指标对综合评价的影响(即权重)就越大,如果某项指标的值全部相等,则该指标在综合评价中不起作用。
熵权法的计算步骤
确定指标体系
数据预处理
数据预处理即冗余数据处理、异常值处理等
归一化处理
计算指标的熵和权
先计算第 个用户的第 个指标的比重:
计算第个指标的信息熵,其中, 为常数,
计算第个指标的权重
指标加权计算得分
利用加权求和公式计算样本的分数或评价值
优缺点
优点
能深刻反映出指标的区分能力,进而确定权重
是一种客观赋权法,相对主管赋权具有较高的可信度和精确度
算法简单
缺点
不够智能,没有考虑指标与指标之间的影响,如:相关性、层级关系等
若无业务经验指导,权重可能失真
对样本的依赖性较大,随着建模样本不断变化,权重会发生一定波动
适用范围
当业务经验不会使得权重发生失真,则比较适用于熵权法;反之,若经常发生权重失真的情况,则需要结合专家打分或评判才能较好的发挥熵权法的优势。同时,确定权重前需要确定指标对目标得分的影响方向,对非线性的指标要进行预处理或者剔除。