彩潭有鲤的札记

🐼

Scikit-opt

type

status

date

slug

summary

tags

category

icon

password

Property

目标函数加速

为了提升速度，scikit-opt 支持3种提升速度的方案：矢量化，并行化，缓存化

矢量化：要求目标函数本身支持矢量化运算（详见代码）。矢量化运算拥有极高的性能，通常比并行化运算要快。算法中，每代对应1次矢量化运算

多线程：对目标函数没什么要求，通常比一般运算要快。如果目标函数是 IO 密集型，能达到更优的性能

多进程：对目标函数没什么要求，通常比一般运算要快。如果目标函数是 CPU 密集型，能达到更优的性能

缓存化：把每次计算的输入和输出缓存下来，下次调用时，如果已经缓存中已经存在，那么直接取出结果，而不再调用。缓存化特别适用于输入值有限的情况，例如纯整数规划、迭代到后期的TSP问题等。

总的来说，性能上，矢量化 远远大于 多线程/多进程 大于 不加速，如果是输入值得可能个数有限，缓存化 远大于其他方案。

下面比较 不加速、矢量化、多线程、多进程 的性能：

算子优化加速

type

status

date

slug

summary

tags

category

icon

password

Property

type

status

date

slug

summary

tags

category

icon

password

Property

信息熵

熵是热力学的一个物理概念，是体系混乱度或无序度的度量，熵越大表示系统越乱（即携带的信息越少），熵越小表示系统越有序（即携带的信息越多）。信息熵借鉴了热力学中熵的概念，用于描述平均而言事件信息量的大小，所以在数学上，信息熵是事件所包含的信息量的期望（mean，或称均值，或称期望，是试验中每次可能结果的概率乘以其结果的总和），根据期望的定义，可以设想信息熵的公式大概是：

每种可能事件包含的信息量的计算采用不确定性函数：

采用不确定性函数，一方面可以保证信息量是概率P的单调递减函数，另一方面可以保证两个独立事件所产生的不确定性应等于各自不确定性纸和，即具备可加性。

将不确定性函数带入开始时设想的公式：

是熵，是所有可能事件的集合，有中取值：对应概率为：对数的底一般为2。

熵权法

根据信息熵的定义，对于某项指标，可以用熵值来判断某个指标的离散程度，其熵值越小，指标的离散程度越大，该指标对综合评价的影响（即权重）就越大，如果某项指标的值全部相等，则该指标在综合评价中不起作用。

type

status

date

slug

summary

tags

category

icon

password

Property

type

status

date

slug

summary

tags

category

icon

password

Property

C.L.Hwang 和 K.Yoon 于1981年首次提出 TOPSIS (Technique for Order Preference by Similarity to an Ideal Solution)。TOPSIS 法是一种常用的组内综合评价方法，能充分利用原始数据的信息，其结果能精确地反映各评价方案之间的差距。基本过程为基于归一化后的原始数据矩阵，采用余弦法找出有限方案中的最优方案和最劣方案，然后分别计算各评价对象与最优方案和最劣方案间的距离，获得各评价对象与最优方案的相对接近程度，以此作为评价优劣的依据。该方法对数据分布及样本含量没有严格限制，数据计算简单易行。

通俗的例子：小明数学考试 134 分，要怎么知道他的成绩是好还是不好呢？

基于分布的评价方法会观察小明的分数位于班级分数的哪个水平（如前 5%、前 10%），但这种评价方法只能给出一个方向的情况。如班上成绩除了最高分外，其余都是 134 分，那么小明的成绩就是并列的倒数第一，但是正向评价给出的结果是前 5%。　　而 TOPSIS 就是找出班上最高分（假设是 147 分）、最低分（假设是 69 分），然后计算小明的分数和这两个分数之间的差距，从而得到自己分数好坏的一个客观评价。距离最高分越近，那么评价情况越好，距离最低分越近，那么评价情况越糟。

TOPSIS过程

指标属性同向化，一般选择指标正向化

TOPSIS 法使用距离尺度来度量样本差距，使用距离尺度就需要对指标属性进行同向化处理（若一个维度的数据越大越好，另一个维度的数据越小越好，会造成尺度混乱）。通常采用成本型指标向效益型指标转化（即数值越大评价越高，事实上几乎所有的评价方法都需要进行转化），此外，如果需要使用雷达图进行展示，建议此处将所有数据都变成正数。

极小型指标：期望指标值越小越好（如患病率、死亡率等）

M为指标 x可能取值的最大值

type

status

date

slug

summary

tags

category

icon

password

Property

type

status

date

slug

summary

tags

category

icon

password

Property

企业管理者如何评估一所快餐分销店、银行支行、健康诊所或初等学校的生产力？衡量生产力有三重困难：第一，什么是系统适当的投入（如劳动力时间、材料金额）及其度量方法？第二，什么是系统适当的产出（如现金支票、存款凭证）及其度量方法？第三，正确衡量这些投入产出之间关系的方法是什么？

衡量服务生产力

从工程学角度看，衡量组织的生产力和衡量系统的效率相似。它可以表述为产出和投入的比率。

例如，再评估一个银行支行的运营效率时，可以用一个会计比率，如每笔出纳交易的成本。相对于其他支行，一个支行的比率较高，则可以认为其效率较低，但是较高的比率可能是源于一个更复杂的交易组合。运用简单比率的问题就在于产出组合没有明确。关于投入组合，也能作出同样的评论。广泛基础上的指标，如赢利性和投资回报，和全面绩效评估高度相关。但它们不足以评估一个服务单位的运营效率。比如，你不能得到以下的结论：一个赢利的支行必定在雇员和其他投入的使用上是有效的。赢利性业务的比率高于平均水平比资源运用的成本效率更能解释其赢利性。

DEA模型

目前，开发出一种技术，通过明确地考虑多种投入（即资源）的运用和多种产出（即服务）的产生，它能够用来比较提供相似服务的多个服务单位之间的效率，这项技术被称为数据包络线分析（DEA）。它避开了计算每项服务的标准成本，因为它可以把多种投入和多种产出转化为效率比率的分子和分母，而不需要转换成相同的货币单位。因此，用DEA衡量效率可以清晰地说明投入和产出的组合，从而，它比一套经营比率或利润指标更具有综合性并且更值得信赖。

DEA是一个线形规划模型，表示为产出对投入的比率。通过对一个特定单位的效率和一组提供相同服务的类似单位的绩效的比较，它试图使服务单位的效率最大化。在这个过程中，获得100%效率的一些单位被称为相对有效率单位，而另外的效率评分低于100%的单位本称为无效率单位。

这样，企业管理者就能运用DEA来比较一组服务单位，识别相对无效率单位，衡量无效率的严重性，并通过对无效率和有效率单位的比较，发现降低无效率的方法。