type
status
date
slug
summary
tags
category
icon
password
Property
所有的统计函数都位于子包
scipy.stats
中,并且可以使用info(stats)
函数获得这些函数的完整列表。随机变量列表也可以从stats
子包的docstring
中获得。 该模块包含大量的概率分布以及不断增长的统计函数库。每个单变量分布都有其自己的子类,如下表所述
类 | 描述 |
rv_continuous | 用于子类化的通用连续随机变量类 |
rv_discrete | 用于子类化的通用离散随机变量类 |
rv_histogram | 生成由直方图给出的分布 |
通用函数
stats连续型随机变量的公共方法:
名称 | 备注 |
rvs | 产生服从指定分布的随机数 |
pdf | 概率密度函数 |
cdf | 累计分布函数 |
sf | 残存函数(1-CDF) |
ppf | 分位点函数(CDF的逆) |
isf | 逆残存函数(sf的逆) |
fit | 对一组随机取样进行拟合,最大似然估计方法找出最适合取样数据的概率密度函数系数。 |
离散分布的简单方法大多数与连续分布很类似,但是pdf被更换为密度函数pmf
常见分布
可能用到的分布对照表
名称 | 含义 |
beta | beta分布 |
f | F分布 |
gamma | gamma分布 |
poisson | 泊松分布 |
hypergeom | 超几何分布 |
lognorm | 对数正态分布 |
binom | 二项分布 |
uniform | 均匀分布 |
chi2 | 卡方分布 |
cauchy | 柯西分布 |
laplace | 拉普拉斯分布 |
rayleigh | 瑞利分布 |
t | t分布 |
norm | 正态分布 |
expon | 指数分布 |
正态连续随机变量
随机变量X可以取任何值的概率分布是连续的随机变量。 位置(
loc
)关键字指定平均值。 比例(scale
)关键字指定标准偏差。作为
rv_continuous
类的一个实例,规范对象从中继承了一系列泛型方法,并通过特定于此特定分发的细节完成它们。要计算多个点的CDF,可以传递一个列表或一个NumPy数组。
要查找分布的中位数,可以使用百分点函数(PPF),它是CDF的倒数。
要生成随机变量序列,应该使用
size
参数上述输出不可重现。 要生成相同的随机数,请使用
seed()
函数。均匀分布
使用统一函数可以生成均匀分布。
描述性统计
如
Min
,Max
,Mean
和Variance
等基本统计数据将NumPy数组作为输入并返回相应的结果。 下表描述了scipy.stats
包中的一些基本统计函数。函数 | 描述 |
describe() | 计算传递数组的几个描述性统计信息 |
gmean() | 计算沿指定轴的几何平均值 |
hmean() | 计算沿指定轴的谐波平均值 |
kurtosis() | 计算峰度 |
mode() | 返回模态值 |
skew() | 测试数据的偏斜度 |
f_oneway() | 执行单向方差分析 |
iqr() | 计算沿指定轴的数据的四分位数范围 |
zscore() | 计算样本中每个值相对于样本均值和标准偏差的 z 值 |
sem() | 计算输入数组中值的标准误差(或测量标准误差) |
其中几个函数在
scipy.stats.mstats
中有一个类似的版本,它们用于掩码数组。T-检验
下面了解
T
检验在SciPy中是如何有用的。ttest_1samp
计算一组分数平均值的
T
检验。 这是对零假设的双面检验,即独立观测值'a'
样本的期望值(平均值)等于给定总体均值popmean
,考虑下面的例子。比较两个样本
在下面的例子中,有两个样本可以来自相同或不同的分布,想要测试这些样本是否具有相同的统计特性。
ttest_ind
-计算两个独立样本得分的T检验。 对于两个独立样本具有相同平均(预期)值的零假设,这是一个双侧检验。 该测试假设人口默认具有相同的差异。如果观察到来自相同或不同人群的两个独立样本,可以使用这个测试。
可以使用相同长度的新数组进行测试,但具有不同的含义。 在
loc
中使用不同的值并测试相同的值。