SciPy Stats
2021-10-13
| 2023-8-6
0  |  阅读时长 0 分钟
type
status
date
slug
summary
tags
category
icon
password
Property
所有的统计函数都位于子包scipy.stats中,并且可以使用info(stats)函数获得这些函数的完整列表。随机变量列表也可以从stats子包的docstring中获得。 该模块包含大量的概率分布以及不断增长的统计函数库。
每个单变量分布都有其自己的子类,如下表所述
描述
rv_continuous
用于子类化的通用连续随机变量类
rv_discrete
用于子类化的通用离散随机变量类
rv_histogram
生成由直方图给出的分布
 
通用函数
stats连续型随机变量的公共方法:
名称
备注
rvs
产生服从指定分布的随机数
pdf
概率密度函数
cdf
累计分布函数
sf
残存函数(1-CDF)
ppf
分位点函数(CDF的逆)
isf
逆残存函数(sf的逆)
fit
对一组随机取样进行拟合,最大似然估计方法找出最适合取样数据的概率密度函数系数。
离散分布的简单方法大多数与连续分布很类似,但是pdf被更换为密度函数pmf
 
常见分布
可能用到的分布对照表
名称
含义
beta
beta分布
f
F分布
gamma
gamma分布
poisson
泊松分布
hypergeom
超几何分布
lognorm
对数正态分布
binom
二项分布
uniform
均匀分布
chi2
卡方分布
cauchy
柯西分布
laplace
拉普拉斯分布
rayleigh
瑞利分布
t
t分布
norm
正态分布
expon
指数分布
 

正态连续随机变量

随机变量X可以取任何值的概率分布是连续的随机变量。 位置(loc)关键字指定平均值。 比例(scale)关键字指定标准偏差。
作为rv_continuous类的一个实例,规范对象从中继承了一系列泛型方法,并通过特定于此特定分发的细节完成它们。
要计算多个点的CDF,可以传递一个列表或一个NumPy数组。
要查找分布的中位数,可以使用百分点函数(PPF),它是CDF的倒数。
要生成随机变量序列,应该使用size参数
上述输出不可重现。 要生成相同的随机数,请使用seed()函数。
 

均匀分布

使用统一函数可以生成均匀分布。
 
 

描述性统计

MinMaxMeanVariance等基本统计数据将NumPy数组作为输入并返回相应的结果。 下表描述了scipy.stats包中的一些基本统计函数。
函数
描述
describe()
计算传递数组的几个描述性统计信息
gmean()
计算沿指定轴的几何平均值
hmean()
计算沿指定轴的谐波平均值
kurtosis()
计算峰度
mode()
返回模态值
skew()
测试数据的偏斜度
f_oneway()
执行单向方差分析
iqr()
计算沿指定轴的数据的四分位数范围
zscore()
计算样本中每个值相对于样本均值和标准偏差的z
sem()
计算输入数组中值的标准误差(或测量标准误差)
其中几个函数在scipy.stats.mstats中有一个类似的版本,它们用于掩码数组。
 
T-检验
下面了解T检验在SciPy中是如何有用的。
ttest_1samp
计算一组分数平均值的T检验。 这是对零假设的双面检验,即独立观测值'a'样本的期望值(平均值)等于给定总体均值popmean,考虑下面的例子。
比较两个样本
在下面的例子中,有两个样本可以来自相同或不同的分布,想要测试这些样本是否具有相同的统计特性。
ttest_ind -计算两个独立样本得分的T检验。 对于两个独立样本具有相同平均(预期)值的零假设,这是一个双侧检验。 该测试假设人口默认具有相同的差异。
如果观察到来自相同或不同人群的两个独立样本,可以使用这个测试。
可以使用相同长度的新数组进行测试,但具有不同的含义。 在loc中使用不同的值并测试相同的值。
 
  • Scipy
  • SciPy 输入和输出SciPy 稀疏矩阵
    目录