type
status
date
slug
summary
tags
category
icon
password
Property
推断统计的概念
“推断统计”研究的是用样本数据去推断总体数量特征的一种方法。它是在对样本数据进行描述的基础上,对统计总体的未知数量特征做出以概率形式表述的推断。
为什么要进行推断统计?
在实际研究中,总体数据的获取往往是比较困难的,总体参数一般也是未知的。因此,我们就需要利用总体的某个样本,通过样本统计量去估计总体参数。基于这个需求,我们就需要学习推断统计。
参数估计、点估计和区间统计的概念
- 参数估计:用样本统计量去估计总体的参数。比如,用样本均值去估计总体均值,用样本方差去估计总体方差。
- 点估计:用样本统计量的某个取值,直接作为总体参数的估计值。点估计的常用方法有矩估计法、顺序统计量法、最大似然法、最小二乘法等
- 区间估计:在点估计的基础之上,给出总体参数估计值的一个区间范围,该区间通常由样本统计量加减估计误差得到。
点估计
距估计
矩估计法的准确率一直都为人诟病,所以包括目前火热的机器学习算法都只采用了极大似然估计方法。不过它被保留的原因是它的估计量具有相合性(但极大似然估计法不一定)
思路是假设随机样本的阶距,等于总体的阶距
定义样本 阶矩为 ,那么它们依概率收敛为 (无穷大的时候 会无限逼近 ),样本的矩都是已知的,所以把它作为估计量,去用来估计 。这就是矩估计法的由来。
假设有 个参数,那么根据这个方法可以估计出个值 ,得到一系列的方程组
进而解出 个参数的估计值 (或者理解为先将 阶矩用末知参数表示出来,然后用已知的样本统计量去替换)
更具体的,假设需要估计2个参数,那么只需要考虑 即可
最大似然估计
现在已经拿到了很多个样本(你的数据集中所有因变量),这些样本值已经实现,最大似然估计就是去找到那个(组)参数估计值,使得前面已经实现的样本值发生概率最大。因为你手头上的样本已经实现了,其发生概率最大才符合逻辑。这时是求样本所有观测的联合概率最大化,是个连乘积,只要取对数,就变成了线性加总。此时通过对参数求导数,并令一阶导数为零,就可以通过解方程(组),得到最大似然估计值。
定义极大似然函数为
为的值域
取,让 取到最大值,然后让这个时候的 作为估计量 (极大似然估计量)。
大部分的情况下,这个函数都是很友好的, 根据Fermat定理,我们知道这个 满足如下的条件
or
事实上,第二种情形更为常用,因为这个时候求导往往友好很多。
如果参数多了,使用求偏导的方法就好啦。
最小二乘
找到一个(组)估计值,使得实际值与估计值的距离最小。本来用两者差的绝对值汇总并使之最小是最理想的,但绝对值在数学上求最小值比较麻烦,因而替代做法是,找一个(组)估计值,使得实际值与估计值之差的平方加总之后的值最小,称为最小二乘。“二乘”的英文为least square,其实英文的字面意思是“平方最小”。这时,将这个差的平方的和式对参数求导数,并取一阶导数为零,就是OLSE
想深入了解最大似然和最小二乘请参见Scikit-Learn笔记部分
点估计的评价指标
对一个未知参数,可以构造很多个估计量,哪一个最好呢?我们需要一套评价标准
- 无偏性,
经过多次抽样后,将所有的点估计值平均起来,也就是取期望值,这个期望值应该和总体参数一样
- 有效性, ,对一切成立,那么更为有效。
注:均方误意义下的有效性
有效性指,对同一总体参数,如果有多个无偏估计量,那么标准差最小的估计量更有效。因为一个无偏的估计量并不意味着它就非常接近被估计的参数,它还必须和总体参数的离散程度比较小
- 一致性,估计量对于任意的 有
指随着样本量的增大,点估计的值越来越接近被估计的总体的参数。如果一个量在取到无穷大的时候都不能做到一致收敛于概率,这就相当于直接与大数定律作对,显然是不可取的。
点估计有点简单粗暴,容易受到随机抽样的影响,很难保证结果的准确性。但是,点估计也不是一无是处,样本值是来自总体的一个抽样,在一定程度上还是可以反映出总体的一部分特征。同时,样本容量越接近总体容量,点估计值也会越准确。
区间估计
什么是区间估计?
当你碰到一个陌生人,我让你判断出这个人的年龄是多少?这里有两种方式完成你的推断。第一,这个人25岁。第二,这个人20-25岁之间。哪种结果更让你信服呢?很明显第二种更让人信服。对于第一种说法,相当于上述的点估计。第二种,相当于区间估计,就是给定一个区间,这个区间包含真值。
统计学中对区间估计的定义:在点估计的基础之上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到。
获取一个抽样样本后,如何确定置信区间和置信度?
要确定置信区间和置信度,就需要知道样本和总体,在分布上有怎样的联系。中心极限定理给出了这个问题很好的回答。
中心极限定理
设从均值为,方差为 的任意一个总体中,抽取样本量为的样本。当充分大的时候,样本均值拔近似服从均值为 ,方差为 的正态分布。
注意:中心极限定理要求n充分大,但是多大才叫充分大呢?一般在统计学中n>=30称之为大样本(统计学中的一种经验说法)。因此在实际生产中,不用多想,肯定都是大样本。
由中心极限定理得出的几个结论
- 不管进行多少次抽样,每次抽样都会得到一个均值。当每次抽取的样本容量n足够大时,样本均值总会围绕总体均值附近,呈现正态分布。
- 当样本容量n足够大时,样本均值构成正态分布,样本均值近似等于总体均值μ,而样本方差等于总体方差除以n,即 。
- 样本均值分布的标准差,称之为标准误差,简称“标准误”。
参数估计中置信区间的推导
要知道什么是值,什么是置信度,什么是置信区间,以及怎么求置信区间。首先要了解以下几方面的知识,才能有一个比较透彻的了解。
- 什么是小概率事件?
- 随机变量的分布的概念。
- 标准正态分布的概率密度函数和和分布函数
- 随机变量的分位数的概念。
- 标准正态的分位数表怎么得到的呢?
- 区间估计的概念。
- 置信水平的解释
- 枢轴法求置信区间的步骤。
什么是小概率事件?
- “小概率事件”指的就是在一次随机试验中,几乎不可能发生。
- 假定参数是射击靶上10环的位置,随机进行一次射击,打在靶心10环的位置上的可能性很小,但是打中靶子的可能性确很大。然后用打在靶上的这个点画出一个区间,这个区间包含靶心的可能性就很大,这就是区间估计的基本思想。
随机变量的分布的概念
标准正态分布的概率密度函数和和分布函数
随机变量的分位数的概念
标准正态的分位数表怎么得到的呢?
① 标准正态分位数表的公式推导
注意:红色方框中的公式,就是标准正态分布分位数表的由来。
② 标准正态分布分位数表
区间估计的定义
置信水平的解释
对总体样本进行反复抽样(每次抽取到的样本容量都为n),那么每个样本均值都会确定一个区间,每个这样的区间要么包含总体参数,要么不包含总体参数,不能说成“以多大的概率包含总体的参数”。其中包含总体参数的区间有个,而只有个区间不包含总体参数,如下图所示(红色表示该样本构成的区间估计不包含总体参数,白色表示该样本构成的区间估计包含总体参数)。
用一个详细的案例说明:如果对总体返回抽样10000次,每次抽样的样本量都是n,每个样本都会得到一个区间估计,那么10000次抽样,就会得到10000个区间。当置信水平时,那么就表示10000个区间中包含总体参数的有9500个抽样样本,只有500个样本不包含总体参数,这个不包含总体参数的样本就相当于我们估计错误。这个概率只有5%。这个5%在统计学中,就叫做小概率事件,也就是说在一次随机试验中,这个小概率事件不可能发生。
即:当我们随机抽取一个样本容量为n的抽样样本,并且利用这个样本构造总体参数的置信区间,当指定了置信水平 时,那么这个样本,基本就可以认为是包含了总体参数,也就是说,总体参数就在这个置信区间内。
枢轴法求置信区间
什么是枢轴量?
- 枢轴量指的就是包含待估计参数,而不包含其它未知参数,并且分布已知的一个量。
- 枢轴量设计到三个重要点:1、包含估计参数。2、不包含其它未知参数。3、该枢轴量的分布已知。
通俗点讲,其实枢轴变量就是一个函数,这个函数的目的是把目前未知的分布转化成我们已知的分布(比如正态分布、卡方分布、t分布等)
转化成已知分布干嘛呢?因为已知分布中,概率密度函数是已知的,因此可以基于置信度求得已知分布的区间。已知分布的区间知道了,再根据构造的枢轴变量,反推要估计的区间,即完成了区间估计的过程。
常见的枢轴量:
单个正态总体的情况:
的枢轴量:
的枢轴量:
二个正态总体的情况:
的情况:
的情况:
【例子】设 是来自样本的样本, 已知,求参数 的置信度为的置信区间。
我们知道 服从正态分布,因此有: ~
由标准化,有
接下来,是枢轴量 的概率表达,对于置信水平 ,查标准正态分布表,得:
容易解得:
则 的置信度为 的置信区间为: