参数估计 | 彩潭有鲤的札记

type

status

date

slug

summary

推断统计的概念

“推断统计”研究的是用样本数据去推断总体数量特征的一种方法。它是在对样本数据进行描述的基础上，对统计总体的未知数量特征做出以概率形式表述的推断。

为什么要进行推断统计？

在实际研究中，总体数据的获取往往是比较困难的，总体参数一般也是未知的。因此，我们就需要利用总体的某个样本，通过样本统计量去估计总体参数。基于这个需求，我们就需要学习推断统计。

参数估计、点估计和区间统计的概念

参数估计：用样本统计量去估计总体的参数。比如，用样本均值去估计总体均值，用样本方差去估计总体方差。

点估计：用样本统计量的某个取值，直接作为总体参数的估计值。点估计的常用方法有矩估计法、顺序统计量法、最大似然法、最小二乘法等

区间估计：在点估计的基础之上，给出总体参数估计值的一个区间范围，该区间通常由样本统计量加减估计误差得到。

点估计

距估计

矩估计法的准确率一直都为人诟病，所以包括目前火热的机器学习算法都只采用了极大似然估计方法。不过它被保留的原因是它的估计量具有相合性（但极大似然估计法不一定）

思路是假设随机样本的阶距，等于总体的阶距

定义样本阶矩为，那么它们依概率收敛为 (无穷大的时候会无限逼近 )，样本的矩都是已知的，所以把它作为估计量，去用来估计。这就是矩估计法的由来。

假设有个参数，那么根据这个方法可以估计出个值，得到一系列的方程组进而解出个参数的估计值 (或者理解为先将阶矩用末知参数表示出来，然后用已知的样本统计量去替换) 更具体的，假设需要估计2个参数，那么只需要考虑即可

最大似然估计

现在已经拿到了很多个样本（你的数据集中所有因变量），这些样本值已经实现，最大似然估计就是去找到那个（组）参数估计值，使得前面已经实现的样本值发生概率最大。因为你手头上的样本已经实现了，其发生概率最大才符合逻辑。这时是求样本所有观测的联合概率最大化，是个连乘积，只要取对数，就变成了线性加总。此时通过对参数求导数，并令一阶导数为零，就可以通过解方程（组），得到最大似然估计值。

定义极大似然函数为

为的值域取，让取到最大值，然后让这个时候的作为估计量 (极大似然估计量)。大部分的情况下，这个函数都是很友好的，根据Fermat定理，我们知道这个满足如下的条件 or 事实上，第二种情形更为常用，因为这个时候求导往往友好很多。如果参数多了，使用求偏导的方法就好啦。

最小二乘

找到一个（组）估计值，使得实际值与估计值的距离最小。本来用两者差的绝对值汇总并使之最小是最理想的，但绝对值在数学上求最小值比较麻烦，因而替代做法是，找一个（组）估计值，使得实际值与估计值之差的平方加总之后的值最小，称为最小二乘。“二乘”的英文为least square，其实英文的字面意思是“平方最小”。这时，将这个差的平方的和式对参数求导数，并取一阶导数为零，就是OLSE

想深入了解最大似然和最小二乘请参见Scikit-Learn笔记部分

点估计的评价指标

对一个未知参数，可以构造很多个估计量，哪一个最好呢？我们需要一套评价标准

无偏性，

经过多次抽样后，将所有的点估计值平均起来，也就是取期望值，这个期望值应该和总体参数一样

有效性，，对一切成立，那么更为有效。

注：均方误意义下的有效性

有效性指，对同一总体参数，如果有多个无偏估计量，那么标准差最小的估计量更有效。因为一个无偏的估计量并不意味着它就非常接近被估计的参数，它还必须和总体参数的离散程度比较小

一致性，估计量对于任意的有

指随着样本量的增大，点估计的值越来越接近被估计的总体的参数。如果一个量在取到无穷大的时候都不能做到一致收敛于概率，这就相当于直接与大数定律作对，显然是不可取的。

点估计有点简单粗暴，容易受到随机抽样的影响，很难保证结果的准确性。但是，点估计也不是一无是处，样本值是来自总体的一个抽样，在一定程度上还是可以反映出总体的一部分特征。同时，样本容量越接近总体容量，点估计值也会越准确。

区间估计

什么是区间估计？

当你碰到一个陌生人，我让你判断出这个人的年龄是多少？这里有两种方式完成你的推断。第一，这个人25岁。第二，这个人20-25岁之间。哪种结果更让你信服呢？很明显第二种更让人信服。对于第一种说法，相当于上述的点估计。第二种，相当于区间估计，就是给定一个区间，这个区间包含真值。统计学中对区间估计的定义：在点估计的基础之上，给出总体参数估计的一个区间范围，该区间通常由样本统计量加减估计误差得到。

获取一个抽样样本后，如何确定置信区间和置信度？

要确定置信区间和置信度，就需要知道样本和总体，在分布上有怎样的联系。中心极限定理给出了这个问题很好的回答。

中心极限定理

设从均值为，方差为的任意一个总体中，抽取样本量为的样本。当充分大的时候，样本均值拔近似服从均值为，方差为的正态分布。

注意：中心极限定理要求n充分大，但是多大才叫充分大呢？一般在统计学中n>=30称之为大样本(统计学中的一种经验说法)。因此在实际生产中，不用多想，肯定都是大样本。

由中心极限定理得出的几个结论

不管进行多少次抽样，每次抽样都会得到一个均值。当每次抽取的样本容量n足够大时，样本均值总会围绕总体均值附近，呈现正态分布。

当样本容量n足够大时，样本均值构成正态分布，样本均值近似等于总体均值μ，而样本方差等于总体方差除以n，即。

样本均值分布的标准差，称之为标准误差，简称“标准误”。

参数估计中置信区间的推导

要知道什么是值，什么是置信度，什么是置信区间，以及怎么求置信区间。首先要了解以下几方面的知识，才能有一个比较透彻的了解。

什么是小概率事件？

随机变量的分布的概念。

标准正态分布的概率密度函数和和分布函数

随机变量的分位数的概念。

标准正态的分位数表怎么得到的呢？

区间估计的概念。

置信水平的解释

枢轴法求置信区间的步骤。

什么是小概率事件？

“小概率事件”指的就是在一次随机试验中，几乎不可能发生。

假定参数是射击靶上10环的位置，随机进行一次射击，打在靶心10环的位置上的可能性很小，但是打中靶子的可能性确很大。然后用打在靶上的这个点画出一个区间，这个区间包含靶心的可能性就很大，这就是区间估计的基本思想。

随机变量的分布的概念

标准正态分布的概率密度函数和和分布函数

随机变量的分位数的概念

标准正态的分位数表怎么得到的呢？

① 标准正态分位数表的公式推导

注意：红色方框中的公式，就是标准正态分布分位数表的由来。

② 标准正态分布分位数表

区间估计的定义

置信水平的解释

对总体样本进行反复抽样(每次抽取到的样本容量都为n)，那么每个样本均值都会确定一个区间，每个这样的区间要么包含总体参数，要么不包含总体参数，不能说成“以多大的概率包含总体的参数”。其中包含总体参数的区间有个，而只有个区间不包含总体参数，如下图所示(红色表示该样本构成的区间估计不包含总体参数，白色表示该样本构成的区间估计包含总体参数)。用一个详细的案例说明：如果对总体返回抽样10000次，每次抽样的样本量都是n，每个样本都会得到一个区间估计，那么10000次抽样，就会得到10000个区间。当置信水平时，那么就表示10000个区间中包含总体参数的有9500个抽样样本，只有500个样本不包含总体参数，这个不包含总体参数的样本就相当于我们估计错误。这个概率只有5%。这个5%在统计学中，就叫做小概率事件，也就是说在一次随机试验中，这个小概率事件不可能发生。即：当我们随机抽取一个样本容量为n的抽样样本，并且利用这个样本构造总体参数的置信区间，当指定了置信水平时，那么这个样本，基本就可以认为是包含了总体参数，也就是说，总体参数就在这个置信区间内。

枢轴法求置信区间

什么是枢轴量？

枢轴量指的就是包含待估计参数，而不包含其它未知参数，并且分布已知的一个量。

枢轴量设计到三个重要点：1、包含估计参数。2、不包含其它未知参数。3、该枢轴量的分布已知。

通俗点讲，其实枢轴变量就是一个函数，这个函数的目的是把目前未知的分布转化成我们已知的分布（比如正态分布、卡方分布、t分布等）

转化成已知分布干嘛呢？因为已知分布中，概率密度函数是已知的，因此可以基于置信度求得已知分布的区间。已知分布的区间知道了，再根据构造的枢轴变量，反推要估计的区间，即完成了区间估计的过程。

常见的枢轴量：

单个正态总体的情况：

的枢轴量: 的枢轴量:

二个正态总体的情况：

的情况：

【例子】设是来自样本的样本，已知，求参数的置信度为的置信区间。

我们知道服从正态分布，因此有： ~ 由标准化，有接下来，是枢轴量的概率表达，对于置信水平，查标准正态分布表，得：容易解得：则的置信度为的置信区间为：