彩潭有鲤的札记

type

status

date

slug

summary

tags

category

icon

password

Property

离散型

设为实值可测函数，则是一个新的随机变量。我们需要去研究的概率分布。给定离散随机变量的，如何求得？对离散随机变量，通用的方法是使用如下公式：其中，直观上，是从样本空间到新样本空间转换。的可以通过定义为诱导概率函数，即为下述公式：

连续型

假设是连续函数，则当是连续随机变量时，也是连续随机变量。给定的，如何求解的？

CDF方法

该方法的基本思想是首先求得的，然后对其求导得到。步骤一：用表述 : 其中为的一个子集，包含所有满足不等式的。此处的基本思想是，借助将关于的概率表述转换成关于的概率表述。

步骤二：

|

type

status

date

slug

summary

tags

category

icon

password

Property

数学期望

直觉上，期望是随机变量在大量独立重复随机试验中观测值的长期平均值

随机变量的均值定义为：

其中，求和符号表示在离散随机变量的支撑上的所有可能取值求和。均值实际上是的期望，又被称为的一阶矩，可视作一个 “位置“参数。均值度量了分布的中心位置。假设表示某资产收益并且该资产收益的分布不随时间改变，则表示该资产的长期平均收益。

随机变量函数的数学期望

假设随机变量的或为，则可测函数的期望为

若，则称不存在。

为了避免收敛问题，要求离散随机变量满足；要求连续随机变量满足。

|

type

status

date

slug

summary

tags

category

icon

password

Property

伯努利分布

若一个随机变量的PMF为

其中，则称其服从伯努利分布Bernoulli ( ) 。伯努利随机变量为二值变量，取1的概率为，取0的概率为。对一个Bernoulli(p)随机变量，有

二项分布

可加性：

|

type

status

date

slug

summary

tags

category

icon

password

Property

均匀分布

若连续随机变量的PDF为则称其在区间上服从均匀概率分布，记做。因为是一个有界随机变量，其各阶矩均存在。则第阶矩为

令，可得的均值为：

令，可得二阶矩因此可得的方差为：

正态分布

若连续随机变量的PDF为：

其中。则称其服从正态分布，记作。参数和分别是位置和尺度参数。当时，称作标准正态或单位正态分布(unit normal distribution)。

正态分布的均值为：其中，由于被积函数为奇函数，倒数第二个等式中的积分为 0 。

|

type

status

date

slug

summary

tags

category

icon

password

Property

随机向量及联合概率分布

随机向量(Random Vector)

一个维随机向量，记作，是从样本空间到维欧几里得空间的一个函数。对于样本空间内的任意结果均为一个维实值向量，称作随机向量的一个实现。

联合CDF

和的联合CDF定义如下：其中是任意实数组。

的性质：

是关于和的非递减函数

是关于和的右连续函数

|

type

status

date

slug

summary

tags

category

icon

password

Property

基本不等式

马尔可夫(Markov)不等式

马尔可夫不等式把概率关联到数学期望，给出了随机变量的分布函数一个宽泛但仍有用的界。

令为非负随机变量，且假设存在，则对任意的有

进一步

马尔可夫不等式是用来估计尾部事件的概率上界，一个直观的例子是：如果是工资，那么就是平均工资，假设，即平均工资的倍。那么根据马尔可夫不等式，不超过的人会有超过平均工资的倍的工资。

证明如下：

切比雪夫不等式

|

type

status

date

slug

summary

tags

category

icon

password

Property

基本概念

总体：研究对象的全体，它是一个随机变量，用表示

个体：组成总体的每个基本元素

简单随机样本：来自总体的个相互独立且与总体同分布的随机变量，称为容量为的简单随机样本,简称样本

统计量：设是来自总体的一个样本，是样本的连续函数，且中不含任何未知参数，则称为统计量

常见的统计量

样本均值：

样本方差：

样本阶原点矩：

|

type

status

date

slug

summary

tags

category

icon

password

Property

常见的抽样分布都是基于正态分布的样本的

卡方分布

设为来自总体的样本，则称统计量

服从自由度为的分布，记为

卡方分布是伽马分布在的特殊情形。特别的，其均值为方差为

函数称作伽玛函数，定义为

|

type

status

date

slug

summary

tags

category

icon

password

Property

推断统计的概念

“推断统计”研究的是用样本数据去推断总体数量特征的一种方法。它是在对样本数据进行描述的基础上，对统计总体的未知数量特征做出以概率形式表述的推断。

为什么要进行推断统计？

在实际研究中，总体数据的获取往往是比较困难的，总体参数一般也是未知的。因此，我们就需要利用总体的某个样本，通过样本统计量去估计总体参数。基于这个需求，我们就需要学习推断统计。

参数估计、点估计和区间统计的概念

参数估计：用样本统计量去估计总体的参数。比如，用样本均值去估计总体均值，用样本方差去估计总体方差。

点估计：用样本统计量的某个取值，直接作为总体参数的估计值。点估计的常用方法有矩估计法、顺序统计量法、最大似然法、最小二乘法等

区间估计：在点估计的基础之上，给出总体参数估计值的一个区间范围，该区间通常由样本统计量加减估计误差得到。

点估计

|

type

status

date

slug

summary

tags

category

icon

password

Property

假设检验的概念

假设检验，也称为显著性检验，指通过样本的统计量，来判断与总体参数之间是否存在差异(差异是否显著)。我们事先对总体参数进行一定的假设，然后通过收集到的数据，来验证我们之前作出的假设(总体参数)是否合理。

在假设检验中，我们会建立两个完全对立的假设，分别为原假设与备择假设。然后根据样本信息进行分析判断，是选择接受原假设，还是拒绝原假设(接受备择假设)。假设检验基于“反证法”。首先，我们会假设原假设为真，如果在此基础上，得出了违反逻辑与常理的结论，则表明原假设是错误的，我们就接受备择假设。否则，我们就没有充分的理由推翻原假设，此时我们选择去接受原假设。

第一类错误：为真，但错误地拒绝了

第二类错误：为假，但错误地接受了

假设检验的理论依据(小概率事件)

在假设检验中，违反逻辑与常规的结论，就是小概奉事件。我们认为，小概率事件在一次试验中是不会发生的。我们首先认为原假设为真，如果在此基础上，小概率事件发生，则我们就拒绝原假设，否则，我们就选择去接受原假设。假设检验遵循“疑罪从无”的原则，接受原假设，并不代表原假设一定是正确的，只是我们没有充分的证据，去证明原假设是错误的，因此只能维持原假设。那么，假设检验中的小概率事件是怎么得出的呢？想想之前讲到的置信区间，是不是一切都验然开朗了？ “疑罪从无”很形象的说明的假设检验向我们传达的含义。也就是说，当我们没有充分的理由拒绝原假设，就必须接受原假设，即使原假设是错误的，但是你找不到证据证明原假设是错误的，你就只能认为原假设是对的。反之，经过一次随机试验，你如果找到了某个理由拒绝了原假设，那么原假设肯定就是错误的，这个是一定的。

P-Value值与显著性水平

假设检验，用来检验样本的统计量与总体参数，是否存在显著性差异。那么如何才算显著呢？我们就可以计算一个概率值P-Value，该概率值可以认为就是支持原假设的概率，因为在假设检验中，通常原假设为等值假设，因此，P-Value也就表示样本统计量与总体参数无差异的概率。然后，我们再设定一个阈值，这个阈值叫做“显著性水平 ” (使用表示)，通常的取值为(叫做置信度)。当P-Value的值大于时，接受原假设。当P-Value的值小于时，拒绝原假设。简单记为：p值越小越拒绝原假设。

假设检验和参数估计是推断统计的两个组成部分，都是利用样本对总体进行某种推断，但是两者进行推断的角度不同。参数估计讨论的是用样本统计量估计总体参数的一种方法，总体参数在估计前是未知的。而假设检验，则是对总体参数先提出一个假设，然后用样本信息去检验这个假设是否成立。

假设检验的步骤

|

type

status

date

slug

summary

tags

category

icon

password

Property

• 范围(-1,1)，-1:完全负相关，1：完全正相关，0：不相关

pearson的358原则：

表示两个变量高度相关

表示两个变量中度相关

表示两个变量低度相关

|

数值分析

type

status

date

slug

summary

tags

category

icon

password

Property

误差的来源

模型误差：由计算方法或计算模型的不严格而引入

观测误差：生产实践中由于测量精度的不足而引入的测量误差

截断误差：对于将连续问题/无限问题近似为离散问题/有限问题而进行的“差分”或“舍去高阶无穷小项”等操作而引入的计算误差

舍入误差：对于利用计算机求解的问题，计算机最长字长限制了有效数字位数，故进行舍入而引入的误差

绝对误差和绝对误差限

约定物理量的真实值记为，其观测值记为。那么，值称为绝对误差

绝对误差的绝对值上界称为绝对误差限