随机变量的函数
type
status
date
slug
summary
tags
category
icon
password
Property
 

离散型

为实值可测函数,则 是一个新的随机变量。我们需要去研究的概率分布。 给定离散随机变量 ,如何求得 ? 对离散随机变量 ,通用的方法是使用如下公式: 其中, 直观上, 是从样本空间 到新样本空间转换。 可以通过定义为诱导概率函数,即为下述公式:
 
 

连续型

假设 是连续函数,则当是连续随机变量时, 也是连续随机变量。给定,如何求解
 

CDF方法

该方法的基本思想是首先求得 ,然后对其求导得到 。 步骤一: 用 表述 : 其中 的一个子集,包含所有满足不等式 。 此处的基本思想是,借助将关于的概率表述转换成关于的概率表述。
 
步骤二:
随机变量的数字特征
type
status
date
slug
summary
tags
category
icon
password
Property
 

数学期望

直觉上,期望是随机变量在大量独立重复随机试验中观测值的长期平均值
随机变量 的均值定义为:
其中,求和符号表示在离散随机变量 的支撑 上的所有可能取值求和。 均值实际上是的期望,又被称为的一阶矩,可视作一个 “位置“参数。均值度量了分布的中心位置。假设 表示某资产收益并且该资产收益的分布不随时间改变,则表示该资产的长期平均收益。
 
 
随机变量函数的数学期望
假设随机变量,则可测函数的期望为
,则称 不存在。
为了避免收敛问题,要求离散随机变量满足 ;要求连续随机变量满足
 
离散概率分布
type
status
date
slug
summary
tags
category
icon
password
Property
 
 

伯努利分布

若一个随机变量的PMF为
其中 ,则称其服从伯努利分布Bernoulli ( ) 。伯努利随机变量为二值变量,取1的概率为 ,取0的概率为。对一个Bernoulli(p)随机变量,有

二项分布

 
可加性:
 
连续概率分布
type
status
date
slug
summary
tags
category
icon
password
Property
 

均匀分布

若连续随机变量的PDF为 则称其在区间 上服从均匀概率分布,记做 。 因为是一个有界随机变量,其各阶矩均存在。则第阶矩为
,可得的均值为:
,可得二阶矩 因此可得的方差为:
 

正态分布

若连续随机变量的PDF为:
其中。 则称其服从正态分布,记作 。参数分别是位置和尺度参数。当 时, 称作标准正态或单位正态分布(unit normal distribution)。
正态分布的均值为: 其中,由于被积函数为奇函数,倒数第二个等式中的积分为 0 。
 
多元随机变量及分布
type
status
date
slug
summary
tags
category
icon
password
Property
 

随机向量及联合概率分布

随机向量(Random Vector)

一个维随机向量,记作 ,是从样本空间维欧几里得空间的一个函数。对于样本空间内的任意结果均为一个维实值向量,称作随机向量的一个实现。

联合CDF

的联合CDF定义如下: 其中是任意实数组。
 
的性质:
  • 是关于 的非递减函数
  • 是关于 的右连续函数
大数定律和中心极限定理
type
status
date
slug
summary
tags
category
icon
password
Property
 

基本不等式

马尔可夫(Markov)不等式

马尔可夫不等式把概率关联到数学期望,给出了随机变量的分布函数一个宽泛但仍有用的界。
为非负随机变量,且假设存在,则对任意的
进一步
马尔可夫不等式是用来估计尾部事件的概率上界,一个直观的例子是:如果是工资,那么就是平均工资,假设 ,即平均工资的倍。那么根据马尔可夫不等式,不超过的人会有超过平均工资的倍的工资。
证明如下:
 

切比雪夫不等式

总体和样本
type
status
date
slug
summary
tags
category
icon
password
Property
 

基本概念

总体:研究对象的全体,它是一个随机变量,用表示
个体:组成总体的每个基本元素
简单随机样本:来自总体相互独立与总体同分布的随机变量,称为容量为的简单随机样本,简称样本
统计量:设 是来自总体 的一个样本,是样本的连续函数,且 中不含任何未知参数,则称 为统计量
 
 

常见的统计量

样本均值:
样本方差:
样本阶原点矩:
抽样分布
type
status
date
slug
summary
tags
category
icon
password
Property
常见的抽样分布都是基于正态分布的样本的
 

卡方分布

为来自总体的样本,则称统计量
服从自由度为分布,记为
 
卡方分布 是伽马分布 的特殊情形。 特别的,其均值为 方差为
 
 
函数称作伽玛函数,定义为
参数估计
type
status
date
slug
summary
tags
category
icon
password
Property
 

推断统计的概念

“推断统计”研究的是用样本数据去推断总体数量特征的一种方法。它是在对样本数据进行描述的基础上,对统计总体的未知数量特征做出以概率形式表述的推断。

为什么要进行推断统计?

在实际研究中,总体数据的获取往往是比较困难的,总体参数一般也是未知的。因此,我们就需要利用总体的某个样本,通过样本统计量去估计总体参数。基于这个需求,我们就需要学习推断统计。

参数估计、点估计和区间统计的概念

  • 参数估计:用样本统计量去估计总体的参数。比如,用样本均值去估计总体均值,用样本方差去估计总体方差。
  • 点估计:用样本统计量的某个取值,直接作为总体参数的估计值。点估计的常用方法有矩估计法、顺序统计量法、最大似然法、最小二乘法等
  • 区间估计:在点估计的基础之上,给出总体参数估计值的一个区间范围,该区间通常由样本统计量加减估计误差得到。
 

点估计

 
假设检验
type
status
date
slug
summary
tags
category
icon
password
Property
 

假设检验的概念

假设检验,也称为显著性检验,指通过样本的统计量,来判断与总体参数之间是否存在差异(差异是否显著)。我们事先对总体参数进行一定的假设,然后通过收集到的数据,来验证我们之前作出的假设(总体参数)是否合理。
在假设检验中,我们会建立两个完全对立的假设,分别为原假设与备择假设。然后根据样本信息进行分析判断,是选择接受原假设,还是拒绝原假设(接受备择假设)。假设检验基于“反证法”。首先,我们会假设原假设为真,如果在此基础上,得出了违反逻辑与常理的结论,则表明原假设是错误的,我们就接受备择假设。否则,我们就没有充分的理由推翻原假设,此时我们选择去接受原假设。
第一类错误: 为真,但错误地拒绝了
第二类错误: 为假,但错误地接受了

假设检验的理论依据(小概率事件)

在假设检验中,违反逻辑与常规的结论,就是小概奉事件。我们认为,小概率事件在一次试验中是不会发生的。我们首先认为原假设为真,如果在此基础上,小概率事件发生,则我们就拒绝原假设,否则,我们就选择去接受原假设。 假设检验遵循“疑罪从无”的原则,接受原假设,并不代表原假设一定是正确的,只是我们没有充分的证据,去证明原假设是错误的,因此只能维持原假设。那么,假设检验中的小概率事件是怎么得出的呢?想想之前讲到的置信区间,是不是一切都验然开朗了? “疑罪从无”很形象的说明的假设检验向我们传达的含义。也就是说,当我们没有充分的理由拒绝原假设,就必须接受原假设,即使原假设是错误的,但是你找不到证据证明原假设是错误的,你就只能认为原假设是对的。反之,经过一次随机试验,你如果找到了某个理由拒绝了原假设,那么原假设肯定就是错误的,这个是一定的。

P-Value值与显著性水平

假设检验,用来检验样本的统计量与总体参数,是否存在显著性差异。那么如何才算显著呢?我们就可以计算一个概率值P-Value,该概率值可以认为就是支持原假设的概率,因为在假设检验中,通常原假设为等值假设,因此,P-Value也就表示样本统计量与总体参数无差异的概率。然后,我们再设定一个阈值,这个阈值叫做“显著性水平 ” (使用表示),通常的取值为(叫做置信度)。当P-Value的值大于时,接受原假设。当P-Value的值小于时,拒绝原假设。简单记为:p值越小越拒绝原假设。
假设检验和参数估计是推断统计的两个组成部分,都是利用样本对总体进行某种推断,但是两者进行推断的角度不同。参数估计讨论的是用样本统计量估计总体参数的一种方法,总体参数在估计前是未知的。而假设检验,则是对总体参数先提出一个假设,然后用样本信息去检验这个假设是否成立。

假设检验的步骤

相关性分析
type
status
date
slug
summary
tags
category
icon
password
Property
 
 
notion image
 
• 范围(-1,1),-1:完全负相关,1:完全正相关,0:不相关
  • pearson的358原则:
  • 表示两个变量高度相关
  • 表示两个变量中度相关
  • 表示两个变量低度相关
误差
type
status
date
slug
summary
tags
category
icon
password
Property
 

误差的来源

  • 模型误差:由计算方法或计算模型的不严格而引入
  • 观测误差:生产实践中由于测量精度的不足而引入的测量误差
  • 截断误差:对于将连续问题/无限问题近似为离散问题/有限问题而进行的“差分”或“舍去高阶无穷小项”等操作而引入的计算误差
  • 舍入误差:对于利用计算机求解的问题,计算机最长字长限制了有效数字位数,故进行舍入而引入的误差
 

绝对误差和绝对误差限

约定物理量的真实值记为 ,其观测值记为。那么,值 称为绝对误差
绝对误差的绝对值上界称为绝对误差限