什么是数理统计学?数理统计学是研究如何有效地收集和使用带有随机性影响的数据的一门学科。
必须是受到随机影响的数据,才能成为数理统计学的研究内容。
随机性的第一个来源是试验误差,第二个来源是由于研究问题所涉及到的对象太多,因此我们只能随机地抽取部分来进行研究。
如何“有效”地收集数据。
“有效”的含义:一方面是可以建立一个模型来描述所得的数据,另一方面是数据中要尽可能多的包含与研究问题有关的信息。
如何“有效"地利用数据。
有效地使用数据进行统计推断,需要对数据建立一个统计模型,提出统计推断的方法,并给定某些准则去评判不同统计推断方法的优劣。注意,统计推断属于归纳推理方法,归纳推理做出的推断不是100%可靠,但它的可靠程度是可以通过概率来度量的。
举个例子:假设某灯泡厂生产的一批灯泡有10000个,其中灯泡的寿命在3000小时以上的为正品,否则即为次品。为了检验这批灯泡的次品率,我们从中抽取100个灯泡并检测它们的寿命。
在这个例子中,灯泡厂生产的这10000个灯泡的寿命称为总体,其中的每个灯泡的寿命称为个体,从中抽取的100个灯泡的寿命称为样本,抽取100个灯泡的行为称为抽样,样本中个体的数目称为样本容量。
在此基础上,我们首先来细化一下总体和个体的定义:
事实上,数理统计分析的目的不在于了解总体中的某些个体的确切情况,而在于了解总体的某些数量特征,因此我们可以对总体有如下的理解:
因此,总体可以用随机变量 \(X\) 来表示,也可以用它的分布函数 \(F\) 来表示。如果它的密度函数存在,则总体也可以用密度函数 \(f\) 来表示。一般地,我们对总体和总体分布不作区分。
接下来我们给出样本及其相关概念的定义:
注意到,当我们从总体中作具体抽样时,每次抽样的结果都是一些具体的数,我们收集到的实际上是一组样本的观测值;而在实施具体抽样之前,我们无法预料抽样的结果,因此样本具有了随机变量的随机性。这就是样本的两重性:样本既可以看成随机变量,又可以看成具体的常数。
在理解了总体和样本的基本概念之后,我们引入样本空间的数学定义:
设 \(\boldsymbol X=(X_1,X_2,\cdots,X_n)\) 是从总体中抽取的样本,定义样本 \(\boldsymbol X=(X_1,X_2,\cdots,X_n)\) 可能取值的全体,构成样本空间,记为 \(\mathscr{X}\) 。
从数学的角度来看,一个容量为 \(n\) 的样本 \((X_1,X_2,\cdots,X_n)\) 构成一个 \(n\) 维随机向量,当样本被实际观测到时,其观测值就是一组实际的数据,通常记为 \((x_1,x_2,\cdots,x_n)\) 。这里也体现了样本的两重性。
抽样的目的是通过取得的样本对总体分布中某些未知的量作出判断,为使抽取的样本能够很好地反映总体的信息,我们需要考虑抽样方法。下面我们介绍一种常用的抽样方法:简单随机抽样。
简单随机抽样的含义为:总体中的每一个个体,各个机会均等地成为样本中的元素。满足以下两个性质:
由简单随机抽样获得的样本 \((X_1,X_2,\cdots,X_n)\) 称为简单随机样本,记为:
假设总体具有分布函数 \(F(x)\) ,则简单随机样本的联合分布函数为:
如果总体具有密度函数 \(f(x)\) ,则简单随机样本的联合密度函数为:
在数理统计研究中,总体分布一般是不完全已知的,我们需要对总体做出一些假定。一般情况下,我们假定总体 \(X\) 的分布函数 \(F(x)\) 是属于某个分布族 \(\mathcal{F}\) 的。
分布族可以分为参数分布族、非参数分布族和半参数分布族。参数分布族出发所得的统计方法称为参数统计方法,从非参数分布族出发所得的统计方法称为非参数统计方法,从半参数分布族出发所得的统计方法称为半参数统计方法。我们主要介绍一下参数分布族。
参数分布族:分布族只含有有限个未知的参数,常表示为
其中,\(\theta\) 表示未知参数或向量,\(\Theta\) 是参数 \(\theta\) 可能的取值范围,称为参数空间。
下面我们列举了几类常用的参数分布族:
再介绍一下 \(\Gamma\) 分布族,由于在以往的学习中接触较少,并且 \(\Gamma\) 分布在数理统计中是一个很重要的概率分布,所以我们详细展开。首先我们给出 \(\Gamma\) 分布的密度函数:
其中 \(\alpha>0\) 称为形状参数,\(\lambda>0\) 称为速率。
回顾一下 \(\Gamma\) 函数的定义:
\[\Gamma(\alpha)=\int_{0}^{+\infty}x^{\alpha-1}e^{-x}{\rm d}x \ . \]\(\Gamma\) 函数具有如下性质:
- \(\Gamma(1)=1 \ , \ \ \Gamma(\dfrac12)=\sqrt{\pi}\) ;
- \(\Gamma(\alpha+1)=\alpha\Gamma(\alpha)\) ;
- 当 \(\alpha=n\) 为整数时,\(\Gamma(n+1)=n!\) 。
我们将 \(\Gamma\) 分布记为 \(Ga(\alpha,\lambda)\) ,数学期望为 \(\dfrac{\alpha}{\lambda}\) ,方差为 \(\dfrac{\alpha}{\lambda^2}\) 。\(\Gamma\) 分布有两个特例:
上述介绍的分布族是对于总体分布而言的,在此基础上我们引出样本分布族的概念。如果总体 \(X\) 的分布族为 \(\mathcal{F}\) ,那么从中抽取的简单随机样本 \(\boldsymbol X=(X_1,X_2,\cdots,X_n)\) 的分布一定来自于如下集合:
该集合也是一个分布族,称为样本分布族,它是统计推断的出发点,又称为统计模型。
由于简单随机样本的分布族完全由总体分布族确定,因此有时也直接把总体分布族称作统计模型。
统计量的定义是样本的函数,简单理解就是由样本算出的量。我们构造统计量的目的是把样本中与所要解决的问题有关的信息集中起来,从而通过样本去推断总体。
关于统计量,我们需要注意以下两点:
因此,观测前的统计量可以看成一个随机变量,观测后的统计量是一个可以计算出来的数。如果一个量的计算公式中含有未知参数,显然是不可能计算出结果的,也就不可能是一个统计量。
我们也可以给出统计量的严格数学定义:
设有一个分布族 \(\mathcal{F}\) ,\(\boldsymbol X=(X_1,X_2,\cdots,X_n)\) 是从其中的某个分布抽取的一个样本。如果样本的 Borel 可测函数
\[T=T(\boldsymbol X)=T(X_1,X_2,\cdots,X_n) \]不依赖于分布族 \(\mathcal{F}\) ,则称 \(T\) 为此分布族的统计量。
当 \(\mathcal{F}\) 为参数分布族 \(\{F(x;\theta:\theta\in\Theta)\}\) 时,则称不依赖于未知参数 \(\theta\) 的实值函数 \(T\) 为 \(\mathcal{F}\) 的统计量。
我们需要作出以下说明:
下面介绍一些常用的统计量:
首先介绍样本均值和样本方差,这是数理统计中最常用的两个统计量。
样本均值的定义式为:
样本方差的定义式为:
我们称 \(S\) 为样本标准差。注意到,在样本方差的定义式中,其分母为 \(n-1\) ,我们称之为 \(S^2\) 的自由度。在这里我们先不对自由度进行深入的讨论,涉及到后续内容的时候我们再做解释。
其次我们介绍两种样本矩,这两个统计量在我们学到矩估计的时候会有更深的应用和理解。
样本原点矩的定义式为:
当 \(k=1\) 时,\(a_1=\bar{X}\) ,即 \(1\) 阶样本原点矩等于样本均值。
样本中心矩的定义式为:
有时我们也用 \(2\) 阶样本中心矩来定义样本方差,即 \(S_n=m_2=\dfrac1n\displaystyle\sum_{i=1}^n(X_i-\bar{X})^2\) 。但我们并不认为用 \(S_n\) 来定义样本方差是一种很好的方式。在我们学到参数估计的时候会介绍无偏估计的概念,用 \(S^2\) 定义样本方差的好处就在于 \({\rm E}(S^2)={\rm Var}(X)\) 。
接下来我们介绍样本变异系数。先回顾一下总体变异系数的定义:\(\nu=\sqrt{{\rm Var}(X)}/{\rm E}(X)\) ,它反映的是随机变量 \(X\) 在以它的均值为单位时的总体分布的离散程度。样本变异系数的定义式为:
基于样本矩的概念,我们还可以引入样本偏度和样本峰度的概念。
样本偏度的定义式为:
样本偏度反映的是总体偏度的信息,总体偏度 \(\beta_1\) 是反映总体分布的非对称性或偏倚性的一种度量。
样本峰度的定义式为:
样本峰度反映的是总体峰度的信息,总体峰度 \(\beta_2\) 是反映总体分布的密度函数在众数附近的“峰”的陡峭程度的一种度量。
在数理统计中还会涉及到各种各样的统计量,我们在后续章节中有所涉及的时候再进行具体的讨论。
在数理统计中,我们的目的是通过样本信息去推断总体信息。经验分布函数为我们提供了一种说明统计推断合理性的理论依据。
定义 1 :样本 \((X_1,X_2,\cdots,X_n)\) 的经验分布函数定义为:
\[F_n(x)=\frac{1}{n}\#\{X_i:X_i<x,\,i=1,2,\cdots,n\} \ , \ \ \ \ \forall x\in\mathbb{R} \ , \]其中 \(\#\{\cdot\}\) 表示集合 \(\{\cdot\}\) 中元素的个数。
定义 2 :引入示性函数的概念,样本 \((X_1,X_2,\cdots,X_n)\) 的经验分布函数还可以写为
\[F_n(x)=\frac{1}{n}\sum_{i=1}^nI_{\{X_i<x\}} \]定义 3 :将样本 \(X_1,X_2,\cdots,X_n\) 从小到大排列:
\[X_{(1)}\leq X_{(2)}\leq\cdots\leq X_{(n)} \ , \]经验分布函数还可以如下定义:
\[F_n(x)=\left\{ \begin{array}{ll} 0 \ , &x\leq X_{(1)} \ , \\dfrac kn \ , & X_{(k)}\leq x\leq X_{(k+1)} \ , \ \ k=1,2,\cdots,n-1 \1 \ , &X_{(n)}<x \ . \end{array} \right. \]
可以证明,当样本给定时,\(F_n(x)\) 为 \(x\) 的单调不减左连续函数,满足分布函数的一般性质。当 \(x\) 给定时,\(F_n(x)\) 为样本的函数,也就是说经验分布函数是一个统计量,它的值由样本观察值唯一确定。
我们用第二种定义来说明经验分布函数 \(F_n(x)\) 可以用来刻画总体分布函数。我们定义
则 \(Z_i,\,i=1,2,\cdots,n\) 是独立同分布的随机变量,其分布为 \(B(1,p)\) ,其中
根据中心极限定理:
根据 Khinchine 大数定律:
根据 Kolmogorov 强大数定律:
除此之外,我们还有一个更强的结论:
Glivenko 定理:设 \(F(x)\) 为随机变量 \(X\) 的分布函数,\(X_1,X_2,\cdots,X_n\) 为取自总体 \(F(x)\) 的简单随机样本,\(F_n(x)\) 为其经验分布函数,则有
\[P\left(\lim_{n\to\infty}\sup_{-\infty<x<\infty}|F_n(x)-F(x)|=0\right)=1 \ . \]
Glivenko 定理的含义是:\(F_n(x)\) 在整个实轴上以概率 \(1\) 一致收敛到 \(F(x)\) ,该结论强于强大数定理所得的结论。在这里我们仅理解其含义而不作证明。
通过以上的概率极限定理,我们可以知道,当样本容量足够大时,对所有的 \(x\) 值,经验分布函数 \(F_n(x)\) 与总体分布函数 \(F(x)\) 之间只有很小的差别。因此,我们可以利用 \(F_n(x)\) 很好地拟合总体分布 \(F(x)\) 。
原文:https://www.cnblogs.com/lixddd/p/14495083.html