概率参数估计概率?假设检验和参数估计有什么相同和不同

fhuyi0XCV 数码 3 0

一、概率论r被估计的参数的个数怎么求

1.极大似然法

考虑一个随机变量 X,其概率密度函数为 f\left( x\mid\theta\right),其中\theta为分布参数。如果一组观测样本值为x_1,x_2,\cdots,x_n,那么我们可能会问“在所有可能的\theta值中,什么值将使得获得观测样本集x_1,x_2,\cdots,x_n的可能性最大?”。利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值,这就是采用极大似然法进行参数估计的基本思路。可以合理地认为获得某样本值x_i的可能性与概率密度函数在x_i处的值成正比,假设抽样是随机的,则获得一组 n个独立观测值x_1,x_2,\cdots,x_n的可能性为:

L\left( x_1,x_2,x_3,\cdots,x_n\mid\theta\right)=f\left( x_1\mid\theta\right) f\left( x_2\mid\theta\right)\cdots f\left( x_n\mid\theta\right)\tag{1.1}

(1.1)式即为获得观测样本值x_1,x_2,\cdots,x_n的似然函数,通过求解式(1)似然方程,令似然函数对\theta的导数等于零可得到\theta的极大似然估计值\hat{\theta},该\hat{\theta}即为使得似然函数取得最大值的\theta值。

\frac{\partial L\left( x_1,x_2,\cdots,x_n\mid\theta\right)}{\partial\theta}=0\tag{1.2}

由于似然函数是一个乘积式,采用似然函数的对数形式处理起来更为方便,即:

\frac{\partial\ln L\left( x_1,x_2,\cdots,x_n\mid\theta\right)}{\partial\theta}=0\tag{1.3}

对于有多个参数的概率密度函数,似然函数变为:

L\left( x_1,x_2,\cdots,x_n\mid\theta _1,\theta _2,\cdots,\theta _m\right)=\prod_{i=1}^n{f\left( x_i\mid\theta _1,\theta _2,\cdots,\theta _m\right)}\tag{1.4}

上式中,\theta _1,\theta _2,\cdots,\theta _m为待估计的 m个参数,这些参数的极大似然估计值可以通过如下方程组求得:

\frac{\partial\ln L\left( x_1,x_2,\cdots,x_n\mid\theta _1,\theta _2,\cdots,\theta _m\right)}{\partial\theta _j}=0; j=1,2,\cdots,m\tag{1.5}

2.贝叶斯参数估计

在经典统计理论中对概率分布的参数进行估计时假定参数是未知常数,采用样本统计量进行估计,并采用置信区间来描述估计误差。贝叶斯方法则采用另一种思路解决参数估计问题,将一个分布中的未知参数假定为随机变量,将于参数估计有关的所有不确定性都归结到参数的随机性上。为了便于阐述贝叶斯参数估计的概念,先考虑离散分布,假设分布参数\theta可以取一组离散数值\theta _i,i=1,2,\cdots,k,根据已知信息大概确定或假定相应的先验概率分布为 p_i=p\left(\varTheta=\theta _i\right),其中\varTheta为随机变量,表示\theta的可能取值。令D=\left\{ x_1,\dots,x_n\right\}为观测结果,利用观测结果来修正参数\theta的先验假定分布,根据条件概率公式可以得到更新后的\theta的概率分布:

P\left(\varTheta=\theta _i\mid D\right)=\frac{P\left(\varTheta=\theta _i\cap D\right)}{P\left( D\right)}=\frac{P\left( D\mid\varTheta=\theta _i\right) P\left(\varTheta=\theta _i\right)}{\sum_{i=1}^k{P\left( D\mid\varTheta=\theta _i\right) P\left(\varTheta=\theta _i\right)}}\tag{2.1}

上式中, P\left( D\mid\varTheta=\theta _i\right)为在参数\theta取为一个特定值\theta _i时观测结果为D的条件概率;\sum_{i=1}^k{P\left( D\mid\varTheta=\theta _i\right) P\left(\varTheta=\theta _i\right)}为P\left( D\right)的全概率展开形式; P\left(\varTheta=\theta _i\right)为\varTheta=\theta _i的先验概率,即在未得到观测结果前假定的概率; P\left(\varTheta=\theta _i\mid D\right)为\varTheta=\theta _i的后验概率,即根据得到的观测结果 D更新后的概率。

将先验和后验概率分别计为\widetilde{P}\left(\varTheta=\theta _i\right)和\overline{P}\left(\varTheta=\theta _i\right),则式(2.1)可以写为:

\overline{P}\left(\varTheta=\theta _i\right)=\frac{P\left( D\mid\varTheta=\theta _i\right)\widetilde{P}\left(\varTheta=\theta _i\right)}{\sum_{i=1}^k{P\left( D\mid\varTheta=\theta _i\right)\widetilde{P}\left(\varTheta=\theta _i\right)}}\tag{2.2}

则\varTheta的期望值即为参数\theta的贝叶斯估计结果:

\hat{\theta}=E\left(\varTheta\mid D\right)=\sum_{i=1}^k{\theta _i\overline{P}\left(\varTheta=\theta _i\right)}\tag{2.3}

对于连续分布情况,在贝叶斯参数估计理论中假定分布中参数\varTheta为连续随机变量,其先验概率密度函数为\tilde{f}\left(\theta\right),则\theta位于区间\left(\theta _i,\theta _i+\varDelta\theta\right]的先验概率为P\left(\theta _i<\theta<\theta _i+\varDelta\theta\right)=\widetilde{f}\left(\theta _i\right)\varDelta\theta,在得到观测结果 D后,可以计算\theta位于区间\left(\theta _i,\theta _i+\varDelta\theta\right]的后验概率:

\overline{f}\left(\theta _i\right)\varDelta\theta=\frac{P\left( D\mid\theta _i<\theta<\theta _i+\varDelta\theta\right)\widetilde{f}\left(\theta _i\right)\varDelta\theta}{\sum_{i=1}^k{P\left( D\mid\theta _i<\theta<\theta _i+\varDelta\theta\right)\widetilde{f}\left(\theta _i\right)\varDelta\theta}}\tag{2.4}

两边取极限,上式变为:

\overline{f}\left(\theta\right)=\frac{P\left( D\mid\theta\right)\widetilde{f}\left(\theta\right)}{\int_{-\infty}^{+\infty}{P\left( D\mid\theta\right)\widetilde{f}\left(\theta\right) d\theta}}\tag{2.5}

上式中,P\left( D\mid\theta\right)可以认为是假定参数值为\theta时观测结果为 D的似然性,一般称为\theta的似然函数,用L\left(\theta\right)表示;分母与\theta无关,是由D确定的一个常数k=\frac{1}{\int_{-\infty}^{+\infty}{L\left(\theta\right)\widetilde{f}\left(\theta\right) d\theta}},因此,式(2.5)可以写为:

\overline{f}\left(\theta\right)=kL\left(\theta\right)\widetilde{f}\left(\theta\right)\tag{2.6}

则参数\theta的贝叶斯更新后的估计值为:

\hat{\theta}=E\left(\varTheta\mid D\right)\int_{-\infty}^{+\infty}{\theta\overline{f}\left(\theta\right) d\theta}\tag{2.7}

二、参数估计

参数估计,是根据样本的数据,按照一定公式计算出某个数字特征(平均数、方差等),来估计总体的某些数字特征。参数估计分点估计(或称定值估计)与区间估计两种。

在此之前,样本可理解为从一批样品中,通过观测或化验得到的一批固定数据,如γ照射量率、径迹密度、微量元素的含量等。但是,由于上述变量的随机性,加上抽样的随机性,因而容量为n的样本,实质上是一个n维随机变量。于是样本的特征数,如平均数

、方差s2等也随着所取样本不同而改变。因此,

、s等也是随机变量,也可以计算它们的平均值与方差了。

(一)样本特征数与总体特征数之间的关系

如果总体的均值为μ、方差为σ2;样本容量为n,样本平均值�x的均值为

,方差为

,样本方差s2的均值为

,则样本特征数

、s2的特征数与总体特征数之间有如下关系:

1)样本平均数�x的均值等于总体的均值,即

放射性勘探技术

2)样本平均数的方差等于总体方差除于样本容量n,即

放射性勘探技术

3)样本方差的均值等于总体的方差,即

放射性勘探技术

但这时s2的计算公式要用

。其原因是此式是s2的无偏估计量。

上述式(8-17)~式(8-19)是用“样本”推断“总体”的理论根据。

(二)样本平均数

和方差s2的分布与总体分布间的关系

1)总体服从正态分布N(μ,σ2),则不论样本容量大小(即不论n为多大),样本平均数

总是服从正态分布N(μ,σ2/n)的。

2)若总体不服从正态分布,但样本容量很大(n>30~50)时,则样本平均数

也近似服从正态分布N(μ,σ2/n)。

3)若总体服从正态分布,只要样本容量n>20,则样本标准差S的分布近似正态分布N[μ,σ2/(2n)]。

上述这些关系是很重要的,是统计推断的重要理论根据。

(三)点估计

点估计是对总体参数做一定数值的估计。就是选择一个统计量(即根据样本数值,经过某种运算得到的特征数,如均值、均方差、偏度、峰度等),假如

为根据样本数据计算出的统计量,然后用它来估计总体的某个参数θ,那么这个统计量

就叫作总体参数θ的估计量。例如平均数

,就是总体均值μ的一个估计量;样本方差s2就是总体方差σ2的一个估计量,故

、s2就是统计量。显然总体参数θ的估计量有多种可供选择,在选择估计量

时,有一条最常用的标准就是无偏性。所谓无偏性就是要求θ的估计量

的均值正好等于θ,符合这一要求者,称为无偏估计量。

由式(8-17)和式(8-18)可知,无论总体服从何种分布,也无论样本容量n为多少,总有样本平均数�x是总体均值μ的无偏估计量。样本方差s2是总体方差σ2的无偏估计量。因此实际工作中往往用一批γ照射量率观测数据的众数(或平均数)来估计某岩体(测区)的γ照射量率底数,以一批铀矿石样品的平均品位来估计某矿带或矿床的铀平均品位;用样本的方差s2来估计总体方差σ2。

(四)区间估计与信度

点估计(定值估计)难免有偏差,而且偏差的程度也不好估计。因此往往用区间估计来估计总体参数。区间估计不仅能对总体参数做出估计,且能指出总体参数落在此区间内的概率大小(概率用P来表示)。若以A表示某随机事件,则其概率记为P{A}。显然,概率小于等于1(必然事件),大于等于0(不可能事件),即0≤P≤1。

由前已知,当样本容量大(即n>30~50)时,不论总体服从何种分布(总体均值为μ,方差为σ2),总有样本平均数�x服从正态分布。根据本项目学习任务二的几个常用概率值可知

放射性勘探技术

根据以上分析可知,任何一个用来估计的区间,都联系于一定的概率值。这种概率反映了用该区间做估计的可信程度,故称置信概率,也称保证概率。然而,实际工作中,往往是先定出置信概率的大小,然后推算出一个具有这个置信概率的估计区间。通常人们在给出置信概率大小时,又不是直接给出置信概率,而是给出1与置信概率的大小的差,并用α来表示(即α=1-置信概率),α称为信度(或信任系数、置信水平、显著性水平),α介于0~1之间,表示犯错误的概率。由于置信概率=1-α,如α=5%,则置信概率=1-0.05=0.95。于是总体参数μ的估计区间定为

。在给定信度α的条件下,推算出的估计区间,叫作信度为α的置信区间,其上、下限称为置信上、下限,统称为置信限。

估计区间可用来确定抽样误差、预测矿石品位等方面。确定抽样误差(用样本的特征数,如平均数与方差来估计总体的特征数如均值与方差时所产生的偏差),就是在一定信度α下确定该误差范围,即置信区间。抽样误差用m来表示。例如用样本平均数μ来估计总体均值μ时的抽样误差范围,就是在一定信度下用区间(X-m,X+m)来估计总体均值μ,即

放射性勘探技术

式中:m——抽样误差;

t——概率系数;

——样本平均数的标准差;

σ——总体标准差;

n——样本容量。

因此,确定抽样误差,也就是在一定信度下,用区间

来估计总体均值μ。实际上只要求出满足P

=1-α的t值即可。而t值可从标准正态分布表F(u)反查u值表中查得(见附录一),即F(u)=1-α/2所对应的u值即为所求的t值。如α=0.05,F(u)=1-α/2=0.975,查附录一,得u=1.96,故t=1.96。

下面用一个例子来说明区间估计的应用。

[例8-3]用FD-3013B型仪器在某燕山早期第三阶段花岗岩体(

)测得154个γ照射量率数据;该样本的平均数与标准差已求出,分别为

=42.34γ,s=13.7γ。如果在信度α=0.05的条件下,用样本的平均放射性γ照射量率估计该岩体的放射性γ照射量率时,抽样误差为多少?该岩体放射性γ照射量率为多少?

解:由于信度α=0.05,故置信概率=1-α=0.95。所求的抽样误差m应满足下式:

放射性勘探技术

放射性勘探技术

当α=0.05时,查得t=1.96,又由于n=154是个大样本,于是可用样本标准差s代替总体标准差σ,则抽样误差是

放射性勘探技术

所以该岩体的放射性γ照射量率为(42.3±2.2)γ,也就是说,在信度为5%的条件下,该岩体放射性γ照射量率置信区间为(40.1γ,44.5γ)。

三、假设检验和参数估计有什么相同和不同

1、相同点:

(1)都是根据样本信息对总体的数量特征进行推断;

(2)都以抽样分布为理论依据,建立在概率论基础之上的统计推断,推断结果都有一定的可信程度或风险。

2、不同点:

(1)参数估计是以样本资料估计总体参数的真值,假设检验是以样本资料检验对总体参数的先验假设是否成立;

(2)参数估计中的区间估计是求以样本统计量为中心的双侧置信区间,假设检验既有双侧检验,也有单侧检验;

(3)参数估计中的区间估计是以大概率为标准,而假设检验是以小概率原理为标准。

扩展资料

统计学方法包括统计描述和统计推断两种方法,其中,推断统计又包括参数估计和假设检验。参数估计就是用样本统计量去估计总体的参数的真值,它的方法有点估计和区间估计两种。

假设检验假是根据样本统计量来检验对总体参数的先验假设是否成立,是推断统计的另一项重要内容,先对总体参数提出一个假设值,然后利用样本信息判断这一假设是否成立。

假设检验和参数估计之间的联系

二者可相互转换,形成对偶性。对同一问题的参数进行推断,由于二者使用同一样本、同一统计量、同一分布,因而二者可以相互转换。

区间估计问题可以转换成假设问题,假设问题也可以转换成区间估计问题。区间估计中的置信区间对应于假设检验中的接受区域,置信区间以外的区域就是假设检验中的拒绝域。

参考资料来源:百度百科--假设检验

参考资料来源:百度百科--参数估计

抱歉,评论功能暂时关闭!