1 / 43

概率论第 10 讲

概率论第 10 讲. 相互独立随机变量的和 相关系数. 本文件可从网址 http:// www.appmath.cn 上下载. 当一个随机变量 x 服从零 - 壹分布时 , 它的分布密度如下表所示. (0< p <1). 因此 , E x =0 (1 - p )+1 p = p E x 2 =0 2 (1 - p )+1 2  p = p D x = E x 2 - ( E x ) 2 = p - p 2 = p (1 - p ) 现在设随机变量 x 1 , x 2 ,..., x n 相互独立且每个都服从同一个零一分布 , 来求出

una
Télécharger la présentation

概率论第 10 讲

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 概率论第10讲 相互独立随机变量的和 相关系数 本文件可从网址 http://www.appmath.cn 上下载

  2. 当一个随机变量x服从零-壹分布时, 它的分布密度如下表所示 (0<p<1) 因此, Ex=0(1-p)+1p=p Ex2=02(1-p)+12p=p Dx=Ex2-(Ex)2=p-p2=p(1-p) 现在设随机变量x1,x2,...,xn相互独立且每个都服从同一个零一分布, 来求出 hn=x1+x2+...+xn的分布

  3. 这里, 每个xi只能取0,1(i=1,2,...,n). 因此, hn只能取0,1,2,...,n. 设i为这些数字中的任一个. hn取i等于说x1,x2,...,xn中恰好有i个值取1而其余的取0. 在x1,x2,...,xn中i个 方式两两互斥. 按诸xi的相互独立性, 每种方式出现的概率为pi(1-p)n-i. 因此 即hn服从B(n,p).

  4. 因为hn=x1+x2+...+xn且x1,x2,...,xn相互独立, Exi=p, Dxi=p(1-p), i=1,2,...,n, 所以Ehn=Ex1+Ex2+...+Exn=npDhn=Dx1+Dx2+...+Dxn=np(1-p)

  5. 中心极限定律:设随机变量x1,x2,...,xn相互独立, 均值和方差都一样, 设Exi=m, Dxi=s2, i=1,2,...,n, 则当n很大时(通常在100以上), 它们的和hn=x1+x2+...+xn近似服从正态分布N(nm, ns2)推论:当n很大时, 二项分布B(n,p)近似服从正态分布N(np,np(1-p))(隶莫佛-拉普拉斯中心极限定理)

  6. 第三节 相关系数

  7. 一, 线性回归 回归系数在研究实际问题时, 会遇到一些相互制约的量, 即它们之间存在一定的联系. 这些联系中有一类是大家所熟悉的函数关系, 即所谓确定性关系. 譬如, 自由落体运动中, 物体下落的距离s与所需的时间t的关系为

  8. 但是, 经常还会遇到两个随机变量, 它们并不具有函数关系. 例如, 一族人的身长与体重之间就是这样, 一般说来, 身高者, 体亦重. 但这种联系不是确定性的, 一个人的体重并不能完全确定其身高. 对于这样两个随机变量x,h, 希望用x的某个线性函数ax+b(a,b都是常数)来近似表达h. 当然问题是如何选取a,b, 使得在某种含义上近似程度尽可能好.

  9. 以ax+b近似表达h时的均方误差为E[h-(ax+b)]2=E[(h-Eh)-a(x-Ex)+(Eh-aEx-b)]2=E[(h-Eh)2+a2(x-Ex)2+(Eh-aEx-b)2-2a(h-Eh)(x-Ex)+2(h-Eh)(Eh-aEx-b)-2a(x-Ex)(Eh-aEx-b)]=E(h-Eh)2+a2E(x-Ex)2+(Eh-aEx-b)2-2aE[(h-Eh)(x-Ex)].为了表达方便,

  10. E[h-(ax+b)]2 =E(h-Eh)2+a2E(x-Ex)2+(Eh-aEx-b)2-2aE[(h-Eh)(x-Ex)].

  11. 从表达式可以看出, 为了使均方误差尽可能地小, 应该取

  12. 即取 (2) (3) 这时, ax+b为 (4)

  13. 以x的这个线性函数(4)作为h的近似值时, 均方误差最小, 最小值为s2(h)[1-r2(x,h)]. (5)称x的线性函数(4)为h对x的线性回归. 称线性函数(4)的一次项的系数 (6) 为h对x的回归系数, 记作a(x,h).

  14. 类似地, 可以考虑以h的线性函数近似表达x的问题. 得到x对于h的线性回归为 (7) 又, x对于h的回归系数a(h,x)为 (8) 按定义知r(x,h)=r(h,x), a(h,x)也可写成 (9)

  15. 例10设二维随机变量(x,h)的分布密度为 求h对于x的线性回归及x对h的线性回归.

  16. 解(x,h)关于x的边缘分布密度为 (x,h)关于h的边缘分布密度为

  17. 从而推得

  18. 因此, h对x的线性回归为 x对h的线性回归为

  19. 二, 相关系数 协方差

  20. 上面已经求得: 如限用x的线性函数来近似表达h, 取h对于x的线性回归 时, 均方误差最小, 最小值为 s2(h)[1-r2(x,h)]. 而在误差理论中使用相对误差更为合适. 用上述均方误差s2(h)[1-r2(x,h)]除以s2(h) 后的商1-r2(x,h)(以后简称相对均方误差)来计量上述近似程度. 同理, 1-r2(x,h)也可以用来计量x对h的线性回归作为x的近似程度.

  21. 由此可见, 可以用1-r2(x,h)来计量x,h的线性联系的紧密程度. 由于1-r2(x,h)是|r(x,h)|的单调减函数, 也可用|r(x,h)|来计量这种联系的紧密程度. 称r(x,h)为x,h的相关系数, 它是(x,h)的一个数字特征.

  22. 下面讨论|r(x,h)|的大小与这种联系的关系.首先, 由于上述均方误差总不为负, 所以1-r2(x,h)0,即|r(x,h)|1其次当|r(x,h)|较大时, 相对均方误差1-r2(x,h)较小, 这就表明x,h的线性联系比较紧密. 反之,就比较不紧密.

  23. 特殊地, 当|r(x,h)|=1时, x,h的联系最紧密. 这时, 线性回归的均方误差均为零, 即x与h有线性关系 按r(x,h)为+1或-1而确定等式右端为+或为-.

  24. 当r(x,h)=0时, x,h的联系最不紧密. 这时, 两个线性回归都是常数, 它们依次为Eh及Ex. 称这样的x,h为互不相关.

  25. 当x,h相互独立时, x-Ex, h-Eh也相互独立, 再按数学期望的性质有E[(x-Ex)(h-Eh)]=[E(x-Ex)]E[(h-Eh)] =(Ex-Ex)(Eh-Eh)=0所以, 这时

  26. 即, x,h相互独立保证x,h互不相关. 但反过来不成立, x,h互不相关并不保证x,h相互独立.

  27. 例11已知随机变量x的分布密度为 而h=x2. 试证随机变量x与h不相互独立而互不相关. 证x与h不相互独立是显然的, 因为h的值完全由x的值所决定. 但E(xh)=E(x3)=E(x)=0, E(x)E(h)=0 所以r(x,h)=0, 故x,h互不相关.

  28. 当(x,h)服从正态分布时, x,h相互独立与x,h互不相关是等价的.

  29. 例12设服从以(x,h) 为分布密度的二维正态分布. 证明:r(x,h)=r. 证 按第六章例5的结论, x,h的边缘分布密度为标准正态分布, 因此 Ex=0, s2(x)=1, Eh=0, s2(h)=1. r(x,h)=E(xh)

  30. r(x,h)=E(xh)

  31. 在讨论误差时有绝对误差及相对误差一样, 在讨论表达两个随机变量之间联系的紧密程度时, 通常也有两种方法. 上面介绍过的相关系数相应于相对误差的地位, 相应于绝对误差地位的数字特征是E[(x-Ex)(h-Eh)]=r(x,h)s(x)s(h). 称这个数字特征为x,h的协方差, 记作cov(x,h), 即规定cov(x,h)=E[(x-Ex)(h-Eh)].显然有: cov(x,h)=cov(h,x)

  32. 又当x,h相互独立时, cov(x,h)=0. 但是, 反之不一定成立. 特殊地, 对于服从二维正态分布的随机变量(x,h)中的x,h讲, cov(x,h)=rs1s2, 且x,h的协方差为零等价于x,h相互独立.注意到: 只要x,h互不相关, 便有s2(xh)=s2(x)+s2(h).

  33. 第四节 契比晓夫不等式 大数定律

  34. 方差是用来计量一个随机变量取值的分散程度的. 设x的方差为s2(x), 标准差为s(x). 要估计事件{|x-Ex|ks(x)}的概率, 其中k>0为任一常数. 为了简便起见, 在此只讨论连续型情形.

  35. 设x的分布密度为j(x), 则 从而得到不等式

  36. 如果令ks(x)=e, 即 ,则上式可写为 e为任意正数 称此不等式为契比晓夫不等式.

  37. 贝努利大数定律: 设hn服从B (n,p), 其中0<p<1, n=1,2,..., 那末, 对于任一正数e, 有

  38. 证 由于hn服从B (n,p), 所以Ehn=np, s2(hn)=np(1-p).因此按契比晓夫不等式 证毕

  39. 由于hn/n可以看作在n次重复独立试验中指定的事件A出现的频率, 而p为每次试验中A出现的概率, 因此上述定理的结论可理解为: 当n足够大时, 事件A出现的频率与A的概率的差的绝对值不小于任一指定的正数e的概率可以小于任何预先指定的正数. 这是频率稳定性的一种较确切的解释.

  40. 契比晓夫大数定律 设随机变量x1,x2,...,xn,...相互独立, 每个变量分别存在数学期望Ex1,Ex2,...,Exn,...及方差s2(x1),s2(x2),...,s2(xn),...,并且这些方差是有界的, 所有的方差小于一正常数K则对于任一个正数e, 有

  41. 将契比晓夫不等式用在 上, 任给e>0, 有

  42. 设随机变量x1,x2,...,xn,...相互独立且服从同一分布, 并且存在数学期望a和方差s2, 则x1,x2,...,xn的算术平均数对于任一个正数e, 有

  43. 第120页开始第11,15,16题

More Related