1 / 30

第二讲 概率统计基本概念 一、概率统计的基本概念 1 .随机事件( random test ) 在一定条

第二讲 概率统计基本概念 一、概率统计的基本概念 1 .随机事件( random test ) 在一定条件下可能实现,也可能不能实现的现象称为随机事件。 如“某一铜矿体中铜品位为 0.5%-1.2%” 、“闪长岩侵入于碳酸盐地层中形成矽卡岩铁矿”、“钻探到地下 1000 米处见矿”等。 由于地质作用的长期性和复杂性,地质过程中的大多数地质现象都可当作是随机事件。. 2 .总体( population )和样本( group )

ivy
Télécharger la présentation

第二讲 概率统计基本概念 一、概率统计的基本概念 1 .随机事件( random test ) 在一定条

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 第二讲 概率统计基本概念 一、概率统计的基本概念 1.随机事件(random test) 在一定条件下可能实现,也可能不能实现的现象称为随机事件。 如“某一铜矿体中铜品位为0.5%-1.2%”、“闪长岩侵入于碳酸盐地层中形成矽卡岩铁矿”、“钻探到地下1000米处见矿”等。 由于地质作用的长期性和复杂性,地质过程中的大多数地质现象都可当作是随机事件。

  2. 2.总体(population)和样本(group) 假设我们研究某个矿体,并从该矿体上采集一组(n个)样品,并分析这组样品中成矿元素Cu和伴生金属元素Pb、Zn、Ag的含量,便可得到一系列元素含量的值,如下所示: 其中,1=Cu, 2=Pb, 3=Zn, 4=Ag,

  3. 其中,1=Cu, 2=Pb, 3=Zn, 4=Ag, 将这组样品中一切测定值的集合称为总体(population) 某个样品上所得到的测定值为样本(group) 样本中的单个测定值称为个体(individuals) 一个总体中所含个体的数目称为总体大小(此处为n×4) 样本中所包含个体的总数为样本大小/容量(此处为4) 注意:样本和样品的区别!

  4. 3.随机变量(random variables) 在观测或试验中,可能取这个或那个数值,但事前不能确定取什么样的值,而一旦观测/试验完成,其值也随之唯一确定。这种变量称为随机变量(离散型、连续型)。 在某个铜矿体的不同部位取样并分析各样品的Cu品位值。显然,每个样品的品位事先是不能预测,且随其在矿体位置的不同而有所变化,但经化验分析后其值又是唯一的,因此Cu品位是一个随机变量。地质学中大多数变量都是随机变量。 

  5. 4.频率(frequency)和概率(probability) 若进行N次观测,某一事件A出现的次数m称为其发生的频数(f*),m/N比值称事件A发生的频率. 如果试验(观测)条件相同,当N→∞时,频率f的极限值称为事件A出现的概率,用P表示。实际上,当N足够大时(N>50~100),可取事件A的频率作为概率的近似值。 对某一地区500个水系沉积物样品进行Au的含量分析,其中64个样品的品位>50 ppb,则 样品品位高于50ppb的频数为64,频率为64/500=12.8%, 它接近于本区样品Au含量超过50ppb的概率。

  6. 5.随机事件的概率有以下重要性质  (1)对任意事件A,0≤P (A)≤1  (2)若事件A和事件B互不相容(即A、B不可能同时出现)则P (A +B) = P (A) + P (B)(概率加法)  (3)条件概率(conditional probability) 若A、B为两个随机事件,且P (B)≠0,则事件B已经出现的条件下事件A出现的概率称为条件概率,即 P (A|B) = P (AB)表示AB同时出现的概率,即联合概率(joint probability)。

  7. 例:将某一区域划分为16个单元,其中7个单元出现NE向断裂,4个单元出现铅锌矿化;其中三个出现在有NE向断裂的单元内,试计算当存在NE向断裂的条件下有矿化的概率。例:将某一区域划分为16个单元,其中7个单元出现NE向断裂,4个单元出现铅锌矿化;其中三个出现在有NE向断裂的单元内,试计算当存在NE向断裂的条件下有矿化的概率。 P(NE向断裂) =7/16=0.44, P(矿化|NE向断裂) =P(矿化&NE向断裂)/ P(NE向断裂) =(3/16)/0.44=0.187/0.44=42.5%

  8. (4)全概率公式 若事件B1, B2, …., Bn是一组互不相容的事件,并且B1+B2+….+Bn是一个必然事件,则称 B1, B2, …., Bn构成了一个互不相容的事件完备群。若事件A与事件Bi (i=1, 2, …, n)中之一同时出现,即: A=AB1+AB2+…+ABn, 则事件A出现的概率为: P(A)=P(B1)P(A|B1) +…+ P(Bn)P(A|Bn)

  9. (5)贝叶斯准则(Bayes’ theory )  贝叶斯准则的基本公式为: P(AB) = P(B|A)P(A) 即事件A、B同时出现的概率等于事件A已经出现时事件 B出现的概率乘以事件A发生的概率。上式等价于: P(AB) = P(A|B)P(B) 即P(B|A)P(A) = P(A|B)P(B)。此式又可写成: P(A|B)P(B) P(A) P(B|A) = 贝叶斯公式非常有用,因为有时我们只知道条件概率中 A事件的概率,但恰恰所关心的是B事件的概率。

  10. 例: 经测量发现某一地区有磁场异常的出现(A),但我们所关心的是磁异常出现的情况下该区出现矿床(B)的概率是多少。我们可以获得矿区的条件概率P(磁异常|矿化)和非条件概率P(矿化),但却很难直接获得P(矿化/磁异常),因为需要对每一个磁异常进行检查和验证,这在实际工作中往往是不太可能的。通过贝叶斯公式,我们可以对P(矿化|磁异常)进行计算,即:

  11. 5.频率分布和概率分布(frequency distribution & probability distribution)

  12.   如果观测次数无限增大,且分组区间无限减小,则可以用频率分布曲线来代表总体分布的概率分布曲线,它对应着一个函数关系y=f(x)。函数f(x)称为X的概率密度函数(probability density function)。若f(x)已知,给定区间(a, b),则随机变量X在(a, b)区间的取值概率

  13. 第二讲 概率统计基本概念(续) 一、概率统计的基本概念 1.随机事件 随机现象 V.S. 决定性现象 过马路遇到红灯 V.S. F=ma; 长方形面积 = L x H 2.总体和样本 3.随机变量 4.频率、概率、条件概率、联合概率 全概率公式、贝叶斯准则 随机事件A, 若在N次试验中出现了n次,则 FN(A) = n/N; 频率稳定性---统计规律性 概率P(A) P(NE向断裂) P(矿化|NE向断裂)P(矿化&NE向断裂)

  14. 5.频率分布和概率分布(frequency distribution & probability distribution)

  15.   如果观测次数无限增大,且分组区间无限减小,则可以用频率分布曲线来代表总体分布的概率分布曲线,它对应着一个函数关系y=f(x)。函数f(x)称为X的概率密度函数(probability density function)。若f(x)已知,给定区间(a, b),则随机变量X在(a, b)区间的取值概率

  16. 6.概率分布函数(probability distribution function) 定义:设X是随机变量,对于任何实数x,若事件(X≤x)的概率P(X≤x)有意义,则可定义函数: F (x) = P (X≤x) [x∈R1=(-∞, +∞)] 则称F (x)为随机变量X的概率分布函数。它给出随机变量X不大于x值的概率。 在数学上,F(x) = P (X≤x) 可用积分形式表示:

  17. 正态分布的随机变量的 概率密度函数 正态分布的随机变量的 概率分布函数

  18. E(X)= 7.随机变量的若干重要数字特征 (1)平均值(aerage/expectation) 设离散型随机变量X 的可能取值为x1, x2, …, xn, .., P (X =xi) = Pi,则X的平均值 μ= (即以取值概率为权的加权平均值) 对连续型随机变量X,设其概率密度函数为f (x),则 样本算术平均值μ =

  19. 众数 (mode): 具有最大频率的随机变量的取值 中位数(median): 累积概率50%时对应的观测值. 在正态分布中,mode=median=expectation f(x) .

  20. S2= (2)方差、标准差、变异系数 方差(ariance)是对随机变量离散性质的反映和度量,实际上反映了每一个体(观测值)偏离总体平均值的程度。其数学表达式为: D(X) = E[X-E(X)]2 样本方差的计算: 方差的平方根称为标准差(standard deiation), 记为σ.

  21. CV= 变异系数(Coefficient of ariation) 变异系数是衡量矿化均匀程度等的重要参数

  22. (3)协方差(Coariance), σXY 用以表征表征随机变量X、Y相对于各自平均值的协同变化(joint ariation)。分别对随机变量X和Y进行观测,得样本容量为n的一组观测值x1,x2…xn和y1,y2…yn,则 cov(X,Y )=E[X-E(X)][Y-E(Y)] 样本协方差计算:

  23. (4)相关系数(correlation coefficient) 随机变量X与Y之间的相关系数记为 样本相关系数计算: 相关系数有以下性质: 1)对任意随机变量X和Y, -1≤rxy≤1 2)相互独立的随机变量x, y,其rxy=0,σxy也为0)

  24. De Wijs 锌品位数据 118个样品 deWijs(1951)发表了取自Boliia的Pulacayo地区铅锌矿-石英矿脉中的118个锌元素化验数据。 在一条铅锌矿-石英脉(地下446标高)240米长的穿脉水平巷道中,每隔2米刻槽取了118个样品。大块脉质平均仅0.5米宽并同时包含了两侧围岩中侵染状的闪锌矿,部分地方出现近似平行的细矿脉脉道。水平巷道中样品被切割成标准的1.3米宽(与期望的终止宽度相吻合)。图中的的化验值表示了平均加权的锌的百分含量,每隔样品点代表1.3米宽度(与矿脉垂直切割) Zinc (%) Distance (m) Zinc (%) rank

  25. N: 118 Max: 39.3000 Max_Dist: 186 Min: 3.7000 Min_Dist: 230 Range: 35.6000 Mean: 15.6000 Var: 64.2764 Std: 8.0173 Median: 13.6500 Mode: 10.6000 IQR: 11.0000 CV: 0.5139 Skewness: 0.8090 Kurtosis: 3.0579

  26. Q-Q Plot

  27. lg[Zinc (%)] N: 118 Max: 1.5944 Min: 0.5682 Range: 1.0262 Mean: 1.1346 Std: 0.2327 Median: 1.1351 Trimmean: 1.1431 Geomean: 1.1089 Harmmeam: 1.0808 Mode: 1.0253 Mad: 0.1886 Var: 0.0542 IQR: 0.3245 Moment: 0.0537 CofV: 0.2051 Skewness: -0.2437 Kurtosis: 2.5120 Distance (m)

More Related