ç¬¬äºŒè®² æ¦‚çŽ‡ç»Ÿè®¡åŸºæœ¬æ¦‚å¿µ ä¸€ã€æ¦‚çŽ‡ç»Ÿè®¡çš„åŸºæœ¬æ¦‚å¿µ 1 ï¼Žéšæœºäº‹ä»¶ï¼ˆ random test ï¼‰ åœ¨ä¸€å®šæ¡

第二讲概率统计基本概念 一、概率统计的基本概念 1．随机事件（random test）在一定条件下可能实现，也可能不能实现的现象称为随机事件。如“某一铜矿体中铜品位为0.5%-1.2%”、“闪长岩侵入于碳酸盐地层中形成矽卡岩铁矿”、“钻探到地下1000米处见矿”等。由于地质作用的长期性和复杂性，地质过程中的大多数地质现象都可当作是随机事件。

2．总体（population）和样本（group） 假设我们研究某个矿体，并从该矿体上采集一组（n个）样品，并分析这组样品中成矿元素Cu和伴生金属元素Pb、Zn、Ag的含量，便可得到一系列元素含量的值，如下所示：其中，1=Cu, 2=Pb, 3=Zn, 4=Ag,

其中，1=Cu, 2=Pb, 3=Zn, 4=Ag, 将这组样品中一切测定值的集合称为总体(population) 某个样品上所得到的测定值为样本(group) 样本中的单个测定值称为个体（individuals）一个总体中所含个体的数目称为总体大小（此处为n×4) 样本中所包含个体的总数为样本大小/容量（此处为4）注意：样本和样品的区别！

3．随机变量（random variables） 在观测或试验中，可能取这个或那个数值，但事前不能确定取什么样的值，而一旦观测/试验完成，其值也随之唯一确定。这种变量称为随机变量(离散型、连续型)。在某个铜矿体的不同部位取样并分析各样品的Cu品位值。显然，每个样品的品位事先是不能预测，且随其在矿体位置的不同而有所变化，但经化验分析后其值又是唯一的，因此Cu品位是一个随机变量。地质学中大多数变量都是随机变量。　

4．频率(frequency)和概率(probability) 若进行N次观测，某一事件A出现的次数m称为其发生的频数（f*），m/N比值称事件A发生的频率. 如果试验（观测）条件相同，当N→∞时，频率f的极限值称为事件A出现的概率，用P表示。实际上，当N足够大时（N>50~100），可取事件A的频率作为概率的近似值。对某一地区500个水系沉积物样品进行Au的含量分析，其中64个样品的品位>50 ppb，则样品品位高于50ppb的频数为64，频率为64/500=12.8%, 它接近于本区样品Au含量超过50ppb的概率。

5．随机事件的概率有以下重要性质 　（1）对任意事件A，0≤P (A)≤1 　（2）若事件A和事件B互不相容（即A、B不可能同时出现）则P (A +B) = P (A) + P (B)（概率加法) 　（3）条件概率（conditional probability）若A、B为两个随机事件，且P (B)≠0，则事件B已经出现的条件下事件A出现的概率称为条件概率，即 P (A|B) = P (AB)表示AB同时出现的概率，即联合概率（joint probability）。

例：将某一区域划分为16个单元，其中7个单元出现NE向断裂，4个单元出现铅锌矿化；其中三个出现在有NE向断裂的单元内，试计算当存在NE向断裂的条件下有矿化的概率。例：将某一区域划分为16个单元，其中7个单元出现NE向断裂，4个单元出现铅锌矿化；其中三个出现在有NE向断裂的单元内，试计算当存在NE向断裂的条件下有矿化的概率。 P(NE向断裂) ＝7/16=0.44, P(矿化|NE向断裂) =P(矿化&NE向断裂)/ P(NE向断裂) =(3/16)/0.44=0.187/0.44=42.5%

（4）全概率公式 若事件B1, B2, …., Bn是一组互不相容的事件，并且B1＋B2＋….＋Bn是一个必然事件，则称 B1, B2, …., Bn构成了一个互不相容的事件完备群。若事件A与事件Bi (i=1, 2, …, n)中之一同时出现，即： A＝AB1+AB2+…+ABn, 则事件A出现的概率为： P(A)=P(B1)P(A|B1) +…+ P(Bn)P(A|Bn)

例：经测量发现某一地区有磁场异常的出现（A），但我们所关心的是磁异常出现的情况下该区出现矿床（B）的概率是多少。我们可以获得矿区的条件概率P（磁异常|矿化）和非条件概率P（矿化），但却很难直接获得P（矿化/磁异常），因为需要对每一个磁异常进行检查和验证，这在实际工作中往往是不太可能的。通过贝叶斯公式，我们可以对P（矿化|磁异常）进行计算，即：

5.频率分布和概率分布（frequency distribution & probability distribution）

　　如果观测次数无限增大，且分组区间无限减小，则可以用频率分布曲线来代表总体分布的概率分布曲线，它对应着一个函数关系y=f(x)。函数f(x)称为X的概率密度函数（probability density function）。若f(x)已知，给定区间（a, b），则随机变量X在（a, b）区间的取值概率

第二讲概率统计基本概念（续） 一、概率统计的基本概念 1．随机事件随机现象 V.S. 决定性现象过马路遇到红灯 V.S. F=ma; 长方形面积 = L x H 2．总体和样本 3．随机变量 4．频率、概率、条件概率、联合概率全概率公式、贝叶斯准则随机事件A, 若在N次试验中出现了n次，则 FN(A) = n/N；频率稳定性－－－统计规律性概率P(A) P(NE向断裂) P(矿化|NE向断裂)P(矿化&NE向断裂)

5.频率分布和概率分布（frequency distribution & probability distribution）

　　如果观测次数无限增大，且分组区间无限减小，则可以用频率分布曲线来代表总体分布的概率分布曲线，它对应着一个函数关系y=f(x)。函数f(x)称为X的概率密度函数（probability density function）。若f(x)已知，给定区间（a, b），则随机变量X在（a, b）区间的取值概率

6．概率分布函数（probability distribution function）定义：设X是随机变量，对于任何实数x，若事件（X≤x）的概率P（X≤x）有意义，则可定义函数： F (x) = P (X≤x) [x∈R1=(-∞, +∞)] 则称F (x)为随机变量X的概率分布函数。它给出随机变量X不大于x值的概率。在数学上，F(x) = P (X≤x) 可用积分形式表示：

正态分布的随机变量的 概率密度函数正态分布的随机变量的概率分布函数

E(X)＝ 7．随机变量的若干重要数字特征（1）平均值（aerage/expectation）设离散型随机变量X 的可能取值为x1, x2, …, xn, .., P (X =xi) = Pi，则X的平均值 μ= （即以取值概率为权的加权平均值）对连续型随机变量X，设其概率密度函数为f (x)，则样本算术平均值μ =

众数 (mode): 具有最大频率的随机变量的取值 中位数(median): 累积概率50%时对应的观测值. 在正态分布中，mode=median=expectation f(x) .

S2= （2）方差、标准差、变异系数方差（ariance）是对随机变量离散性质的反映和度量，实际上反映了每一个体(观测值)偏离总体平均值的程度。其数学表达式为： D(X) = E[X-E(X)]2 样本方差的计算：方差的平方根称为标准差(standard deiation), 记为σ.

CV= 变异系数（Coefficient of ariation）变异系数是衡量矿化均匀程度等的重要参数

(3)协方差（Coariance）， σXY 用以表征表征随机变量X、Y相对于各自平均值的协同变化（joint ariation）。分别对随机变量X和Y进行观测，得样本容量为n的一组观测值x1，x2…xn和y1，y2…yn，则 cov(X,Y )=E[X-E(X)][Y-E(Y)] 样本协方差计算：

（4）相关系数（correlation coefficient） 随机变量X与Y之间的相关系数记为样本相关系数计算：相关系数有以下性质： 1）对任意随机变量X和Y， -1≤rxy≤1 2）相互独立的随机变量x, y，其rxy=0，σxy也为0）

De Wijs 锌品位数据 118个样品 deWijs(1951)发表了取自Boliia的Pulacayo地区铅锌矿-石英矿脉中的118个锌元素化验数据。在一条铅锌矿-石英脉（地下446标高）240米长的穿脉水平巷道中，每隔2米刻槽取了118个样品。大块脉质平均仅0.5米宽并同时包含了两侧围岩中侵染状的闪锌矿，部分地方出现近似平行的细矿脉脉道。水平巷道中样品被切割成标准的1.3米宽（与期望的终止宽度相吻合）。图中的的化验值表示了平均加权的锌的百分含量，每隔样品点代表1.3米宽度（与矿脉垂直切割） Zinc (％) Distance (m) Zinc (％) rank

N: 118 Max: 39.3000 Max_Dist: 186 Min: 3.7000 Min_Dist: 230 Range: 35.6000 Mean: 15.6000 Var: 64.2764 Std: 8.0173 Median: 13.6500 Mode: 10.6000 IQR: 11.0000 CV: 0.5139 Skewness: 0.8090 Kurtosis: 3.0579

Q-Q Plot

lg[Zinc (％)] N: 118 Max: 1.5944 Min: 0.5682 Range: 1.0262 Mean: 1.1346 Std: 0.2327 Median: 1.1351 Trimmean: 1.1431 Geomean: 1.1089 Harmmeam: 1.0808 Mode: 1.0253 Mad: 0.1886 Var: 0.0542 IQR: 0.3245 Moment: 0.0537 CofV: 0.2051 Skewness: -0.2437 Kurtosis: 2.5120 Distance (m)

ç¬¬äºŒè®² æ¦‚çŽ‡ç»Ÿè®¡åŸºæœ¬æ¦‚å¿µ ä¸€ã€æ¦‚çŽ‡ç»Ÿè®¡çš„åŸºæœ¬æ¦‚å¿µ 1 ï¼Žéšæœºäº‹ä»¶ï¼ˆ random test ï¼‰ åœ¨ä¸€å®šæ¡