第四章统计判决

第四章统计判决 最小误判概率准则判决最小损失准则判决最小最大损失准则 N-P(Neyman—Pearson)判决

例子——癌症普查： 1癌症患者：11268 2正常者： 2242282 总人数：n=2253550 对每一类的概率做一个估计（先验概率） 4·1 最小误判概率准则判决

对人们测量细胞的特征向量 代表的某个人属于第i类的后验概率：决策规律：例子——癌症普查（续1）：

若已知两类特征向量分布的类条件概率密度函数若已知两类特征向量分布的类条件概率密度函数贝叶斯公式、全概率公式例子——癌症普查（续2）：

例子——癌症普查（续3）： 将P(i|x)代入判别式，判别规则可表示为或改写为 l12称为似然比（likelihood ratio），12称为似然比的判决阀值。

概念和符号 ---总概率 ---后验概率 ---类概密，表示在类i条件下的概率密度，即类i模式x的概率分布密度 ---先验概率，表示类i出现的先验概率，简称类i的概率

例：对一批人进行癌症普查，1 :患癌症者; 2 :正常人。模式特征x=x(化验结果),x=1：阳性；x=0：阴性。已知：（统计结果）先验概率：P(1)=0.005 P(2)=1-P(1)=0.995 条件概率：p(x=阳|1)=0.95 p(x=阴|1)=0.05 p(x=阳|2)=0.01 求：呈阳性反映的人是否患癌症？

解：利用Bayes公式 因为，P(2|x=阳)= 1-P(1|x=阳)=1-0.323=0.677 P(1|x=阳)<P(2|x=阳) 故判决： (x=阳)2，即正常。

写成似然比形式

最小误判概率准则判决域示意图 该规则使得分类的错误率最小 p(x|1)P(1) p(x|2)P(2) 21P(2) 12P(1) x 1 2

两种错误 设和类出现的概率分别为和，则总的误判概率是误判概率最小等价于使正确分类概率最大，即

多类问题，最小误判概率准则有如下几种等价的判决规则多类问题，最小误判概率准则有如下几种等价的判决规则 (1) (2)

多类问题，最小误判概率准则有如下几种等价的判决规则多类问题，最小误判概率准则有如下几种等价的判决规则 (3) (4)

p(x|2)P(2) p(x|1)P(1) p(x|3)P(3) 1 3 2 3 x

4.1.2 正态模式最小误判概率判决准则的具体形式在c类问题中，属于i类的n维模式的正态分布密度函数为式中，为均值矢量，为协方差

i类的判决函数可以表为 去掉与类别无关的项并不影响分类判决结果，故可简化为

特殊情况讨论 (1) 注意到是对称阵，i类的判决函数可以写为如果i和j相邻，那么判决界面方程为

图 (4-1-3) 的几种典型示意图 (a) 二维模式，1=2 3 4 2 1 (b) 二维模式，1=2=2I (c) 二维模式多类问题，i==2I

(2) i类模式的判决函数为其中

图(4-1-4) 二维模式，12的几种情况 1 2 (c) 抛物线 1 1 2 2 (a) 圆 (d) 双曲线 1 2 (b) 椭圆 1 2 (e) 直线，两类的分布关于一直线是对称

4.1.3 正态模式分类的误判概率 考虑两类问题，设两类模式为协方差阵相等的多变量正态分布，它们的密度函数分别为～～误判概率与两类的马氏距离的关系：随马氏距离的增大而单调递减，只要两类马氏距离足够大，其误判概率可足够小。

第四章统计判决 • 最小误判概率准则判决 • 最小损失准则判决 • 最小最大损失准则 • N-P(Neyman—Pearson)判决

决策-损失表 4.2.1 损失概念、损失函数与平均损失对一个实属i类的模式采用了决策j所造成损失记为

条件平均风险 令决策的数目a等于类数c，如果决策j定义为判属于j类，那么对于给定的模式在采取决策j的条件下损失的期望为条件期望损失刻划了在模式为、决策为 j条件下的平均损失，故也称为条件平均损失或条件平均风险（Risk）。（做决策j的平均损失）

由贝叶斯公式，上式可以写为 平均损失或平均风险平均风险该式表明，R是损失函数关于各类及的的数学期望，故称其为（总）平均损失或平均风险。

4.2.2 最小损失准则判决 可以将最小条件平均损失判决规则表为如果则判定理使条件平均损失最小的判决也必然使总的平均损失最小。所以最小条件平均损失准则也称为最小平均损失准则或最小平均风险准则，简称为最小损失准则。

对于两类问题 两类问题的最小损失准则的似然比形式的判决规则为如果则判

若记似然比阈值 则两类问题的判决规则为如果则判 0-1损失（ii=0, ij=1）条件下最小损失判决最小错误判决

例4.2.2：设,正常细胞1，异常细胞2，已知P(1)=0.9, P(2)=0.1；；11= 0,12=1,21=6,22=0。试用最小误判概率准则和最小损失准则判断该细胞是正常的还是异常? 解(1)由贝叶斯定理可以分别算出1和2的后验概率。因为，所以把归于正常细胞。

(2)当依据损失进行判决时，计算条件平均损失 由于 ,因此判。之所以这两个判决结果相反，是因为21取得较大的缘故。

4.2.3 含拒绝判决的最小损失判决 拒绝判决可以作为最小损失判决中的一个可能判决。设c+1=“拒绝判决”。令表示模式实属类但拒绝作出判决所造成的损失，于是在模式条件下拒绝判决的平均损失为如果，j=1,2,…,c，则作出拒绝判决。

设 , , 这时要使即亦即一般有：

含拒判决策的最小损失判决规则为 如果，则对拒判；如果，则判。当即时恒成立，故此时不存在拒判。

对于两类问题，存在拒判决策的条件是 判决规则如下：如果，则判；如果，则判；如果，则对拒判。

作业：p125-127，习题4.2, 4.9

4·3 最小最大损失准则 实际中，类先验概率 P(i)往往不能精确知道或在分析过程中是变动的，从而导致判决域不是最佳的。所以应考虑如何解决在 P(i)不确知或变动的情况下使平均损失变大的问题。第四章统计判决

对于两类问题，设一种分类识别决策将特征空间分划为两个子空间1和2，记ij为将实属i类的模式判为j的损失函数，各种判决的平均损失为

利用则平均损失可写为由于0  P(1 )  1，所以平均损失值有a  R  a + b

由上式可见，当类概密、损失函数ij、类域i取定后，R是P(1)的线性函数。由上式可见，当类概密、损失函数ij、类域i取定后，R是P(1)的线性函数。考虑P(1)的各种可能取值情况，为此在区间(0,1)中取若干个不同的P(1)值，并分别按最小损失准则确定相应的最佳决策类域1、 2，然后计算出其相应的最小平均损失R*，从而可得最小平均损失R*与先验概率P(1)的关系曲线

R* D R*B C’ D’ B A C 1 P(1) PA(1) 0

设计步骤 • 按最小损失准则找出P(ω1)对应于(0,1)中的各个不同P(ω1)值的最佳决策类域1、 2 ; • 计算相应各个最佳决策类域的最小平均损失，得R*～ P(ω1)曲线; • 找出使R*取最大值的P*(ω1) ; • 运用P*(ω1) 、 P*(ω2) =1- P*(ω1)及ij构造似然比阈值; • 运用最小损失准则下的决策规则对具体的模式分类识别:

当采用0-1损失函数时，由b=0可得 上式表明，最小最大损失判决导出的最佳分界面应使两类错误概率相等，此时的平均损失为：

最小最大损失准则判决域示意图 若采用0-1损失函数，则： p(x|1) p(x|2) x 1 2

4·4 N-P(Neyman—Pearson)判决 实际问题中，可能存在以下几种情况： ⑴ 不知道各类的先验概率P(i )； ⑵ 难于确定误判的代价ij ； ⑶ 某一种错误较另一种错误更为重要。针对⑴，可以采用最小最大损失准则或令各类概率相等的办法克服；针对⑵，如果允许，可以避开使用损失函数而采用最小误判概率准则；针对(3)，可以采用最小损失准则判决。针对上面三个问题，更主要的是针对⑶，可采用N-P准则。第四章统计判决

对两类问题,设已知 且将实属1类的模式判为属2类的误判概率为将实属2类的模式判为属1类的误判概率为

令21=0=常数，求使12最小的判决域 运用Lagrage乘子法求条件极值，做辅助函数

在1*中, 同理，由下式可得在2*中, 将其中一类错误概率作为控制量而使另一类错误概率最小的N-P判决规则为其中是N-P判决阈值。选择满足条件的的全体作为1* ,保证所求得的y值y*比1的其它取法的y值都小

p(l|w1) e21 e12 l W2 W1 l p(l|w2) 的值决定着类域1、2， 由0确定，即选取，使21=0 为求，设是似然比在条件下的概率密度，当时判，所以当0给定后，Lagrange乘子可由下式确定。

N-P判决要点 由确定判决似然比门限

作业 P126: 习题 4.7

第四章 统计判决