550 likes | 827 Vues
Tutorial Rough sets theory B. Walczak, D.L. Massart. Chemometrics and Intelligent Laboratory Systems 47,1999.1–16. Rough set theory. Rough set 理論即是一種處理模糊和不確定知識的數學工具。 約略集合方法可視為由不完全資料探索事實的一種形式架構。該理論以分類的型式、或由一組案例進行推導而獲得決策法則的形式。. Rough set theory. Rough set 的基本觀念 決策表 決策表分析的主要步驟.
E N D
TutorialRough sets theoryB. Walczak, D.L. Massart Chemometrics and Intelligent Laboratory Systems 47,1999.1–16
Rough set theory • Rough set理論即是一種處理模糊和不確定知識的數學工具。 • 約略集合方法可視為由不完全資料探索事實的一種形式架構。該理論以分類的型式、或由一組案例進行推導而獲得決策法則的形式。
Rough set theory • Rough set 的基本觀念 • 決策表 • 決策表分析的主要步驟
Rough set的基本觀念 • Information System • Indiscernibility relation • Lower and upper approximations • Accuracy of approximation • Independence of attributes • Core and reduct of attributes • Core and reducts of attribute values
Information System • 形式上,Information System(或為一近似空間)可被視為一個系統。 IS = (U,A) *U is the universe (一個有限的物件集合,U={x1,x2,…..xm}) *A為屬性集合, *定義一個訊息函數 fa:U Va 其中Va為a的值所構成的集合,稱為屬性a的值域。
範例一 • 考慮一個資料集合,其包含針對10個物件執行3次測度的結果,這些結果可組織成一個10×3的矩陣。
Rough set的基本觀念 • Information System • Indiscernibility relation • Lower and upper approximations • Accuracy of approximation • Independence of attributes • Core and reduct of attributes • Core and reducts of attribute values
Indiscernibility relation • 對於屬性 的每個集合,難以辨識的關係Ind(B)可以下面方式定義之:若b(xi)=b(xj),則兩物件與藉由屬性的集合是難以辨識的。 • Ind(B)的同等類別(equivalence class)稱為B中的基本集合(elementary set),因為它表示物件之最小難以辨識的群體(the smallest discernible groups of objects)。 • 建構基本集合是Rough set中分類的第一步。
範例二 • 表中每一列描述一個基本集合,而整個表則描述所欲研究的IS,符號U/A意指空間A中我們所考慮之全域U的基本集合。
若我們只對a1與a2兩個屬性有興趣,則Indiscernibility relation就限於子集合(subset)B={a1 ,a2},而所獲得的基本集合就如表3所示。
Rough set的基本觀念 • Information System • Indiscernibility relation • Lower and upper approximations • Accuracy of approximation • Independence of attributes • Core and reduct of attributes • Core and reducts of attribute values
下界與上界近似集 • 以Rough set方法進行資料分析全賴兩個基本觀念,稱之為集合的下界與上界近似集(the lower and the upper approximations of a set)。
The lower approximations of set • 令X表示全域U的單元的子集合,在B內的下界近似表示為BX,其定義為所有包含於X中的這些基本集合的聯集,一般的表示型式為: • 意指集合X的下界近似集是物件xi的集合,其為包含於X內的基本集合。
The upper approximations of set • 集合X的上界近似集表示為BX,與X有非空交集之基本集合的聯集: • 邊界(boundary) BNX=BX-BX
下界與上界近似集的差異 • 近似下界中之物件必定屬於集合X • 近似上界中之物件也許屬於集合X
範例三 • 讓我們假設我們對5個物件{X=x1,x3,x4,x5,x9}的子集合X有興趣,我們能由3個屬性(B={a1,a2,a3})的空間中的所有資料集合來區別該集合嗎?依據表2所呈現的結果,我們可以用下面的方法計算該集合的下界與上界近似。
包含於X的基本集合為:{x1,x3,x9},{x4} 則BX = {x1,x3,x9} ∪{x4} = {x1,x3,x4,x9} • 為計算子集合的上界近似,我們必須去尋找在表2的所有基本集合中,至少有1個單元與子集合相同: 為 {x1,x3,x9},{x4},{x5,x8} 則BX= {x1,x3, x4, x5, x8,x9} • BNX = {x1,x3, x4, x5, x8,x9} - {x1,x3,x4,x9} = {x5,x8}
Rough set的基本觀念 • Information System • Indiscernibility relation • Lower and upper approximations • Accuracy of approximation • Independence of attributes • Core and reduct of attributes • Core and reducts of attribute values
Accuracy of approximation • 集合X在 中的正確性測度定義為:
範例四 • 包含於範例三之下界近似集內的物件數目等於4,上界近似集的基數等於6,集合的Accuracy of approximation : • BX = {x1,x3,x9} ∪{x4} = {x1,x3,x4,x9} • BX= {x1,x3, x4, x5, x8,x9} • BNX = {x1,x3, x4, x5, x8,x9} - {x1,x3,x4,x9} • = {x5,x8}
Rough set的基本觀念 • Information System • Indiscernibility relation • Lower and upper approximations • Accuracy of approximation • Independence of attributes • Core and reduct of attributes • Core and reducts of attribute values
Independence of attributes • 為檢驗屬性的集合獨立與否,可以檢驗每個屬性,看看將它移除是否會增加IS中基本集合的數目。 • 若Ind(A)=Ind(A-ai),則屬性ai為多餘的;否則,屬性ai在A中就是不可或缺的。
範例五 • 移除屬性a2或a3,基本集合的數目會變得較小;但移除屬性a1時,基本集合並沒有改變,因此屬性a1是多餘的,而a2或a3則是不可或缺的。
Rough set的基本觀念 • Information System • Indiscernibility relation • Lower and upper approximations • Accuracy of approximation • Independence of attributes • Core and reduct of attributes • Core and reducts of attribute values
Core and reduct of attributes • 折減(reducts): -相同的基本集合數目可作為整體的屬性集合 。 -折減則為識別矩陣之屬性的最小子集合(the minimal subset of attributes) 。 • 核心(core): -所有不可或缺屬性的集合 。 -核心為識別矩陣之所有單一單元的集合。 • 計算折減與核心係使用識別矩陣,識別矩陣有n×n的維度,其中n表示基本集合的數目,而其單元定義為所有可識別基本集合[x]i與[x]j之屬性的集合。
核心為識別矩陣之所有單一單元的集合。 • 折減則為屬性的最小子集合,其在識別矩陣中至少有一個非空的一般單元。
這個案例顯示尋找折減的目的即是發現IS的替代呈現方式,它也表示折減R(R={a2,a3}),是獨立屬性的最小子集合,可獲得資料的相同分割以作為屬性A(A={a1,a2,a3})的整體集合,亦即Ind(R)=Ind(A)。這個案例顯示尋找折減的目的即是發現IS的替代呈現方式,它也表示折減R(R={a2,a3}),是獨立屬性的最小子集合,可獲得資料的相同分割以作為屬性A(A={a1,a2,a3})的整體集合,亦即Ind(R)=Ind(A)。
Rough set的基本觀念 • Information System • Indiscernibility relation • Lower and upper approximations • Accuracy of approximation • Independence of attributes • Core and reduct of attributes • Core and reducts of attribute values
Core and reducts of attribute values • 藉由消除一些對於系統是無用的屬性值,以進行IS的簡化。 • 尋找屬性值之核心與折減的過程相似於尋找屬性之核心與折減,所有計算的執行係根據識別矩陣,但此處識別函數的定義則稍有不同。代替原本的一個識別函數,我們必須建立許多識別函數,如同IS中有許多基本集合。
範例七 • 依表6,針對屬性{a2,a3}空間中的5個基本集合,建構5個識別函數f1(A)、f2(A)、…、f5 (A)。函數f1(A)考慮的屬性集合可識別基本集合1與集合2、3、4與5;函數f2(A)則可識別基本集合2與集合1、3、4與5等。
f1(A)允許推斷有一個屬性值的折減,名為a2a3,該折減建議我們需關心屬性a2與a3的值。我們可將表6以下面的方法進行簡化(表8)。f1(A)允許推斷有一個屬性值的折減,名為a2a3,該折減建議我們需關心屬性a2與a3的值。我們可將表6以下面的方法進行簡化(表8)。
決策表(Decision table) • 知識表現系統(knowledge representation system)包含條件屬性A的集合,而決策屬性D的集合則稱為決策表(decision table)。
範例九 • 決策表(表11)包含3個狀況屬性{a1,a2,a3}與1個決策屬性d。決策屬性d描述10個物件對於以下3種類別的歸屬度 :
這個例子闡述,任何監督式的分類問題(可視為決策表分析(decision table analysis)。然而,決策表分析的觀念較之資料分類更具一般性,決策表可包含許多決策屬性,例如,表12中有3個條件屬性與2個決策屬性。
D-superfluous attributes • Relative core and relative reducts of attributes
Main steps of decision table analysis • 在D-空間中建構基本集合 • 在D中計算基本集合之上界與下界近似 • 尋找屬性的D-核心與D-折減 • 尋找A屬性值的D-核心與D-折減
範例十:1.在D-空間中建構基本集合 • 由表12開始。在D-空間中,我們可以發現以下的基本集合: 集合1: 集合2: 集合3:
兩個狀況基本集合之新的狀況屬性來取代。屬性與可暫時以一個描述中兩個狀況基本集合之新的狀況屬性來取代。屬性與可暫時以一個描述中 集合1: 集合2: 集合3:
2.在D中計算基本集合之上界與下界近似 • 表14所呈現的結果指出,所有類別(D中的基本集合)可依據條件屬性A={a1,a2,a3}來適當描述。 • 整體分類的正確性與其品質均等於1.0。
fA(D)識別函數有下列型式: • 有兩個D-折減{a1 ,a2}與{a2,a3},以及等於{a2}的D-核心,此代表決策表12可被縮減並以兩種替代方法呈現如表16與17。
4.尋找A屬性值的D-核心與D-折減 • 為了消除決策表中狀況屬性之不必要的值,我們依據{a1 ,a2}或{a2,a3}所建構之D-識別矩陣,計算屬性值的相對折減與相對核心。下表以{a1 ,a2}為例