資料採礦

PolyAnalyst - 4.6 資料採礦

功能控制鈕 專案瀏覽視窗運算結果主視窗探勘引擎報表視窗集合和物件圖示進行紀錄視窗 PolyAnalyst Workplace

影響汽車耗油量因素分析 案例簡介在這個案例中，PolyAnalyst 被用來尋找與一輛車子的每加侖行駛英哩數 MPG (miles per gallon) 有關聯的經驗法則特徵：描述一輛車子使用一加侖的汽油能夠行駛多少英哩，與這台車子其它的技術參數。被尋找出來的經驗法則能讓人以此預測的數值來比較一台給定車子的 MPG。我們可以探測並且總結出重要的關係和不同群組車輛的特徵。資料有下列屬性：MPG 數值、引擎汽缸數(cyl)、汽缸放置的三次方英吋(displ)、加速到每小時一百英哩所需的秒數(accel)、車子出廠年度(year)、車子的出廠國度(origin:USA,Europe,or Japan)，車型的名稱(model)。

步驟 • Step1:匯入資料 • Step2:利用Rule來協助探索引擎 • Step3:探索資料集合 • Step4:產生一個新的資料集合 • Step5:使用與了解Find Dependencies探索引擎 • Step6:產生補集配對和蛇行圖 • Step7:產生長方圖 • Step8:分割並編輯資料集合 • Step9:資料視覺化選擇特徵

Step10:使用Cluster探索引擎 • Step11:使用蛇行圖來比較資料集合 • Step12:使用Real 3D圖表來比較資料集合 • Step13:以階梯式線性迴歸來進行資料採礦分析 • Step14:視覺化工具來輔助資料採礦分析 • Step15:以PolyNet Predictor來做資料採礦分析 • Step16:利Find Laws(FL)引擎做資料採礦分析 • Step17:利用圖形分析找出關係 • Step18:使用與了解決策樹(Decision Tree)

Step 1: Import the Data

資料匯入 • 從工具列選取create project，產生一個新的專案，此範例的資料檔案為Autompg.csv。 • 其選擇路徑為 C:\program Files\Megaputer Intelligence\PolyAnalyst4.6\Autompg.csv • 將cyl及year屬性改變為整數(integer)型態。

Step 2: Creating a Ruleto Aid Exploration Engines

建立Rule-age • Year為出廠的年度，我們使用車子的年齡來代替出廠年度，因為車齡相對於出廠年度更具有關係，因調查是在1982年實行的，所以計算公式為:82-Year。 • 此Rule命名為age。 • 選擇OK。

應用Rule至World資料集合 • 在產生的Rule下會有age，在age按右鍵，點選Apply to選擇World，age這個函數就會產生在World上。 • 至World雙擊左鍵，則會出現右圖。

建立Rule-age1 • 建立另一個Rule，這個屬性建立後並沒有為零的數值，可以使Find Laws探索引擎更容易建立模型，因被除零的機會減少。 • 此Rule命名為age1。 • 計算公式為:83-Year • 按OK確定。

Step 3: Exploring the Data Set

利用SS探索資料集合 • 在樹狀圖中的World上敲擊右鍵選擇Explore的Summary Statistics進行摘要統計分析。 • SS_World報表:這些汽車每加侖平均可以行駛23.51英哩，並平均有5.455個汽缸。

SS圖形報表 • 在前報表中往下拖拉，則可以看到此圖形，此圖形顯示這些車所佔國家出廠的比例。 • 可在資料表中，選擇下拉式的互動選單，可選擇資料的屬性和圖形的類別，可顯示不同的圖表(有長條圖、派圖、甜甜圖)。

Step 4: Create a New Dataset

資料集合名稱 產生新的資料集合 • 產生一個新的資料集合，這個集合是包含對我們有進一步理解的屬性，而這些資料集合會是做實際探索的。 • 在World資料集合敲擊右鍵，選擇Create New或者是主選單點選Create Object的Create Dataset。 • 此資料集合命名為Explored。 • 按右鍵取消Year、age和model屬性，並按OK。

Step 5: Using and Understanding the Find Dependenciesexploration engine

使用與了解 Find Dependencies • 找尋一個與mpg屬性有相依關係的隱含記錄之前，我們需排除或找尋特殊案例或是異常值，來做分析，在這個案例中我們決定使用特殊的案例來做分析。我們利用特殊的案例來做分析的原因在於我們要找出對mpg最具影響力的屬性。

利用Find Dependencies探索引擎 • 在新建立的Explored資料集合上敲擊右鍵，選擇Explore點選Find Dependencies(FD)。 • 在mpg屬性上雙擊左鍵，選擇mpg為目標屬性。 • 在Algorithm Type保持Strict，Strict演算法最適合用來找出一些具影響力的屬性。而Liberal演算法最適合來尋找資料中的異常案例。

文件報表 • 在此文件報表中發現與mpg最有影響的參數是車重與車齡。 • 而在資料中屬於正常分佈的有359筆資料，發現到在這要資料集合中的資料筆數有398筆，而它只有找到359有較相關性的，那也就是說有39筆是特殊的資料。

圖形報表(1) • 這是對於不同車齡和車重區間預測的mpg數值表。每個背景為紅色的表格區塊包含了屬於主要分布模式的資料記錄。 • 在表格區塊第二行和第四行是落在車齡和車重屬性各別區間的筆數。 • 從車齡[3,7]區間和車重[2223,2807]區間的記錄，預測的mpg值是每加侖行駛25.54英哩。

圖形報表(2) • 車齡區間記錄有23筆，而車重的區間記錄有22筆，在這記錄中只有一筆是不屬於這個相同的分布模型中。 • 經由這個表來觀察預測的mpg值，可以發現到車齡越大，對於這輛車的mpg預測就越小，車重越重，這台車的經濟效益越差。

Step 6: Creating a Complement and Snake Chart

補集配對目的 • 在成完FD探索後，在樹狀圖區會出現一個FD_mpg，這是利用FD探索引擎所產生的一個新資料集合，這資料集合內的資料是FD所找出的正常值。 • 在利用FD探索引擎後，文件報表上發現有39筆是特殊的案例，我們針對這些特殊案例在做更進一步的分析。 • 把這些特殊的案例從資料集合中挑出來，這個方法叫做補集配對。

產生補集配對 • 在FD_mpg資料集合敲擊右鍵，並在資料集合山現選單的選項中選取Create Complement.

補集配對資料集合命名 • 我們對這個產生的資料集合命名為Exceptions並且選取OK。

補集配對資料集合的產生 • 在做完補集配對後，則樹狀圖區就會產生一個新的Exceptions資料集合，我們可以查看裡面的資料，在Exceptions連點二下，就可以看到這39筆的資料。

蛇行圖目的 • 利用蛇行圖來協助同時比較數個資料集合對於所有的屬性在同一性質上的比較，就這個例子而言，我們要比較出正常值與特殊的案例中之間有何特別的差異性。 • 當Normalize by dispersion確方塊被點選時，提供屬性數值在整個World資料集合中分布的正常化。相反的，當Normalize by dispersion確認方塊沒有被點選時這個圖表使用1‘s(high)、0’s(low)指出這個資料集合的差異。

產生蛇行圖 • 在主選單敲擊Create Object，並從選單中選擇Create Snake-chart。 • 將此圖表命名為Exceptions vs Explored。 • 並在資料集合中按右鍵選取Explored和Exceptions。資料集合

蛇行圖 • 在蛇行圖表中，可以觀察到特殊案例記錄擁有兩個非常明顯的特徵:(藍色線代表特殊案例)它們的加速度比較其它平均的車要來得較慢(它們的accel較高)且它們都是在最近才被生產出來的(它們的車齡age1較小)。

Step 7: Creating A Histogram

產生長方圖 • 這些特殊案例與其它加速較快的車來比較時，了解Find dependencies引擎為什麼會將它們歸類在一起。 • 利用長方圖來查看所有資料加速度數值的分布。 • 從主選單上選擇Create Object點選Create Histogram。 • 長方圖命名為Exceptions_age。 • 以右鍵選擇Explored和Exceptions資料集合。 • 選擇age1當X軸的屬性。

長方圖 • X軸是屬於車齡屬性的不同範圍，而Y軸是在這範圍的資料總數。 • 在長方圖上，特殊案例有一個較明顯間隔(在前四個長條圖中)，但在車齡4至5年中並沒記錄。 • 可將Exceptions資料集合分割成代表最近和舊有的車輛，再做詳細地分析這兩個資料集合。

長方圖的資料記錄 • 查看更詳細的資料筆數記錄，如使用者想得知各分佈的資料記錄。 • 在圖形上按右鍵，點選Edit Chart Data，就可以查看其各範圍間的資料筆數。 • Explored為正常的資料筆數，而Exceptions為特殊案例筆數。

Step 8: Splitting and Editing a Dataset

分割資料集合目的 • 針對長方圖再做車齡更細部的分析，首先我們將資料集合分成兩大部份，一部份為車齡較小者，另一部分為較舊有的車，因從長方圖所見，在4-5年後，有較明顯的間隔，就從車齡5年做為分隔的中間點，再利用蛇行圖將其新舊車做各屬性間比較，分析特殊案例中其新、舊車上有何特殊的特徵，來做深入了解為什麼Find Dependencies探索引擎會選擇以新、舊車做為特殊的案例。

產生分割資料集合 • 針對特殊案例做資料分割並做蛇行圖分析。 • 在Exceptions資料集合上敲擊右鍵並在選單中點選Split選取equal intervals。

分割資料集合 • 此分割的資料集合命名為age1。 • From:代表第一個資料集合的範圍。 • Step:代表第二個資料集合起，是以每幾年做一資料集合。 • 將from填入5，step填入10，代表第一個資料集合裡都是小於等於5年，而第二個資料集合裡是大於5而小於等於15年。

分割資料集合的產生 • 在樹狀圖區裡，會出現兩個新的資料集合，其名稱為age1_1及age1_2。 • age1_1為最近的車輛，而age1_2為舊有的車輛。

更改資料集合名稱 • 為了明辨其資料集合的名稱，將其age1_1及age1_2名稱更改成Recent及Old代表新、舊車輛。 • 在age1_1資料集合上按右鍵並選擇Rename，將其更名為Recent；對age1_2做相同動作，將其更名為Old。

建立蛇行圖 • 比較Explored、Recent和Old資料之間的差異性。 • 為了更深入了解Find Dependencies點選擇Recent和Old資料集合中的紀錄來作為特殊案例。 • 將Explored資料集合與Recent和Old紹製在同一個蛇行圖上。 • 將蛇行圖命名為Recent_Old Explored。

蛇行圖 • 了解Find Dependencies的特殊案例中的Recent和Old資料集合，其最特殊的特徵。 • 在特殊案例中Old車輛mpg比平均的車輛還要更糟;而Recent特例中，加速度比平均車輛要花上更多的時間，這種又稱為反直覺的行為。

Step 9: Using Visual Data Selection feature

產生2D-Chair圖 • Find Dependencies演算法決定對於mpg最具有影響的因素為車重weight和車齡age1，針對weight繪出mpg的相關性圖表，針對那些具有經濟性的車輛，找出其原因。 • 將此圖表命名為MPG_explored。 • 點選Add Data Graph。

選擇資料集合 • 選擇左邊方塊內的Explored，並選擇mpg為Y軸屬性，並按OK。

產生2D-Chart圖-X軸 • 選擇weight為X軸的屬性。

2-D圖表 • 這圖表顯示mpg值隨著車重的增加而下降，現在針對那些具有經濟性的車輛，找出這些資料為何是特別具經濟性。 • 而這些具經濟性的資料似乎落出一般序列之外。 • 選取這些具經濟性的資料點，在2-D上任何地方敲擊右鍵，在選單中選擇Select。 • 選擇標點的顏色。

選取資料 • 選擇40mpg以上的資料，因它有較高的mpg效能，利用這些資料來分析這此資料所具的經濟效益在那。 • 儲存資料點之資料: • 在2D圖形中任何地點按右鍵，並在現選單中選擇Done。 • 並將此資料集合命名為Economy並按OK。

新資料集合產生 • 在樹狀圖中會出現Economy之資料集合，這個資料集合只有包含檢視選擇的資料。 • 在Economy資料集合上敲擊右鍵並在出現的選單中選擇Edit。 • 將model屬性敲擊右鍵加入Economy資料集合中，並展開此資料集合(雙擊Economy)。

Economy資料集合 • 在這些最具經濟性的車輛中，發現它們大部份是柴油引擎車，而這些車幾乎都在歐洲Volkswagen所製造的。 • 如果考慮購買最節省油的汽車，會推薦你Mazda GlC的車子。

資料採礦

資料採礦

Presentation Transcript

Mining data with PolyAnalyst

PolyAnalyst 6.0 資料採礦介紹

Utilizing Text Analytics in Your VOC Program: Analyzing Verbatims with PolyAnalyst ™