270 likes | 479 Vues
Document /categorization classification. Nội dung. Khái quát về Document/ categorization classification Các hướng nghiên cứu . Xây dựng hệ thống phân loại tài liệu và các vấn đề liên quan . Ý tưởng các thuật toán trong phân loại tài liệu KNN (K- Nearest neighbor). Naïve Bayes (NB)
E N D
Nội dung • Kháiquátvề Document/ categorization classification • Cáchướngnghiêncứu. • Xâydựnghệthốngphânloạitàiliệuvàcácvấnđềliênquan. • Ý tưởngcácthuậttoántrongphânloạitàiliệu • KNN (K- Nearest neighbor). • Naïve Bayes (NB) • Support Vector Machine (SVM). • Câyquyếtđịnh (Decision Tree). • Support Vector Machines Nearest Neighbor (SVM-NN). • Bàitoánphânchiađalớp (Multi Class) vàcácchiếnlược.
Kháiniệmvề Document/ categorization classification • Phânloại (phânlớp )vănbảnlàcôngviệcphântíchnội dung củavănbảnvàsauđóraquyếtđịnh (hay dựđoán) vănbảnnàythuộcnhómnàotrongcácnhómvănbảnđãchotrước. Gồmhaigiaiđoạn: • Học(xâydựngmôhình): rúttríchđặctrưngtừcáctàiliệuđãđượcxácđịnhlớp. • Phânlớp: vớitàiliệumới (chưaxácđịnhlớp), so sánhvớiđặctrưngcủatừnglớpvàdựđoántàiliệunàyvàolớpgầnnhất.
Cáchướngtiếpcậnbàitoán Classification • Phânlớpvănbảndựatrêncáchtiếpcậnhệchuyêngia • Phânlớpvănbảndựatrêncáchtiếpcậnmáyhọc
Phânlớpvănbảndựatrêncáchtiếpcậnhệchuyêngia • Hệ chuyên gia, còn gọi là hệ thống dựa tri trức, là một chươngtrìnhmáytínhchứa một số tri thức đặc thù của một hoặc nhiều chuyên gia con người về một chủ đề cụ thể nào đó. …. Đây là một hệ thống sử dụng các khả năng lập luận để đạt tới các kết luận. (Wiki) • Biểudiễnchungdạng : If (DNF formula) then (category). Côngthức DNF (“Disjunctive Normal Form”) làhợpcủacácmệnhđềliênkết Vídụ: If ((“lúamì” & “nôngtrại”) or (“lúamì” & “hànghóa”) or (“thúngđểđonglúamì” & “hàngxuấtkhẩu”) or (“lúamì” & “hàngtấn”) or (“lúamì” & “mùađông” & ¬ “sựônhòa”)) then “lúamì” else ¬ “lúamì”
Phânlớpvănbảndựatrêncáchtiếpcậnmáyhọc • Máyhọc (machine learning) : … pháttriểncáckĩthuậtchophépcácmáytínhcóthể "học“ …bằngviệcphântíchcáctập ,dữliệu . (Wiki) Xâydựngtựđộngmộtphânlớpchotậptàiliệubằngviệcquansátcácđặctrưngcủatậphợpcáctàiliệuđãđượcphânbằngtay hay bởichuyêngiavềlĩnhvựctừđó, quátrình qui nạpthulượmcácđặctrưngđểphânlớpmộttàiliệumới. Trongkỹthuậtmáyhọc, bàitoánphânlớplàhoạtđộnghọccógiámsát, quátrìnhhọcđược “giámsát” bởi tri thứccủacácphânlớpvàcủacácmẫuhuấnluyệnthuộcchúng.
Cácvấnđềmàhệthốngphânloạicần phải quan tâm và giải quyết • Độchínhxác: Tỉlệcàngcaothìhệthốngsẽđượcđánhgiálàtốt . • Tốcđộ . • Dễhiểu: Mộthệthốngphânloạidễhiểusẽtạochongườisửdụng tin tưởnghơnvàohệthống, đồngthờicũnggiúpchongườisửdụngtránhđượcviệchiểulầmkếtquảcủamộtluậtđượcđưarabởihệthống. • Thờigianđểhọc:
Tiếntrìnhphânloạivănbản HệThốngPhânloạivănbản
VídụvềquátrìnhxửlývănbảntrongHệThốngPhânloạivănbảnVídụvềquátrìnhxửlývănbảntrongHệThốngPhânloạivănbản www.miislita.com/information-retrieval-tutorial/cosine-similarity-tutorial.html
Tiềnxửlýsốliệu Mụcđích: xửlýtươngđốisạchdữliệuđọcvào Cáchthựchiện: • Loạibỏcáckhoảngtrắngnhiềuhơn 1 khoảngtrắng • Cácdấuxuốngdòng • Cáchdòngtrống • Cáckýtựlạ • ……
Táchtừ • Táchlọc (Filtration) : quátrìnhcủasựquyếtđịnhnhữngtừnàonênđượcsửdụngđểbiểudiễnchocáctàiliệu. • Stemming (gốctừ) : Tìmgốctừvídụ "walks", "walking" và "walker" đượcgiảmlạithành "walk" • Loạibỏcáctừstopword : danhmụccáctừkhôngảnhhưởngđếnnội dung vănbản
Xácđinhtrọngsốchotừ • Ứngvớimỗithuậttoánápdụngtronghệthốngphânlớpmàtađixácđịnhnhữngtrọngsốcủatừtrongvănbản. Trongbướcnàythườngsửdụngtf (Term Frequency ) vàdf (Document Frequency) đểthựchiện .
Sửdụngthuậttoánđểphânlớp • Dùngthuậttoánmàhệthốngphânloạisửdụngđểphânloạidữliệu.
CácthuậttoánPhânlớp • KNN (K- Nearest neighbor). • Naïve Bayes (NB) • Support Vector Machine (SVM). • Câyquyếtđịnh (Decision Tree). • Support Vector Machines Nearest Neighbor (SVM-NN).
KNN (K- Nearest neighbor). • Ý tưởngchínhcủathuật:làso sánhđộphùhợpcủavănbản d vớitừngnhómchủđề, dựatrên k vănbảnmẫutrongtậphuấnluyệnmàcóđộtươngtựvớivănbản d làlớnnhất Thựchiện: • Tínhkhoảng (cosine)cáchcủavănbảncầnphânlớpvớicácvănbảntrongtậpgiữliệumẫu. • Lấy k vănbảngầnnhấtvớivănbảncầnphânloại. • Dựavào k vănbảnmẫunàyđánhtrọngsốchochủđề .Chủđềcủacácvănbảnlàchủđềcótrọngsốlớnnhất. “Gần “ở đâyđượchiểulàđộtươngtựgiữacácvănbản.
Example of k-NN classification. The test sample (green circle) should be classified either to the first class of blue squares or to the second class of red triangles. If k = 3 it is classified to the second class because there are 2 triangles and only 1 square inside the inner circle. If k = 5 it is classified to first class (3 squares vs. 2 triangles inside the outer circle).
Naïve Bayes (NB) • Ý tưởngthuậttoán: làsửdụngxácsuấtcóđiềukiệngiữatừvàchủđềđểdựđoánxácsuấtchủđềcủamộtvănbảncầnphânloại. • Cáchthựchiện: -Từtậpmẫuxácđịnhngưỡngxácxuấtcủamộtvănbảnthuộcvềmộtchủđềđãđịnhnghĩa. -Vănbảncầnphânloạivàohệthốngsẽđượchệthốngtínhxácsuất ,nếuxácsuấtnàythuộcvàomộtngưỡngnàođóthìthuộcvàochủđề.
Support Vector Machine (SVM). • Cho trướcmộttậphuấnluyệnđượcbiểudiễntrongkhônggian vector trongđómỗitàiliệulàmộtđiểm, phươngphápnàytìmramộtsiêumặtphẳng h quyếtđịnhtốtnhấtcóthểchiacácđiểmtrênkhônggiannàythànhhailớpriêngbiệt http://en.wikipedia.org/wiki/Support_vector_machine
Support Vector Machines Nearest Neighbor (SVM-NN). • Làmộtthuậttoánphânlớpcảitiếngầnđâynhấtcủaphươngphápphânlớp SVM. SVM-NN làmộtkỹthuậtphânloạivănbảnmáyhọcsửdụngkếthợpcáchtiếpcận K-lánggiềnggầnnhất (K-NN) vớinhữngluậtraquyếtđịnhdựatrên SVM . • Thựchiện: - Cho mộtmẫuđểphânloại, thuậttoánxácđịnh k mẫugầnnhấttrongcácmẫudữliệucủatậpdữliệuhuấnluyện. - Mộtphânloại SVM đượchuấnluyệntrênnhữngmẫunày. - Sauđó, cácbộphânloại SVM đượchuấnluyệnsẽđượcsửdụngđểphânloạicácmẫuchưabiết.
PhânĐalớp Ý tưởng của bài toán phân lớp đa lớp là chuyển về bài toán phân lớp hai lớp bằng cách xây dựng nhiều bộ phân lớp hai lớp để giải quyết. Tronghìnhtathấychiếnlược OAR (hìnhbêntrái)- OAO (hìnhbênphải) phảixâydựngsiêuphẳngđểtáchlớpđánhdấu “o” rakhỏitấtcảcáclớpkhác.
Côngnghệ, Giáodục, Thểthao, Y tế Bộ phân lớp +1 -1 Công nghệ Giáo dục, Thể thao, Y tế Bộ phân lớp +1 -1 Giáo dục Thể thao, Y tế Bộ phân lớp +1 -1 Thể thao Y tế ChiếnlượcOne-against-One • Ta sửdụng (n-1) bộphânlớpđốivới n lớp. Bàitoánphânlớp n lớpđượcchuyểnthành n bàitoánphânlớphailớp. • Nhượcđiểmcủachiếnlược OAR làtaphảixâydựngmộtsiêuphẳngđểtáchmộtlớprakhỏicáclớpcònlại, việcnàyđòihỏisựphứctạpvàcóthểkhôngchínhxác
Bộ phân lớp Công nghệ-Giáo dục Công nghệ Giáo dục Bộ phân lớp Công nghệ-ThểThao Công nghệ Thể thao Bộ phân lớp Công nghệ-Y tế Công nghệ Y tế Bộ phân lớp Giáo dục-Thể Thao Giáo dục Thể thao Bộ phân lớp Giáo dục–Y tế Giáodục Y tế Bộ phân lớp Thể Thao-Y tế Thể thao Y tế One-against-Rest (OAR) Ta sửdụng n(n-1)/2 bộphânlớphailớpđượcxâydựngbằngcáchbắtcặptừnghailớpmột.