230 likes | 407 Vues
Hoàng Hải Hưng. Nguyễn Hồng Điệp. Nội dung. Giới thiệu. 1. Mô hình T- Lex. 2. Các điểm yếu của T- Lex. 3. Phương pháp tấn công. 4. Giới thiệu. 1. Mô hình T- Lex. 2. Các điểm yếu của T- Lex. 3. Phương pháp tấn công. 4. Giới thiệu. Tấn công. Không có chủ ý. Có chủ ý.
E N D
HoàngHảiHưng NguyễnHồngĐiệp
Nội dung Giớithiệu 1 Môhình T-Lex 2 Cácđiểmyếucủa T-Lex 3 Phươngpháptấncông 4
Giớithiệu 1 Môhình T-Lex 2 Cácđiểmyếucủa T-Lex 3 Phươngpháptấncông 4
Giớithiệu Tấncông Khôngcóchủ ý Cóchủ ý • Lỗiđườngtruyền • Mấtmátthông tin khinén • Đổidịnhdạng • … • Dựatrêncácthuộctínhthốngkê
Giớithiệu 1 Môhình T-Lex 2 Cácđiểmyếucủa T-Lex 3 Phươngpháptấncông 4
Hệthốngẩndữliệu T-Lex • T-Lex (Tyrannosaurus Lex) làhệthốngẩndữliệudựatrênmôhìnhthaythếtừvựng • Vấnđềcơbảnlàphảigiữnguyên ý nghĩacủacâu
Hệthốngẩndữliệu T-Lex (10011011010)2 Chuỗivănbảncầnnhúng Chuỗinhịphân Nén Huffman Nhúngvàovănbản
Hệthốngẩndữliệu T-Lex little (101)2 Ho Chi Minh city is a little Ho Chi Minh city is a great little town
Giớithiệu 1 Môhình T-Lex 2 Cácđiểmyếucủa T-Lex 3 Phươngpháptấncông 4
Tấncônghệthống ADL text cấpđộtừ • Yếuđiểm pp ADL cấpđộtừ. • Môhìnhhóangônngữbằngthốngkê (n-grams) • Tấncông
Yếuđiểm pp ADL vănbảndựatrênthaythếtừđồngnghĩa. • Vănbảnsaukhithaythếtừđồngnghĩa. • Khôngphùhợpvớicáchsửdụngngônngữ (tiếngAnh) thôngthường. Vídụ: • soon afterwards dispatched • soon subsequently dispatched • Khôngphùhợpvớithểloạivàcphongcáchtácgiảtrongvănbản.
Giớithiệu 1 Môhình T-Lex 2 Cácđiểmyếucủa T-Lex 3 Phươngpháptấncông 4
Môhìnhhóangônngữ N-Grams • Mộtmôhìnhngônngữlàmộtmôhìnhthốngkêướclượngxácsuấtcủachuỗicáctừđộdài n (n-gram). Nguồn ([1]) • Ex: P(thirớt) = p(rớt /thi) * p(thi)
P(W) = ? • P(w) = r(w)/N • R(w) sốlầnxuấthiệncủa n-grams w. • N sốlượng N-gram chotrongvănbảnhuấnluyện.
Stanford Research Institute Language Modeling (SRILM) Toolkit [3] • Thamsố • Loại n-gram đượcsửdụng. • Loạigiảithuật discounting đượcsửdụng. Good-Turing, absolute, Witten-Bell, vàKneser-Ney - chỉnhsửa. • Tùychọnmộttừđiểnxácđịnhtrước. • Loạibỏcáctừkhôngphổbiến (stop-word) hay làxemchúngnhư token xácđịnh. • Cóloạibỏtrườnghợpđặcbiệttrongvănbảnnhập. (ảnh: http://www.speech.sri.com/images/logo_sri.gif)
Huấnluyệnmôhìnhngônngữthốngkê • Thaythếgiátrịđượcgáncho 3 thamsốquantrọngcủa SRILM đểlấy 8 môhìnhngônngữkhácnhau. 3 thamsốđólà: • Từvựng : đóng hay mở. • Model order: bìnhthườnghoặcbỏ qua • Cắtbỏtầnsố n-gram : cóhoặcloạibỏ n-grams xuấthiện 1 lần.
Vector đặctrưngcủacâu • Thốngkêtừ (sốlượngtừ, cáctừkhôngthuộctừđiển, cáctừxácsuấtbằng 0). • Chiềudàingữcảnh n-gram nhỏnhất , vàlớnnhất. • Cácthốngkêvềướclượngxácsuấtcho n-gram trongcâu (mean, min, max) • Cácthốngkêmôhìnhchoxácsuấtcủa n-gram trongcâu (min, max). • Tổngxácsuấtcủacâu.
Vídụ • Manfred Bender scored from a header in the 80th minute, four transactions after coming on. • Kếtquả - vector đặctrưngchocâutrên • Word statistics (Number of words (12), Out Of Vocabulary (OOV) words (2), Zero probability words (0) ) • Mimimum n-gram context length matchihg the model (1), and maximum (3) respectively • Statistics of model probability estimations for n-grams in the sentence (mean, min, max) (0.165, 0,0.827586)
Cáchthứctấncông • Mụctiêutấncông. • Phânlớpcâucóẩndữliệu/ khôngẩndữliệu • Phươngpháp :Họcmáy SVM (support vector machine). • Sửdụngthưviệnlibsvm (nguồn[2])
Kếtquảđạtđược • Kếtquả: • Độchínhxáckhiphânvàolớp : • Códữliệumậtlà 84.9% • Khôngẩndữliệu 38.6% , • Độphủ (recall) caonhưngđộchínhxác(precision) thấp.
Tàiliệuthamkhảo • [1] Cuneyt M. Taskiran, UmutTopkara, MercanTopkara, and Edward J. Delp, "Attacks on Lexical Natural Language Steganography Systems , " Proceedings- Spie The International Society For Optical Engineering, Vol. 6072, 2006 • [2] Thưviệnlibsvm, http://www.csie.ntu.edu.tw/~cjlin/libsvm/ • [3] Stanford Research Institue Language Model Toolkit, • http://www.speech.sri.com/projects/srilm/ • [4] Stanford Log-linear Part-Of-Speech Tagger, http://nlp.stanford.edu/software/tagger.shtml