1 / 32

PGS. TS. HÀ QUANG THỤY HÀ NỘI 09-2013 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI

BÀI GIẢNG KHAI PHÁ QUAN ĐIỂM VÀ KHAI PHÁ PHƯƠNG TIỆN XÃ HỘI CHƯƠNG 4. KHAI PHÁ QUAN ĐiỂM MỨC KHÍA CẠNH. PGS. TS. HÀ QUANG THỤY HÀ NỘI 09-2013 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI. Nội dung. Giới thiệu Phân lớp quan điểm khía cạnh Quy tắc cơ sở quan điểm và ngữ nghĩa hợp thành

minowa
Télécharger la présentation

PGS. TS. HÀ QUANG THỤY HÀ NỘI 09-2013 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. BÀI GIẢNG KHAI PHÁ QUAN ĐIỂM VÀ KHAI PHÁ PHƯƠNG TIỆN XÃ HỘICHƯƠNG 4. KHAI PHÁ QUAN ĐiỂM MỨC KHÍA CẠNH PGS. TS. HÀ QUANG THỤY HÀ NỘI 09-2013 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI

  2. Nội dung Giới thiệu Phân lớp quan điểm khía cạnh Quy tắc cơ sở quan điểm và ngữ nghĩa hợp thành Trích xuất khía cạnh Nhận dạng khía cạnh sử dụng tài nguyên Thi hành đồng thời mở rộng từ điển quan điểm và trích xuất khía cạnh Gom nhóm các khía cạnh Trích xuất thực thể, chủ quan điểm và thời gian Giải pháp đồng tham chiếu và định hướng nghĩa từ

  3. 1. Giới thiệu • Đặt vấn đề • Mức tài liệu, mức câu • Chưa rõ đối tượng • Ngầm định đối tượng: phân cực rất cực đoan • Không đủ cho ứng dụng • Nhu cầu KPQĐ mức khía cạnh (dựa trên đặc trưng) • Mô hình thực thể khía cạnh CHUNG và các khía cạnh khác • Sáu bài toán  mọi bộ năm (ei, aij, sijkl, hk, tl) • T/trung hai bài toán: T/xuất k/cạnh và P/lớp quan điểm k/cạnh • Hai bài toán cơ bản • Trích xuất khía cạnh  {cụm từ/từ thể hiện khía cạnh của e} "Chất lượng âm thanh của điện thoại này là tuyệt vời“  “Chất lượng âm thanh”; "Tôi yêu thích điện thoại này“ CHUNG • Phân lớp quan điểm khía cạnh  tích cực/tiêu cực/trung tính Chất_lượng_âm_thanh tích cực CHUNG  tích cực • Lưu ý trường hợp đích cho sẵn: không trích xuất khía cạnh

  4. 2. Phân lớp quan điểm khía cạnh • Giới thiệu • Bài toán thứ hai • Phát biểu bài toán • Input: Cho 1 câu s và một khía cạnh a trong câu • Output: Quan điểm về khía cạnh a trong câu • Hai tiếp cận chính: (i) Học có giám sát; (ii) Dựa trên từ vựng • Tiếp cận dựa trên học máy giám sát • Áp dụng phương pháp như mức câu và mức mệnh đề. • Vấn đề chính: Đặc trưng phân lớp, biểu diễn quan điểm • P/T cú pháp phụ thuộc  tập đặc trưng phụ thuộc khía cạnh • Có thể đưa thêm trọng số phụ thuộc • Khác biệt miền ứng dụng: mẫu khó mở rộng, xây dựng ví dụ học: nhiều công sức • Một số ví dụ • Wei và Gulla, 2010 [WG10]: HL-SOT • Jiang và cộng sự, 2011 [JYZLZ11]: PT cú pháp phụ thuộc • Boiy và Moens, 2009 [BM09]: trọng số các từ liên quan trong cây cú pháp

  5. Dùng cây bản thể quan điểm [WG10] “...I am very impressed with this camera except for its a bit heavy weight especially with extra lenses attached. It has many buttons and two main dials. The first dial is thumb dial, located near shutter button. The second one is the big round dial located at the back of the camera...”. Ví dụ: Một phần cây bản thể quan điểm (Sentiment Ontology Tree: SOT) T(v, v+, v-, T), v: gốc thành phần/khía cạnh, v+, v-,: nút lá dương (âm), T : tập cây con. Học cây SOT từ một tập ví dụ mẫu. Thực nghiệm, đánh giá chép 5-folds cross. [WG10] Wei, Wei and Jon Atle Gulla (2010). Sentiment learning on product reviews via sentiment ontology tree. in Proceedings of Annual Meeting of the Association for Computational Linguistics (ACL-2010).

  6. Tiếp cận dựa trên từ vựng • Tiếp cận dựa trên từ vựng (học không giám sát) • Tránh được hạn chế của tiếp cận dựa trên học máy • Phổ miền ứng dụng rộng lớn • Tồn tại một số phương pháp • Hu, Minqing và Bing Liu, 2004 [HL04] • Xiaowen Ding và cộng sự, 2008 [DLY08] • … • Phương pháp của X. Ding và cộng sự • Giả định: Thực thể và các khía cạnh đã được trích xuất • Phương pháp gồm bốn bước • Đánh dấu từ/cụm từ quan điểm • Dùng bộ chuyển hướng quan điểm • Xử lý mệnh đề “nhưng” • Tổng hợp quan điểm [DLY08] Xiaowen Ding, Bing Liu, Philip S. Yu (2008). A holistic lexicon-based approach to opinion mining. WSDM 2008: 231-240

  7. Phương pháp của X. Ding và cộng sự • Đánh dấu từ/cụm từ quan điểm • Đánh dấu mọi từ/cụm từ quan điểm trong câu. • Tích cực/tiêu cực: 1/-1 • “Chất lượng âm thanh của điện thoại này là không tốt nhưng độ dài pin là dài” • “Chất lượng âm thanh của điện thoại này là khôngtốt [1] nhưng độ dài pin là dài”. “tốt” là từ quan điểm, “dài” là từ quan điểm theo ngữ cảnh. • Dùng bộ chuyển hướng quan điểm • Chuyển hướng quan điểm: tích cực  tiêu cực • Tiếng Anh: not, never, none, nobody, nowhere, neither, và cannot. Tiếng Việt: không, không bao giờ, không ai… • “Chất lượng âm thanh của điện thoại này là khôngtốt [-1] nhưng độ dài pin là dài“. • Các bộ chuyển hướng quan điểm

  8. Phương pháp của X. Ding và cộng sự • Xử lý mệnh đề “nhưng” • Từ/cụm từ chỉ dẫn tính ngược: có thể đổi hướng quan điểm. • Tiếng Anh điển hình là “but” (“nhưng”) • Luật xử lý: hướng quan điểm trước từ ngược (ví dụ, “nhưng”) và hướng sau khi từ ngược là đối nghịch nhau nếu quan điểm ở một bên chưa được xác định. • Ví dụ, “Chất lượng âm thanh của điện thoại này là khôngtốt [-1] nhưng độ dài pin là dài“ [1]. • Một số từ ngược: "ngoại trừ” (“with the exception of,” “except that,” và “except for”) • Lưu ý: “Xe x là rất tốt, nhưngxe y là tốt hơn“, tiếng Anh “not only … but also …” • Tổng hợp quan điểm • Định hướng quan điểm cho khía cạnh: • swj: từ/cụm từ quan điểm trong s, dist (swj, ai): khoảng cách ai swj, swj.so: trọng số quan điểm của swj. • Ngưỡng định hướng tích cực/tiêu cực • Cải tiến thuật toán • Luật quan điểm và ngữ nghĩa từ

  9. 3. Quy tắc cơ sở của quan điểm và ngữ nghĩa thành phần • Quy tắc quan điểm • Biểu diễn ngụ ý một quan điểm tích cực/tiêu cực • Từ/cụm từ hoặc hợp thành • Hợp thành: cần tri thức chung/tri thức miền ứng dụng • Ý nghĩa hợp thành: hàm (ý nghĩa thành phần, quy tắc cú pháp hợp thành) • Quy tắc: kiểu chuẩn BNF [Liu10] Liu, Bing (2010). Sentiment Analysis and Subjectivity, in Handbook of Natural Language Processing, Second Edition, N. Indurkhya and F.J. Damerau, Editors. 2010.

  10. Quy tắc cơ bản: 8 quy tắc đầu tiên • Một số quy tắc tiếng Anh • Positive ::= P Tích cực :: P • | PO | PO • | đổi_hướng N • | đổi_hướng NE • Negative ::= N Tiêu cực :: N • | NE | NE • | đổi_hướng P • | đổi_hướng PO P/PO: hai biểu diễn quan điểm tích cực. P biểu diễn quan điểm tích cực nguyên tử (từ/cụm từ quan điểm tích cực), PO biểu diễn hợp thành của quan điểm tích cực. N/NE: tương tự nhưng đối ngẫu (tiêu cực) Positive và Negative: biểu diễn quan điểm kết thúc xác đinh quan điểm cho đối tượng/khía cạnh

  11. Đổi_hướng quan điểm (Sentiment_shifters) • Một số lưu ý • Không là biểu diễn BNF thực sự song ích lợi hiểu khái niệm • Đổi-hướng: hình thức khác nhau • Vị trí sau-trước N|NE|P|PO hoặc ở giữa đổi-hướng với N|NE|P|PO có từ trung gian • Trong tiếng Anh: “valence shifters” • Từ phủ định: not, never, none, nobody, nowhere, neither, và cannot • Trợ động từ chỉ phương thức: would, should, could, might, must, và ought. "phanh có thể được cải thiện“ tiêu cực • Tiền-giả định: Works, fail, omit, neglect. “Nó hoạt động” tích cực <> “nó khó hoạt động” tiêu cực • Các từ thất bại (Fails), bỏ qua (omit, neglec) “Máy ảnh này thất bại khi gây ấn tượng với tôi” tiêu cực. • Châm biếm cũng là một dạng đổi hướng “Chiếc xe này tuyệt vời, nó không khởi động ngay ngày đầu tiên” tiêu cực • Thủ công: dễ dàng <> tự động nhận biết và xử lý: thách thức

  12. Biểu diễn quan điểm không đổi hướng • Bao gồm 6 loại biểu diễn • 1/Từ/cụm từ quan điểm Loại biểu diễn đơn giản nhất: từ/cụm từ ; từ/cụm từ tự chúng biểu diễn quan điểm tích cực/tiêu cực. 9. P ::= một từ/cụm từ quan điểm tích cực 10. N ::= một từ/cụm từ quan điểm tiêu cực “Âm thanh của điện thoại này tốt” • 2/Tăng/giảm lượng quan điểm Tương tự các quy tắc 3,4 và 7,8: thể hiện tăng lượng|giảm lượng|đổi-hướng một mục quan điểm (danh từ/cụm danh từ). 11. PO ::= giảm/giảm_đi N 12. | tăng/tăng_thêm P 13. NE ::= giảm/giảm_đi P 12. | tăng/tăng_thêm N "Thuốc này làm giảm đáng kể đau đớn của tôi“: “đau đớn” tiêu cực, “giảm đau đớn” tích cực “"nỗi đau của tôi biến mất sau khi dùng thuốc“ Vị trí: trước|sau|có_trung_gian giữa quan_điểm và tăng|giảm

  13. Tiềm năng quan điểm • 3/ Cao|thấp|tăng/giảm lượng từ tiềm năng quan điểm <Tiềm_năng_tích_cực>: giá trị|lượng nhỏ tiêu cực, giá trị|lượng lớn tích cực. "Tuổi thọ pin ngắn“<> "Tuổi thọ pin dài“. Tuổi thọ pin là tiềm năng tích cực (Positive potential items: PPI) <Tiềm_năng_tiêu_cực>: giá trị|lượng nhỏ tích cực, giá trị|lượng lớn tiêu cực. “Chi phí mua máy ảnh cao“<>” “Chi phí mua máy ảnh thấp“, “Sony giảm giá máy ảnh”. Chi phi muc, Giá là tiềm năng tiêu cực (Negative potential items: NPI). Tiềm_năng_tiêu_cực, Tiềm_năng_tích_cực không hàm ý quan điểm, nhưng  tính từ số lượng, từ/cụm từ thay đổi số lượng  quan điểm. 15. PO :: = no_low_less_or_decreased_quantity_of NPI 16. | Large_larger_or_increased_quantity_of PPI 17. NE :: = no_low_less_or_decreased_quantity_of PPI 18.| Large_larger_or_increased_quantity_of NPI 19. NPI :: = a_negative_potential_item 20. PPI :: = a_positive_potential_item

  14. Sự kiện mong muốn, chuẩn • 4/ Sự kiện mong muốn/không mong muốn Câu chủ quan biểu diễn sự kiện mong muốn/không mong muốn. “Sau khi hai người nằm trên đệm hai tuần, một ngọn núi xuất hiện ở giữa” tiêu cực chất lượng đệm 21. P ::= sự_kiện_mong_muốn 22. N ::= sự_kiện_không_mong_muốn • 5/ Trong/lệch chuẩn hoặc phạm vi giá trị mong muốn Một số tình huống, mục có quy định phạm vi: lệch là tiêu cực. “Sau khi dùng thuốc, huyết áp của tôi lên tới 410” Tiêu cực 23. P ::= trong_vùng_mong_muốn 24. N ::= ngoài_vùng_mong_muốn

  15. Tài nguyên/chất thải • 6/Sản xuất/tiêu thụ tài nguyên/chất thải Sản xuất (tiêu thụ) lượng lớn tài nguyên  tích cực (tiêu cực) "máy tính này dùng rất nhiều điện" Sản xuất (tiêu thụ) lượng lớn chất thải  tiêu cực (tích cực) 25. P :: = sản_xuất_lượng_lớn_nhiều_hơn_tài_nguyên 26. | sản_xuất _không_ít_ít_hơn_chất_thải 27. | tiêu_thụ_không_ít_ít_hơn_tài_nguyên 28. | tiêu_thụ_lượng_lớn_nhiều_hơn_chất_thải 29. N :: = sản_xuất_ không_ít_ít_hơn_tài_nguyên 30. | sản_xuất_lượng_lớn_nhiều_hơn_chất_thải 31. | tiêu_thụ_lượng_lớn_nhiều_hơn_tài_nguyên 32. | tiêu_thụ_không_ít_ít_hơn_chất_thải

  16. 4. Trích xuất khía cạnh • Giới thiệu • Input: Cho một câu chủ quan s về một đối tượng e • Output: Mọi khía cạnh a của e có trong s • Trích xuất thông tin • Thuận lợi: Quan điểm liên quan tới đối tượng. • Lưu ý: “Chiếc xe này đắt tiền” ẩn • Phương pháp: 4 phương pháp chính • Phương pháp • 4 phương pháp chính, căn cứ vào: • Danh từ/cụm danh từ thường xuyên • Mối quan hệ “từ quan điểm” với từ/cụm từ “khía cạnh” • Sử dụng học có giám sát • Sử dụng mô hình chủ đề

  17. Trích xuất khía cạnh từ web • Giới thiệu • Khai phá quan điểm chủ yếu từ đánh giá trực tuyến trên web • Căn cứ vào định dạng nhận xét trên web • Hai định dạng chính • Dạng có cấu trúc ƯU (Pros), KHUYẾT (Cons) và đánh giá chi tiết: (i) Nêu ngắn gọn ưu điểm hình, (ii) Nêu ngặn gọn khuyết điểm điển hình; (iii) Đánh giá chi tiết Lợi thế cho trích xuất khía cạnh • Dạng đánh giá tự do: Không có mô tả ngắn gọn ưu, khuyết • Hình vẽ trang sau

  18. Trích xuất khía cạnh từ web • Nhận xét dạng 1 • Trích xuất khía cạnh từ ƯU và KHUYẾT khá dễ dàng • Đặc trưng: Ngắn gọn, cụm từ ngắn|phân đoạn câu. • Thông thường, mỗi đoạn chỉ gồm một khía cạnh • Phân đoạn câu: dấy phảy, chấm phảy, gạch nối, &, “và”, “nhưng”… • Nhận xét dạng 2

  19. Quan sát quan điểm Opinion Observer • Giới thiệu • Bing Liu, Minqing Hu, Junsheng Cheng (2005). Opinion observer: analyzing and comparing opinions on the Web. WWW 2005: 342-351. • Trích xuất khía cạnh, phân lớp quan điểm, trực quan hóa so sánh hai sản phẩm, • Ba dạng đánh giá • Chỉ có ƯU và KHUYẾT (C|net.com) • ƯU và KHUYẾT và chi tiết (Epinions.com) • Dạng tự do (Amazon.com)

  20. Opinion Observer • Bài toán • Input: • Tập sản phẩm cùng/khác thương hiệu • Tập trang web chứa đánh giá về các sản phẩm • Output • Trực quan hóa kết quả như hình bên • Quá trình • Hai giai đoạn • Trích xuất và phân tích đánh giá • Hai bước • B1. Tải đánh giá, tiền xử lý, lưu vào CSDL • B2. Phân tích đánh giá, trích xuất khía cạnh và định hướng nhậ xét. Sử dụng học máy giám sát • So sánh kết quả • Lựa chọn hai sản phẩm để trực quan hóa

  21. Tìm từ/cụm từ thường xuyên • Giới thiệu • Lập luận: Khi có nhiều đánh giá, các biểu diễn khía cạnh được dùng chung. • Cho tập gồm rất nhiều văn bản đánh giá về một lĩnh vực. • Phân loại từ cho mọi văn bản đánh giá • Chỉ những từ/cụm từ có tần suất vượt quá ngưỡng được giữ lại. Ngưỡng : từ thực nghiệm. • Danh từ/cụm danh từ không thường xuyên: không là khía cạnh / khía cạnh không quan trọng • Đánh giá • Đơn giản song rất hiệu quả. • Được sử dụng trong sản phẩm thương mại. • Tồn tại nhiều phiên bản cải tiến

  22. Khai thác quan hệ quan điểm-khía cạnh • Giới thiệu • Lập luận: Quan điểm hướng đích  quan điểm – khía cạnh có liên quan. • Biết quan điểm  biết khía cạnh ở lân cận • Nếu một câu không chứa danh từ/cụm danh từ thường xuyên thì chọn từ/cụm từ gần nhất từ quan điểm • “Phần mềm này tuyệt vời”. “Tuyệt với” từ quan điểm  “phần mềm” có thể được trích chọn như khía cạnh • Cải tiến • Nhiều công trình công bố • Tồn tại nhiều phiên bản cải tiến

  23. Dùng học giám sát • Giới thiệu • Lập luận: Trích xuất khía cạnh là bài toán con của trích xuất thông tin  sử dụng các phương pháp trích xuất thông tin • Phương pháp điển hình là học dãy: HMM, CRF, .. • Cần có ví dụ mẫu làm bằng tay • Họ các thuật toán • Họ thuật toán CRF được sử dụng nhiều • Một lớp sử dụng SVM • Có thể khai thác không gian web

  24. Học giám sát và mô hình chủ đề • Học giám sát • Lập luận: Trích xuất khía cạnh là bài toán con của trích xuất thông tin  sử dụng các phương pháp trích xuất thông tin • Phương pháp điển hình là học dãy: HMM, CRF, .. • Cần có ví dụ mẫu làm bằng tay • Họ thuật toán CRF được sử dụng nhiều • Một lớp sử dụng SVM • Có thể khai thác không gian web • Mô hình chủ đề • mô hình chủ đề thống kê phát hiện ra các chủ đề • Phương pháp không giám sát • LSA, LDA và … • Phối hợp mô hình chủ đề với các kỹ thuật khác. • Lập ánh xạ khía cạnh ẩn • Tồn tại khía cạnh hiện và khía cạnh ẩn

  25. 5. Nhận dạng khía cạnh dùng tài nguyên • Nhận xét • Thường giải quyết theo hình dạng, • Một số trường hợp có cái nhìn đơn giản • Trích xuất khía cạnh và phân lớp quan điểm khía cạnh: thực tế rất phức tạp, từ quan điểm+cụm từ khía cạnh không luôn luôn là quan trọng • Sử dụng tài nguyên là một dấu hiệu nhận biết quan điểm tốt • Nội dung • Dãy quy tắc 25-32 cho biết sử dụng tài nguyên/chất thải 27. P ::= tiêu_thụ_không_ít_ít_hơn_tài_nguyên 31. N ::=tiêu_thụ_lượng_lớn_nhiều_hơn_tài_nguyên • Ví dụ, “Máy gặt này sử dụngrất nhiềunước”. • Zhang, Lei and Bing Liu (2011). Extracting Resource Terms for Sentiment Analysis. IJCNLP-2011 “Tình cảm/quan điểm thể hiện trong một câu sử dụng tài nguyên thường được xác định theo bộ ba (động từ, lượng hóa, cụm_danh từ), cụm_danh từ là một danh từ hoặc cụm danh từ”. • “Lượng hóa” là một dấu hiệu nhận biết

  26. Danh sách lượng hóa và quá trình Zhang, Lei and Bing Liu (2011). Extracting Resource Terms for Sentiment Analysis. IJCNLP-2011: Đồ thị hai phía • Một danh sách các lượng hóa tiếng Anh • several, numerous, many, much, • more, most, less, least • a large/huge/small/tiny number of • a large/huge/small/tiny quantity/amount of • lot/lots/tons/ton/plenty/deal/load/loads of • [a] few/little • Một vài định nghĩa • Thuật ngữ “tài nguyên”biểu diễn một thực thể thực/ảo được tiêu thụ hoặc thu được để hưởng lợi từ nó. “Cái ti vi này hút nhiều tiền của tôi”, “Điện thoại này xài nhiều bộ nhớ tích hợp”. • Một động từ dùng tài nguyên (động từ tài nguyên) là một động từ có thể diễn tả sử dụng tài nguyên • GĐ1. Nhận dạng động từ tài nguyên tổng quát • GĐ2. Phát hiện từ tài nguyên trong một kho ngữ liệu miền • Thuật toán MRE (Q, G) xây dựng đồ thị hai phía

  27. 6. Làm đồng thời mở rộng từ điển quan điểm và trích xuất khía cạnh • Quan sát • Quan điểm luôn đi với đối tượng: quan hệ • Đồng thời trích xuất khía cạnh với phân lớp quan điểm • OA: quan hệ quan điểm – khía cạnh • OO: quan hệ giữa các quan điểm • AA: quan hệ khía cạnh – khía cạnh • Nội dung • (OA) trích xuất khía cạnh sử dụng từ quan điểm • (AA) trích xuất khía cạnh sử dụng các khía cạnh đã được chiết xuất • (OA) chiết xuất từ quan điểm bằng cách sử dụng các khía cạnh đã được chiết xuất • (OO) chiết xuất từ quan điểm bằng cách sử dụng cả từ quan điểm và từ quan điểm đã trích xuất • Bảng trang sau

  28. Bảng quan hệ OA, OO, AA

  29. 7. Gom nhóm các biểu thị khía cạnh • Nhận xét • Biểu thị đa dạng, phi chuẩn của người dùng về khía cạnh • Biểu thị khía cạnh: “giọng nói”, “âm thanh”, “chất lượng cuộc gọi”… • Biểu thị quan điểm: “Chiếc điện thoại này đắt”, “Máy tính này rẻ”… • Cần thiết phải gom nhóm các biểu thị khía cạnh • Từ đồng nghĩa (synonym) • Một số phương pháp • Carenini, Giuseppe, Raymond Ng, and Ed Zwart (2005). Extracting knowledge from evaluative text. K-CAP-05: dựa trên độ đo tương tự tích hợp từ tương tự xâu, từ đồng nghĩa, khoảng cách từ vựng theo WordNet • Yu, Jianxing, Zheng-Jun Zha, Meng Wang, Kai Wang, and Tat-Seng Chua (2011). Domain-Assisted Product Aspect Hierarchy Generation: Towards Hierarchical Organization of Unstructured Consumer Reviews. EMNLP-2011. • Zhai, Zhongwu và cộng sự (4 bài báo)

  30. Gom nhóm các biểu thị khía cạnh • Huyen-Trang Pham, Tien-Thanh Vu, Mai-Vu Tran, Quang-Thuy Ha (2011). A Solution for Grouping Vietnamese Synonym Feature Words in Product Reviews, APSCC’2011: 503-508, Jeju, Korea, DOI:http://doi.ieeecomputersociety.org/10.1109/APSCC.2011.48

  31. 8. Trích xuất thực thể, chủ quan điểm và thời gian • Giới thiệu • Trích xuất thực thể, chủ sở hữu quan điểm và thời gian: bài toán nhận dạng thực thể định danh điển hình (named entity recognition: NER). • Bài toán chung “trích xuất thông tin” của truy hồi thông tin, khai phá văn bản, khai phá dữ liệu, học máy và xử lý ngôn ngữ tự nhiên. • Phương pháp • Rất nhiều công trình nghiên cứu liên quan • Hai hướng tiếp cận chính: dựa theo luật và thống kê • Dựa trên luật được thi hành sớm • Học thống kê: HMM, CRF

  32. 9. Giải pháp đồng tham chiếu và định hướng nghĩa từ • Giới thiệu • Mở rộng hơn là sử dụng công cụ của NLP trong khai phá quan điểm. • Giải quyết vấn đề ám chỉ: một đối tượng thực tế nhưng được biểu diễn bằng những phương án khác nhau • "Tôi mua một chiếc iPhone hai ngày trước. Nó trông rất đẹp. Tôi đã thực hiện nhiều cuộc gọi trong hai ngày qua. Chúnglà tuyệt vời " • Nội dung • Ding, Xiaowen and Bing Liu (2010). Resolving Object and Attribute Coreference in Opinion Mining. COLING-2010: Thiết kế và đánh giá hai bộ học mới các đặc trưng liên quan tới quan điểm (không so sánh và so sánh). • Akkaya, Cem, Janyce Wiebe, and Rada Mihalcea (2009). Subjectivity word sense disambiguation. EMNLP-2009: định hướng chủ quan ý nghĩa từ (subjectivity word sense Disambiguation: SWSD)

More Related