1 / 1

TÍCH HỢP ONTOLOGY Y SINH SỬ DỤNG PHƯƠNG PHÁP HỌC SỰ TƯƠNG TỰ GIỮA HAI CHUỖI

HPO. MPO. Máu và hình thành các mô máu ID: HP_0001871. Hệ thống tạo máu ID: MP_0005397. Hệ thống hô hấp ID: HP_0002086. Hệ thống hô hấp ID: MP:0005388. TÍCH HỢP ONTOLOGY Y SINH SỬ DỤNG PHƯƠNG PHÁP HỌC SỰ TƯƠNG TỰ GIỮA HAI CHUỖI. Hướng dẫn: ThS. Trần Mai Vũ

verity
Télécharger la présentation

TÍCH HỢP ONTOLOGY Y SINH SỬ DỤNG PHƯƠNG PHÁP HỌC SỰ TƯƠNG TỰ GIỮA HAI CHUỖI

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. HPO MPO Máu và hình thành các mô máu ID: HP_0001871 Hệ thống tạo máu ID: MP_0005397 Hệ thống hô hấp ID: HP_0002086 Hệ thống hô hấp ID: MP:0005388 TÍCH HỢP ONTOLOGY Y SINH SỬ DỤNG PHƯƠNG PHÁP HỌC SỰ TƯƠNG TỰ GIỮA HAI CHUỖI Hướng dẫn: ThS. Trần Mai Vũ CN. Lê Đức Trọng Sinh viên: Trần Thắng Bình – Ngô Mạnh Quyền – Chu Thị Phương Thảo Hệ thống thần kinh ID: HP_0000707 Thần kinh/Hành vi ID: MP_0005386 Hệ thống tim mạch ID: HP_0001626 Hệ thống tim mạch ID: MP_0005385 Hệ thống miễn dịch ID: HP_0002715 Hệ thống miễn dịch ID: MP_0005387 Tích hợp Ontology Hệ thống xương ID: HP_0000924 Hệ thống xương ID: MP_0005390 • Theo Doan và các cộng sự (2004): Bài toán tích hợp Ontology là việc tìm ra những liên kết về ngữ nghĩa giữa 2 ontology. • Trong các hệ thống thông tin về y sinh, Ontology được sử dụng rộng rãi: Ontology NCI-các khái niệm bệnh ung thư, FMA-giải phẫu học, … • Vấn đề tích hợp dữ liệu giữa các ontology (ontology matching) trở thành một bài toán quan trọng khi người dùng đòi hỏi một tri thức miền có sự thống nhất và độ phủ lớn hơn. • Đã có nhiều hệ thống tích hợp Ontology: S-Match, ASMOV, CODI , KOSIMap, YAM++ , LogMap Bước 3: Học máy HPO, MP Ontology Tríchtrọn đặctrưng Dữ liệu vào Phương pháp học máy SVM/LR • Tênrútgọn • Xâu con chung • Xâu con riêng • SoftTFIDF • Độdàixâu • Cụmđồngnghĩa Dữ liệu học Tríchtrọn đặctrưng Mô hình Mục tiêu Ontology y sinh • Trong đề tài này, tập trung nghiên cứu đưa ra mô hình tích hợp cho miền dữ liệu các Ontology về thực thể kiểu hình. • Đầu vào: • Hai Ontology thực thể kiểu hình • Ví dụ: HPO : Thực thể kiểu hình ở người • MP : Thực thể kiểu hình ở động vật có vú, • Tập các cặp đồng nghĩa mẫu giữa hai Ontology • Đầu ra: • Toàn bộ các cặp đồng nghĩa giữa hai Ontology đầu vào • Ví dụ cặp đồng nghĩa: • -Abnormality of muscle physiology (HP:0011804) • - abnormal muscle physiology (MP:0002106) Dữ liệu vào Ghép cặp Mô hình Giải mã Bước 1: Sinh tập dữ liệu vào - 1200 cặp thuật ngữ đồng nghĩa (từ HPO và MP) - 17000 cặp thuật ngữ không đồng nghĩa Bước 4: Kiểm tra Dữ liệu test Cặp không đồng nghĩa Dữ liệu vào Ghép nối Kết quả Thực thể kiểu hình (Phenotype) Các bước chính Các cặp đồng nghĩa • Freimer và Sabatti (2003) mô tả kiểu hình là tất cả các đặc điểm về hình thái, sinh lý, sinh hóa, hành vi,…của một sinh vật. Tất cả các đặc điểm kiểu hình đại diện cho biểu hiện của kiểu gen riêng biệt, kết hợp với ảnh hưởng của môi trường. • Collier và các cộng sự (2013), đã tổng hợp lại và biểu diễn thành một lược đồ dễ hiều về kiểu hình. Thực thể kiểu hình là những đặc điểm có thể quan sát và đo lường được của một sinh vật. • Ví dụ, - Màu mắt (đen, nâu, xanh) • - Nhóm máu (A, B, AB, O) Bước 2: Trích chọn đặc trưng - Bổ sung thêm 2 đặc trưng mới Tríchtrọn đặctrưng Kết quả và đánh giá Những đóng góp chính • Xây dựng mô hình tích hợp ontology thực thể kiểu hình. • Đề xuất hai đặc trưng mới cho mô hình học máy. • Đánh giá mô hình thông qua bộ dữ liệu chứa khoảng hơn 18.000 cặp thuật ngữ từ 2 Ontology HPO và MP. • Phương pháp Logistic Regression đạt F1 (76.41%) chứng minh sự đúng đắn của mô hình đề đề xuất cho bài toán tích hợp các ontology y sinh. Thựcnghiệm cho thấy độ đo hồi tưởng (R) và F1 của phương pháp Logistic Regression là cao nhất. Phương pháp SVM cho kết quả kém hơn và LogMap có độ chính xác cao nhất Tài liệu tham khảo 1. Tsuruoka, Y. and McNaught, J., Tsujii, J., Ananiadou, S. (2007) Learning string similarity measures for gene/protein name dictionary look-up using logistic regression. 2. Colier, N. and Tran, MV., Le, HQ., Ha, QT., Oellrich, A., Dietrich, RS.Learning to Recognize Phenotype Candidates in the Auto-Immune Literature Using SVM Re-Ranking 3. Smith, CL. and Goldsmith, CW and Eppig, JT. (2004) The Mammalian Phenotype Ontology as a tool for annotating, analyzing and comparing phenotypic information Genome Biology 6: R7. 4. Thuy, HQ., Doan, S., Phan, XH. Giáo trình khai phá dữ liệu web (2009) 5. Jim´enez-Ruiz, E., Cuenca Grau, B.: LogMap: Logic-based and Scalable Ontology Matching. In: Int’l Sem. Web Conf. (ISWC). pp. 273–288 (2011) 6. Corinna Cortes, Vladimir Vapnik (1995). Support-Vector Networks, Machine Learning, 20(3): 273-297…..

More Related