360 likes | 588 Views
Trích chọn sự kiện y sinh học dựa trên đồ thị. Trình bày : Nhóm khai phá dữ liệu Y sinh học. Nội dung. Giới thiệu Trích chọn sự kiện Y sinh học Biểu diễn đồ thị phụ thuộc Phương pháp cắt tỉa đồ thị phụ thuộc ( JULIELab Team) Đánh giá. Giới thiệu thành viên. Tài liệu tham khảo.
E N D
Tríchchọnsựkiện y sinhhọcdựatrênđồthị Trìnhbày: Nhómkhaiphádữliệu Y sinhhọc
Nội dung • Giớithiệu • Tríchchọnsựkiện Y sinhhọc • Biểudiễnđồthịphụthuộc • Phươngphápcắttỉađồthịphụthuộc (JULIELab Team) • Đánhgiá Trích chọn sự kiện Y sinh học dựa trên đồ thị
Giớithiệuthànhviên Trích chọn sự kiện Y sinh học dựa trên đồ thị
Tàiliệuthamkhảo • [BFWH09]. Ekaterina Buyko, Erik Faessler, Joachim Wermter, Udo Hahn (2009). Event Extraction from Trimmed Dependency Graphs, BioNLP2009 Workshop (Shared Task on Event Extraction): 19-27 • [KWTY11]. Jin-Dong Kim, Yue Wang, Toshihisa Takagi and AkinoriYonezawa (2011) Overview of Genia Event Task in BioNLP Shared Task 2011, BioNLP Shared Task 2011 Workshop: 7-15 • [BHGAPS09]. JariBjörne, JuhoHeimonen, FilipGinter, AnttiAirola, TapioPahikkala, TapioSalakoski (2009). Extracting Complex Biological Events with Rich Graph-Based Feature Sets, BioNLP2009 Workshop (Shared Task on Event Extraction): 10-18 • [PSOKA12]. SampoPyysalo, Pontus Stenetorp, Tomoko Ohta, Jin-Dong Kim and Sophia Ananiadou (2012), New Resources and Perspectives for Biomedical Event Extraction, BioNLP 2012 Workshop:100-108 Trích chọn sự kiện Y sinh học dựa trên đồ thị
Giớithiệu • Các nghiên cứu gần đây trong trích chọn thông tin miền y sinh học tập trung vào trích chọn sự kiện ngữ nghĩa liên quan đến gen hoặc protein • sựkiệnliênkết (bind) hoặcphiênmã, dịhóa… • Hầu hết các hiểu biết về sự kiện y sinh học chỉ có dạng văn bản phi cấu trúc Trích chọn sự kiện Y sinh học dựa trên đồ thị
Giớithiệu • Sự kiện y sinh học đc mô tả trong văn bản nhận dạng kiểu, trigger – dấu hiệu sự kiện, và 1 hoặc nhiều tham số của sự kiện đó. • BioNLP 2009 & Tasks • concerns the recognition of bio-molecular events (bio-events) that appear in biomedical literature. Trích chọn sự kiện Y sinh học dựa trên đồ thị
BioNLP 2009 The BioNLP'09 Shared Task on Event Extraction – Home (http://www.nactem.ac.uk/tsujii/GENIA/SharedTask/) Trích chọn sự kiện Y sinh học dựa trên đồ thị
Tríchchọnsựkiện Y sinhhọc • The term biomedical event extraction is used to refer to the task of extracting descriptions of actions and relations involving one or more entities from the biomedical literature1 • The biological event extraction refers to the task of detection of event templates using basic tools from biological and biomedical text2 1: Search-based Structured Prediction applied to Biomedical Event Extraction, Andreas Vlachos and Mark Craven 2: J. D. Kim, T. Ohta, S. Pyysalo, Y. Kano, and J. Tsujii. Overview of BioNLP09 Shared Task on event extraction. In Proceedings of the workshop on BioNLP: Shared Task, pages 1-9, 2009. Trích chọn sự kiện Y sinh học dựa trên đồ thị
BioNLP 2009 Tasks To draw concentration on event extraction “phosphorylation of TRAF2” (Type:Phosphorylation, Theme:TRAF2) Trích chọn sự kiện Y sinh học dựa trên đồ thị
Event type (The BioNLP'09 Shared Task on Event Extraction ) Trích chọn sự kiện Y sinh học dựa trên đồ thị
Event type (The BioNLP'09 Shared Task on Event Extraction ) Trích chọn sự kiện Y sinh học dựa trên đồ thị
BioNLP 2009 Task 1 5/24 team: F-score >= 40% Evalution results of Task 1 – BioNLP Shared Task 2009 (reall / precision / F-score) Trích chọn sự kiện Y sinh học dựa trên đồ thị
Mộtsốhướngtiếpcận • Tươngtácgiữa 2 protein (PPIs) • Pattern-based: Blaschke et al. (1999), Hakenberg et al. (2005), Huang et al. (2004) • Rule-based:Yakushiji et al. (2001), Saric et al. (2004), Fundelet al. (2007) • Machine learning-based: Katrenko & Adriaans (2006), Sætre et al. (2007), Airola et al. (2008). Trích chọn sự kiện Y sinh học dựa trên đồ thị
Biểudiễnđồthịphụthuộc • Đồthịcungcấpsựmôhìnhhóachodữliệuy sinhhọc Trích chọn sự kiện Y sinh học dựa trên đồ thị
Biểudiễnđồthịphụthuộc • Sự biểu diễn phụ thuộc của 1 câu đượchình thành bởi các từ trong câu và quan hệ 2 ngôi giữa chúng • Quanhệphụthuộc 1 chiều: • relation (governor, dependent) đồ thị phụ thuộc Trích chọn sự kiện Y sinh học dựa trên đồ thị
Dependency graph • A dependency graph is a pair of sets G = (V,E), where V is a set of nodes that correspond to the tokens in a sentence, and E is a set of directed edges, for which the edge labels are types of dependency relations between the tokens, and the edge direction is from governor to dependent node[3]. Trích chọn sự kiện Y sinh học dựa trên đồ thị
TríchchọnsựkiệnY sinhhọc • Nhậndạng event trigger • Hợpnhất event trigger • Gánkiểusựkiện • Xác định thamsố • Gánkiểuthamsố • Sắpxếpthamsố • Sựphứctạpcủa Task 1: khôngchỉproteinđược chophéplàthamsốmànócũnglàsựkiện. Trích chọn sự kiện Y sinh học dựa trên đồ thị
Nhậndạng event trigger • Xác định các biểu diễn tương đương của cùng kiểu sự kiện • “A is expressed” và “the expression of A” • expression(A) • “Event trigger ambiguity” Trích chọn sự kiện Y sinh học dựa trên đồ thị
Hợpnhất event trigger • Lựa chọn đúng tên sự kiện từ tập event trigger tương đương Trích chọn sự kiện Y sinh học dựa trên đồ thị
Gánkiểusựkiện • Phân loại ngữ nghĩa cho 1 tên sự kiện đc hợp nhất và gán với 1 kiểu sự kiện Binding Trích chọn sự kiện Y sinh học dựa trên đồ thị
Xác địnhthamsố • Tìmtấtcảnhữngphầntửcầnthamgiatrongsựkiện, vd: cácthamsốcủaquanhệ • Cầnchú ý cácthựcthểtươngđươngvàlựachọnthamsố Trích chọn sự kiện Y sinh học dựa trên đồ thị
Gánkiểuthamsố • Gán đúng loại ngữ nghĩa (lớp thực thể) cho mỗi phần tử đc xác định trong 1 sự kiện (có thể xem như đối tượng của lớp đó) Trích chọn sự kiện Y sinh học dựa trên đồ thị
Sắpxếpthamsố • Gánmỗivaitròchứcnăngcủaphầntửđcxácđịnhtrongsựkiện, thườnglà Agent (và Patient/Theme) (tácnhân/đốitượng) Trích chọn sự kiện Y sinh học dựa trên đồ thị
Phươngphápcắttỉađồthịphụthuộc (JULIELab Team) Trích chọn sự kiện Y sinh học dựa trên đồ thị
Phươngphápcắttỉađồthịphụthuộc • 3 luồngchính: • Pháthiệntậpevent trigger • Cắt tỉa đồ thị phụ thuộc • lượcbỏphầnkhôngliênquan • làmgiàungữnghĩatậptừvựngliênquan • Xác địnhthamsốchosựkiệndướisựgiámsát • Trong cách tiếp cận của họ, hợp nhất event trigger đã bao gồm gán kiểu sự kiện Trích chọn sự kiện Y sinh học dựa trên đồ thị
Nhận dạng event trigger • Tìm kiếm tập trigger có khả năng là mộtsự kiện: dictionary-based • GENIA event corpus (Kim et al., 2008a) • Automatic lemmatized (for extracted event trigger)1 • Gán kiểu sự kiện • Hợp nhất event trigger: kết hợp các bộ từ điển 1: http://lexsrv3.nlm.nih.gov/SPECIALIST/index.html, Trích chọn sự kiện Y sinh học dựa trên đồ thị
Hợp nhất event trigger • Độ quan trọng của 1 event trigger ticho 1 kiểu sự kiện T : tần suất của even trigger ticủa kiểu sự kiện đc lưa chọn T trong kho huấn luyện /tổng số event trigger của kiểu sự kiện được lưa chọn T trong kho huấn luyện đó. • Tần suất đc đo dựa vào các event trigger gốc Trích chọn sự kiện Y sinh học dựa trên đồ thị
Cắt tỉa đồ thị phụ thuộc • Mục đích: • Loại bỏ đi ngữ nghĩa không liên quan • Làm giàu ngữ nghĩa các nút có liên quan • Lược bỏ cú pháp • các trợ động từ và động từ khuyết thiếu Trích chọn sự kiện Y sinh học dựa trên đồ thị
Cắt tỉa đồ thị phụ thuộc • Động từ thường kết nối với trợ động từ bởi quan hệ phụ thuộc VC (verb chain) • dạng cây phụ thuộc và quy ước gán nhãn (2006 & 2007 CoNLL shared task) … Trích chọn sự kiện Y sinh học dựa trên đồ thị
Xác định tham số và sắp thứ tự • 3 mức: Trích chọn sự kiện Y sinh học dựa trên đồ thị
Xác định tham số và sắp thứ tự • Tiếp cận học máy • Feature-based • 3 loại đặc trưng • Lexical feature • Chunking feature • Dependecy parse feature • bộ phân loại ME (Maximum Entropy) (MALLET) http://mallet.cs.umass.edu/index.php/Main_Page Trích chọn sự kiện Y sinh học dựa trên đồ thị
Đánh giá • Baseline: trích chọn cho mỗi cặp của 1 trigger giả định và 1 tham số giả định đường đi ngắn nhất giữa chúng • So sánh với phương pháp đề xuất • the shared task development and test set Trích chọn sự kiện Y sinh học dựa trên đồ thị
Shared task development data JULIELab Team Baseline Trích chọn sự kiện Y sinh học dựa trên đồ thị
Shared task test data JULIELab Team Baseline Trích chọn sự kiện Y sinh học dựa trên đồ thị