1 / 20

Một số tìm hiểu về nhận dạng thực thể trong văn bản y sinh

Một số tìm hiểu về nhận dạng thực thể trong văn bản y sinh. Trần Mai Vũ. Nội dung. Khái quát bài toán nhận dạng thực thể y sinh Một số phương pháp giải quyết bài toán Định hướng tiếp theo. Công trình liên quan. Thesis

nayef
Download Presentation

Một số tìm hiểu về nhận dạng thực thể trong văn bản y sinh

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Một số tìm hiểu về nhận dạng thực thể trong văn bản y sinh Trần Mai Vũ

  2. Nội dung • Khái quát bài toán nhận dạng thực thể y sinh • Một số phương pháp giải quyết bài toán • Định hướng tiếp theo

  3. Công trình liên quan • Thesis [1] TuangthongWattarujeekrit (2005). Exploring Semantic Roles for Named Entity Recognition in The Molecular Biology Domain. Doctoral dissertation, The Graduate University for Advanced Studies [2] John Philip McCrae (2009). Automatic Extraction of Logically Consistent Ontologies from Text Corpora. Doctoral dissertation, The Graduate University for Advanced Studies (SOKENDAI) • Publication [3] Collier, N., Nobata, C., and Tsujii, J. "Extracting the Names of Genes and Gene Products with a Hidden Markov Model", In Proc. International Conference on Computational Linguistics,(COLING'2000), pp. 201-207, Saarbrucken, Germany, August, 2000. [4] Collier, N. and Takeuchi, K. (2004), "Comparison of character-level and part of speech features for name recognition in bio-medical texts", in vol. 37, no. 6, Journal of Biomedical Informatics, Elsevier, December, pp. 423-435. [5] Collier, N., Nazarenko, A., Baud, R. and Ruch, P. (2006) “Recent advances in natural language processing for biomedical applications”, International Journal of Medical Informatics, Elsevier, Vol. 75, Issue 6, pp. 413-417. [6] Doan, S., Kawazoe, A. and Collier, N. (2007), "The role of roles in classifying annotated biomedical texts", Proc. Workshop on Biomedical Natural Language Processing (BioNLP 2007), Prague, Czech Republic, June 29, pp. 17-24. [7] Kim, J. D. et al. (2004), "Introduction to the Bio-Entity Recognition Task at JNLPBA", in proceedings of the Joint Workshop on Natural Language Processing in Biomedicine and its Applications, 28-29 August, Geneva, Switzerland • Slide [8] Nigel Collier, Research history and future challenges, 2011 [9] Nigel Collier, Web sensing for real time disaster detection and tracking, 2011 [10] Nigel Collier, High throughput analysis and alerting of disease outbreaks from the grey literature, 2010

  4. Nhận dạng thực thể (NER) • Nhận dạng và phân loại các danh từ riêng xuất hiện trong văn bản October 14, 2002, 4:00 a.m. PT For years, Microsoft CorporationCEOBill Gates railed against the economic philosophy of open-source software with Orwellian fervor, denouncing its communal licensing as a "cancer" that stifled technological innovation. Today, Microsoft claims to "love" the open-source concept, by which software code is made public to encourage improvement and development by outside programmers. Gateshimself says Microsoft will gladly disclose its crown jewels--the coveted code behind the Windows operating system--to select customers. "We can be open source. We love the concept of shared source," said Bill Veghte, a MicrosoftVP. "That's a super-important shift for us in terms of code access.“ Richard Stallman, founder of the Free Software Foundation, countered saying… Microsoft Corporation CEO Bill Gates Microsoft Gates Microsoft Bill Veghte Microsoft VP Richard Stallman founder Free Software Foundation

  5. Nhận dạng thực thể y sinh • Nhận dạng thực thể y sinh: • Các loại thực thể: Tên người, tổ chức,…,DNA, gene, protein, bệnh… • Biocaster: 23 loại thực thể • JNLPBA 2004: 48 loại thực thể (36 loại sử dụng trong GENIA) • Ứng dụng chính trong các hệ thống trích xuất thông tin y sinh (Bio-IE)

  6. Một số task tại các hội nghị

  7. Một số hệ thống Bio-IE • Highlight system (Thomas et al., 2000) • Dựa trên phương pháp của Hobbs và các cộng sự (1996) • Chưa phân tích mối quan hệ giữa các thực thể • GENIES (Friedman et al., 2001) • GeneWay (Rzhetsky et al., 2004) mở rộng từ GENIES • Có phân tích mối quan hệ giữa các thực thể • BioCaster (Collier et al., 2006) • Xây dựng ontology về y sinh và dịch bệnh • Phân tích các sự kiện liên quan đến dịch bệnh dựa trên dữ liệu web

  8. BioCaster (Collier et al., 2006)

  9. BioCaster (Collier et al., 2006) • [10] Nigel Collier, High throughput analysis and alerting of disease outbreaks from the grey literature, 2010

  10. Nhận dạng thực thể y sinh • Tháchthức [1] • Thiếuquyướcđặctêntrongsinhhọc • Sựđadạngtrongthuậtngữ: • DùngtừtiếngAnh: Vd: light, map, complement,…tên gene • Sửdụngsố: Vd: 9-cis retinoic acid • Sửdụngcáckýtựvàmã: M(2)201 • Sựlồngnhaugiữacáctên: • Vd: “[leukaemic[T [cell line]] Kit225]” • Sựphốihợp: “B and T cells” • Sựđồngâm • Tínhđanghĩa • Nhiềubiếnthểcủamộttên: • Vd: “-150 CD28 responseelement (CD28RE)/AP-1 site” cũng là “-150 CD28RE/AP-1 site”.

  11. Hướng tiếp cận giải quyết bài toán • Dựa vào tra từ điển • Dựa vào luật • MEDLINE(1998) 94.70% và 98.84% • FlyBase(1998) 91.4% và 94.4% • Dựa vào học máy • HMM (Collier et al., 2000; Zhang et al., 2004; Zhao, 2004; Zhou et al, 2004) • Cây quyết định (Nobata et al.,1999.) • CRF (Settles, 2004) • MEMM (Finkel et al.,2004; Lin et al., 2004) • SVM (Zhou and Su, 2004; Song et al., 2004)

  12. Các loại đặc trưng

  13. Một số phương pháp giải quyết

  14. Một số phương pháp giải quyết • Trong BioCaster [10]: • Pha phân tích thực thể: • Huấn luyện 500 tài liệu, kiểm thử chéo 10 fold • Xử lý 17361 nhóm từ, 12168 chính xác • Độ chính xác 88.7%, F=71.1 • Kinh nghiệm: • Sử dụng luật để tăng độ chính xác

  15. Xử lý ngữ nghĩa trong BioCaster

  16. Định hướng tiếp theo • Thử nghiệm trên dữ liệu lấy từ BioCaster đối với một số phương pháp • Tìm hiểu các vấn đề liên quan đến đối sánh(matching) và mở rộng Ontology

  17. Một số tài liệu khác • Leaman, R. et al. (2008)  BANNER: An executable survey of advances in biomedical named entity recognition • Settles, B. (2004) Biomedical named entity recognition using conditional random fields • Tanabe, L. et al. (2005) GENETAG: a tagged corpus for gene/protein named entity recognition • Ki-Joong Lee, Young-Sook Hwang, Seonho Kim, Hae-Chang Rim (2004) Biomedical named entity recognition using two-phase model based on SVMs. Journal of Biomedical Informatics 37 (2004) 436-447 • A. Ekbal, S. Saha, U. K. Sikdar, Md. Hasanuzzaman (2010) A Genetic Approach for Biomedical Named Entity Recognition, 22nd International Conference on Tools with Artificial Intelligence

  18. XIN CẢM ƠN

  19. Zhou and Su, 2004 • Kết hợp HMM và SVM • HMM: • Dữ liệu thưa P(si|On1) => Sử dụng SVM sigmoid để bổ sung thêm thông tin • SVM: vấn đề chuyển đầu ra dạng xác suất Nghiên cứu của Platt (1999)

  20. Các phương pháp khác • Song et al., 2004 • Kết hợp 2 kết quả dự đoán từ SVM và CRF • Finkel et al.,2004 • Sử dụng MEMM và lựa chọn các đặc trưng • Zhao, 2004 • Cải tiến HMM bằng thêm các độ tương đồng giữa các từ

More Related