1 / 23

Một số chủ đề KH-CN của KTLab giai đoạn 2012-2014

Một số chủ đề KH-CN của KTLab giai đoạn 2012-2014. Hà Quang Thụy Phòng Thí nghiệm Công nghệ Tri thức - KTLab Trường ĐHCN, Đại học Quốc gia Hà Nội , Hà Nội , 06-10-2012. KTLab. Nội dung. Tóm tắt đa văn bản Phát hiện vai trò & dự báo bùng nổ sự kiện trên mạng xã hội

jerry
Download Presentation

Một số chủ đề KH-CN của KTLab giai đoạn 2012-2014

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Mộtsố chủ đề KH-CN của KTLab giai đoạn 2012-2014 HàQuangThụy PhòngThínghiệmCôngnghệ Tri thức - KTLab Trường ĐHCN, ĐạihọcQuốcgiaHàNội, HàNội, 06-10-2012 KTLab

  2. Nội dung • Tóm tắt đa văn bản • Phát hiện vai trò & dự báo bùng nổ sự kiện trên mạng xã hội • Khai phá dữ liệu văn bản Y Sinh học • Khai phá dữ liệu quá trình • Tích hợp dữ liệu và khai phá dữ liệu song song • Một số hướng đề tài SVNCKH

  3. 1. Tóm tắt đa văn bản • Giới thiệu chung • Phối hợp thực hiện đề tài cấp Bộ B2012-01-24 (2012-2013) • Đơn vị chủ trì: Trường ĐHBKHN. • Chủ nhiệm đề tài: PGS. TS. Lê Thanh Hương • Một số nội dung cần thực hiện • Nghiên cứu phương pháp xác định từ khóa và trọng số 06/2012 • Nghiên cứu loại bỏ chồng chéo trong các văn bản trong cụm văn bản 09/2012 • Nghiên cứu phương pháp sắp xếp độ quan trọng giữa các văn bản trong cụm văn bản 9/2012 • Thiết kế và cài đặt chương trình tóm tắt đa văn bản tiếng Việt 9/2013 • Xây dựng tập dữ liệu thử nghiệm phục vụ bài toán tóm tắt đa văn bản 9/2013

  4. Tóm tắt đa văn bản (tiếp) • Tình hình thực hiện • Nghiên cứu phương pháp xác định từ khóa và trọng số 06/2012: Chưa hoàn thành báo cáo (Sử dụng mô hình chủ đề ẩn cho miền lĩnh vực tóm tắt văn bản: các bước lựa chọn từ khoa), • Nghiên cứu loại bỏ chồng chéo trong các văn bản trong cụm văn bản 09/2012: Chưa hoàn thành báo cáo (Khai thác kết quả nghiên cứu về kế thừa văn bản) • Nghiên cứu phương pháp sắp xếp độ quan trọng giữa các văn bản trong cụm văn bản 9/2012: Chưa hoàn thành báo cáo (Mô hình chủ đề ẩn) • Bài báo ghi nhận kết quả thực hiện đề tài • [QTTT12] Quang-Thuy Ha, Thi-Oanh Ha, Thi-Dung Nguyen, Thuy-Linh Nguyen (2012). Refining the Judgement Threshold to Improve Recognizing Textual Entailment Using Similarity, ICCCI 2012, Part II, LNAI 7654, pp. 335–344, 2012. • [TLQ12] Thi-Ngan Pham, Le-Minh Nguyen, Quang-Thuy Ha (2012). Named Entity Recognition for Vietnamese documents using semi-supervised learning method of CRFs with Generalized Expectation Criteria, IALP 2012, Ha Noi, Vietnam, November 13-15, 2012 (in press).

  5. 2. Phát hiện vai trò và dự báo bùng nổ • Giới thiệu chung • Phối hợp thực hiện đề tài cấp Bộ CA 2012-2013 • Chủ trì đề tài: ThS Nguyễn Lương Hoàng Hoa • Một số yêu cầu chính • Dự báo bùng nổ sự kiện toàn cục • Dự báo bùng nổ sự kiện cục bộ: một cộng đồng, một cá nhân • Một số nội dung chính • Nghiên cứu đặc trưng của Facebook, Twitter, blogsphore • Phương pháp thu thập dữ liệu và tiền xử lý dữ liệu • Phương pháp phát hiện vai trò • Phương pháp dự bào bùng nổ sự kiện • Phương pháp kết hợp các mạng xã hội • Thiết kế và xây dựng chương trình cho Facebook, Twitter, blogsphore • Kết hợp kết quả từ các mạng xã hội • Một số giải pháp phát hiện vai trò và bùng nổ • Đã giới thiệu (báo cáo 29/9/2012)

  6. Thu thập dữ liệu mạng xã hội • Các hình thức thu thập dữ liệu • Chiêu mộ người tham gia theo ngữ cảnh ngoại tuyến, • Chiêu mộ người tham gia theo ngữ cảnh trực tuyến, • Thu thập tự động (crawling) dữ liệu. • [BOMRS12] Matko Boanjak, Eduardo Oliveira, José Martins, Eduarda Mendes Rodrigues, Luís Sarmento (2012). TwitterEcho: a distributed focused crawler to support open research with twitter data, WWW (Companion Volume) 2012: 1233-1240 • [LZTCSS09] L. Lopes, J. Zamite, B. Tavares, F. Couto, F. Silva, and M. Silva (2009). Automated social network epidemic data collector, INForum - Simposio de Informatica, September, 2009. • [PP10] A. Pak and P. Paroubek (2010). Twitter as a corpus for sentiment analysis and opinion mining,. The 7th conference on International Language Resources and Evaluation (LREC), May 2010. • [Russ11] Matthew A. Russell (2011). Mining the social web, O'Reilly, 2011. • [Wang10] Alex Hai Wang (2010). Don't Follow Me - Spam Detection in Twitter, SECRYPT 2010: 142-151 • [ZSCS10] João Zamite, Fabrício A. B. da Silva, Francisco M. Couto, Mário J. Silva (2010). MEDCollector: Multisource Epidemic Data Collector, ITBAM 2010: 16-30.

  7. Thu thập dữ liệu từ Facebook • Tìm hiểu chung • Thu thập thông tin thành viên và đồ thị các mối liên kết bạn bè: chỉ cho phép truy xuất thông tin thành viên từ chính những thành viên đó hoặc bạn bè có liên kết. • https://developers.facebook.com/docs/reference/api/: Graph API • Thu thập tự động, trực tuyến • Thu thập thông tin thành viên và đồ thị các mối liên kết bạn bè • Đăng nhập vào tài khoản Facebook • Vào địa chỉ https://developers.facebook.com/tools/explorer/ để lấy Access token tương ứng • Nhóm thực hiện • Anh Trần Mai Vũ và một số anh chị em • [WGG12] Robert E. Wilson, Samuel D. Gosling, and Lindsay T. Graham (2012). A Review of Facebook Research in the Social Sciences, Perspectives on Psychological Science7(3) 203– 220.

  8. Thu thập dữ liệu từ Twitter • Phương pháp chính • Tham khảo Microblogs của TREC • Thông qua giao diện chương trình ứng dụng • Search API, Rest API (Version 1.1) và Streaming API. • Nhóm thực hiện • Anh Vũ Tiến Thành và một số anh chị em • Lưu ý khai phá dữ liệu dòng (hình vẽ)

  9. 3. Khai phá dữ liệu văn bản y sinh học • Giới thiệu chung • Phối hợp thực hiện với GS. Nigel Collier (NII) • Đã và đang triển khai • Nhóm thực hiện: Xuân Hiếu, Trần Mai Vũ, Lê Hoàng Quỳnh và các anh chị em khác • Một số nội dung chính • Xây dựng ontology cho miền ứng dụng • Trích chọn thực thể và đặc trưng, • Trích chọn quan hệ tương tác • Một số nội dung chi tiếu (Báo cáo của nhóm Trần Mai Vũ, Lê Hoàng Quỳnh)

  10. I.4. Khai phá dữ liệu quá trình • Giới thiệu chung • Đề tài: “Improving Business Process and Complex Event Sequence Analytics using Process Mining Techniques” 2013-2014 • Phối hợp thực hiện với GS. Bart Baesens • The Department of Management Informatics, part of the Faculty of Business and Economics at KU Leuven (Bỉ) • Khái niệm khai phá quá trình • Process Mining: chiết xuất thông tin có giá trị, liên quan đến quá trình từ các bản ghi sự kiện, bổ sung tới các tiếp cận hiện có để quản lý quá trình kinh doanh “Process mining, i.e., extracting valuable, process-related information from event logs, complements existing approaches to Business Process Management (BPM)” [Aalst11] WMP Van der Aalst (2011). Process Mining: Discovery, Conformance and Enhancement of Business Processes, Springer, 2011. [Http] http://www.processmining.org/publications/phd

  11. Khai phá dữ liệu quá trình • Khai phá quá trình • Là một chuyên ngành mới cung cấp bộ công cụ toàn diện để cung cấp sự hiểu biết quá trình kinh doanh trong thực tiễn và cải tiến qúa trình. • Được xây dựng dựa trên Điều khiển quá trình theo mô hình và Khai phá dữ liệu • Phát triển của Quản lý quy trình kinh doanh và Thông minh kinh doanh

  12. Khai phá dữ liệu quá trình [Aalst11] WMP Van der Aalst (2011). Process Mining: Discovery, Conformance and Enhancement of Business Processes, Springer, 2011. [Aalst12] Wil M. P. van der Aalst: Process Mining: Overview and Opportunities. ACM Trans. Management Inf. Syst. 3(2): 7 (2012)

  13. Nội dung trong đề tài

  14. 5. Khai phá dữ liệu song song • Giới thiệu chung • Process Mining • Phối hợp thực hiện với GS. Joshua Zhexue Huang, Shenzhen Institutes of Advanced Technology, Chinese Academy of Sciences (Trung Quốc) • Một số nội dung chính • Bộ công cụ AlphaMiner • Thuật toán khai phá dữ liệu song song rừng ngẫu nhiên • Multi-Layer Network for Influence Propagation over Microblog

  15. 6. Nhóm đề tài SVNCKH • Giới thiệu chung • Tương ứng với các đề tài nghiên cứu như phần I • Thành phần: K54 (chủ chốt) và K55 (thừa kế) • Danh sách chủ đề • Tóm tắt đa văn bản mạng xã hội • Khai phá dữ liệu Y Sinh học • Phát hiện và dự báo sự kiện trong mạng xã hội • Xếp hạng đối tượng trong mạng xã hội • Xác định vai trò trong mạng xã hội • Khai phá quan điểm trong mạng xã hội • Dự báo bùng nổ sự kiện trong mạng xã hội • Tích hợp sơ đồ dữ liệu • Khai phá dữ liệu song song

  16. Nhóm chủ đề tiếp tục • Tóm tắt đa văn bản • Tóm tắt đa văn bản mạng xã hội • Phương pháp dự trên diễn ngôn • Đánh giá tóm tắt văn bản dựa trên kế thừa văn bản

  17. SVNCKH: KPDL Y Sinhhọc • Những người thực hiện • Hai nhóm SVNCKH • K54: Phí Văn Thủy, Phạm Thanh Bình, Phạm Thị Hồng, Nguyễn Xuân Hùng, )1 SV K54 16&23 • K55: Ngô Ngọc Huy • Hướng dẫn (dự kiến): Phan Xuân Hiếu, Trần Mai Vũ, Lê Hoàng Quỳnh • Khai phá dữ liệu y sinh học • Khảo sát và nâng cấp các công trình SVNCKH từ K49 - K52 • 2008: Lê Diệu Thu (K49) và Trần Thị Ngân (K50). Xây dựng Ontology nhằm hỗ trợ tìm kiếm ngữ nghĩa trong lĩnh vực y tế (giải nhì) • 2010: Nguyễn Tiến Thanh (K51), Vũ Xuân Sơn (K52), Lê Thu Hà (K52). Một mô hình xây dựng tự động Ontology dựa vào Wikipedia tiếng Việt trên miền ứng dụng các trường đại học Việt Nam (giải Nhì). • 2011: Chu Thị Thủy (K52), Đào Minh Tùng (K52), Hà Thị Oanh (K53), Trần Phi Dũng (K53). Mô hình trích chọn quan hệ tương tác protein và gen dựa trên kỹ thuật boostrapping và học máy SVM (giải Nhì)

  18. Xácđịnhvaitròtrongmạngxãhội • Những người thực hiện • K54: Bùi Đình Luyến, Trần Thị Sim • K55: Phạm Ngọc Xuyên • Hướng dẫn (dự kiến): Hà Quang Thụy, Lê Đức Trọng • [ALTY12] Nitin Agarwal, Huan Liu, Lei Tang, Philip S. Yu: Modeling blogger influence in a community. Social Netw. Analys. Mining 2(2): 139-162 (2012 • [CWE07] Andrew McCallum, Xuerui Wang, Andrés Corrada-Emmanuel: Topic and Role Discovery in Social Networks with Experiments on Enron and Academic Email. J. Artif. Intell. Res. (JAIR) 30: 249-272 (2007) • [CWY09] Wei Chen, Yajun Wang, Siyu Yang: Efficient influence maximization in social networks. KDD 2009: 199-208 • [RS12] Manuel Gomez-Rodriguez, Bernhard Schölkopf: Influence Maximization in Continuous Time Diffusion Networks CoRR abs/1205.1682: (2012) • [TS12] Vanesa Junquero-Trabado, David Dominguez-Sal (2012). Building a role search engine for social media. WWW (Companion Volume) 2012: 1051- 1060. • [WHJTZ1] Chi Wang, Jiawei Han, Yuntao Jia, Jie Tang, Duo Zhang, Yintao Yu, Jingyi Guo (2010). Mining advisor-advisee relationships from research publication networks, KDD 2010: 203-212

  19. Khaipháquanđiểmtrên Twitter • Những người thực hiện • K54: Vũ Trọng Hóa, Đào Quốc Vương • K55:Hoàng Huy Hoàng • Hướng dẫn (dự kiến): Hà Quang Thụy, Vũ Tiến Thành [AXVRP11] Apoorv Agarwal, Boyi Xie, Ilia Vovsha, Owen Rambow and Rebecca Passonneau (2011). Sentiment Analysis of Twitter Data, Workshop on Language in Social Media LSM 2011:30-38. [BD11] Samuel Brody, Nicholas Diakopoulos: Cooooooooooooooollllllllllllll!!!!!!!!!!!!!! Using Word Lengthening to Detect Sentiment in Microblogs. EMNLP 2011: 562-570. [TBP11] Mike Thelwall, Kevan Buckley, Georgios Paltoglou: Sentiment in Twitter events. JASIST 62(2): 406-418 (2011) [NWCPZ12] Le Nguyen, Pang Wu, William Chan, Wei Peng and Joy Zhang (2012). Predicting Collective Sentiment Dynamics from Time-series Social Media, Workshop on Issues of Sentiment Discovery and Opinion Mining (WISDOM) at The 18th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD 2012), Beijing, China, August 12-16, 2012

  20. Xếphạngđốitượngtrênmạngxãhội • Những người thực hiện • K54:Nguyễn Thị Tươi, Nguyễn Thị Thảo, Lương Viết Thái • K55: Dương Thị Ánh Tuyết • Hướng dẫn (dự kiến): Phan Xuân Hiếu, Nguyễn Thanh Sơn [GK12] Gupta A., and Kumaraguru P (2012). Credibility ranking of tweets during high impact events, the 1st Workshop on Privacy and Security inOnline Social Media (PSOSM '12), Article No. 2, 2012. [NTC10] Rinkesh Nagmoti, Ankur Teredesai, Martine De Cock: Ranking Approaches for Microblog Search, Web Intelligence 2010: 153-157 [RBK12] Srijith Ravikumar, Raju Balakrishnan, Subbarao Kambhampati: Ranking Tweets Considering Trust and Relevance, CoRR abs/1204.0156: (2012) [SLB12] Xin Shuai, Xiaozhong Liu, Johan Bollen: Improving news ranking by community tweets. WWW (Companion Volume) 2012: 1227-1232

  21. Dựbáobùngnổsựkiện • Những người thực hiện • K54:Tiêu Thị Phương, Ngô Quang Hiểu • K55: Nguyễn Anh Vũ • Hướng dẫn (dự kiến):Phan Xuân Hiếu, Trần Xuân Tứ GZRSW12]. Sabrina Gaito, Matteo Zignani, Gian Paolo Rossi, Alessandra Sala, Xiao Wang, Haitao Zheng, Ben Y. Zhao: On the Bursty Evolution of Online Social Networks CoRR abs/1203.6744: (2012) [ZSJSL12] Wayne Xin Zhao, Baihan Shu, Jing Jiang, Yang Song, Hongfei Yan and Xiaoming Li (2012). Identifying Event-related Bursts via Social Media Activities, EMNLP-CoNLL'12:1466-1477, 2012 [YK12] Sheng Yu, Subhash Kak (2012). A Survey of Prediction Using Social Media CoRR abs/1203.1647: (2012)

  22. Khaiphádữliệuquátrình • Những người thực hiện • K54: Phạm Văn Thánh, Đào Thị Ngân • K55: Nguyễn Thế Hùng • Hướng dẫn (dự kiến): Hà Quang Thụy, Trần Mai Vũ, Phạm Thị Ngân [Aalst11] WMP Van der Aalst (2011). Process Mining: Discovery, Conformance and Enhancement of Business Processes, Springer, 2011. [Aalst12] Wil M. P. van der Aalst: Process Mining: Overview and Opportunities, ACM Trans. Management Inf. Syst.3(2): 7 (2012) [MBA12] Fabrizio Maria Maggi, R. P. Jagadeesh Chandra Bose, Wil M. P. van der Aalst (2012). Efficient Discovery of Understandable Declarative Process Models from Event Logs, CAiSE 2012: 270-285. [Aalst12a] Wil M. P. van der Aalst (2012). Process mining, Commun. ACM 55(8): 76-83 (2012) [MWAB02] Laura Maruster, A. J. M. M. Weijters, Wil M. P. van der Aalst, Antal van den Bosch (2002). Process Mining: Discovering Direct Successors in Process Logs, Discovery Science 2002: 364-373 [ADGRVW09] Wil M. P. van der Aalst, Boudewijn F. van Dongen, Christian W. Günther, Anne Rozinat, Eric Verbeek, Ton Weijters (2009). ProM: The Process Mining Toolkit, BPM (Demos) 2009 [Http] http://www.processmining.org: cộng đồng khai phá dữ liệu quá trình; [Http] http://www.processmining.org/publications/phd: các luận án Tiến sỹ KPDLQT

  23. Trân trỌng cám ơn KT-SISLAB

More Related