1 / 15

Xây dựng ứng dụng thu thập dữ liệu tự động từ các Website

Xây dựng ứng dụng thu thập dữ liệu tự động từ các Website. HỘI ĐỒNG: TS. Võ Thị Ngọc Châu GVPB: ThS. Nguyễn Văn Đoàn GVHD: ThS. Đặng Trần Trí ---o0o--- SVTH 1: Nguyễn Trung Kiên - 50501352 SVTH 2: Lê Quang Minh - 50501668. Mục lục. Giới thiệu đề tài Tổng quan về thu thập dữ liệu

lyn
Download Presentation

Xây dựng ứng dụng thu thập dữ liệu tự động từ các Website

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Xây dựng ứng dụng thu thập dữ liệu tự động từ các Website HỘI ĐỒNG:TS. Võ Thị Ngọc Châu GVPB: ThS. Nguyễn Văn Đoàn GVHD:ThS. Đặng Trần Trí ---o0o--- SVTH 1:Nguyễn Trung Kiên - 50501352 SVTH 2:Lê Quang Minh - 50501668

  2. Mục lục Giới thiệu đề tài Tổng quan về thu thập dữ liệu Thiết kế ứng dụng Tổng kết Tài liệu tham khảo

  3. Giới thiệu đề tài • Yêu cầu • Tìm hiểu về các kỹ thuật thu thập dữ liệu tự động từ các website. • Hiện thực một giải pháp cụ thể để thu thập chúng.

  4. Giới thiệu đề tài • Mục tiêu • Xây dựng được một ứng dụng thu thập dữ liệu tự động. • Ứng dụng phải có khả năng mở rộng, tùy biến để có thể sử dụng với nhiều website khác nhau.

  5. Tổng quan về thu thập dữ liệu Web Crawler

  6. Thiết kế ứng dụng Kiến trúc

  7. Thiết kế ứng dụng Sơ đồ hoạt động tổng quát

  8. Tổng kết • Kết quả đạt được • Lý thuyết: • Tìm hiểu các kỹ thuật thu thập dữ liệu. • Ứng dụng: • Xây dựng thành công ứng dụng có khả năng thu thập dữ liệu từ các trang web từ đơn giản cho đến tương đối phức tạp.

  9. Tổng kết • Hạn chế • Chương trình khó sử dụng. • Khả năng lấy dữ liệu trên các trang xử lý bằng javascript bị hạn chế.

  10. Tổng kết • Hướng phát triển • Xây dựng công cụ hỗ trợ người dùng tạo đặc tả đầu vào XML. • Nghiên cứu các thư viện khác hỗ trợ tốt hơn trong việc xử lý các trang web có javascript.

  11. Tài liệu tham khảo • Tài liệu viết • Michael Schrenk (2007). Webbots, Spiders, and Screen Scrapers. No Starch, San Francisco, USA. • Sriram Raghavan, Hector Garcia-Molina (2001). Crawling the Hidden Web. Computer Science Department, Stanford University, USA. • Steve Lawrence, C. Lee Giles (1998). Searching the World Wide Web. Science, 280(5360):98. • Michael K. Bergman (2001). White Paper: The Deep Web: Surfacing Hidden Value. University of Michigan, USA. • Stephen Soderland. Learning to Extract Text-based Information from the World Wide Web. Department of Computer Science & Engineering, University of Washington.

  12. Tài liệu tham khảo • Website • Wikipedia, http://www.wikipedia.org (01-Tháng Một-2010) • World Wide Web Consortium (W3C), http://www.w3.org (01-Tháng Một-2010) • HTML Tidy project, http://tidy.sourceforge.net/ (01-Tháng Một-2010) • cURL project, http://curl.haxx.se/ (01-Tháng Một-2010) • CodeIgniter Framework, http://codeigniter.com/ (01-Tháng Một-2010) • Mozenda software, http://www.mozenda.com/ (01-Tháng Một-2010)

  13. Xincảmơn

More Related