Xây dựng ứng dụng thu thập dữ liệu tự động từ các Website

Xây dựng ứng dụng thu thập dữ liệu tự động từ các Website HỘI ĐỒNG:TS. Võ Thị Ngọc Châu GVPB: ThS. Nguyễn Văn Đoàn GVHD:ThS. Đặng Trần Trí ---o0o--- SVTH 1:Nguyễn Trung Kiên - 50501352 SVTH 2:Lê Quang Minh - 50501668

Mục lục Giới thiệu đề tài Tổng quan về thu thập dữ liệu Thiết kế ứng dụng Tổng kết Tài liệu tham khảo

Giới thiệu đề tài • Yêu cầu • Tìm hiểu về các kỹ thuật thu thập dữ liệu tự động từ các website. • Hiện thực một giải pháp cụ thể để thu thập chúng.

Giới thiệu đề tài • Mục tiêu • Xây dựng được một ứng dụng thu thập dữ liệu tự động. • Ứng dụng phải có khả năng mở rộng, tùy biến để có thể sử dụng với nhiều website khác nhau.

Tổng quan về thu thập dữ liệu Web Crawler

Thiết kế ứng dụng Kiến trúc

Thiết kế ứng dụng Sơ đồ hoạt động tổng quát

Tổng kết • Kết quả đạt được • Lý thuyết: • Tìm hiểu các kỹ thuật thu thập dữ liệu. • Ứng dụng: • Xây dựng thành công ứng dụng có khả năng thu thập dữ liệu từ các trang web từ đơn giản cho đến tương đối phức tạp.

Tổng kết • Hạn chế • Chương trình khó sử dụng. • Khả năng lấy dữ liệu trên các trang xử lý bằng javascript bị hạn chế.

Tổng kết • Hướng phát triển • Xây dựng công cụ hỗ trợ người dùng tạo đặc tả đầu vào XML. • Nghiên cứu các thư viện khác hỗ trợ tốt hơn trong việc xử lý các trang web có javascript.

Tài liệu tham khảo • Tài liệu viết • Michael Schrenk (2007). Webbots, Spiders, and Screen Scrapers. No Starch, San Francisco, USA. • Sriram Raghavan, Hector Garcia-Molina (2001). Crawling the Hidden Web. Computer Science Department, Stanford University, USA. • Steve Lawrence, C. Lee Giles (1998). Searching the World Wide Web. Science, 280(5360):98. • Michael K. Bergman (2001). White Paper: The Deep Web: Surfacing Hidden Value. University of Michigan, USA. • Stephen Soderland. Learning to Extract Text-based Information from the World Wide Web. Department of Computer Science & Engineering, University of Washington.

Tài liệu tham khảo • Website • Wikipedia, http://www.wikipedia.org (01-Tháng Một-2010) • World Wide Web Consortium (W3C), http://www.w3.org (01-Tháng Một-2010) • HTML Tidy project, http://tidy.sourceforge.net/ (01-Tháng Một-2010) • cURL project, http://curl.haxx.se/ (01-Tháng Một-2010) • CodeIgniter Framework, http://codeigniter.com/ (01-Tháng Một-2010) • Mozenda software, http://www.mozenda.com/ (01-Tháng Một-2010)

Xincảmơn

Xây dựng ứng dụng thu thập dữ liệu tự động từ các Website