700 likes | 1.02k Views
รหัสวิชา 273383 การทำเหมืองข้อมูล เว็ป (Web Mining). สาขาเทคโนโลยีสารสนเทศ คณะเทคโนโลยีสารสนเทศและการสื่อสาร. แนะนำวิชา. คำอธิบายรายวิชา (Course Description)
E N D
รหัสวิชา 273383การทำเหมืองข้อมูลเว็ป(Web Mining) สาขาเทคโนโลยีสารสนเทศ คณะเทคโนโลยีสารสนเทศและการสื่อสาร
แนะนำวิชา • คำอธิบายรายวิชา(Course Description) • หลักการเบื้องต้นการทำเหมืองข้อมูล สถาปัตยกรรมของเว็ป สถาปัตยกรรมของโปรแกรมค้นหา การทำเหมืองโครงสร้างเว็บและการวิเคราะห์เชื่อมโยง เทคนิคครอว์ลิง การค้นหาและการทำดรรชนี การทำเหมืองเว็บคอนเท็น การวิเคราะห์แฟ้มลงบันทึกเข้าออกบนเซิร์ฟเวอร์ และการประยุกต์ใช้ • Web mining concept, Web architecture, Searching program architecture, Web structure mining, Link analysis, crawling technique, Indexing and searching, web mining content, Server logs, and implementation Web Mining
แนะนำอาจารย์และนิสิต ดร.สุขชาตรี ประสมสุข(Sukchatri PRASOMSUK, Ph.D.) • PhD. (Computational Linguistics), INALCO, Paris, FR • M.Eng.(IT), & Grad.Dip. In Applied IS, RMIT, Melbourne, AU • B.Sc.(คณิตศาสตร์), ม.รามคำแหง • เคยทำงานที่ : • DATA SOLVE Co.,Ltd. & Central Trading Co.,Ltd • กรมวิทยาศาสตร์บริการ กระทรวงวิทย์ฯ • ม.หอการค้าและ ม.แม่ฟ้าหลวง • Contact : • skchatri@hotmail.com • FaceBook : Sukchatri PSK • 0804509105 • Notes/Slides Download: • http://www.ict.up.ac.th/skchatri/ Web Mining
การประเมินผลการเรียน • เกณฑ์การวัดผลและประเมินผล (Evaluation criteria) • เกณฑ์การวัดผล • 1.1. ภาคบรรยาย รวม 70% • - การสอบกลางภาค/ปลายภาค 35% + 35% • 1.2. ภาคทดลอง/ภาคปฏิบัติการรวม 30% การเข้าเรียน 10 % จิตพิสัยและงานทีมอบหมาย 10 % LAB 20 % รวมทั้งหมด 100 % • เกณฑ์การตัดเกรด ใช้เกณฑ์การตัดเกรดแบบอิงเกณฑ์/อิงกลุ่ม อิงเกณฑ์ < 50 คะแนน ได้เกรด F Web Mining
เอกสารประกอบการสอน (Teaching Materials / References) • ระบบการจัดเก็บและการสืบค้นสารสนเทศด้วยคอมพิวเตอร์, พิทักษ์การพิมพ์, พิมพ์ครั้งที่ 2, ดร.ศุภชัย ตั้งวงศ์ศานต์, 2553 • An Introduction to Information Retrieval, Online edition (c)2009 Cambridge UP, Draft of April 1, 2009 • Data Mining, Practical Machine Learning Tools and Techniques, Third Edition, Ian H. Witten Eibe Frank Mark A. Hall, Elsevier, 2011 • Web Mining and Social Networking, Techniques and Applications, Series Editor: YanchunZhang, Victoria University, Australia, Springer, 2011 • Web mining : applications and techniques / Anthony Scime, Editor, State University of New York College at Brockport, USA, Idea Group Inc., 2005 Web Mining
มารยาทในการติดต่ออาจารย์มารยาทในการติดต่ออาจารย์ • การติดต่อได้ทั้งทาง e-mail หรือ โทรศัพท์ หรือ เข้าพบที่ห้องพัก • E-mail : แจ้ง ชื่อ-นามสกุล รหัส เรื่องที่จะติดต่อ คำขอบคุณปิดท้าย • Mobile Phone : แจ้ง ชื่อ-นามสกุล นิสิตวิชา เรื่องที่จะติดต่อ คำขอบคุณเมื่อพูดธุระเสร็จ • การเข้าพบที่ห้องพักอาจารย์ : แจ้งการเข้าพบโดยการนัดทาง e-mail หรือ โทรมานัด วันและเวลา ก่อนการเข้าพบเตรียมเรื่องของตนเองให้พร้อม • การเตรียมและลำดับคำถามให้พร้อม พูดภาษาไทยให้ชัดเจน Web Mining
มารยาทในห้องเรียนขณะบรรยายหรือเรียนมารยาทในห้องเรียนขณะบรรยายหรือเรียน • ปิดมือถือ อย่า-คุยกับเพื่อน ส่งเสียงดัง คุยโทรศัพท์ เล่นมือถือหรือคอมพิวเตอร์ หรือ อาการที่ไร้มารยาทในห้องบรรยายเช่น นอนหลับ … • เตรียมตัวเสมอ พร้อมที่จะตอบคำถาม หรือถาม (โดยการยกมือ) • ไม่กินน้ำหรืออาหารขณะมีบรรยาย • ไม่ลุกออกไปจากห้อง โดยไร้มารยาท (อาจารย์มีเวลาพักให้เป็นระยะๆ) • ขณะเพื่อนหรืออาจารย์กำลังบรรยายหรือพรีเซนต์ ควรให้เกรียติอาจารย์หรือเพื่อน โดยการตั้งใจฟังอย่างมีมารยาท • ตั้งใจเรียนด้วยความสนใจ (อาจารย์จะดูพฤติกรรมของนิสิตตลอดเพื่อหักคะแนน) เพราะเวลาเรียนเป็นเวลาที่มีค่าอย่างสูง Web Mining
วิธีและเทคนิคในการทำและรักษาคะแนนวิธีและเทคนิคในการทำและรักษาคะแนน • ขณะเรียน เมื่ออาจารย์ถาม ตอบได้เสมอ ไม่ไปถามเพื่อนข้างๆ • มีความประพฤติในห้องเรียนดีตลอด เข้าเรียนสม่ำเสมอ ความตั้งใจดี • ส่งงานที่มอบหมายอย่างสม่ำเสมอ • จำคำศัพท์ที่เป็นภาษาอังกฤษประกอบด้วย เพื่อประโยชน์ในการสอบ • เวลาสอบ การทำข้อสอบ : กรณีเป็นข้อเขียนหรืออัตนัย(เป็นเทคนิคในการตอบคำถามใช้ได้กับทุกวิชา ทั่วโลก) • เขียนหรืออธิบายให้ได้ใจความมากที่สุด (ถ้ามีศัพท์เทคนิคเป็นภาษาอังกฤษต้องเขียนกำกับมาด้วย) • ยกตัวอย่าง (ถ้ามี) • เขียนภาพหรือแผนผังประกอบ (ถ้ามี) Web Mining
An introduction to Web Mining • Source : Bettina Berendt, K.U. Leuven, Belgium, : www.berendt.de • Review/Present by Dr.SukchatriPrasomsuk, • IT. ICT, University of Phayao, Thailand Web Mining
Definition • Web mining - is the application of data mining techniques to discover patterns from the Web. According to analysis targets, web mining can be divided into three different types, which are Web usage mining, Web content mining and Web structure mining. Web Mining
Main topic of web mining • Web usage mining • Web structure mining • Web content mining Web Mining
Web mining structure Web Mining
Web mining structure Web Mining
Using of Web Mining • Web Mining is the use of the data mining techniques to automatically discover and extract information from web documents/services • Discovering useful information from the World-Wide Web and its usage patterns • Using data mining techniques to make the web more useful and more profitable (for some) and to increase the efficiency of our interaction with the web Web Mining
Web Mining • Data Mining Techniques • Association rules • Sequential patterns • Classification • Clustering • Outlier discovery • Applications to the Web • E-commerce • Information retrieval (search) • Network management Web Mining
Web Mining • The WWW is huge, widely distributed, global information service centre for • Information services: news, advertisements, consumer information, financial management, education, government, e-commerce, etc. • Hyper-link information • Access and usage information • WWW provides rich sources of data for data mining Web Mining
Why Mine the Web? • Enormous wealth of information on Web • Financial information (e.g. stock quotes) • Book/CD/Video stores (e.g. Amazon) • Restaurant information (e.g. Zagats) • Car prices (e.g. Carpoint) • Lots of data on user access patterns • Web logs contain sequence of URLs accessed by users • Possible to mine interesting nuggets of information • People who ski also travel frequently to Europe • Tech stocks have corrections in the summer and rally from November until February Web Mining
Why is Web Mining Different? • The Web is a huge collection of documents except for • Hyper-link information • Access and usage information • The Web is very dynamic • New pages are constantly being generated • Challenge: Develop new Web mining algorithms and adapt traditional data mining algorithms to • Exploit hyper-links and access patterns • Be incremental Web Mining
Web Mining Applications • E-commerce (Infrastructure) • Generate user profiles • Targetted advertizing • Fraud • Similar image retrieval • Information retrieval (Search) on the Web • Automated generation of topic hierarchies • Web knowledge bases • Extraction of schema for XML documents • Network Management • Performance management • Fault management Web Mining
Problems with Web Search Today • Today’s search engines are plagued by problems: • the abundance problem (99% of info of no interest to 99% of people) • limitedcoverage of the Web (internet sources hidden behind search interfaces) Largest crawlers cover < 18% of all web pages • limitedquery interface based on keyword-oriented search • limitedcustomization to individual users Web Mining
Problems with Web Search Today • Today’s search engines are plagued by problems: • Web is highly dynamic • Lot of pages added, removed, and updated every day • Very high dimensionality Web Mining
Improve Search By Adding Structure to the Web • Use Web directories (or topic hierarchies) • Provide a hierarchical classification of documents (e.g., Yahoo!) • Searches performed in the context of a topic restricts the search to only a subset of web pages related to the topic Yahoo home page Recreation Business Science News Travel Sports Companies Finance Jobs Web Mining
Router Service Provider Network Server Network Management • Objective: To deliver content to users quickly and reliably • Traffic management • Fault management Web Mining
Why is Traffic Management Important? • While annual bandwidth demand is increasing ten-fold on average, annual bandwidth supply is rising only by a factor of three • Result is frequent congestion at servers and on network links • during a major event (e.g., princess diana’s death), an overwhelming number of user requests can result in millions of redundant copies of data flowing back and forth across the world • Olympic sites during the games • NASA sites close to launch and landing of shuttles Web Mining
Traffic Management • Key Ideas • Dynamically replicate/cache content at multiple sites within the network and closer to the user • Multiple paths between any pair of sites • Route user requests to server closest to the user or least loaded server • Use path with least congested network links • Akamai, Inktomi Web Mining
Traffic Management • Need to mine network and Web traffic to determine • What content to replicate? • Which servers should store replicas? • Which server to route a user request? • What path to use to route packets? • Network Design issues • Where to place servers? • Where to place routers? • Which routers should be connected by links? • One can use association rules, sequential pattern mining algorithms to cache/prefetch replicas at server Web Mining
Web Mining Issues • Size • Grows at about 1 million pages a day • Google indexes 9 billion documents • Number of web sites • Netcraft survey says 72 million sites (http://news.netcraft.com/archives/web_server_survey.html) • Diverse types of data • Images • Text • Audio/video • XML • HTML Web Mining
Number of Active Sites Total Sites Across All Domains August 1995 - October 2007 Web Mining
SystemsIssues • Web data sets can be very large • Tens to hundreds of terabytes • Cannot mine on a single server! • Need large farms of servers • How to organize hardware/software to mine multi-terabye data sets • Without breaking the bank! Web Mining
Different Data Formats • Structured Data • Unstructured Data • OLE DB (Object Linking and Embedding, Database) offers some solutions! Web Mining
Web Data • Web pages • Intra-page structures • Inter-page structures • Usage data • Supplemental data • Profiles ข้อมูลรายละเอียด • Registration information ข้อมูลการลงทะเบียน • Cookies Web Mining
Web Usage Mining • Pages contain information • Links are ‘roads’ • How do people navigate the Internet • Web Usage Mining (clickstream analysis) • Information on navigation paths available in log files • Logs can be mined from a client or a server perspective Web Mining
Website Usage Analysis • Why analyze Website usage? • Knowledge about how visitors use Website could • Provide guidelines to web site reorganization; Help prevent disorientation • Help designers place important information where the visitors look for it • Pre-fetching and caching web pages การดึงข้อมูลล่วงหน้าและแคชหน้าเว็บ • Provide adaptive Website (Personalization) ให้เว็บไซต์ที่ปรับแต่งได้ • Questions which could be answered • What are the differences in usage and access patterns among users? • What user behaviors change over time? • How usage patterns change with quality of service (slow/fast)? • What is the distribution of network traffic over time? Web Mining
Website Usage Analysis • Analog – Web Log File Analyser • Gives basic statistics such as • number of hits • average hits per time period • what are the popular pages in your site • who is visiting your site • what keywords are users searching for to get to you • what is being downloaded • http://www.analog.cx/ Web Mining
Web Usage Mining Process Web Mining
Web Mining Outline Goal: Examine the use of data mining on the World Wide Web • Web Content Mining • Web Structure Mining • Web Usage Mining Web Mining
Web Mining Taxonomy Modified from [zai01] Web Mining
Web Content Mining • Examine the contents of web pages as well as result of web searching • Can be thought of as extending the work performed by basic search engines • Search engines have crawlers to search the web and gather information, indexing techniques to store the information, and query processing support to provide information to the users • Web Content Mining is: the process of extracting knowledge from web contents Web Mining
Semi-structured Data • Content is, in general, semi-structured • Example: • Title • Author • Publication_Date • Length • Category • Abstract • Content Web Mining
Structuring Textual Data • Many methods designed to analyze structured data • If we can represent documents by a set of attributes we will be able to use existing data mining methods • How to represent a document? • Vector based representation (referred to as “bag of words” as it is invariant to permutations) • Use statistics to add a numerical dimension to unstructured text Web Mining
Document Representation • A document representation aims to capture what the document is about • One possible approach: • Each entry describes a document • Attribute describe whether or not a term appears in the document Web Mining
Document Representation • Another approach: • Each entry describes a document • Attributes represent the frequency in which a term appears in the document Web Mining
Document Representation • Stop Word removal: Many words are not informative and thus • irrelevant for document representation • the, and, a, an, is, of, that, … • Stemming: reducing words to their root form (Reduce dimensionality) • A document may contain several occurrences of words like fish, fishes, fisher, and fishers. But would not be retrieved by a query with the keyword “fishing” • Different words share the same word stem and should be represented with its stem, instead of the actual word “Fish” Web Mining
Web Structure Mining • Web structure mining is the process of using graph theory to analyze the node and connection structure of a web site. According to the type of web structural data, web structure mining can be divided a into two kinds: • 1. Extracting patterns from hyperlinks in the web: a hyperlink is a structural component that connects the web page to a different location. • 2. Mining the document structure: analysis of the tree-like structure of page structures to describe HTML or XML tag usage. Web Mining
Web Usage Mining • Web usage mining is the process of extracting useful information from server logs e.g. users' history. • Web usage mining is the process of finding out what users are looking for on the Internet. • Web Server Data: The user logs are collected by the Web server. • Application Server Data: Commercial application servers have significant features to enable e-commerce applications to be built on top of them with little effort. • Application Level Data: New kinds of events can be defined in an application, and logging can be turned on for them thus generating histories of these specially defined events. Web Mining
Retrieval Database Browsing The start point:Key notions of Information Retrieval • Representation, storage, organization of, and access to information items • Focus is on the user information need • User information need example: Find all docs containing information on college tennis teams which: (1) are maintained by a USA university and (2) participate in the NCAA tournament. • Information retrieval • information about a subject or topic • semantics is frequently loose • small errors are tolerated • IR system: • interpret contents of information items • generate a ranking which reflects relevance • notion of relevance is most important [from Berthier Ribeiro-Neto’s slides for the Baeza/Ribeiro-Neto IR book] Web Mining
IR and KD • Information Retrieval (IR) • Knowledge Discovery * (KD) • *(better term for data mining) Web Mining
IR and KD: Different ways of utilizing databases (DBs) • IR: „retrieving the information from a DB that matches a user‘s information need“ query (formal statement of information need) object (an entity which stores information in a database) • KD: „finding new knowledge about the real-world entities described in a DB“ data/information (sometimes plus query) patterns („knowledge“) Web Mining
IR and KD: confluences • Conceptually: • IR can be seen as a classification of objects to the classes „relevant to the user‘s query“ / „not relevant to the user‘s query“ • (and classification is a typical KD task) • KD needs to extract the information from objects like documents, in order to find new knowledge • (and information extraction is a typical IR task) • Pragmatically: • e.g. overlaps of topics and techniques in papers at SIGIR, SIGKDD Web Mining
Web structure mining Web usage mining Web Mining • Knowledge discovery (aka Data mining): “the non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data.” 1 Web Mining: the application of data mining techniques on the content, (hyperlink) structure, and usage of Web resources. Web mining areas: Web content mining Navigation, queries, content access & creation 1 Fayyad, U.M., Piatetsky-Shapiro, G., Smyth, P., & Uthurusamy, R. (Eds.) (1996). Advances in Knowledge Discovery and Data Mining. Boston, MA: AAAI/MIT Press Web Mining