کنکاو وب ( Web Mining )

کنکاو وب ( Web Mining ) استاد : جناب آقاي دکتر رهگذر تهيه کننده : يوحنا قديمي - علی عباسی- کاوه پاشايي

مقدمه • ظهور وب جهاني (WWW) کاربران کامپيوتر خانگي را با جرياني وحشتناک از اطلاعات مواجه کرده است. • تقريباً هر موضوعي مي تواند بياد آورده شود , يکي مي تواند تکه هاي اطلاعات را که توسط ديگر شهروندان اينترنت قابل دسترس مي شوند را پيدا کند, تنظيم کردن کاربران شخصي که ليستي از مجموعه رکورد هايشان را , براي شرکت هاي خاص که در وب تجارت مي کنند مي فرستند

مقدمه • کاربران وب به کمک عامل هاي نرم افزاري مصنوعي توانايي حريف شدن با فراواني اطلاعات قابل دسترس را دارند. • عامل ها : • پيدا کردن • مرتب کردن • فيلتر کردن اطلاعات قابل دسترس

کنکاو وب • کنکاو محتوي وب • کاربردي از تکنيک هاي کنکاو داده براي متن بي ساخت يا نيمه ساخت يافته , به طور نمونه مستندات HTML • کنکاو ساختار وب • استفاده ساختار ابر پيوند وب همانند يک منبع اطلاعات (اضافي) • کنکاو استفاده وب • تحليل تقابل کاربر با يک سرور وب

خواص گراف وب • وب ممکن است به عنوانيک گراف ( مستقيم) با مستندات به عنوان گره ها و ابرپيوند ها به عنوان لبه ها مشاهده شوند • درجه هاي وارده ( تعداد پيوندهاي ورودي ) و درجه هاي خارجه ( تعداد پيوند هاي خروجي ) از پخش قانون قدرت پيروي مي کنند . • مقدار 2.45 =inγ : درجه هاي وارده • مقدار= 2.1 outγ : درجه های خارجه

خواص گراف وب • داده ها را از جستجو در آلتاويستا ( سايت جستجو) با 2003 ميليون URL و 1466 ميليون لينک , و ساختار گراف زيرين را در يک سرور اتصال ذخيره کردند , که يک مستند کارامد تکنيک ايندکس گذاري را پياده سازي مي کند • اجازه دسترسي سريع به ابر پيوند صادر شونده و هم وارد شونده يک صفحه را مي دهد. • گراف داخلي GB 9.5 از حافظه را پر کرد , و يک جستجوي سطح اول که به 100 ميليون گره رسيد در حدود 4 دقيقه طول کشيد.

خواص گراف وب • نتيجه اصلي شانيک تحليل از ساختار گراف وب است که بر طبق آن ها , بند قوس بزرگ , با يک قطعه هسته وصل شده قوي (SCC) 56 ميليون صفحهدر وسط , و دو قطعه با 44 ميليون صفحه در تمام کنارها, يکي شامل صفحاتياست که SCC مي تواند برسد ( بخش داخلي ) • ديگري شامل صفحاتي است که از SCC مي تواند برسد( بخش خارجي • لوله هايي وجود دارد که رسيدن به بخش خارجي از بخش داخلي بدون پاس کردن از طريق SCC را اجازه مي دهد , و پيچک هاي بسياري , که به خارج از مجموعه داخلي يا داخل مجموعه خارجي بدون ارتباط با اجزاهاي ديگر هدايت مي کند.

خواص گراف وب • چندين مجموعه هاي کوچکتر وجود دارد که نمي تواند از هر نقطه اي در اين ساختار رسيده شود. • کروکي يک نمودار از اين ساختار , که گاهي اوقات فريبنده استبه خاطر اينکه نقش برجسته بخش داخلي , خارجي , و SCC فقط بر پايه اندازه پايه گذاري مي شود • ساختار هاي ديگري با يک شکل مشابه وجود دارد , اما قدري کوچکتر از اندازه هستند ( يعني , لوله ها ممکن است شامل اجزاء شديداَ متصل ديگر شوند که با SCCفقط در اندازه فرق دارند) • نتيجه اصلي اين است که چندين اجزاء گسسته وجود دارد. در حقيقت , يک منطقه ميان دو صفحه به طور تصادفي انتخاب شده وجود داشته باشد فقط حدود 0.24 است

خواص گراف وب • احتمال اينکه يک صفحه توسط موتور جستجو A ايندکس گذاري شود مستقل استاز احتمال اينکه همان صفحه توسط موتور جستجو B ايندکس گذاري شود • درصد صفحات در مجموعه نتيجه يک پرس و جو براي موتور جستجو B که همچنين توسط موتور جستجو A ايندکس گذاري مي شود مي تواند روي همرفته به عنوان يک تخمينبراي ذرصد صفحات ايندکس گذاري شده توسط A استفاده شود.

جستجو وب ( WEB SEARCH) • از آنجاييکه واسط هاي پرس و جو مرسوم در مستندات ايندکس گذاري شده توسط کلماتي که در آن ها ظاهر مي شوند متمرکز مي کنند , پتانسيل بهره برداري اطلاعات شامل ابر پيوند هايي مي شوند که به صفحه اي که در ابتدا تشخيص داده شده اند اشاره مي کند . • متن هاي ارجاعي صفحات ماقبل پيش از اين توسط کرم وب جهاني , يکي از اولين موتورهاي جستجو و خزنده وب . • اسپرتاسيک طبقه بندي نوع هاي مختلف ابر پيوند ها را معرفي کرد که مي تواند در وب پيدا شود • چگونه پيوند ها مي توان از اطلاعات مختلف تکليف هاي وابسته در وب بهره برداري کرد

جستجو وب ( WEB SEARCH) • راه ميانبر اصلي ادراک بود که محبوبيت و بنابراين اهميت صفحه تا حدي با تعداد پيوندهاي وارده مرتبط مي شود , آن هم اين اطلاعات مي تواند به طور سودمند مرتب کردن نتايج پرس و جو موتور جستجو استفاده شود. • درجه وارده به تنهايي ,اگر چه , اندازه خيلي کم از اهميت است اما صفحات زيادي متناوباً اشاره مي شوند بدون اينکه به محتوي صفحه اشاره شده ارتباط برقرار شود.

جستجو وب ( WEB SEARCH) • لينبرگ پيشنهاد کرد که دو نوع از صفحات هستند که مي تواند براي يک پرس و جو مناسب باشد : • منبع هاي صحيح و موثق (authorities) صفحاتي هستند که شامل اطلاعات مفيد درباره عنوان پرس و جوها مي شود • در حالي که هاب ها شامل اشاره گرهايي به منابع اطلاعات خوب است . • هر دو نوع از صفحات به طور اختياري وصل مي شوند: هاب هاي خوب شامل شامل اشاره گرهايي به منبع هاي صحيح و موثق خيلي خوبي است , و منبع هاي صحيح و موثق خوب توسط هاب هاي خيلي خوبي اشاره مي شوند

جستجو وب ( WEB SEARCH) • کلينبرگ پيشنهاد استفاده آزمايشي کردن از اين ارتباط را توسط وابسته کردن هر صفحهxبه يک منبع هاب H(x)و يک منبع صحيح و موثق A(x) کرد , که به طور تکرار کننده محاسبه مي شود • در اينجا (x,y) به معني اين است که يک پيوند از صفحه x به صفحه y وجود دارد. اين محاسبات به باصطلاح زيرگراف متمرکز شده وب هدايت مي شود , که توسطافزودن نتيجه جستجو پرس و جو هاي مرسوم با تمام صفحات ماقبل و مابعد فراهم مي شود • درجه هاي هاب و منبع هاي موثق وصحيح به طور يکسان با A0(x)=H0(x)=1.0 مقدار دهي اوليه و طبيعي مي شود بدين منظور آن ها قبل از هر تکرار با يک جمع مي شوند

منابع و مراجع • [1] Raymond Kosala, Hendrik Blockeel, ‘Web Mining Research: A Survey’ , Celestijnenlaan 200A, B3001 Heverlee, Belgium, ACM SIGKDD Explorations, July 2000. • [2] R. Cooley, B.Mobasher and J.Srivastava, ‘Web Mining Information and Pattern Discovery on the World Wide Web’ , Information Gathering from Heterogeneous Distributed Environments, December 2001. • [3] Jiawei Han Kevin, Chen-Chuan Chang, ‘Data Mining for Web Intelligence’, University of Illinois at Urbana Champaign , November 2002. • [4] Amir H. Youssefi, David J. Duke, Mohammed J. Zaki, ‘Visual Web Mining ‘ , WWW2004, May 17–22, 2004, New York, New York, USA. ACM 1-58113-912-8/04/0005.

کنکاو وب ( Web Mining )

کنکاو وب ( Web Mining )

Presentation Transcript

Data mining and its application and usage in medicine

WEB MINING AND APPLICATIONS

Microbial Mining

Database Systems Research on Data Mining

Technologies for Mining Frequent Patterns in Large Databases

Advanced Topics in Data Mining

Data Mining in the Real-World

Data Mining Chapter 5 Credibility: Evaluating What’s Been Learned

Educational Data Mining

Web Mining for Unknown Term Translation

DATA MINING: AN INTRODUCTION

Data Mining: Concepts and Techniques

Web Mining

資料探勘 (Data Mining)

Link Mining

15-826: Multimedia Databases and Data Mining

Chapter 1. Introduction

SDSC Summer Institute 2005 TUTORIAL Data Mining for Scientific Applications

Data Mining Cluster Analysis: Basic Concepts and Algorithms

Corso di Basi di Dati

Data Mining Cluster Analysis: Basic Concepts and Algorithms

COMP 5331: Knowledge Discovery and Data Mining