150 likes | 261 Views
کنکاو وب ( Web Mining ). استاد : جناب آقا ي دکتر رهگذر تهيه کننده : ي وحنا قد ي م ي - علی عباسی - کاوه پاشاي ي. مقدمه.
E N D
کنکاو وب ( Web Mining ) استاد : جناب آقاي دکتر رهگذر تهيه کننده : يوحنا قديمي - علی عباسی- کاوه پاشايي
مقدمه • ظهور وب جهاني (WWW) کاربران کامپيوتر خانگي را با جرياني وحشتناک از اطلاعات مواجه کرده است. • تقريباً هر موضوعي مي تواند بياد آورده شود , يکي مي تواند تکه هاي اطلاعات را که توسط ديگر شهروندان اينترنت قابل دسترس مي شوند را پيدا کند, تنظيم کردن کاربران شخصي که ليستي از مجموعه رکورد هايشان را , براي شرکت هاي خاص که در وب تجارت مي کنند مي فرستند
مقدمه • کاربران وب به کمک عامل هاي نرم افزاري مصنوعي توانايي حريف شدن با فراواني اطلاعات قابل دسترس را دارند. • عامل ها : • پيدا کردن • مرتب کردن • فيلتر کردن اطلاعات قابل دسترس
کنکاو وب • کنکاو محتوي وب • کاربردي از تکنيک هاي کنکاو داده براي متن بي ساخت يا نيمه ساخت يافته , به طور نمونه مستندات HTML • کنکاو ساختار وب • استفاده ساختار ابر پيوند وب همانند يک منبع اطلاعات (اضافي) • کنکاو استفاده وب • تحليل تقابل کاربر با يک سرور وب
خواص گراف وب • وب ممکن است به عنوانيک گراف ( مستقيم) با مستندات به عنوان گره ها و ابرپيوند ها به عنوان لبه ها مشاهده شوند • درجه هاي وارده ( تعداد پيوندهاي ورودي ) و درجه هاي خارجه ( تعداد پيوند هاي خروجي ) از پخش قانون قدرت پيروي مي کنند . • مقدار 2.45 =inγ : درجه هاي وارده • مقدار= 2.1 outγ : درجه های خارجه
خواص گراف وب • داده ها را از جستجو در آلتاويستا ( سايت جستجو) با 2003 ميليون URL و 1466 ميليون لينک , و ساختار گراف زيرين را در يک سرور اتصال ذخيره کردند , که يک مستند کارامد تکنيک ايندکس گذاري را پياده سازي مي کند • اجازه دسترسي سريع به ابر پيوند صادر شونده و هم وارد شونده يک صفحه را مي دهد. • گراف داخلي GB 9.5 از حافظه را پر کرد , و يک جستجوي سطح اول که به 100 ميليون گره رسيد در حدود 4 دقيقه طول کشيد.
خواص گراف وب • نتيجه اصلي شانيک تحليل از ساختار گراف وب است که بر طبق آن ها , بند قوس بزرگ , با يک قطعه هسته وصل شده قوي (SCC) 56 ميليون صفحهدر وسط , و دو قطعه با 44 ميليون صفحه در تمام کنارها, يکي شامل صفحاتياست که SCC مي تواند برسد ( بخش داخلي ) • ديگري شامل صفحاتي است که از SCC مي تواند برسد( بخش خارجي • لوله هايي وجود دارد که رسيدن به بخش خارجي از بخش داخلي بدون پاس کردن از طريق SCC را اجازه مي دهد , و پيچک هاي بسياري , که به خارج از مجموعه داخلي يا داخل مجموعه خارجي بدون ارتباط با اجزاهاي ديگر هدايت مي کند.
خواص گراف وب • چندين مجموعه هاي کوچکتر وجود دارد که نمي تواند از هر نقطه اي در اين ساختار رسيده شود. • کروکي يک نمودار از اين ساختار , که گاهي اوقات فريبنده استبه خاطر اينکه نقش برجسته بخش داخلي , خارجي , و SCC فقط بر پايه اندازه پايه گذاري مي شود • ساختار هاي ديگري با يک شکل مشابه وجود دارد , اما قدري کوچکتر از اندازه هستند ( يعني , لوله ها ممکن است شامل اجزاء شديداَ متصل ديگر شوند که با SCCفقط در اندازه فرق دارند) • نتيجه اصلي اين است که چندين اجزاء گسسته وجود دارد. در حقيقت , يک منطقه ميان دو صفحه به طور تصادفي انتخاب شده وجود داشته باشد فقط حدود 0.24 است
خواص گراف وب • احتمال اينکه يک صفحه توسط موتور جستجو A ايندکس گذاري شود مستقل استاز احتمال اينکه همان صفحه توسط موتور جستجو B ايندکس گذاري شود • درصد صفحات در مجموعه نتيجه يک پرس و جو براي موتور جستجو B که همچنين توسط موتور جستجو A ايندکس گذاري مي شود مي تواند روي همرفته به عنوان يک تخمينبراي ذرصد صفحات ايندکس گذاري شده توسط A استفاده شود.
جستجو وب ( WEB SEARCH) • از آنجاييکه واسط هاي پرس و جو مرسوم در مستندات ايندکس گذاري شده توسط کلماتي که در آن ها ظاهر مي شوند متمرکز مي کنند , پتانسيل بهره برداري اطلاعات شامل ابر پيوند هايي مي شوند که به صفحه اي که در ابتدا تشخيص داده شده اند اشاره مي کند . • متن هاي ارجاعي صفحات ماقبل پيش از اين توسط کرم وب جهاني , يکي از اولين موتورهاي جستجو و خزنده وب . • اسپرتاسيک طبقه بندي نوع هاي مختلف ابر پيوند ها را معرفي کرد که مي تواند در وب پيدا شود • چگونه پيوند ها مي توان از اطلاعات مختلف تکليف هاي وابسته در وب بهره برداري کرد
جستجو وب ( WEB SEARCH) • راه ميانبر اصلي ادراک بود که محبوبيت و بنابراين اهميت صفحه تا حدي با تعداد پيوندهاي وارده مرتبط مي شود , آن هم اين اطلاعات مي تواند به طور سودمند مرتب کردن نتايج پرس و جو موتور جستجو استفاده شود. • درجه وارده به تنهايي ,اگر چه , اندازه خيلي کم از اهميت است اما صفحات زيادي متناوباً اشاره مي شوند بدون اينکه به محتوي صفحه اشاره شده ارتباط برقرار شود.
جستجو وب ( WEB SEARCH) • لينبرگ پيشنهاد کرد که دو نوع از صفحات هستند که مي تواند براي يک پرس و جو مناسب باشد : • منبع هاي صحيح و موثق (authorities) صفحاتي هستند که شامل اطلاعات مفيد درباره عنوان پرس و جوها مي شود • در حالي که هاب ها شامل اشاره گرهايي به منابع اطلاعات خوب است . • هر دو نوع از صفحات به طور اختياري وصل مي شوند: هاب هاي خوب شامل شامل اشاره گرهايي به منبع هاي صحيح و موثق خيلي خوبي است , و منبع هاي صحيح و موثق خوب توسط هاب هاي خيلي خوبي اشاره مي شوند
جستجو وب ( WEB SEARCH) • کلينبرگ پيشنهاد استفاده آزمايشي کردن از اين ارتباط را توسط وابسته کردن هر صفحهxبه يک منبع هاب H(x)و يک منبع صحيح و موثق A(x) کرد , که به طور تکرار کننده محاسبه مي شود • در اينجا (x,y) به معني اين است که يک پيوند از صفحه x به صفحه y وجود دارد. اين محاسبات به باصطلاح زيرگراف متمرکز شده وب هدايت مي شود , که توسطافزودن نتيجه جستجو پرس و جو هاي مرسوم با تمام صفحات ماقبل و مابعد فراهم مي شود • درجه هاي هاب و منبع هاي موثق وصحيح به طور يکسان با A0(x)=H0(x)=1.0 مقدار دهي اوليه و طبيعي مي شود بدين منظور آن ها قبل از هر تکرار با يک جمع مي شوند
منابع و مراجع • [1] Raymond Kosala, Hendrik Blockeel, ‘Web Mining Research: A Survey’ , Celestijnenlaan 200A, B3001 Heverlee, Belgium, ACM SIGKDD Explorations, July 2000. • [2] R. Cooley, B.Mobasher and J.Srivastava, ‘Web Mining Information and Pattern Discovery on the World Wide Web’ , Information Gathering from Heterogeneous Distributed Environments, December 2001. • [3] Jiawei Han Kevin, Chen-Chuan Chang, ‘Data Mining for Web Intelligence’, University of Illinois at Urbana Champaign , November 2002. • [4] Amir H. Youssefi, David J. Duke, Mohammed J. Zaki, ‘Visual Web Mining ‘ , WWW2004, May 17–22, 2004, New York, New York, USA. ACM 1-58113-912-8/04/0005.