1 / 18

Content based AntiWebSpammer

מצגת סיום חורף תשס"ז. Content based AntiWebSpammer. מבצעים: אבישי ליבנה איציק בן בסט מנחה: מקסים גורביץ. הטכניון - המעבדה לתוכנה. תוכן המצגת. מוטיבציה יעדי הפרויקט רקע סקירה ארכיטקטונית של המערכת אופן פעולת המערכת סקירת תוצאות סיכום. מוטיבציה.

italia
Download Presentation

Content based AntiWebSpammer

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. מצגת סיום חורף תשס"ז Content based AntiWebSpammer מבצעים: אבישי ליבנה איציק בן בסט מנחה: מקסים גורביץ הטכניון - המעבדה לתוכנה

  2. תוכן המצגת • מוטיבציה • יעדי הפרויקט • רקע • סקירה ארכיטקטונית של המערכת • אופן פעולת המערכת • סקירת תוצאות • סיכום

  3. מוטיבציה • ספאם היא תופעה מוכרת שנכנסה לתודעה הציבורית עוד בשנים הראשונות של רשת האינטרנט. • המונח מוכר בעיקר בהקשר של אימייל, אך קיים בתחומים שונים. • בפרוייקט נתמקד בתחום מנועי החיפוש. ברשת קיימים אתרים שכל מטרתם לפרסם, תוך כדי פגיעה בחווית הגלישה והחיפוש של המשתמשים. • הדרך העיקרית להתמודדות עם ספאם ברשת היא ע"י סריקת הלינקים באתרים ובניית גרף אמינויות תלויות. • בפרויקט נבחן דרך חלופית המתבססת על סינון ספאם באמצעות תוכן האתרים בלבד.

  4. יעדי הפרויקט • מימוש מערכת שמתייגת דפי HTML על סמך תוכנם. • המערכת תתייג כל דף כספאם או כדף חוקי. • פעולת המיון תתבצע על סמך תוכן הדפים בלבד. • קבלת ההחלטות תתבצע באמצעות עצי החלטה. • הפרויקט יממש את המאמר Detecting Spam Web Pages through Content Analysis, By Alexandros Ntoulas, Marc Najork, Mark Manasse and Dennis Fetterly. • הכרת HTML, Decision trees.

  5. רקע – סינון ספאם הדרך הנפוצה להתמודד עם ספאם היא סריקת לינקים ובניית גרף תלויות. • דורשת משאבים ומידע על דפים אחרים כדי לקבל החלטה על דף בודד. • קיימות דרכים להטעות את מנוע החיפוש (link farms). • סינון ע"י תוכן – מספיק לבחון את תוכן הדף הבודד. • צורך פחות משאבים, ניתן למיקבול. • ניתן לשלב בין השיטות (סינון מקדים, סינון אינטנסיבי, דירוג)

  6. (Decision trees)רקע – עצי החלטה • כלי לקבלת החלטות • אופן הפעולה: • סריקת התכונות השונות ומציאת המבחנים שיוצרים את ההפרדה הטובה ביותר. • יצירת צמתי מבחן, בד"כ השוואה של תכונה בודדת עם ערך. • בהתאם לתוצאת ההשוואה תקבע אחת משתי האפשרויות להמשך הבדיקה. • עלה בעץ מציין קבלת החלטה (תוצאת המיון, ערך התכונה הנבדקת).

  7. סקירת המערכת איפיון תכונות • המערכת תבצע ניתוח דפים ותיצור מכל דף רשימה של תכונות. • המערכת תוכל לבנות החלטות בהתבסס על דפים שתויגו מראש. • המערכת תוכל למיין דפים בעזרת עץ ההחלטות שנבנה בשלב האימון. • כל תת פעולה יכולה להתבצע בנפרד. • ניתן לשמור את עץ ההחלטות / ניתוח הדפים לשימוש חוזר.

  8. סקירת המערכת תכונות הדפים הנבדקות • Words in page • Words in title • Average length of words • Amount of anchor text • Fraction of visible content • Compressibility • Fraction of page drawn from popular keywords • Fraction of popular keywords

  9. אופן פעולת המערכת Trainer Decision Tree Parser Parsed pages Classifier

  10. סקירת תוצאות Match rate = 92.7% Recall – spam matches out of real spam. Precision – spam matches out of tagged as spam.

  11. סקירת תוצאות

  12. סקירת תוצאות

  13. סקירת תוצאות

  14. סקירת תוצאות

  15. סקירת תוצאות

  16. מסקנות ותובנות • למספר הדפים שמשמשים לבניית העץ יש השפעה משמעותית על ביצועיו. • יש לתת יחס מיוחד לדפים קטנים באופן משמעותי שמכניסים רעש למערכת. • עצי החלטה מדויקים מדי (אנטרופיה נמוכה) עלולים להתאים רק לנתונים שעל פיהם הם נבנו, תוך פגיעה בביצועיהם על דפים חדשים. • התכונות שנבחנו בפרויקט לא מספיקות כדי לבצע מיון ברמה מספיק טובה, יש לשלב תכונות נוספות בבדיקה.

  17. סיכום העבודה יעדי הפרויקט שהושגו: • למידת המאמר והרקע התאורטי. • הכרה והתנסות עם החבילות HTMLParser, jaDT. • מימוש האפליקציה והרצת סימולציות. אפשרויות המשך לפרויקטים עתידיים: • בדיקת התכונות הנוספות המתוארות במאמר (n-grams). • מימוש Decision tree חלופי. • הוספת כלים נוספים למיון (לא מבוססי תוכן). • הטמעה במנוע חיפוש.

  18. It was fun! Let’s do it again…

More Related