180 likes | 298 Views
מצגת סיום חורף תשס"ז. Content based AntiWebSpammer. מבצעים: אבישי ליבנה איציק בן בסט מנחה: מקסים גורביץ. הטכניון - המעבדה לתוכנה. תוכן המצגת. מוטיבציה יעדי הפרויקט רקע סקירה ארכיטקטונית של המערכת אופן פעולת המערכת סקירת תוצאות סיכום. מוטיבציה.
E N D
מצגת סיום חורף תשס"ז Content based AntiWebSpammer מבצעים: אבישי ליבנה איציק בן בסט מנחה: מקסים גורביץ הטכניון - המעבדה לתוכנה
תוכן המצגת • מוטיבציה • יעדי הפרויקט • רקע • סקירה ארכיטקטונית של המערכת • אופן פעולת המערכת • סקירת תוצאות • סיכום
מוטיבציה • ספאם היא תופעה מוכרת שנכנסה לתודעה הציבורית עוד בשנים הראשונות של רשת האינטרנט. • המונח מוכר בעיקר בהקשר של אימייל, אך קיים בתחומים שונים. • בפרוייקט נתמקד בתחום מנועי החיפוש. ברשת קיימים אתרים שכל מטרתם לפרסם, תוך כדי פגיעה בחווית הגלישה והחיפוש של המשתמשים. • הדרך העיקרית להתמודדות עם ספאם ברשת היא ע"י סריקת הלינקים באתרים ובניית גרף אמינויות תלויות. • בפרויקט נבחן דרך חלופית המתבססת על סינון ספאם באמצעות תוכן האתרים בלבד.
יעדי הפרויקט • מימוש מערכת שמתייגת דפי HTML על סמך תוכנם. • המערכת תתייג כל דף כספאם או כדף חוקי. • פעולת המיון תתבצע על סמך תוכן הדפים בלבד. • קבלת ההחלטות תתבצע באמצעות עצי החלטה. • הפרויקט יממש את המאמר Detecting Spam Web Pages through Content Analysis, By Alexandros Ntoulas, Marc Najork, Mark Manasse and Dennis Fetterly. • הכרת HTML, Decision trees.
רקע – סינון ספאם הדרך הנפוצה להתמודד עם ספאם היא סריקת לינקים ובניית גרף תלויות. • דורשת משאבים ומידע על דפים אחרים כדי לקבל החלטה על דף בודד. • קיימות דרכים להטעות את מנוע החיפוש (link farms). • סינון ע"י תוכן – מספיק לבחון את תוכן הדף הבודד. • צורך פחות משאבים, ניתן למיקבול. • ניתן לשלב בין השיטות (סינון מקדים, סינון אינטנסיבי, דירוג)
(Decision trees)רקע – עצי החלטה • כלי לקבלת החלטות • אופן הפעולה: • סריקת התכונות השונות ומציאת המבחנים שיוצרים את ההפרדה הטובה ביותר. • יצירת צמתי מבחן, בד"כ השוואה של תכונה בודדת עם ערך. • בהתאם לתוצאת ההשוואה תקבע אחת משתי האפשרויות להמשך הבדיקה. • עלה בעץ מציין קבלת החלטה (תוצאת המיון, ערך התכונה הנבדקת).
סקירת המערכת איפיון תכונות • המערכת תבצע ניתוח דפים ותיצור מכל דף רשימה של תכונות. • המערכת תוכל לבנות החלטות בהתבסס על דפים שתויגו מראש. • המערכת תוכל למיין דפים בעזרת עץ ההחלטות שנבנה בשלב האימון. • כל תת פעולה יכולה להתבצע בנפרד. • ניתן לשמור את עץ ההחלטות / ניתוח הדפים לשימוש חוזר.
סקירת המערכת תכונות הדפים הנבדקות • Words in page • Words in title • Average length of words • Amount of anchor text • Fraction of visible content • Compressibility • Fraction of page drawn from popular keywords • Fraction of popular keywords
אופן פעולת המערכת Trainer Decision Tree Parser Parsed pages Classifier
סקירת תוצאות Match rate = 92.7% Recall – spam matches out of real spam. Precision – spam matches out of tagged as spam.
מסקנות ותובנות • למספר הדפים שמשמשים לבניית העץ יש השפעה משמעותית על ביצועיו. • יש לתת יחס מיוחד לדפים קטנים באופן משמעותי שמכניסים רעש למערכת. • עצי החלטה מדויקים מדי (אנטרופיה נמוכה) עלולים להתאים רק לנתונים שעל פיהם הם נבנו, תוך פגיעה בביצועיהם על דפים חדשים. • התכונות שנבחנו בפרויקט לא מספיקות כדי לבצע מיון ברמה מספיק טובה, יש לשלב תכונות נוספות בבדיקה.
סיכום העבודה יעדי הפרויקט שהושגו: • למידת המאמר והרקע התאורטי. • הכרה והתנסות עם החבילות HTMLParser, jaDT. • מימוש האפליקציה והרצת סימולציות. אפשרויות המשך לפרויקטים עתידיים: • בדיקת התכונות הנוספות המתוארות במאמר (n-grams). • מימוש Decision tree חלופי. • הוספת כלים נוספים למיון (לא מבוססי תוכן). • הטמעה במנוע חיפוש.
It was fun! Let’s do it again…