140 likes | 385 Views
איחזור מידע אלגוריתמי חיפוש PageRank. ד"ר אבי רוזנפלד. שלבים למנוע חיפוש. בניית המאגר מידע ( Web crawler ) בניית האנדקסים (לאנדקס Index ) ניקיון המידע מכפילות, STEMMING בניית התשובה עיבוד השאלתה (הורדת STOP WORDS ) דירוג תוצאות ( PAGERANK ) ניתוח התוצאות
E N D
איחזור מידעאלגוריתמי חיפוש PageRank ד"ר אבי רוזנפלד
שלבים למנוע חיפוש • בניית המאגר מידע (Web crawler) • בניית האנדקסים (לאנדקס Index) • ניקיון המידע מכפילות, STEMMING • בניית התשובה • עיבוד השאלתה (הורדת STOP WORDS) • דירוג תוצאות (PAGERANK) • ניתוח התוצאות • FALSE POSITIVE / FALSE NEGATIVE • Recall / Precision
Web Crawler / זחלן רשת • Identifies and acquires documents for search engine • http://en.wikipedia.org/wiki/Web_crawler • זחלן רשת הוא סוג של בוט או תוכנה שסורקת באופן אוטומטי ושיטתי את הWWW. • מדיניות של בחירה אשר מגדירה איזה עמוד להוריד. • מדיניות של ביקור חוזר אשר מגדירה מתי לבדוק שינויים בדפים. • מדיניות נימוס אשר מגדירה איך להימנע מעומס יתר של אתרים ולגרום להפלה של השרת. • מדיניות של הקבלה אשר מגדירה איך לתאם בין הזחלנים השונים.
ניתוח התוכן • בהיסתוריה אתיקה (לפני GOOGLE) היה שימוש בתוכן כולל ניתוח האתר • תגי META • זמן הטעינה • אחרי GOOGLE יש ניתוח של מבנה הרשת
The History of PageRank PageRank was developed by Larry Page (hence the name Page-Rank) and Sergey Brin. It is first as part of a research project about a new kind of search engine. That project started in 1995 and led to a functional prototype in 1998. Shortly after, Page and Brin founded Google. 16 billion…
PageRank • PageRank is a link analysis algorithm which assigns a numerical weighting to each Web page, with the purpose of "measuring" relative importance. • Based on the hyperlinks map • An excellent way to prioritize the results of web keyword searches
Link Structure of the Web • 150 million web pages 1.7 billion links • Backlinks and Forward links: • A and B are C’s backlinks • C is A and B’s forward link Intuitively, a webpage is important if it has a lot of backlinks. What if a webpage has only one link off www.yahoo.com?
Simplified PageRank algorithm • Assume four web pages: A, B,C and D. Let each page would begin with an estimated PageRank of 0.25. • L(A) is defined as the number of links going out of page A. The PageRank of a page A is given as follows: C A D B C A D B
בפועל זה בדרך כלל יותר קשה לחשב... • פה C הוא חשוב בגלל שיש לו קישור שנכנס מB, חשוב בגלל שיש קישורים שנכנסים לו מכמה אתרים. • יש PageRank מצטבר אבל בתוספת שולית (damping factor), d. • נניח שיש פה d=0.85 אז הPR של A =
קידום אתרים במנועי חיפושSearch Engine Optimization (SEO) • בגלל שPAGERANK היה ידועה, היו אנשים שקידמו אתרים(למה אבי רוזנפלד – אני – ראשון?) • בניית קישורים מלאכותיים • Building, Link Farming • יצירת אתרי זבל– בלוגים, מיילים וכדומה לאתר • סתם הוספת תוכן בתגי META
השוואת האתרים של מכון לב ובר-אילן http://checkpagerank.net/ מכון לב - PageRank = 6/10 • Backlinks information provided by Majestic SEO בר-אילן - PageRank = 7/10
גוגל "פנדה" • לא רק על בסיס PAGERANK המקורי • לא פורסם • שוקל ותק הקישור • שוקל מקור הקישור • שוקל היעד של הקישור • בניית שיטות של למידת מכונה לתת משקל לקישורים • PageRank is now one of 200 ranking factors that Google uses to determine a page’s popularity. • http://www.accuracast.com/articles/optimisation/jagger/ (העדכון Jagger מ2005)