1 / 45

Web Spam Taxonomy

Web Spam Taxonomy. Zoltan Gyongyi and Hector Garcia-Molina Stanford University First International Workshop on Adversarial Information Retrieval on the Web (AIRWeb 2005)

deacon
Download Presentation

Web Spam Taxonomy

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Web Spam Taxonomy Zoltan Gyongyi and Hector Garcia-Molina Stanford University First International Workshop on Adversarial Information Retrieval on the Web (AIRWeb 2005) Accepted papers cover a variety of topics, including web spam, blog spam, cloaking, redirection, link optimization for PageRank, automated link spam detection, link bombs, reverse engineering of ranking algorithms, and propaganda.

  2. Outline • Introduction • Observed behavior • Boosting • Term Spamming • Link Spamming • Hiding • Statistics • Conclusions

  3. Introduction • Web spam • Mislead search engines • Capture user attention. • The quality of search results decreases. • The first step in combating spam is understanding it. • Analyzing the techniques the spammers use to mislead search engines.

  4. Introduction (Cont.) • Spamming: • People want their pages to be put very top on a word search (e.g., “toyota”) by repeating the word many many times • Though these pages may be unimportant compared to www.toyota.com, even if the latter only mentions “toyota” only once (or 0 time). • Search engines can be easily “fooled”

  5. Boosting • Used to increase ranking • Term • Relevance (a specific query) • Target: TF-IDF variants • TF(t) is the frequency of a term t in the test field. • IDF(t) of a term t is related to the number of documents in the collection that contain t. • Link • Importance • Taget: inlink /outlink count, HITS, PageRank

  6. PageRank • Intuition: • The importance of each page should be decided by what other pages “say” about this page • One naïve implementation: count the # of pages pointing to each page (i.e., # of inlinks) • Problem: • We can easily fool this technique by generating many dummy pages that point to our class page

  7. Details of PageRank • At the beginning, each page has weight 1 • In each iteration, each page propagates its current weight W to all its N forward neighbors. Each of them gets weight: W/N • Meanwhile, a page accumulates the weights from its backward neighbors • Iterate until all weights converge. Usually 6-7 times are good enough. • The final weight of each page is its importance. • NOTICE: currently Google is using many other techniques/heuristics to do search. Here we just cover some of the initial ideas.

  8. Example: MiniWeb • Our “MiniWeb” has only three web sites: Netscape, Amazon, and Microsoft. • Their weights are represented as a vector Ne MS Am For instance, in each iteration, half of the weight of AM goes to NE, and half goes to MS.

  9. Iterative computation Final result: • Netscape and Amazon have the same importance, and twice the importance of Microsoft. • Does it capture the intuition? Yes. Ne MS Am

  10. Observations • We cannot get absolute weights: • We can only know (and we are only interested in) those relative weights of the pages • The matrix is stochastic (sum of each column is 1). So the iterations converge, and compute the principal eigenvector of the following matrix equation:

  11. Problem 1 of algorithm: dead ends! • MS does not point to anybody • Result: weights of the Web “leak out” Ne MS Am

  12. Problem 2 of algorithm: spider traps Ne • MS only points to itself • Result: all weights go to MS! MS Am

  13. Google’s solution: “tax each page” • Like people paying taxes, each page pays some weight into a public pool, which will be distributed to all pages. • Example: assume 20% tax rate in the “spider trap” example.

  14. Boosting / Term

  15. Boosting / Term • Repetition • Spammers achieve an increased relevance for a document with respect to a small number of query terms. • Dumping of a large number of unrelated terms, often even entire dictionaries. • Weaving of spam terms into copied contents. • Phrase stitching • To glue together sentences or phrase, possibly from different sources; the spam page might then show up for queries on any of the topics of the original sentences.

  16. Increase size Increase collusion Blogs, (unmoderated) forums, Wikis Boosting / Link

  17. Hiding • Used to conceal boosting

  18. Hiding • Content Hiding • <body background=“white”> • <font color =“white”>hidden</font></body> • Cloaking • Identify web crawlers. • Serve a different version of the page. • Redirection • Redirect on load from a heavily spammed page to the true target. • <meta http-equiv=“refresh” content=“0 url=target.html”> • <script language=“javascript”><!—location.replace(“target.html”</script>

  19. Statistics

  20. Statistics

  21. Conclusions • To address each of the boosting and hiding technique. • Identify instances of spam. • Prevent spamming. • Counterbalance the effect of spamming. • To address the problem of spamming as a whole , despite the differences among individual spamming techniques.

  22. 垃圾郵件近期新聞

  23. 網民周收16.8封垃圾郵件 電郵管理員將持證上崗 • 財經觀察 2005/5/30 • 國際在線報道:昨天,5萬多名網民參與的“2005年第一次中國反垃圾郵件狀況調查”結果公佈,四分之一網民認為由於垃圾郵件的原因,電子郵件將會被即時通訊取代。 • 調查顯示,從去年8月到今年4月,網民收到的垃圾郵件數量由每周27.8封下降到16.8封,但具有更大破壞性的垃圾郵件發展迅猛,其中病毒郵件和釣魚欺詐郵件今年已分別達到30.84%和22.87%。 • 中國互聯網協會發起首批“全國電子郵件管理員培訓”,今後,提供電子郵件服務的網站管理員將持證上崗。

  24. 首個64位電子郵件問世 減少系統崩潰幾率 • 新華網 2005/5/30 • 在國際巨頭AMD和SUN的支持下,亞洲最大的域名註冊機構、企業郵局服務商35互聯,昨天推出國內首個64位智慧反垃圾郵件系統,將大大降低遇到“堵車”式病毒攻擊時伺服器系統崩潰的幾率。

  25. 反垃圾郵件戰爭 開發中國家力有未逮 • CNET2005/5/30 • 在上周發表的一份報告中,經濟合作和發展組織表示,馬來西亞、尼泊爾、奈及利亞等國家缺乏有效打擊垃圾郵件所需要的頻寬、技術技能、財務資源。 • 經濟合作和發展組織表示,與已開發國家相比,這些國家的網際網路用戶將承受更多斷線、更不可靠的服務。報告指出,由於會消耗本來就已經十分缺乏的各類資源,在發展中國家,垃圾郵件是一個更為嚴重的問題。 • 另外,由於美國、西歐強化了打擊力道,一些垃圾郵件發送者紛紛轉移陣地至較落後國家和地區。

  26. 上海網民441萬人普及率居全國第二 • 新華網上海頻道 2005/5/30 • 近日出爐的《2004年上海市互聯網路發展狀況統計報告》顯示,截至去年底,申城網民總數達441萬人,平均每4個上海人中就有一名網民。 • 《報告》還顯示,網民平均擁有E-mail賬號為1.5,平均每周收到電子郵件數(不包括垃圾郵件)為4.5封,收到垃圾郵件數12.8封,發出電子郵件數4封,接收到的垃圾郵件為正常郵件的近3倍。

  27. 微軟推出反垃圾郵件工具與服務 • CNET 2005/5/27 • 微軟公司26日發表MSN Postmaster網站,提供對抗垃圾郵件的工具與服務。 • Postmaster是專門幫助網路服務商、電郵服務商和合法大宗郵件商對抗垃圾郵件的線上資源網站,可簡化垃圾郵件的通報程序,並協助傳送合法的大宗郵件給MSN Hotmail用戶。 • Postmaster也將包含微軟新的Smart Network Data Services(智慧網路資料服務),針對寄發到MSN Hotmail帳號的郵件型式提供報告。

  28. 26國聯手保護用戶 阻“僵屍電腦”發垃圾郵件26國聯手保護用戶 阻“僵屍電腦”發垃圾郵件 • 星洲日報 2005/5/26 • 美國、馬來西亞與其他24個國家週二展開一場新行動,取締透過駭客入侵的“僵屍電腦”發送垃圾郵件。 • 美國聯邦貿易委員會說,取締行動試著協助網路服務供應商,遏止以這種方式隱藏來歷的垃圾電郵數量。感染病毒或間諜軟體的電腦,可能在使用者不知情的情況下遭駭客侵入,並當作垃圾郵件中繼站。 • 其他參與這場取締行動的政府還有台灣、阿爾巴尼亞、阿根廷、澳州、比利時、英國、保加利亞、加拿大、哥倫比亞、塞浦路斯、丹麥、德國、希臘、愛爾蘭、日本、韓國、立陶宛、荷蘭、挪威、巴拿馬、祕魯、波蘭、西班牙及瑞士等。

  29. 濫發垃圾郵件 一封要賠兩千 • 科技投資網 2005/5/25 • 發放電子商業郵件就必須提供發信者的營業地址,以及在郵件主旨上註明「商業」標示,且收件者有選擇權利和固定機制拒收同類型郵件, • 濫發商業電子郵件管理條例草案將在本周送行政院,最快今年底前可望通過實施,屆時受害民眾可向法院申告,不用舉證, 法院即可裁定每封賠償受害人五百元至兩千元金額。

  30. 台灣固網、網護科技共同推出「VIP防垃圾郵件服務」台灣固網、網護科技共同推出「VIP防垃圾郵件服務」 • 數位之牆 2005/5/20 • 根據調查,2004年網路垃圾郵件佔總郵件的65%,近三年來的比例成長了八倍之多。 • 台灣固網與網護科技合作推出「VIP防垃圾郵件服務」,為台灣固網SuperMail郵件整合代管服務的用戶提供全方位電子郵件的防護網,杜絕垃圾郵件及網路釣魚信件之騷擾。 • 採用由網護科技所代理的Immunity郵件免疫系統,在垃圾及詐欺郵件尚未進入信箱前,即時保護用戶的資訊安全;擁有高達97%阻擋率及0.05%的超低誤擋率。

  31. 法務部導入金揚資訊SimpleAct SpamX反垃圾郵件系統 • 數位之牆 2005/5/19 • 據了解,法務部所屬機關每天平均收到近七萬封的電子郵件,其中可歸類為商業、色情廣告等垃圾郵件竟高達75%,針對時間寶貴的檢察官來說,每天浪費半個多小時辦公時間在過濾、刪除垃圾郵件,甚至誤中垃圾郵件所夾帶的病毒,嚴重耽誤公務的執行,深受其害。 • 系統開發建置完成後,只要依據初始設定值的判定原則,即可處理掉九成以上的垃圾郵件,準確率高、誤判率則相當低。保守估計每天可自動過濾掉近五萬封的垃圾郵件。

  32. 德新納粹用電郵發起全球攻勢 • 大公 2005/5/17 • 就在世界各國慶祝反法西斯戰爭勝利60週年並反思納粹反人類暴行之際,德國的極右翼勢力卻逆歷史潮流而動,通過電子郵件的方式在全球發起了納粹宣傳運動。在澳大利亞,就有數百萬人收到了這種垃圾郵件。 • 互聯網安全廠商SurfControl稱,在爆發的最初數小時內,它已經發現了1000多封由Sober.Q生成的垃圾郵件,這一數字是通常情況下的約40倍。 • 截至16日下午3點,澳大利亞電信公司已經封鎖了250多萬封這種電子郵件的複製本。

  33. 日本針對廣告電郵和垃圾郵件訂定新罰則 • 多維新聞 2005/5/13 • 日本參議院今天通過電子郵件修正法,針對任意傳送電腦或手機的廣告信、垃圾郵件的業者,將加重罰則來予以懲處,此法預定於今年秋天實施。 • 日本總務省以往對於垃圾郵件所採取的取締法,只是針對散發垃圾郵件的業者提出改善命令,該業者若不服從時,才處以五十萬日圓以下的罰款。 • 電子郵件修正法成立實行之後,警察便有權直接搜查違法業者,並處以刑事罰則,一年以下的拘役或是一百萬日圓以下的罰款。

  34. 國內首個64位智慧反垃圾郵件系統近日面世 • 互聯網 2005/5/12 • 近日,亞洲第一的域名註冊機構、國內領先的企業郵局和虛擬主機服務商35互聯(中國頻道),與全球領先的伺服器專家SUN以及晶片巨頭AMD公司聯合宣佈,將分別借助各自最新研發出的64位智慧反垃圾郵件系統軟體、64位伺服器、64位CPU,攜手在國內率先推出64位智慧反垃圾郵件系統。

  35. 濫寄色情信件 當心觸法 • 中國網路電子報 2005/5/10 • 一名電腦工程師李武龍去年五月因受雇替人架設色情視訊聊天室,為了召攬會員,幫忙寄發色情廣告信,但卻擔心退件的郵件會擠爆自已的信箱,於是將退件設定到知名的hotmail網路信箱,由於整個退件量實在太大,造成hotmail網路系統負荷不了,微軟公司透過監測系統發現整個郵件來自台灣,才向台灣警方報案,跨海提起告訴。 • 美國已有超過二十個州實施反垃圾郵件法,美國參議院也擬跟進立法,考慮將濫發廣告電子郵件者,處以最高可達五十萬美元的罰鍰。

  36. 國內網路安全市場今年將50億 09年將破百億 • 互聯網 2005/5/10 • 日前由中國電子資訊產業發展研究院主辦、中國電腦報社承辦的第六屆中國資訊安全大會上透露的資訊表明,去年我國網路安全產品市場的總銷售額已經達到34.92億元,比2003年增長了11.35億元,增長率為48.2%,大於以往任何一年實現了高速增長。而根據業界專家的預測,今年國內的這一市場將接近50億元,2009年則有望達到115.49億元。

  37. 電腦被黑客操控危害網絡安全 兩成來自中國 • 大紀元 2005/5/9 • 據網絡安全研究機構蘇弗斯公司對今年1月至3月全球互聯網上的“垃圾”信息流所進行的統計分析表明,其中有高達35.7%左右的垃圾信息來自美國一家;緊隨其後的是韓國,有25%的垃圾信息;其他排名靠前的網絡垃圾信息輸出國包括中國、西班牙、加拿大、日本、巴西、英國和德國等。

  38. 中國八成電腦曾遭病毒入侵 • 大紀元 2005/5/8 • 一份報告顯示,全球遭黑客襲擊後發放垃圾郵件、惡意攻擊網站的電腦,二成在中國。 • 報告又指出,目前中國上網人數僅佔總人口8%,但已位居世界第二,估計到2007年中國的上網人口將超過美國,所以中國的網上安全所衍生的電腦罪惡令人關注。

  39. 台灣簽署反垃圾郵件協定備忘錄,將共同抵制垃圾郵件的氾濫台灣簽署反垃圾郵件協定備忘錄,將共同抵制垃圾郵件的氾濫 • 中國網路電子報 2005/4/28 • 台灣電腦網路危機處理暨協調中心(Taiwan Computer Emergency Response Team/coordination Center,TWCERT/CC)昨天與日本等8個國家簽署「漢城─莫爾本反垃圾郵件協定(Seoul-Melbourne An-ti-Spam Agreement)備忘錄」,將共同抵制垃圾郵件的氾濫。 • 包含關於垃圾郵件解決方案的技術、對企業與消費者的教育課程、行動電話垃圾郵件的趨勢與解決方案,以及因遭非法入侵進行網釣、詐騙或傳播有害內容而遭到關閉的系統等相關資訊與經驗。

  40. 調查:垃圾郵件內容由“色情暴力”變成“病毒”調查:垃圾郵件內容由“色情暴力”變成“病毒” • 中國經濟網 2005/4/27 • 二00五中國第一次反垃圾郵件狀況調查顯示,具有更大破壞性的垃圾郵件發展迅猛,用戶最討厭的垃圾郵件類別由過去的“色情、暴力”變成“病毒”垃圾郵件。 • 經過中國互聯網協會反垃圾郵件協調小組對垃圾郵件的治理,從二00四年八月到二00五年四月期間,中國的垃圾郵件比例由百分之六十六下降到百分之六十一,用戶平均每周收到的垃圾郵件數量由二十七點八封,下降到十六點八封。 • 調查顯示,在網上公佈過的電子郵箱收到的垃圾郵件(21.18封)是未公佈的電子郵箱(9.7封)的兩倍以上,用戶認為,垃圾郵件主要來源於國內專業垃圾郵件組織和個人,以及郵件地址搜索軟體和群發軟體。 • 在用戶收到的垃圾郵件中,增長量最大的是病毒郵件和提供網路倣冒地址的“釣魚郵件”。這二者的比例由去年的零增加到今年的百分之三十一和二十三。有四分之一的網民認為,由於垃圾郵件的關係,電子郵件將會被即時通訊等工具代替。

  41. TREC Spam Filter Evaluation Toolkit

  42. Corpus • Private Corpus (Mr. X) • 共49086封 • Ham: 9048封 • Spam: 40048封 • Public Corpus (Spamassassin) • 共6034封 • Ham: 4149封 • Spam: 1885封

  43. Analysis-Contingency Table a: ham (correctly classified) b: spam misclassification c: ham misclassification d: spam (correctly classified) c/(a+c): ham misclassification rate b/(b+d): spam misclassification rate (b+c)/(a+b+c+d): overall misclassification rate (a+d)/(a+b+c+d): : accuracy

  44. Some SPAM filter Performance ROCA: Receiver Operating Characteristic Area

  45. 謝謝,請指教

More Related