460 likes | 604 Views
Web Spam Taxonomy. Zoltan Gyongyi and Hector Garcia-Molina Stanford University First International Workshop on Adversarial Information Retrieval on the Web (AIRWeb 2005)
E N D
Web Spam Taxonomy Zoltan Gyongyi and Hector Garcia-Molina Stanford University First International Workshop on Adversarial Information Retrieval on the Web (AIRWeb 2005) Accepted papers cover a variety of topics, including web spam, blog spam, cloaking, redirection, link optimization for PageRank, automated link spam detection, link bombs, reverse engineering of ranking algorithms, and propaganda.
Outline • Introduction • Observed behavior • Boosting • Term Spamming • Link Spamming • Hiding • Statistics • Conclusions
Introduction • Web spam • Mislead search engines • Capture user attention. • The quality of search results decreases. • The first step in combating spam is understanding it. • Analyzing the techniques the spammers use to mislead search engines.
Introduction (Cont.) • Spamming: • People want their pages to be put very top on a word search (e.g., “toyota”) by repeating the word many many times • Though these pages may be unimportant compared to www.toyota.com, even if the latter only mentions “toyota” only once (or 0 time). • Search engines can be easily “fooled”
Boosting • Used to increase ranking • Term • Relevance (a specific query) • Target: TF-IDF variants • TF(t) is the frequency of a term t in the test field. • IDF(t) of a term t is related to the number of documents in the collection that contain t. • Link • Importance • Taget: inlink /outlink count, HITS, PageRank
PageRank • Intuition: • The importance of each page should be decided by what other pages “say” about this page • One naïve implementation: count the # of pages pointing to each page (i.e., # of inlinks) • Problem: • We can easily fool this technique by generating many dummy pages that point to our class page
Details of PageRank • At the beginning, each page has weight 1 • In each iteration, each page propagates its current weight W to all its N forward neighbors. Each of them gets weight: W/N • Meanwhile, a page accumulates the weights from its backward neighbors • Iterate until all weights converge. Usually 6-7 times are good enough. • The final weight of each page is its importance. • NOTICE: currently Google is using many other techniques/heuristics to do search. Here we just cover some of the initial ideas.
Example: MiniWeb • Our “MiniWeb” has only three web sites: Netscape, Amazon, and Microsoft. • Their weights are represented as a vector Ne MS Am For instance, in each iteration, half of the weight of AM goes to NE, and half goes to MS.
Iterative computation Final result: • Netscape and Amazon have the same importance, and twice the importance of Microsoft. • Does it capture the intuition? Yes. Ne MS Am
Observations • We cannot get absolute weights: • We can only know (and we are only interested in) those relative weights of the pages • The matrix is stochastic (sum of each column is 1). So the iterations converge, and compute the principal eigenvector of the following matrix equation:
Problem 1 of algorithm: dead ends! • MS does not point to anybody • Result: weights of the Web “leak out” Ne MS Am
Problem 2 of algorithm: spider traps Ne • MS only points to itself • Result: all weights go to MS! MS Am
Google’s solution: “tax each page” • Like people paying taxes, each page pays some weight into a public pool, which will be distributed to all pages. • Example: assume 20% tax rate in the “spider trap” example.
Boosting / Term • Repetition • Spammers achieve an increased relevance for a document with respect to a small number of query terms. • Dumping of a large number of unrelated terms, often even entire dictionaries. • Weaving of spam terms into copied contents. • Phrase stitching • To glue together sentences or phrase, possibly from different sources; the spam page might then show up for queries on any of the topics of the original sentences.
Increase size Increase collusion Blogs, (unmoderated) forums, Wikis Boosting / Link
Hiding • Used to conceal boosting
Hiding • Content Hiding • <body background=“white”> • <font color =“white”>hidden</font></body> • Cloaking • Identify web crawlers. • Serve a different version of the page. • Redirection • Redirect on load from a heavily spammed page to the true target. • <meta http-equiv=“refresh” content=“0 url=target.html”> • <script language=“javascript”><!—location.replace(“target.html”</script>
Conclusions • To address each of the boosting and hiding technique. • Identify instances of spam. • Prevent spamming. • Counterbalance the effect of spamming. • To address the problem of spamming as a whole , despite the differences among individual spamming techniques.
網民周收16.8封垃圾郵件 電郵管理員將持證上崗 • 財經觀察 2005/5/30 • 國際在線報道:昨天,5萬多名網民參與的“2005年第一次中國反垃圾郵件狀況調查”結果公佈,四分之一網民認為由於垃圾郵件的原因,電子郵件將會被即時通訊取代。 • 調查顯示,從去年8月到今年4月,網民收到的垃圾郵件數量由每周27.8封下降到16.8封,但具有更大破壞性的垃圾郵件發展迅猛,其中病毒郵件和釣魚欺詐郵件今年已分別達到30.84%和22.87%。 • 中國互聯網協會發起首批“全國電子郵件管理員培訓”,今後,提供電子郵件服務的網站管理員將持證上崗。
首個64位電子郵件問世 減少系統崩潰幾率 • 新華網 2005/5/30 • 在國際巨頭AMD和SUN的支持下,亞洲最大的域名註冊機構、企業郵局服務商35互聯,昨天推出國內首個64位智慧反垃圾郵件系統,將大大降低遇到“堵車”式病毒攻擊時伺服器系統崩潰的幾率。
反垃圾郵件戰爭 開發中國家力有未逮 • CNET2005/5/30 • 在上周發表的一份報告中,經濟合作和發展組織表示,馬來西亞、尼泊爾、奈及利亞等國家缺乏有效打擊垃圾郵件所需要的頻寬、技術技能、財務資源。 • 經濟合作和發展組織表示,與已開發國家相比,這些國家的網際網路用戶將承受更多斷線、更不可靠的服務。報告指出,由於會消耗本來就已經十分缺乏的各類資源,在發展中國家,垃圾郵件是一個更為嚴重的問題。 • 另外,由於美國、西歐強化了打擊力道,一些垃圾郵件發送者紛紛轉移陣地至較落後國家和地區。
上海網民441萬人普及率居全國第二 • 新華網上海頻道 2005/5/30 • 近日出爐的《2004年上海市互聯網路發展狀況統計報告》顯示,截至去年底,申城網民總數達441萬人,平均每4個上海人中就有一名網民。 • 《報告》還顯示,網民平均擁有E-mail賬號為1.5,平均每周收到電子郵件數(不包括垃圾郵件)為4.5封,收到垃圾郵件數12.8封,發出電子郵件數4封,接收到的垃圾郵件為正常郵件的近3倍。
微軟推出反垃圾郵件工具與服務 • CNET 2005/5/27 • 微軟公司26日發表MSN Postmaster網站,提供對抗垃圾郵件的工具與服務。 • Postmaster是專門幫助網路服務商、電郵服務商和合法大宗郵件商對抗垃圾郵件的線上資源網站,可簡化垃圾郵件的通報程序,並協助傳送合法的大宗郵件給MSN Hotmail用戶。 • Postmaster也將包含微軟新的Smart Network Data Services(智慧網路資料服務),針對寄發到MSN Hotmail帳號的郵件型式提供報告。
26國聯手保護用戶 阻“僵屍電腦”發垃圾郵件26國聯手保護用戶 阻“僵屍電腦”發垃圾郵件 • 星洲日報 2005/5/26 • 美國、馬來西亞與其他24個國家週二展開一場新行動,取締透過駭客入侵的“僵屍電腦”發送垃圾郵件。 • 美國聯邦貿易委員會說,取締行動試著協助網路服務供應商,遏止以這種方式隱藏來歷的垃圾電郵數量。感染病毒或間諜軟體的電腦,可能在使用者不知情的情況下遭駭客侵入,並當作垃圾郵件中繼站。 • 其他參與這場取締行動的政府還有台灣、阿爾巴尼亞、阿根廷、澳州、比利時、英國、保加利亞、加拿大、哥倫比亞、塞浦路斯、丹麥、德國、希臘、愛爾蘭、日本、韓國、立陶宛、荷蘭、挪威、巴拿馬、祕魯、波蘭、西班牙及瑞士等。
濫發垃圾郵件 一封要賠兩千 • 科技投資網 2005/5/25 • 發放電子商業郵件就必須提供發信者的營業地址,以及在郵件主旨上註明「商業」標示,且收件者有選擇權利和固定機制拒收同類型郵件, • 濫發商業電子郵件管理條例草案將在本周送行政院,最快今年底前可望通過實施,屆時受害民眾可向法院申告,不用舉證, 法院即可裁定每封賠償受害人五百元至兩千元金額。
台灣固網、網護科技共同推出「VIP防垃圾郵件服務」台灣固網、網護科技共同推出「VIP防垃圾郵件服務」 • 數位之牆 2005/5/20 • 根據調查,2004年網路垃圾郵件佔總郵件的65%,近三年來的比例成長了八倍之多。 • 台灣固網與網護科技合作推出「VIP防垃圾郵件服務」,為台灣固網SuperMail郵件整合代管服務的用戶提供全方位電子郵件的防護網,杜絕垃圾郵件及網路釣魚信件之騷擾。 • 採用由網護科技所代理的Immunity郵件免疫系統,在垃圾及詐欺郵件尚未進入信箱前,即時保護用戶的資訊安全;擁有高達97%阻擋率及0.05%的超低誤擋率。
法務部導入金揚資訊SimpleAct SpamX反垃圾郵件系統 • 數位之牆 2005/5/19 • 據了解,法務部所屬機關每天平均收到近七萬封的電子郵件,其中可歸類為商業、色情廣告等垃圾郵件竟高達75%,針對時間寶貴的檢察官來說,每天浪費半個多小時辦公時間在過濾、刪除垃圾郵件,甚至誤中垃圾郵件所夾帶的病毒,嚴重耽誤公務的執行,深受其害。 • 系統開發建置完成後,只要依據初始設定值的判定原則,即可處理掉九成以上的垃圾郵件,準確率高、誤判率則相當低。保守估計每天可自動過濾掉近五萬封的垃圾郵件。
德新納粹用電郵發起全球攻勢 • 大公 2005/5/17 • 就在世界各國慶祝反法西斯戰爭勝利60週年並反思納粹反人類暴行之際,德國的極右翼勢力卻逆歷史潮流而動,通過電子郵件的方式在全球發起了納粹宣傳運動。在澳大利亞,就有數百萬人收到了這種垃圾郵件。 • 互聯網安全廠商SurfControl稱,在爆發的最初數小時內,它已經發現了1000多封由Sober.Q生成的垃圾郵件,這一數字是通常情況下的約40倍。 • 截至16日下午3點,澳大利亞電信公司已經封鎖了250多萬封這種電子郵件的複製本。
日本針對廣告電郵和垃圾郵件訂定新罰則 • 多維新聞 2005/5/13 • 日本參議院今天通過電子郵件修正法,針對任意傳送電腦或手機的廣告信、垃圾郵件的業者,將加重罰則來予以懲處,此法預定於今年秋天實施。 • 日本總務省以往對於垃圾郵件所採取的取締法,只是針對散發垃圾郵件的業者提出改善命令,該業者若不服從時,才處以五十萬日圓以下的罰款。 • 電子郵件修正法成立實行之後,警察便有權直接搜查違法業者,並處以刑事罰則,一年以下的拘役或是一百萬日圓以下的罰款。
國內首個64位智慧反垃圾郵件系統近日面世 • 互聯網 2005/5/12 • 近日,亞洲第一的域名註冊機構、國內領先的企業郵局和虛擬主機服務商35互聯(中國頻道),與全球領先的伺服器專家SUN以及晶片巨頭AMD公司聯合宣佈,將分別借助各自最新研發出的64位智慧反垃圾郵件系統軟體、64位伺服器、64位CPU,攜手在國內率先推出64位智慧反垃圾郵件系統。
濫寄色情信件 當心觸法 • 中國網路電子報 2005/5/10 • 一名電腦工程師李武龍去年五月因受雇替人架設色情視訊聊天室,為了召攬會員,幫忙寄發色情廣告信,但卻擔心退件的郵件會擠爆自已的信箱,於是將退件設定到知名的hotmail網路信箱,由於整個退件量實在太大,造成hotmail網路系統負荷不了,微軟公司透過監測系統發現整個郵件來自台灣,才向台灣警方報案,跨海提起告訴。 • 美國已有超過二十個州實施反垃圾郵件法,美國參議院也擬跟進立法,考慮將濫發廣告電子郵件者,處以最高可達五十萬美元的罰鍰。
國內網路安全市場今年將50億 09年將破百億 • 互聯網 2005/5/10 • 日前由中國電子資訊產業發展研究院主辦、中國電腦報社承辦的第六屆中國資訊安全大會上透露的資訊表明,去年我國網路安全產品市場的總銷售額已經達到34.92億元,比2003年增長了11.35億元,增長率為48.2%,大於以往任何一年實現了高速增長。而根據業界專家的預測,今年國內的這一市場將接近50億元,2009年則有望達到115.49億元。
電腦被黑客操控危害網絡安全 兩成來自中國 • 大紀元 2005/5/9 • 據網絡安全研究機構蘇弗斯公司對今年1月至3月全球互聯網上的“垃圾”信息流所進行的統計分析表明,其中有高達35.7%左右的垃圾信息來自美國一家;緊隨其後的是韓國,有25%的垃圾信息;其他排名靠前的網絡垃圾信息輸出國包括中國、西班牙、加拿大、日本、巴西、英國和德國等。
中國八成電腦曾遭病毒入侵 • 大紀元 2005/5/8 • 一份報告顯示,全球遭黑客襲擊後發放垃圾郵件、惡意攻擊網站的電腦,二成在中國。 • 報告又指出,目前中國上網人數僅佔總人口8%,但已位居世界第二,估計到2007年中國的上網人口將超過美國,所以中國的網上安全所衍生的電腦罪惡令人關注。
台灣簽署反垃圾郵件協定備忘錄,將共同抵制垃圾郵件的氾濫台灣簽署反垃圾郵件協定備忘錄,將共同抵制垃圾郵件的氾濫 • 中國網路電子報 2005/4/28 • 台灣電腦網路危機處理暨協調中心(Taiwan Computer Emergency Response Team/coordination Center,TWCERT/CC)昨天與日本等8個國家簽署「漢城─莫爾本反垃圾郵件協定(Seoul-Melbourne An-ti-Spam Agreement)備忘錄」,將共同抵制垃圾郵件的氾濫。 • 包含關於垃圾郵件解決方案的技術、對企業與消費者的教育課程、行動電話垃圾郵件的趨勢與解決方案,以及因遭非法入侵進行網釣、詐騙或傳播有害內容而遭到關閉的系統等相關資訊與經驗。
調查:垃圾郵件內容由“色情暴力”變成“病毒”調查:垃圾郵件內容由“色情暴力”變成“病毒” • 中國經濟網 2005/4/27 • 二00五中國第一次反垃圾郵件狀況調查顯示,具有更大破壞性的垃圾郵件發展迅猛,用戶最討厭的垃圾郵件類別由過去的“色情、暴力”變成“病毒”垃圾郵件。 • 經過中國互聯網協會反垃圾郵件協調小組對垃圾郵件的治理,從二00四年八月到二00五年四月期間,中國的垃圾郵件比例由百分之六十六下降到百分之六十一,用戶平均每周收到的垃圾郵件數量由二十七點八封,下降到十六點八封。 • 調查顯示,在網上公佈過的電子郵箱收到的垃圾郵件(21.18封)是未公佈的電子郵箱(9.7封)的兩倍以上,用戶認為,垃圾郵件主要來源於國內專業垃圾郵件組織和個人,以及郵件地址搜索軟體和群發軟體。 • 在用戶收到的垃圾郵件中,增長量最大的是病毒郵件和提供網路倣冒地址的“釣魚郵件”。這二者的比例由去年的零增加到今年的百分之三十一和二十三。有四分之一的網民認為,由於垃圾郵件的關係,電子郵件將會被即時通訊等工具代替。
Corpus • Private Corpus (Mr. X) • 共49086封 • Ham: 9048封 • Spam: 40048封 • Public Corpus (Spamassassin) • 共6034封 • Ham: 4149封 • Spam: 1885封
Analysis-Contingency Table a: ham (correctly classified) b: spam misclassification c: ham misclassification d: spam (correctly classified) c/(a+c): ham misclassification rate b/(b+d): spam misclassification rate (b+c)/(a+b+c+d): overall misclassification rate (a+d)/(a+b+c+d): : accuracy
Some SPAM filter Performance ROCA: Receiver Operating Characteristic Area