180 likes | 346 Views
스팸 구워먹기. 신재호 <netj@sparcs.kaist.ac.kr> 2004 년 3 월 6 일 토요일 오후 15 시 삼성 SDS 멀티캠퍼스 역삼 902 호. 스팸이란 스팸의 피해 스팸을 왜 스팸을 뿌리려면 스팸을 막자 메일 주소 지키기 열린 메일 서버 규칙 기반 필터 메시지 요약 기반 필터 확률 / 통계 기반 필터. 스팸을 걸러내면서 스팸 관련 법 스팸에 대한 대응들 스팸의 궁극적 해결안 참고 자료. 차례. 스팸이란. 상업 목적을 띤 대량으로 보내는 원치 않는 메일
E N D
스팸 구워먹기 신재호 <netj@sparcs.kaist.ac.kr> 2004년 3월 6일 토요일 오후 15시 삼성SDS 멀티캠퍼스 역삼 902호
스팸이란 스팸의 피해 스팸을 왜 스팸을 뿌리려면 스팸을 막자 메일 주소 지키기 열린 메일 서버 규칙 기반 필터 메시지 요약 기반 필터 확률/통계 기반 필터 스팸을 걸러내면서 스팸 관련 법 스팸에 대한 대응들 스팸의 궁극적 해결안 참고 자료 차례
스팸이란 • 상업 목적을 띤 대량으로 보내는 원치 않는 메일 • SPAM 햄 회사의 지나친 광고에서 명칭 유래 • UCE (Unsolicited Commercial Email) • Bulk Email • Junk Email • 쓰레기 메일 • 상업 목적 외에도 원치 않는 메일을 통틀어 가리킴 • UBE (Unsolicited Bulk/Broadcast Email) • 메일뿐만 아니라 웹 게시판, 뉴스, 메신저 광고도 지칭 • 용어 • 스패머 (spammer) –스팸을 보내는 사람 • 햄 (ham) –스팸과 달리 받기 원하는 메일
스팸의 피해 • 정상적인 메일 사용 방해 • 정신적 피해 • 자원 소모 • 네트워크 대역폭 • 기간망 소통량 증가로 사용 가능 대역폭 감소 • 종량제 인터넷 사용자는 스팸을 받기 위해 사용료 부담 늘어남 • CPU 시간 • 스팸을 줄이기 위해 필터 돌리는데 시간 소요 • 저장 공간 • 중복된 다량의 스팸을 사용자에게 보여주기 위해 공간 낭비 • 윤리적인 문제 • 수신자가 모든 것을 부담
스팸을 왜 • 규모의 경제 • 단가: 10,000 (일만) 원 • 확인률: 2% (50명에 한 명) • 응답률: 1% (100명에 한 명) • 발송량: 10,000,000 (일천만) 개 • 매출: 10,000,000 x 1/50 x 1/100 x 10,000원= 20,000,000 (이천만) 원 • 발송 비용 ≒ 0 • 메일 주소 목록, 발송기도 몇 십만 원 대에서 값싸게 구입 가능 • DSL 망 등 같은 품질 좋고 값싼 인터넷 연결 사용 가능
스팸을 뿌리려면 • 상품, 서비스 또는 사연 • 대량의 메일 주소 • 메일 주소를 모으기 위해 스팸봇 돌리기 • 암거래 시장을 통하여 메일 주소 목록 구매 • 대량의 메시지를 발송할 수 있는 메일 서버 • 메일을 대신 보내줄 열린 메일 서버 • SMTP로 메일을 직접 보낼 수 있는 메일 발송기 • 메일 발송 위한 네트워크 연결 • DSL이나 cable 망 ISP를 통한 연결 • 인내심 • 몇 천만 개의 메일을 오랜 시간과 노력을 들여 발송
메일 주소 지키기 • 스팸봇 (spam-bot) • 검색엔진 로봇처럼 웹을 돌아다니며 메일 주소 수집 • 메일 주소를 숨기는 것이 스팸을 피하는 1차 해법 • 메일 주소 표기 • 메일 주소 망가뜨리기 • netj@sparcs.kaist.ac.kr.nospam • netj _at_ sparcs dot kaist dot ac dot kr • n_e_t_j@sparcs.kaist.ac.kr • 그림 파일, HTML character entity, JavaScript도 이용 • 스팸봇 지옥 / 꿀단지 (honey pot) • 로봇 붙들고 시간 끌기 • 스팸만 모아서 활용하기
열린 메일 서버 • Relay –최종 목적지까지 배달해주는 서비스 • 열린 메일 서버 = 아무나 Relay로 사용 가능한 서버 • 스패머들이 대량의 메일을 보내는 주요 경로 • 과거 메일 서버들(주로 Sendmail)의 기본 설정 • RBL (Real-time Black List) • 스팸이 통과하는 서버들 목록 - 주로 관리되지 않는 열린 서버들 • 메일 수신시 RBL의 서버 통과 여부로 스팸 차단 • 문제점 • 선의의 피해자 –악의적인 사용자로 네트워크 전체 차단 가능 • 효과가 크지 않음 - 끊임없이 네트워크를 옮겨 다니며 발송
규칙 기반 필터 (1/2) • 메시지 헤더나 본문의 내용/생김새 관찰 • 미리 정의한 규칙에 따라 스팸 여부 결정 • 예 • Outlook의 정크메일 필터 • Procmail • SpamAssassin • 문제점 • 변화하는 스팸을 잡기 위해 끊임없이 새 규칙 추가 부담 • 스패머들이 규칙 파악 후 스팸 형태를 바꾸기 쉬움 • 스팸만을 거르기 위한 알맞은 규칙을 만들기 어려움 • 너무 강한 규칙으로 햄까지 걸러낼 위험
규칙 기반 필터 (2/2) • 합법 스팸 거르기 • “[광고]”, “수신거부” 등 법에서 명시한 문구 검사 • 송신 가능 주소 목록 (white-list) • 주소 목록에 등록된 사람들로부터 오는 메시지는 그대로 통과 • 모르는 주소에서 온 메시지는 인증 요청을 자동 회신 • 송신 측은 인증 절차를 통해 주소 목록 추가 후 재송신 • 암호 문구 붙이기 • 제목 등에 암호 문구가 들어있는 메시지만 수신 • 암호 문구는 웹 페이지의 메일 주소 옆에 게시 • 또는 다른 매체를 통해서 연락 받을 상대에게 미리 전달 • 암호를 스패머에게 유출 시 문구 변경 후 개별 연락 또는 보낸이 주소 목록과 함께 사용
메시지 요약 기반 필터 • MD5, SHA1 등 hash 함수로 메시지 본문 요약 • 사람들이 각자 받은 스팸의 digest 값 신고 • 접수된 신고량에 따라 digest 값에 점수 매김 • 새로운 메시지의 digest 값으로 점수 확인하여 스팸 여부 결정 • 사용자의 신뢰도에 따라 점수에 가중치 부여 • 예 • razor • 문제점 • 본문이 조금씩 달라지는 스팸에 속수무책 • 다수 사용자의 횡포로 소수의 언론 통제 우려
확률/통계 기반 필터 (1/2) • 확률/통계의 Bayes 공식 이용 • 계산 어려운 확률을 쉬운 확률을 통해 구함 • 스팸/햄으로 분류한 메시지의 단어 출현 빈도 미리 계산 • 새 메시지의 출현 단어로 스팸일 확률 추론
확률/통계 기반 필터 (2/2) • 자신이 받는 스팸으로 직접 교육하는 맞춤 필터 • 단순한 스팸 필터를 너머 메일 분류기로 사용 가능 • 꾸준한 교육만 수반되면 반영구적 사용 가능 • 예 • Mozilla Mail News, Thunderbird의 정크메일 필터 • Hotmail의 정크메일 필터 • SpamBayes • 문제점 • 햄과 비슷한 내용의 스팸은 걸러내지 못함 • 꾸준한 교육이 필요 • 상대적으로 많이 요구되는 CPU 및 저장 공간
스팸 걸러내면서 • 바이러스 방역 • 메일은 이제 바이러스 유포의 주 통로 • 스팸 필터로 바이러스 메일 차단도 가능 • 수신 못하는 메일 • 필터가 햄을 스팸으로 오인하여 사용자 확인 전에 삭제 가능 • 사용자가 햄까지도 스팸으로 오인 또는 스팸을 지우다가 햄도 함께 섞여서 삭제하는 경우 빈번 • “스팸 필터에 걸렸나 봐요”, “스팸인줄 알고 지웠어요” 등의 새로운 사회 현상 탄생
스팸 관련 법 • 스팸 발송 허용 • 이메일 마케팅 시장을 위한 기업에 대한 배려 • 제목에 문구 표기 요구 • 우리나라 - “광고”, “동의” • 다른 나라 - “ADV”, “ADV:ADLT”, “Advertisement”등 • “수신거부” 방법 제공/안내 요구 • 무법천지 • 조작된 메시지로 인한 스패머의 물리적 추적, 처벌의 어려움 • 스팸은 국가/지역이 아닌 국제/세계 단위의 문제 • 반-스팸 단체들의 주장 • 스팸 법을 아무리 개선해도 스팸은 더 늘어날 뿐 • 사전 수신 동의 없이 보내는 Opt-out 메일 불법화는 필요조건
스팸에 대한 대응들 • 웹 메일, ISP 메일 서비스 • 대량 메일 탐지해서 스팸 처리 • 다음 한메일넷의 온라인 우표제 • 소프트웨어 업체 • 스팸 방지/제거 업체 • 다양한 필터 기법을 활용한 솔루션과 서비스 제공 • 대량메일 발송기 제작자 • 새로운 필터들 무력화 위해 더욱 똑똑한 제품 개발 • Microsoft • 스팸과의 전쟁 선포, 다양한 솔루션 개발 중 • 오픈 소스 • 열린 relay 서버들 보호 지원, 고급 필터 개발, 다양한 실험 • 정부 • 스팸 방지를 위한 다양한 법 제정
스팸의 궁극적 대안 • 스팸의 근본 원인 • 메일 주소 소유자가 수신 제어권 없음 통제권을 만들자 • 발송 유료화 • 메일 발송에도 종량제 도입 • 발송 비용 증가 스패머들의 비용 증가 스팸 감소 • “이메일 = 무료”라는 사람들의 생각이 걸림돌 • 그러나 스패머들은 여전히 우회 경로로 무료/대량 발송이 가능 • 인증제도 • 전자 서명된 메시지 또는 공인된 주소로만 주고 받기 • 또는 인증된 메일 서버들끼리만 메일 주고 받기 • PKI, 공인 주소 목록 구축의 어려움 또는 인증서 발급 비용 발생이 문제 • 또한 기존의 이메일 시스템과 호환 불가능, 전세계적인 협력 필요 • 결론 - 다양한 스팸 필터를 사용하면서 단계적으로 인증체계를 구축
참고 자료 • CAUCE.org – About the Problem • http://www.cauce.org/about/problem.shtml • ACM Queue - The Economics of Spam • http://acmqueue.com/modules.php?name=Content&pa=showpage&pid=108 • computerworld.com - Spam Special Coverage • http://paulgraham.com/antispam.html • Paul Graham's Anti-Spam • http://paulgraham.com/antispam.html • SpamAssassin • http://spambayes.sourceforge.net/ • SpamBayes • http://spambayes.sourceforge.net/ • vipul's razor home • http://razor.sourceforge.net/ • 정보통신부 스팸 메일 방지 가이드 • http://www.mic.go.kr/technology/spam_guide.jsp • Spam Laws • http://www.spamlaws.com/ • 한메일넷의 온라인 우표제 • http://onlinestamp.daum.net/ • 불법스팸대응센터 • http://www.spamcop.or.kr/