180 likes | 275 Views
Um Agente de Filtragem de Correio Electrónico Indesejado. José Campos Edmundo Monteiro Dep. de Informática Dep. de Eng. Informática Escola Sup. Tecnologia de Viseu Universidade de Coimbra E-mail: jcampos@di.estv.ipv.pt E-mail: edmundo@dei.uc.pt . Sumário. Abordagem tradicional
E N D
Um Agente de Filtragem de Correio Electrónico Indesejado José CamposEdmundo Monteiro Dep. de Informática Dep. de Eng. Informática Escola Sup. Tecnologia de Viseu Universidade de Coimbra E-mail: jcampos@di.estv.ipv.pt E-mail: edmundo@dei.uc.pt CRC ‘98 - 9 e 10 de Novembro de 1998
Sumário • Abordagem tradicional • Abordagem baseada em agentes • Arquitectura do sistema • Concepção do sistema • Implementação • Experiências • Resultados • Conclusões e trabalho futuro CRC ‘98 - 9 e 10 de Novembro de 1998
Abordagem tradicional • Spam: e-mail não solicitado e fraudulento • Programas anti-spam: baseado em regras • Regras: verificação do subject, from, etc. • Os programas anti-spam: • são eficazes, mas... • requerem demasiado empenho do utilizador CRC ‘98 - 9 e 10 de Novembro de 1998
Abordagem baseada em agentes • O que é um agente? • Entidade autónoma • Entidade semi-inteligente • O agente: • analisa mensagens e extrai padrões • classifica mensagens e elimina as indesejadas • Vantagem: Não requer configuração (regras) CRC ‘98 - 9 e 10 de Novembro de 1998
Arquitectura do sistema SMTP Cliente email Mailbox 1 ... Mailbox N máquina local POP3 Agente Anti-Spam Perfil 1 Perfil N ... servidor remoto CRC ‘98 - 9 e 10 de Novembro de 1998
Representação do conhecimento • Mensagens e perfil mapeados em vectores • proximidade entre mensagem e perfil mensagem perfil CRC ‘98 - 9 e 10 de Novembro de 1998
Mensagens/Perfil Vectores HEADERS TERMOS VECTORES PERFIL TEXTO TERMOS VECTOR ATRIBUIÇÃO DE PESOS EXTRACÇÃO DE PALAVRAS RELEVANTES CRC ‘98 - 9 e 10 de Novembro de 1998
Cálculo dos pesos • Pressuposto: os termos mais frequentes são os mais relevantes em que t é um termo D é o documento em análise CRC ‘98 - 9 e 10 de Novembro de 1998
Filtragem de mensagens • Cálculo da semelhança entre mensagem e perfil • A semelhança entre vectores é dada pelo produto escalar • Os vectores devem estar normalizados CRC ‘98 - 9 e 10 de Novembro de 1998
Selecção das mensagens spam • Pela definição de produto escalar = arcos(S(mensagem, perfil)) • Mensagens boas: deve tender para 90º • Mensagens spam: deve tender para 0º • Selecção: utilização de threshold (“do-it”) CRC ‘98 - 9 e 10 de Novembro de 1998
Aprendizagem • Perfil inicial vazio • Perfil é enriquecido ao longo do tempo em que P é o perfil M é a mensagens f é o feedback (positivo ou negativo) é a sensibilidade da aprendizagem CRC ‘98 - 9 e 10 de Novembro de 1998
Implementação • Agente desenvolvido em PERL • Campos considerados: • texto com peso 25% • subject com peso 75% • Threshold “do-it” colocado a 20% (=72º) CRC ‘98 - 9 e 10 de Novembro de 1998
Experiências • Mensagens em quatro categorias CRC ‘98 - 9 e 10 de Novembro de 1998
Treino do agente • Treino: 29 mensagens indesejadas • O agente • errou nas 2 primeiras mensagens da GeoCities • nunca classificou mal uma mensagem pessoal CRC ‘98 - 9 e 10 de Novembro de 1998
Resultados • O agente gerou um perfil com 2226 termos • Top 20: CRC ‘98 - 9 e 10 de Novembro de 1998
Resultados Classificação das mensagens boas CRC ‘98 - 9 e 10 de Novembro de 1998
Resultados Classificação das mensagens indesejadas CRC ‘98 - 9 e 10 de Novembro de 1998
Conclusões e trabalho futuro • Conclusões: • O threshold “do-it” mostrou ser adequado • O mecanismo de aprendizagem, apesar de simples, atingiu os objectivos • O cálculo dos pesos demonstrou ser adequado • Trabalho futuro: • Testar outras alternativas ao cálculo dos pesos • Aumentar o número de experiências • Testar vários perfis diferentes CRC ‘98 - 9 e 10 de Novembro de 1998