1 / 18

Um Agente de Filtragem de Correio Electrónico Indesejado

Um Agente de Filtragem de Correio Electrónico Indesejado. José Campos Edmundo Monteiro Dep. de Informática Dep. de Eng. Informática Escola Sup. Tecnologia de Viseu Universidade de Coimbra E-mail: jcampos@di.estv.ipv.pt E-mail: edmundo@dei.uc.pt . Sumário. Abordagem tradicional

farrah
Download Presentation

Um Agente de Filtragem de Correio Electrónico Indesejado

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Um Agente de Filtragem de Correio Electrónico Indesejado José CamposEdmundo Monteiro Dep. de Informática Dep. de Eng. Informática Escola Sup. Tecnologia de Viseu Universidade de Coimbra E-mail: jcampos@di.estv.ipv.pt E-mail: edmundo@dei.uc.pt CRC ‘98 - 9 e 10 de Novembro de 1998

  2. Sumário • Abordagem tradicional • Abordagem baseada em agentes • Arquitectura do sistema • Concepção do sistema • Implementação • Experiências • Resultados • Conclusões e trabalho futuro CRC ‘98 - 9 e 10 de Novembro de 1998

  3. Abordagem tradicional • Spam: e-mail não solicitado e fraudulento • Programas anti-spam: baseado em regras • Regras: verificação do subject, from, etc. • Os programas anti-spam: • são eficazes, mas... • requerem demasiado empenho do utilizador CRC ‘98 - 9 e 10 de Novembro de 1998

  4. Abordagem baseada em agentes • O que é um agente? • Entidade autónoma • Entidade semi-inteligente • O agente: • analisa mensagens e extrai padrões • classifica mensagens e elimina as indesejadas • Vantagem: Não requer configuração (regras) CRC ‘98 - 9 e 10 de Novembro de 1998

  5. Arquitectura do sistema SMTP Cliente email Mailbox 1 ... Mailbox N máquina local POP3 Agente Anti-Spam Perfil 1 Perfil N ... servidor remoto CRC ‘98 - 9 e 10 de Novembro de 1998

  6. Representação do conhecimento • Mensagens e perfil mapeados em vectores •   proximidade entre mensagem e perfil mensagem perfil  CRC ‘98 - 9 e 10 de Novembro de 1998

  7. Mensagens/Perfil  Vectores HEADERS TERMOS VECTORES PERFIL TEXTO TERMOS VECTOR ATRIBUIÇÃO DE PESOS EXTRACÇÃO DE PALAVRAS RELEVANTES CRC ‘98 - 9 e 10 de Novembro de 1998

  8. Cálculo dos pesos • Pressuposto: os termos mais frequentes são os mais relevantes em que t é um termo D é o documento em análise CRC ‘98 - 9 e 10 de Novembro de 1998

  9. Filtragem de mensagens • Cálculo da semelhança entre mensagem e perfil • A semelhança entre vectores é dada pelo produto escalar • Os vectores devem estar normalizados CRC ‘98 - 9 e 10 de Novembro de 1998

  10. Selecção das mensagens spam • Pela definição de produto escalar  = arcos(S(mensagem, perfil)) • Mensagens boas: deve tender para 90º • Mensagens spam:  deve tender para 0º • Selecção: utilização de threshold (“do-it”) CRC ‘98 - 9 e 10 de Novembro de 1998

  11. Aprendizagem • Perfil inicial vazio • Perfil é enriquecido ao longo do tempo em que P é o perfil M é a mensagens f é o feedback (positivo ou negativo)  é a sensibilidade da aprendizagem CRC ‘98 - 9 e 10 de Novembro de 1998

  12. Implementação • Agente desenvolvido em PERL • Campos considerados: • texto com peso 25% • subject com peso 75% • Threshold “do-it” colocado a 20% (=72º) CRC ‘98 - 9 e 10 de Novembro de 1998

  13. Experiências • Mensagens em quatro categorias CRC ‘98 - 9 e 10 de Novembro de 1998

  14. Treino do agente • Treino: 29 mensagens indesejadas • O agente • errou nas 2 primeiras mensagens da GeoCities • nunca classificou mal uma mensagem pessoal CRC ‘98 - 9 e 10 de Novembro de 1998

  15. Resultados • O agente gerou um perfil com 2226 termos • Top 20: CRC ‘98 - 9 e 10 de Novembro de 1998

  16. Resultados Classificação das mensagens boas CRC ‘98 - 9 e 10 de Novembro de 1998

  17. Resultados Classificação das mensagens indesejadas CRC ‘98 - 9 e 10 de Novembro de 1998

  18. Conclusões e trabalho futuro • Conclusões: • O threshold “do-it” mostrou ser adequado • O mecanismo de aprendizagem, apesar de simples, atingiu os objectivos • O cálculo dos pesos demonstrou ser adequado • Trabalho futuro: • Testar outras alternativas ao cálculo dos pesos • Aumentar o número de experiências • Testar vários perfis diferentes CRC ‘98 - 9 e 10 de Novembro de 1998

More Related