1 / 20

Fast Algorithms for Mining Association Rules

Universidade Federal do Pará Programa de Pós-Graduação em Engenharia Elétrica Fundamentos Matemáticos da Mineração de Dados. Fast Algorithms for Mining Association Rules. Rakesh Agrawal Ramakrishnan Srikant IBM Almaden Research Center.

cher
Download Presentation

Fast Algorithms for Mining Association Rules

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Universidade Federal do Pará Programa de Pós-Graduação em Engenharia Elétrica Fundamentos Matemáticos da Mineração de Dados Fast Algorithms for Mining Association Rules Rakesh Agrawal Ramakrishnan Srikant IBM Almaden Research Center Proceedings of 20th International Conference on Very Large Data Bases, September 12-15, 1994, Santiago de Chile, Chile 1994 Artur Tupiassú Fabíola Oliveira Dezembro/2004

  2. Roteiro da Apresentação • Objetivos dos autores; • Regras de associação; • Mineração de regras de associação; • Algoritmos Apriori , AprioriTid, AprioriHybrid; • Descoberta de Regras; • Experimentos e resultados; • Conclusões.

  3. Objetivos • Apresentação de novos algoritmos para a mineração de regras de associação entre itens em um banco de dados de vendas (basket data); • Realização de experimentos com dados sintéticos ilustrando a performance dos algoritmos.

  4. 400 100 200 300 Regras de Associação Representação: supermercado Itens: banana, disquete, pizza, vinho e queijo. Transações de venda:

  5. Regras de Associação: Representação Formal • I = {i1,i2, … , im } é um conjunto de literais chamados itens; • Ex.:I = {banana, disquete, queijo, vinho, pizza}; • D = {T1,T2, …, Tn} é um conjunto de transações com Ti I; • Ex.: T100 = {banana, disquete, queijo}; • Uma transação T contém um conjunto de itens (Itemset) X se X  T • Ex. T100 X = {banana, disquete};

  6. Regras de Associação:Representação Formal • Umaregra de associação é uma implicação do tipo: X  Y, onde os conjuntos de itens X e Y  I, X  Y = ; • Ex. {banana,disquete}  {queijo,vinho} • A regra X  Y apresenta-se no conjunto de transações D com uma confiançac se c% das transações em D que contém X também contém Y • Ex. {banana,disquete}  {queijo,vinho} Confiança: 1/2 = 50%

  7. Representação Formal • A regra X  Y tem suportes no conjunto de transações D se s% das transações em D contém X  Y • Ex. {banana, disquete}  {queijo, vinho} Suporte: 1/4 = 25%

  8. Mineração de Regras de Associação • Algoritmo Apriori; • Algoritmo AprioriTid; • Algoritmo AprioriHybrid. Itens: banana, disquete, pizza, vinho e queijo.

  9. L1 C2 L2 TC2 database TC1 C3 L3 TC3 Algoritmo AprioriTid:

  10. Descoberta de Regras • Selecionar um k-itemset grande (k > 1); • Gerar todas as regras com 1 item na consequência; • Aplicar o algoritmo para a geração de candidatos (Apriori, AprioriTid) com dois itens na consequência e assim por diante; • Contabilizar a confiança das regras e armazenar aquelas que estivem dentro do limite definido pelo usuário (minconf);

  11. Descoberta de RegrasAlgoritmo Simples • Confiança Mínima Para cada itemset l serão definidos subconjuntos a, gerando regras do tipo: a (l – a) minconf = suporte(l)/suporte(a) Ex. l = QDV e a = QD Regra : QD  V Suporte da regra QDV = 2 Suporte da regra QD = 2 minconf = suporte(QDV)/suporte(QD) = 1(100%)

  12. Descoberta de RegrasAlgoritmo Simples • Se um subconjunto de a de um itemsetl, não gera um regra, então os subconjuntos de a não serão considerados para a geração de regras. Ex. l = ABCD e a = ABC Regra : ABC  D minconf < 50% Regra : AB  CD  Não precisa ser avaliada!

  13. Descoberta de RegrasAlgoritmo Rápido (Fast) • Considerando umitemsetl, se um a regra com consequência c é válida, todas as regras com consequências que são subconjuntos dec (c’) também serão válidas. (l – c) c, então (l – c’)  c’ onde c’ é um subconjunto de c Ex1. Regra : AB  CD l = ABCD e c = CD Regras : ABC  D e ABD  C Serão válidas! • minconf >valor definido como “aceitável”.

  14. Descoberta de RegrasAlgoritmo Rápido (Fast) Ex2. l = ABCDE Regras (minconf) : ACDE  B e ABCE  D Algoritmo Simples • Geração de Regras (ABCDE, ACDE) • ACD  BE, ADE  BC, CDE  BA e ACE  BD • Geração de Regras (ABCDE, ABCE) • ABC  DE, ABE  DC, BCE  DA e ACE  BD  Algoritmo Rápido (Fast) • A única regra gerada (com dois itens na consequência) que vai ser testada é aquela que contém BD. ACE  BD

  15. Experimentos • Ambiente • Workstation IBM RS/6000 530H • Clock 33MHz • 64MB de RAM • 2GB SCSI • AIX 3.2 • Dados sintéticos • Transações de um sistema de vendas • Compra de um conjunto de itens

  16. Experimentos Legenda: T: Tamanho médio das transações I: Tamanho médio do maior itemset D: Número de transações

  17. ExperimentosMail Order

  18. ExperimentosApriori e AprioriTid

  19. ExperimentosAprioriHybrid

  20. Conclusões • Apresentação dos algoritmos Apriori e AprioriTid para descoberta de regras de associação significativas; • Comparação com os algoritmos AIS e SETM; • Combinação do Apriori e AprioriTid, originando um algoritmo híbrido  AprioriHybrid; • Algoritmo Rápido (Fast) para a descoberta de regras de associação válidas.

More Related