200 likes | 321 Views
Universidade Federal do Pará Programa de Pós-Graduação em Engenharia Elétrica Fundamentos Matemáticos da Mineração de Dados. Fast Algorithms for Mining Association Rules. Rakesh Agrawal Ramakrishnan Srikant IBM Almaden Research Center.
E N D
Universidade Federal do Pará Programa de Pós-Graduação em Engenharia Elétrica Fundamentos Matemáticos da Mineração de Dados Fast Algorithms for Mining Association Rules Rakesh Agrawal Ramakrishnan Srikant IBM Almaden Research Center Proceedings of 20th International Conference on Very Large Data Bases, September 12-15, 1994, Santiago de Chile, Chile 1994 Artur Tupiassú Fabíola Oliveira Dezembro/2004
Roteiro da Apresentação • Objetivos dos autores; • Regras de associação; • Mineração de regras de associação; • Algoritmos Apriori , AprioriTid, AprioriHybrid; • Descoberta de Regras; • Experimentos e resultados; • Conclusões.
Objetivos • Apresentação de novos algoritmos para a mineração de regras de associação entre itens em um banco de dados de vendas (basket data); • Realização de experimentos com dados sintéticos ilustrando a performance dos algoritmos.
400 100 200 300 Regras de Associação Representação: supermercado Itens: banana, disquete, pizza, vinho e queijo. Transações de venda:
Regras de Associação: Representação Formal • I = {i1,i2, … , im } é um conjunto de literais chamados itens; • Ex.:I = {banana, disquete, queijo, vinho, pizza}; • D = {T1,T2, …, Tn} é um conjunto de transações com Ti I; • Ex.: T100 = {banana, disquete, queijo}; • Uma transação T contém um conjunto de itens (Itemset) X se X T • Ex. T100 X = {banana, disquete};
Regras de Associação:Representação Formal • Umaregra de associação é uma implicação do tipo: X Y, onde os conjuntos de itens X e Y I, X Y = ; • Ex. {banana,disquete} {queijo,vinho} • A regra X Y apresenta-se no conjunto de transações D com uma confiançac se c% das transações em D que contém X também contém Y • Ex. {banana,disquete} {queijo,vinho} Confiança: 1/2 = 50%
Representação Formal • A regra X Y tem suportes no conjunto de transações D se s% das transações em D contém X Y • Ex. {banana, disquete} {queijo, vinho} Suporte: 1/4 = 25%
Mineração de Regras de Associação • Algoritmo Apriori; • Algoritmo AprioriTid; • Algoritmo AprioriHybrid. Itens: banana, disquete, pizza, vinho e queijo.
L1 C2 L2 TC2 database TC1 C3 L3 TC3 Algoritmo AprioriTid:
Descoberta de Regras • Selecionar um k-itemset grande (k > 1); • Gerar todas as regras com 1 item na consequência; • Aplicar o algoritmo para a geração de candidatos (Apriori, AprioriTid) com dois itens na consequência e assim por diante; • Contabilizar a confiança das regras e armazenar aquelas que estivem dentro do limite definido pelo usuário (minconf);
Descoberta de RegrasAlgoritmo Simples • Confiança Mínima Para cada itemset l serão definidos subconjuntos a, gerando regras do tipo: a (l – a) minconf = suporte(l)/suporte(a) Ex. l = QDV e a = QD Regra : QD V Suporte da regra QDV = 2 Suporte da regra QD = 2 minconf = suporte(QDV)/suporte(QD) = 1(100%)
Descoberta de RegrasAlgoritmo Simples • Se um subconjunto de a de um itemsetl, não gera um regra, então os subconjuntos de a não serão considerados para a geração de regras. Ex. l = ABCD e a = ABC Regra : ABC D minconf < 50% Regra : AB CD Não precisa ser avaliada!
Descoberta de RegrasAlgoritmo Rápido (Fast) • Considerando umitemsetl, se um a regra com consequência c é válida, todas as regras com consequências que são subconjuntos dec (c’) também serão válidas. (l – c) c, então (l – c’) c’ onde c’ é um subconjunto de c Ex1. Regra : AB CD l = ABCD e c = CD Regras : ABC D e ABD C Serão válidas! • minconf >valor definido como “aceitável”.
Descoberta de RegrasAlgoritmo Rápido (Fast) Ex2. l = ABCDE Regras (minconf) : ACDE B e ABCE D Algoritmo Simples • Geração de Regras (ABCDE, ACDE) • ACD BE, ADE BC, CDE BA e ACE BD • Geração de Regras (ABCDE, ABCE) • ABC DE, ABE DC, BCE DA e ACE BD Algoritmo Rápido (Fast) • A única regra gerada (com dois itens na consequência) que vai ser testada é aquela que contém BD. ACE BD
Experimentos • Ambiente • Workstation IBM RS/6000 530H • Clock 33MHz • 64MB de RAM • 2GB SCSI • AIX 3.2 • Dados sintéticos • Transações de um sistema de vendas • Compra de um conjunto de itens
Experimentos Legenda: T: Tamanho médio das transações I: Tamanho médio do maior itemset D: Número de transações
Conclusões • Apresentação dos algoritmos Apriori e AprioriTid para descoberta de regras de associação significativas; • Comparação com os algoritmos AIS e SETM; • Combinação do Apriori e AprioriTid, originando um algoritmo híbrido AprioriHybrid; • Algoritmo Rápido (Fast) para a descoberta de regras de associação válidas.