380 likes | 605 Views
Medidas de Interesse. Mineração de Dados Aluno: Thiago José Marques Moura. Roteiro. Definição Medidas de interesse para classificação Medidas de interesse para associação Medidas de interesse para generalização Medidas de interesse genêricas Conclusão. Descrição. 1/3.
E N D
Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura
Roteiro • Definição • Medidas de interesse para classificação • Medidas de interesse para associação • Medidas de interesse para generalização • Medidas de interesse genêricas • Conclusão.
Descrição 1/3 “Um importante problema na área de Data Mining, seria o desenvolvimento de eficientes medidas de interesse para criar um ranking dos conhecimentos descobertos”
Definição • Problema de KDD: medidas de interesse para ordenar conhecimentos descobertos” • Tipicamente inúmeros padrões são gerados,mas poucos são realmente interessantes • Medida de interesse: técnicas para ordenar padrões em ordem de interesse decrescente
Descrição 2/3 “Tipicamente o número de padrões gerados é muito grande, mas somente alguns desses padrões são prováveis de possuir algum interesse para o domínio esperado, quando analisamos os dados”
Descrição 3/3 Para aumentar a utilidade, relevância e o proveito de padrões descobertos, técnicas são requeridas para reduzir o números de padrões que precisam ser considerados. Técnicas que satisfazem esse objetivos são de um modo geral chamadas de MEDIDAS DE INTERESSE.
Base de exemplos • Descrição • Domínio • Atributos
Medidas para classificação • Piats,, • Jnln • Knn • lknl.
Metodo 1 • Formula • explicação
Metodo 1 • Exemplo na base
Método 1: Função de Regra de Interesse de Piatetsky-Shapiro 1/2 -Definição: A função de regra de interesse é usada para qualificar a correlação entre atributos em uma simples regra de classificação.
Método 1: Função de Regra de Interesse de Piatetsky-Shapiro 2/2 -Regra: N - Número total de tuplas |X| e |Y| - Número de tuplas que satisfazem as condições X e Y (respectivamente). |X Y| - Número de tuplas que satisfaz XY. |X||Y|/N – Número de tuplas esperado se X e Y eram independentes.
Método 2: Medida J de Smyth e Goodman 1/2 -Definição: A medida J é a média de informação satisfeita por uma probabilística regra de classificação e é usada para encontrar as melhores regras relacionadas com atributos de valores discretos.
Método 2: Medida J de Smyth e Goodman 2/2 -Regra: -Onde: p(x), p(y) e p(x|y) – são as probabilidades de ocorrência de x, y e x dado y, e o termo entre colchetes é a entropia relativa.
Método 3: Regra de Refinamento de Major e Mangano • -Definição: • É uma estratégia usada para induzir regras de classificação interessantes de um banco de dados de regras de classificação. • Consiste em 3 fases: • - Identificar potencialmente regras de interesse; • - Identificar tecnicamente regras de interesse; • - Remover regras que não são verdadeiramente interessantes.
Método 4: Medidas de Conjunto de Itens de Agrawal e Srikant -Definição: São usadas para identificar ocorrências freqüentes de regras de associação de conjuntos de itens em grandes bancos de dados. ?????????????????????????
Método 5: Templates de Regras de Klemettinen et al. 1/2 -Definição: São usados para descrever um padrão para aqueles atributos que podem aparecer no lado esquerdo ou direito de uma regra de associação.
Método 5: Templates de Regras de Klemettinen et al. 2/2 -Regra: Onde: Cada Ai é um nome de atributo, nome de classe ou uma expressão C+ ou C*, C é o nome da classe. -Templates de Regras podem ser inclusivo ou restritivo.
Método 6: Salvamento Projetado de Matheus e Piatetsky-Shapiro 1/2 -Definição: Salvamento projetado: é a medida que avalia o impacto financeiro do custo de desvios de alguns valores padronizados ou esperados.
Método 6: Salvamento Projetado de Matheus e Piatetsky-Shapiro 2/2 -Regra: PS = PI * SP Onde PI é o impacto projetado e SP é o percentual de salvamento. PI = PD * IF Onde PD é a diferença entre a média corrente do custo e o padronizado ou esperado custo de alguns produtos ou serviços e IF é o fator de impacto.
Método 7: Medidas I de Hamilton e Fudger 1/2 -Definição: São usadas para determinar a importância do conhecimento descoberto, presente na forma de relações generalizadas ou resumidas, baseada sob a estrutura do conceito de hierarquias associadas com os atributos na original relação não generalizada .
Método 7: Medidas I de Hamilton e Fudger 2/2 -Regra: Onde: v é um atributo valor, t(v) é o conceito hierárquico associado com o atributo contendo v,e c(t(v)) é a função que retorna 1 se v é non-ANY, non-leaf, e 0 otherwise. ?????????????????????????????
Método 8: Interesses de Silbershatz e Tuzhilin 1/2 -Definição: Determina a extensão em que a crença de um soft é mudada como um resultado de encontro de novas evidências (ex. conhecimento descoberto).
Método 8: Interesses de Silbershatz e Tuzhilin 2/2 -Regra: Onde: é a crença, E é a nova evidência, é a evidência prévia suportada pela crença , p( | ) é a confidência na crença , e p( |E, ) é a nova confidência na crença dada a nova evidência E. -É usado o teorema de Bayes para determinar uma nova confidência,
Método 9: Interesses Kamber e Shinghal 1/2 -Definição: Determina o interesse das regras de classificação baseadas sob necessidade e suficiência. Existem 2 tipos de regras de classificação: discriminante e característico. Uma regra discriminante, e h, onde e é a evidência e h a hipótese, resumem as condições suficientes para distinguir uma classe da outra.
Método 9: Interesses Kamber e Shinghal 2/2 -Regra Suficiência: -Regra Necessidade:
Método 10: Credibilidade de Hamilton et al. 1/3 -Definição: Determina a extensão com a qual uma classificação prover decisões para todos ou quase todos os possíveis valores de atributos de condições, baseados sob evidências adequadamente suportadas.
Método 10: Credibilidade de Hamilton et al. 2/3 -Regra da Credibilidade: • Onde: • E é uma classe equivalente • C é uma classificação • QE (C) é a qualidade da classificação C • I é o número atual de instâncias que suportam a classe equivalente E • M é o número mínimo de instâncias requeridas por um crédito de classificação • mim(I/M,1) é o fator que assegura o peso proporcional e é associado a classes equivalentes não suportadas por um número adequado de instâncias.
Método 10: Credibilidade de Hamilton et al. 3/3 -Função de Qualidade: Onde: - é o fator de normalização que assegura que QE(C) seja sempre do intervalo [0,1]. -p(E) é a probabilidade de classes equivalentes E. -p(F|E) é a probabilidade condicional de ocorrência do conceito F dado que E ocorreu. -p(F) é a probabilidade do conceito F. Fator de normalização:
Método 11: Distância Métrica de Gago e Bento -Descrição: Mede a distância entre duas regras e é usada para determinar as regras que provêem a mais alta cobertura para os dados mostrados. -Distância Métrica:
Método 12: Interesses de Gray e Orlowska 1/2 -Descrição: É usado para avaliar a força das associações entre os conjuntos de itens de transações. Enquanto suporte e confidência tem sido mostrados para serem úteis para caracterizar regras de associação, interesses contém um componente discriminante que dá uma indicação de independência a um antecedente e conseqüente.
Método 12: Interesses de Gray e Orlowska 2/2 -Interesse: • Onde: • -P(XY) é a confidência • -P(X) x P(Y) é o suporte • - é o discriminante • k e m são parâmetros para o peso da importância relativa do discriminante e suporte a componentes, respectivamente.
Método 13: Interesses de Dong e Li 1/3 -Definição: É usado para avaliar a importância de uma regra de associação considerando ela sem expectativa em termos de outras regras de associação na sua vizinhança. A vizinhança de uma regra de associação consiste de todas as regras de associação em uma dada distância.
Método 13: Interesses de Dong e Li 2/3 -Distância Métrica: • Onde: • R1 = X1 Y1, R2 = X2 Y2, 1, 2 e 3 são parâmetros de peso da importância relativa para todos os 3 termos • é um operador que denota a diferença simétrica entre X e Y. -Vizinhança – R é usada para definir o interesse de uma regra:
Método 13: Interesses de Dong e Li 3/3 -2 tipos de interesses: 1) Confidência inesperada de interesse: 2) Interesse Isolado:
Método 14: Peculiaridade de Zhong et al. 1/2 -Descrição: Peculiaridade é usado para determinar a extensão de um objeto de dado que difere de outros objetos de dados similares. Fator de Peculiaridade: Onde: - xi e xj são atributos valores - n é o número de diferença de atributos valores - N (xi,xj) é a distância conceitual entre xi e xj