1 / 52

Descrição de Conceitos Caracterização e Comparação

Descrição de Conceitos Caracterização e Comparação. XXX. Descrição de Conceitos: Caracterização e Comparação. O que é Descrição de Conceitos? Caracterização baseada em generalização e resumo Análise da relevância de atributos Comparação de Classes: Discriminação entre diferentes classes

carrington
Download Presentation

Descrição de Conceitos Caracterização e Comparação

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Descrição de ConceitosCaracterização e Comparação XXX

  2. Descrição de Conceitos: Caracterização e Comparação • O que é Descrição de Conceitos? • Caracterização baseada em generalização e resumo • Análise da relevância de atributos • Comparação de Classes: Discriminação entre diferentes classes • Estatística Descritiva em grandes bases de dados • Discussão

  3. O que é Descrição de Conceitos • Mineração Descritiva versus Mineração Preditiva • Mineração Descritiva: descreve conceitos ou conjuntos de dados relevantes de forma concisa, resumida, informativa, discriminante • Mineração Preditiva: Baseado nos dados constroem-se modelos para a previsão das tendências e das propriedades de dados desconhecidos • Descrição de Conceitos: • Caracterização: fornece um sumário conciso e suscinto da coleção de dados • Comparação: fornece as descrições que comparam duas ou mais coleções dos dados

  4. Descrição de Conceitos vs. OLAP • Descrição de Conceitos: • pode manipular atributos complexos bem como suas agregações • um processo mais automatizado • OLAP: • Restrito a um número pequeno de dimensões e aos atributos de tipo medida • Processo controlado pelo usuário

  5. Descrição de Conceitos: Caracterização e Comparação • O que é Descrição de Conceitos? • Caracterização baseada em generalização e resumo • Análise da relevância de atributos • Comparação de Classes: Discriminação entre diferentes classes • Estatística Descritiva em grandes bases de dados • Discussão

  6. Caracterização baseada em Generalização e Sumário • Generalização • Um processo que abstraia um grande conjunto de dados relevantes em uma base de dados, de níveis conceptuais baixos para mais elevados • Abordagens: • Abordagem Cubo de dados (Abordagem OLAP) • Abordagem indução orientada atributo 1 2 3 4 Níveis conceptuais 5

  7. Caracterização: Abordagem Cubo de Dados • Realiza os cálculos e armazena os resultados em cubos de dados • Vantagens • Implementação eficiente da generalização de dados • Cálculo de vários tipos de medidas • e.g., count( ), sum( ), average( ), max( ) • A generalização e a especialização podem ser executados em um cubo dos dados pelo roll-up e pelo drill-down • Limitações • Manipula apenas dados não numéricos e de medidas de valores agregados numéricos simples. • falta da análise inteligente, não pode dizer que dimensões devem ser usadas e que nível de generalização deve ser alcançado

  8. Indução Atributo-Orientada • Não se restringe a dados categóricos ou a medidas particulares. • Como é feito? • Colete o conjunto de dados relevantes ( relação inicial) a partir de uma interrogação de uma base de dados relacional • Execute a generalização pela remoção de atributo ou pela generalização de atributo. • Aplique a agregação fundindo tuplas generalizadas idênticas e acumule suas contagens respectivas. • Apresentação interativa com usuários.

  9. Exemplo • DMQL: Descreve as característica gerais de estudantes de pós-graduação na base de dados Big-University • useBig_University_DB • mine characteristics as “Science_Students” • in relevance to name, gender, major, birth_place, birth_date, residence, phone#, gpa • fromstudent • wherestatus in “graduate” • Interrogação SQl Correspondente: • Select name, gender, major, birth_place, birth_date, residence, phone#, gpa • from student • where status in {“Msc”, “MBA”, “PhD” }

  10. Princípios Básicos da Indução Atributo-Orientada • Focalização dos Dados: conjunto de dados relevantes, incluindo as dimensões, e o resultado na relação inicial • Remoção de Atributo: remove atributo A se existe um conjunto grande de valores distintos de A mas (1) não há operador de generalização em A, ou (2) Conceitos superiores a A são expressos em termos de outros atributos. • Generalização de Atributos: se existe um conjunto grande de valores distintos de A, e se existe um conjunto de operadores de generalização em A, então selecione um operador e generalize A. • Controle Atributo-Limiar: tipicamente 2-8, especificado/automático. • Controle pelo limiar da relação generalizada: tipicamente 10-30, especificado/automático.

  11. Exemplo RelaçãoInicial RelaçãoGeneralizada

  12. Algoritmo Básico para a Indução Atributo-Orientada • InitialRel: Processamento da interrogação do conjunto de dados relevantes para a obtenção da relação inicial • PreGen: Baseado no número de valores distintos em cada atributo, estabelecer o plano para cada atributo: remoção? ou a que nível generalizar? • PrimeGen: Baseado na etapa PreGen, realizar a generalização no nível correto e obter a “relação generalizada de referência”, acumulando as contagens. • Presentation: Interação com o usuário: (1) ajustar os níveis via drilling, (2) giro, (3) associação à regras, tabelas cruzadas, apresentação visual.

  13. Apresentação dos Resultados da Generalização • Relações Generalizadas: • Relações em que alguns ou todos os atributos são generalizados, com as contagens ou outros agregados acumulados. • Tabelas cruzadas: • Mapear os resultados na forma de tabelas cruzadas. • Técnicas de Visualização: • Gráfico de setores, gráfico de barras, curvas, cubos, etc. • Regras características quantitativas: • Mapear os resultados em regras características com informação quantitativa associada, exemplo,

  14. Apresentação—Relação Generalizada

  15. Apresentação—Tabelas Cruzadas

  16. Descrição de Conceitos: Caracterização e Comparação • O que é Descrição de Conceitos? • Caracterização baseada em generalização e resumo • Análise da relevância de atributos • Comparação de Classes: Discriminação entre diferentes classes • Estatística Descritiva em grandes bases de dados • Discussão

  17. Análise da Relevância de Atributos • Porque? • Que dimensões devem ser incluídas? • Qual nível de generalização? • Automático vs. interativo • Redução do # atributos; mais fácil a compreensão dos padrões • Princípios • Métodos estatísticos para o pré-processamento dos dados • Filtragem dos atributos irrelevantes ou pouco relevantes • Retenção e ordenação dos atributos relevantes • Relevância relacionada as dimensões e aos níveis • Caracterização analítica, comparação analítica

  18. Análise da Relevância de Atributos • Como? • Coleta de Dados • Generalização Analítica • Usar o ganho de informações (ex., entropia ou outras medidas) para identificar dimensões e níveis altamente relevantes. • Análise de Relevância • Ordenar e selecionar as dimensões e níveis mais importantes. • Indução Orientada Atributo para a descrição de classes • Nas dimensões/níveis selecionados

  19. Medidas de Relevância • As medidas de relevância avaliam o poder classificatório de um atributo em um conjunto de dados. • Métodos • Ganho de informação (ID3) • Razão de ganho (C4.5) • Índice de gini • Etc.

  20. Entropia e Ganho de Informação • S contem si tuples da classe Ci for i = {1, …, m} • Informação requerida para classificar qualquer tupla arbitraria • Entropia do atributo A com valores {a1,a2,…,av} • Informação ganha ao ramificar no atributo A

  21. Exemplo: Caracterização Analítica • Tarefa • Minerar características gerais de estudantes de pós-graduação usando caracterização analítica • Dado • atributos name, gender, major, birth_place, birth_date, phone#, e gpa • Gen(ai) = hierarquias de conceito em ai • Ui = limiar analítico de atributo para ai • Ti = limiar para generalização de atributo para ai • R = limiar de relevância de atributo

  22. Exemplo (Cont.) • 1. Coleta de Dados • Classe alvo: estudantes de pós • Classe de contraste: estudantes de graduação • 2. Generalização analítica usando Ui • Remoção de atributos • Remoção de name e phone# • Generalização de atributos • generalização de major, birth_place, birth_date and gpa • Contagens acumuladas • Relação candidata: gender, major, birth_country, age_range and gpa

  23. Exemplo (cont.) Relação candidata para a classe alvo: Estudantes de Pós (=120) Relação candidata para a classe de contraste: Estudantes de graduação (=130)

  24. Exemplo (cont.) Numero de estudantes de pós em “Ciências” Número de estudantes de graduação em “Ciências” • 3. Análise de Relevância • Cálculo da informação requerida para classificar uma tupla arbitrária • Cálculo da entropia de cada atributo: ex. principal

  25. Exemplo (cont.) • Cálculo da informação esperada requerida para classificar uma dada amostra se S for particionado segundo o atributo • Cálculo do ganho de informação para cada atributo • Ganho de informação de todos os atributos

  26. Exemplo (cont.) • 4. Derivação da relação inicial de trabalho (W0) • R = 0.1 • Remoção de atributos irrelevantes ou pouco relevantes da relação candidato => remover gender, birth_country • Remoção da relação candidato classe de contraste • 5. Realizar Indução Orientada Atributo em W0 usando Ti Relação inicial de trabalho da classe alvo W0: Estudantes de pós

  27. Descrição de Conceitos: Caracterização e Comparação • O que é Descrição de Conceitos? • Caracterização baseada em generalização e resumo • Análise da relevância de atributos • Comparação de Classes: Discriminação entre diferentes classes • Estatística Descritiva em grandes bases de dados • Discussão

  28. Mineração da Comparação de Classes • Comparação: Comparação de duas ou mais classes. • Método: • Partição do conjunto de dados relevantes em classe alvo e classe(s) de contraste(s) • Generalize ambas as classes nos mesmos níveis superiores de conceitos • Compare tuplas de mesmo nível superior de descrição • Apresente para cada tupla a sua descrição e duas medidas: • suporte – distribuição na classe isolada • comparação – distribuição entre as classes • Destaques as tuplas com características discriminantes fortes • Análise de Relevância: • Encontre atributos que melhor distinguem diferentes classes.

  29. Exemplo • Tarefa • Comparar estudantes de pós e de graduação usando regras discriminantes. • Interrogação DMQL use Big_University_DB mine comparison as “grad_vs_undergrad_students” in relevance toname, gender, major, birth_place, birth_date, residence, phone#, gpa for “graduate_students” where status in “graduate” versus “undergraduate_students” where status in “undergraduate” analyze count% from student

  30. Exemplo (cont.) • Dado • atributos name, gender, major, birth_place, birth_date, residence, phone# e gpa • Gen(ai) = hierarquias de conceitos nos atributos ai • Ui = limiar analítico de atributo para ai • Ti = limiar para generalização de atributo paraai • R = limiar de relevância de atributo

  31. Exemplo (cont.) • 1. Coleta de dados • Classes alvo e contraste • 2. Análise da Relevância de Atributos • Remoção dos atributos name, gender, major, phone# • 3. Generalização sincronizada • Controlada pelos limiares de dimensão especificados pelo usuário

  32. Exemplo (cont.) Relação Generalizada Para a Classe Alvo: Estudantes de Pós Relação Generalizada para a Classe de Contraste: Estudantes de Graduação

  33. Exemplo (cont.) • 4. Apresentação • Como relações generalizadas, tabelas cruzadas, gráfico de barras, gráfico de setores, ou regras • Medidas de contraste para refletir a comparação entre as classes alvo e de contraste • ex. contagem%

  34. Regras Discriminantes • Cj = Classe alvo • qa = a generalização de uma tupla cobre algumas tupas da classe alvo • Mas também pode cobrir algumas da classe de contraste • d-weight • range: [0, 1] • Forma de uma regra discriminante quantitativa

  35. Exemplo Distribuição de efetivos entre estudantes de pós e de graduação para uma tupla generalizada • Regra discriminante quantitativa • onde 90/(90+120) = 30%

  36. Descrição de uma Classe • Regras características quantitativas • Condição necessária • Regra discriminante quantitativa • Condição suficiente • Regra de descrição quantitativa • Condição necessária e suficiente

  37. Exemplo • Regra de descrição quantitativa para classe alvo Europa Tabela cruzada mostrando t-weight, d-weight e o número total (em milhares) de TVs e computadores vendidos em AllElectronics em 1998

  38. Descrição de Conceitos: Caracterização e Comparação • O que é Descrição de Conceitos? • Caracterização baseada em generalização e resumo • Análise da relevância de atributos • Comparação de Classes: Discriminação entre diferentes classes • Estatística Descritiva em grandes bases de dados • Discussão

  39. Mineração das Características de dispersão dos Dados • Motivação • Para compreender melhor os dados: tendência central, variação e espalhamento • Características de tendência central e de dispersão • Média, mediana, max, min, quantis, variância, etc. • Dimensões numéricas corresponde aos intervalos ordenados • Dispersão dos dados: analisado com múltiplas granularidades de precisão • Análise de Boxplot ou quantl nos intervalos ordenados • Análise de dispersão em medidas calculadas • Análises Boxplot ou quantl no cubo transformado

  40. Medidas de Tendência Central • Media • Média aritmética ponderada • Mediana: medida holística • Valor na posição média se o número de valores é par, ou média dos valores de posição média senão • Estimação via interpolação • Moda • Valor mais frequente nos dados • Unimodal, bimodal, trimodal • Formula empírica:

  41. Medidas de dispersão • Quartis, outliers e boxplots • Quartils: Q1 (25o percentil), Q3 (75o percentil) • Amplitude Inter-quartil: IQR = Q3 –Q1 • Resumo cinco números: min, Q1, Mediana,Q3, max • Boxplot: nas extremidades da caixa estão os quartis, a mediana é a linha central, extremos, e plota individualmente os outliers • Outlier: usualmente, um valor maior/menor do que 1.5 x IQR • Variancia e Desvio-padrão • Variancia s2: (algebraica, cálculo escalável) • Desvio padrão s é a raiz quadrada da variância s2

  42. Análise com Boxplot • Sumário cinco números de uma distribuição: • Mínimo, Q1, Mediana, Q3, Maximo • Boxplot • No inicio e no final da caixa estão o primeiro e o terceiro quartil: a altura da caixa é o IRQ • A mediana é destacada por uma linha dentro da caixa • Extremos: duas linhas fora da caixa destacam o mínimo e o máximo

  43. Um Boxplot Um boxplot

  44. Mineração de medidas de Estatística Descritiva em Grandes Bases de Dados • Variância • Desvio padrão: raiz quadrada da variância • Mede a dispersão em torno da média • É zero se e somente se todos os valores são iguais • Tanto o desvio quanto a variância são algebraicos

  45. Análise de Histograma • Histograma de freqüências • Método gráfico univariado • Consiste em um conjunto de retângulos justapostos que refletem a freqüência das classes presentes nos dados

  46. Diagrama Quantil • Mostra todos os dados (permite ao usuário acessar tanto o comportamento global como as ocorrências não usuais) • Diagrama quantil • Para os xi classificados em ordem crescente, fi indica que aproximadamente 100 fi% dos datas são menores ou iguais a xi

  47. Diagrama Quantil-Quantil (Q-Q) • Mostra os quantis de uma distribuição univariada contra os correspondentes quantis de uma outra • Permite que o usuário veja se há um deslocamento ao ir de uma distribuição a outra

  48. Diagrama de Dispersão • Fornece uma primeira visão de dados bi-variados para identificar clusters de pontos, outliers, etc • Cada par de valores é tratado como um par de coordenadas e desenhado como pontos no plano

  49. Curva de Loess • Adiciona uma curva suave em um diagrama de dispersão para fornecer uma melhor percepção dos padrões de dependência • Uma Curva de Loess é ajustada pelo controle de dois parâmetros: um parâmetro de suavização, e o grau dos polinômios que serão ajustados via regressão

  50. Descrição de Conceitos: Caracterização e Comparação • O que é Descrição de Conceitos? • Caracterização baseada em generalização e resumo • Análise da relevância de atributos • Comparação de Classes: Discriminação entre diferentes classes • Estatística Descritiva em grandes bases de dados • Discussão

More Related