520 likes | 653 Views
Descrição de Conceitos Caracterização e Comparação. XXX. Descrição de Conceitos: Caracterização e Comparação. O que é Descrição de Conceitos? Caracterização baseada em generalização e resumo Análise da relevância de atributos Comparação de Classes: Discriminação entre diferentes classes
E N D
Descrição de Conceitos: Caracterização e Comparação • O que é Descrição de Conceitos? • Caracterização baseada em generalização e resumo • Análise da relevância de atributos • Comparação de Classes: Discriminação entre diferentes classes • Estatística Descritiva em grandes bases de dados • Discussão
O que é Descrição de Conceitos • Mineração Descritiva versus Mineração Preditiva • Mineração Descritiva: descreve conceitos ou conjuntos de dados relevantes de forma concisa, resumida, informativa, discriminante • Mineração Preditiva: Baseado nos dados constroem-se modelos para a previsão das tendências e das propriedades de dados desconhecidos • Descrição de Conceitos: • Caracterização: fornece um sumário conciso e suscinto da coleção de dados • Comparação: fornece as descrições que comparam duas ou mais coleções dos dados
Descrição de Conceitos vs. OLAP • Descrição de Conceitos: • pode manipular atributos complexos bem como suas agregações • um processo mais automatizado • OLAP: • Restrito a um número pequeno de dimensões e aos atributos de tipo medida • Processo controlado pelo usuário
Descrição de Conceitos: Caracterização e Comparação • O que é Descrição de Conceitos? • Caracterização baseada em generalização e resumo • Análise da relevância de atributos • Comparação de Classes: Discriminação entre diferentes classes • Estatística Descritiva em grandes bases de dados • Discussão
Caracterização baseada em Generalização e Sumário • Generalização • Um processo que abstraia um grande conjunto de dados relevantes em uma base de dados, de níveis conceptuais baixos para mais elevados • Abordagens: • Abordagem Cubo de dados (Abordagem OLAP) • Abordagem indução orientada atributo 1 2 3 4 Níveis conceptuais 5
Caracterização: Abordagem Cubo de Dados • Realiza os cálculos e armazena os resultados em cubos de dados • Vantagens • Implementação eficiente da generalização de dados • Cálculo de vários tipos de medidas • e.g., count( ), sum( ), average( ), max( ) • A generalização e a especialização podem ser executados em um cubo dos dados pelo roll-up e pelo drill-down • Limitações • Manipula apenas dados não numéricos e de medidas de valores agregados numéricos simples. • falta da análise inteligente, não pode dizer que dimensões devem ser usadas e que nível de generalização deve ser alcançado
Indução Atributo-Orientada • Não se restringe a dados categóricos ou a medidas particulares. • Como é feito? • Colete o conjunto de dados relevantes ( relação inicial) a partir de uma interrogação de uma base de dados relacional • Execute a generalização pela remoção de atributo ou pela generalização de atributo. • Aplique a agregação fundindo tuplas generalizadas idênticas e acumule suas contagens respectivas. • Apresentação interativa com usuários.
Exemplo • DMQL: Descreve as característica gerais de estudantes de pós-graduação na base de dados Big-University • useBig_University_DB • mine characteristics as “Science_Students” • in relevance to name, gender, major, birth_place, birth_date, residence, phone#, gpa • fromstudent • wherestatus in “graduate” • Interrogação SQl Correspondente: • Select name, gender, major, birth_place, birth_date, residence, phone#, gpa • from student • where status in {“Msc”, “MBA”, “PhD” }
Princípios Básicos da Indução Atributo-Orientada • Focalização dos Dados: conjunto de dados relevantes, incluindo as dimensões, e o resultado na relação inicial • Remoção de Atributo: remove atributo A se existe um conjunto grande de valores distintos de A mas (1) não há operador de generalização em A, ou (2) Conceitos superiores a A são expressos em termos de outros atributos. • Generalização de Atributos: se existe um conjunto grande de valores distintos de A, e se existe um conjunto de operadores de generalização em A, então selecione um operador e generalize A. • Controle Atributo-Limiar: tipicamente 2-8, especificado/automático. • Controle pelo limiar da relação generalizada: tipicamente 10-30, especificado/automático.
Exemplo RelaçãoInicial RelaçãoGeneralizada
Algoritmo Básico para a Indução Atributo-Orientada • InitialRel: Processamento da interrogação do conjunto de dados relevantes para a obtenção da relação inicial • PreGen: Baseado no número de valores distintos em cada atributo, estabelecer o plano para cada atributo: remoção? ou a que nível generalizar? • PrimeGen: Baseado na etapa PreGen, realizar a generalização no nível correto e obter a “relação generalizada de referência”, acumulando as contagens. • Presentation: Interação com o usuário: (1) ajustar os níveis via drilling, (2) giro, (3) associação à regras, tabelas cruzadas, apresentação visual.
Apresentação dos Resultados da Generalização • Relações Generalizadas: • Relações em que alguns ou todos os atributos são generalizados, com as contagens ou outros agregados acumulados. • Tabelas cruzadas: • Mapear os resultados na forma de tabelas cruzadas. • Técnicas de Visualização: • Gráfico de setores, gráfico de barras, curvas, cubos, etc. • Regras características quantitativas: • Mapear os resultados em regras características com informação quantitativa associada, exemplo,
Descrição de Conceitos: Caracterização e Comparação • O que é Descrição de Conceitos? • Caracterização baseada em generalização e resumo • Análise da relevância de atributos • Comparação de Classes: Discriminação entre diferentes classes • Estatística Descritiva em grandes bases de dados • Discussão
Análise da Relevância de Atributos • Porque? • Que dimensões devem ser incluídas? • Qual nível de generalização? • Automático vs. interativo • Redução do # atributos; mais fácil a compreensão dos padrões • Princípios • Métodos estatísticos para o pré-processamento dos dados • Filtragem dos atributos irrelevantes ou pouco relevantes • Retenção e ordenação dos atributos relevantes • Relevância relacionada as dimensões e aos níveis • Caracterização analítica, comparação analítica
Análise da Relevância de Atributos • Como? • Coleta de Dados • Generalização Analítica • Usar o ganho de informações (ex., entropia ou outras medidas) para identificar dimensões e níveis altamente relevantes. • Análise de Relevância • Ordenar e selecionar as dimensões e níveis mais importantes. • Indução Orientada Atributo para a descrição de classes • Nas dimensões/níveis selecionados
Medidas de Relevância • As medidas de relevância avaliam o poder classificatório de um atributo em um conjunto de dados. • Métodos • Ganho de informação (ID3) • Razão de ganho (C4.5) • Índice de gini • Etc.
Entropia e Ganho de Informação • S contem si tuples da classe Ci for i = {1, …, m} • Informação requerida para classificar qualquer tupla arbitraria • Entropia do atributo A com valores {a1,a2,…,av} • Informação ganha ao ramificar no atributo A
Exemplo: Caracterização Analítica • Tarefa • Minerar características gerais de estudantes de pós-graduação usando caracterização analítica • Dado • atributos name, gender, major, birth_place, birth_date, phone#, e gpa • Gen(ai) = hierarquias de conceito em ai • Ui = limiar analítico de atributo para ai • Ti = limiar para generalização de atributo para ai • R = limiar de relevância de atributo
Exemplo (Cont.) • 1. Coleta de Dados • Classe alvo: estudantes de pós • Classe de contraste: estudantes de graduação • 2. Generalização analítica usando Ui • Remoção de atributos • Remoção de name e phone# • Generalização de atributos • generalização de major, birth_place, birth_date and gpa • Contagens acumuladas • Relação candidata: gender, major, birth_country, age_range and gpa
Exemplo (cont.) Relação candidata para a classe alvo: Estudantes de Pós (=120) Relação candidata para a classe de contraste: Estudantes de graduação (=130)
Exemplo (cont.) Numero de estudantes de pós em “Ciências” Número de estudantes de graduação em “Ciências” • 3. Análise de Relevância • Cálculo da informação requerida para classificar uma tupla arbitrária • Cálculo da entropia de cada atributo: ex. principal
Exemplo (cont.) • Cálculo da informação esperada requerida para classificar uma dada amostra se S for particionado segundo o atributo • Cálculo do ganho de informação para cada atributo • Ganho de informação de todos os atributos
Exemplo (cont.) • 4. Derivação da relação inicial de trabalho (W0) • R = 0.1 • Remoção de atributos irrelevantes ou pouco relevantes da relação candidato => remover gender, birth_country • Remoção da relação candidato classe de contraste • 5. Realizar Indução Orientada Atributo em W0 usando Ti Relação inicial de trabalho da classe alvo W0: Estudantes de pós
Descrição de Conceitos: Caracterização e Comparação • O que é Descrição de Conceitos? • Caracterização baseada em generalização e resumo • Análise da relevância de atributos • Comparação de Classes: Discriminação entre diferentes classes • Estatística Descritiva em grandes bases de dados • Discussão
Mineração da Comparação de Classes • Comparação: Comparação de duas ou mais classes. • Método: • Partição do conjunto de dados relevantes em classe alvo e classe(s) de contraste(s) • Generalize ambas as classes nos mesmos níveis superiores de conceitos • Compare tuplas de mesmo nível superior de descrição • Apresente para cada tupla a sua descrição e duas medidas: • suporte – distribuição na classe isolada • comparação – distribuição entre as classes • Destaques as tuplas com características discriminantes fortes • Análise de Relevância: • Encontre atributos que melhor distinguem diferentes classes.
Exemplo • Tarefa • Comparar estudantes de pós e de graduação usando regras discriminantes. • Interrogação DMQL use Big_University_DB mine comparison as “grad_vs_undergrad_students” in relevance toname, gender, major, birth_place, birth_date, residence, phone#, gpa for “graduate_students” where status in “graduate” versus “undergraduate_students” where status in “undergraduate” analyze count% from student
Exemplo (cont.) • Dado • atributos name, gender, major, birth_place, birth_date, residence, phone# e gpa • Gen(ai) = hierarquias de conceitos nos atributos ai • Ui = limiar analítico de atributo para ai • Ti = limiar para generalização de atributo paraai • R = limiar de relevância de atributo
Exemplo (cont.) • 1. Coleta de dados • Classes alvo e contraste • 2. Análise da Relevância de Atributos • Remoção dos atributos name, gender, major, phone# • 3. Generalização sincronizada • Controlada pelos limiares de dimensão especificados pelo usuário
Exemplo (cont.) Relação Generalizada Para a Classe Alvo: Estudantes de Pós Relação Generalizada para a Classe de Contraste: Estudantes de Graduação
Exemplo (cont.) • 4. Apresentação • Como relações generalizadas, tabelas cruzadas, gráfico de barras, gráfico de setores, ou regras • Medidas de contraste para refletir a comparação entre as classes alvo e de contraste • ex. contagem%
Regras Discriminantes • Cj = Classe alvo • qa = a generalização de uma tupla cobre algumas tupas da classe alvo • Mas também pode cobrir algumas da classe de contraste • d-weight • range: [0, 1] • Forma de uma regra discriminante quantitativa
Exemplo Distribuição de efetivos entre estudantes de pós e de graduação para uma tupla generalizada • Regra discriminante quantitativa • onde 90/(90+120) = 30%
Descrição de uma Classe • Regras características quantitativas • Condição necessária • Regra discriminante quantitativa • Condição suficiente • Regra de descrição quantitativa • Condição necessária e suficiente
Exemplo • Regra de descrição quantitativa para classe alvo Europa Tabela cruzada mostrando t-weight, d-weight e o número total (em milhares) de TVs e computadores vendidos em AllElectronics em 1998
Descrição de Conceitos: Caracterização e Comparação • O que é Descrição de Conceitos? • Caracterização baseada em generalização e resumo • Análise da relevância de atributos • Comparação de Classes: Discriminação entre diferentes classes • Estatística Descritiva em grandes bases de dados • Discussão
Mineração das Características de dispersão dos Dados • Motivação • Para compreender melhor os dados: tendência central, variação e espalhamento • Características de tendência central e de dispersão • Média, mediana, max, min, quantis, variância, etc. • Dimensões numéricas corresponde aos intervalos ordenados • Dispersão dos dados: analisado com múltiplas granularidades de precisão • Análise de Boxplot ou quantl nos intervalos ordenados • Análise de dispersão em medidas calculadas • Análises Boxplot ou quantl no cubo transformado
Medidas de Tendência Central • Media • Média aritmética ponderada • Mediana: medida holística • Valor na posição média se o número de valores é par, ou média dos valores de posição média senão • Estimação via interpolação • Moda • Valor mais frequente nos dados • Unimodal, bimodal, trimodal • Formula empírica:
Medidas de dispersão • Quartis, outliers e boxplots • Quartils: Q1 (25o percentil), Q3 (75o percentil) • Amplitude Inter-quartil: IQR = Q3 –Q1 • Resumo cinco números: min, Q1, Mediana,Q3, max • Boxplot: nas extremidades da caixa estão os quartis, a mediana é a linha central, extremos, e plota individualmente os outliers • Outlier: usualmente, um valor maior/menor do que 1.5 x IQR • Variancia e Desvio-padrão • Variancia s2: (algebraica, cálculo escalável) • Desvio padrão s é a raiz quadrada da variância s2
Análise com Boxplot • Sumário cinco números de uma distribuição: • Mínimo, Q1, Mediana, Q3, Maximo • Boxplot • No inicio e no final da caixa estão o primeiro e o terceiro quartil: a altura da caixa é o IRQ • A mediana é destacada por uma linha dentro da caixa • Extremos: duas linhas fora da caixa destacam o mínimo e o máximo
Um Boxplot Um boxplot
Mineração de medidas de Estatística Descritiva em Grandes Bases de Dados • Variância • Desvio padrão: raiz quadrada da variância • Mede a dispersão em torno da média • É zero se e somente se todos os valores são iguais • Tanto o desvio quanto a variância são algebraicos
Análise de Histograma • Histograma de freqüências • Método gráfico univariado • Consiste em um conjunto de retângulos justapostos que refletem a freqüência das classes presentes nos dados
Diagrama Quantil • Mostra todos os dados (permite ao usuário acessar tanto o comportamento global como as ocorrências não usuais) • Diagrama quantil • Para os xi classificados em ordem crescente, fi indica que aproximadamente 100 fi% dos datas são menores ou iguais a xi
Diagrama Quantil-Quantil (Q-Q) • Mostra os quantis de uma distribuição univariada contra os correspondentes quantis de uma outra • Permite que o usuário veja se há um deslocamento ao ir de uma distribuição a outra
Diagrama de Dispersão • Fornece uma primeira visão de dados bi-variados para identificar clusters de pontos, outliers, etc • Cada par de valores é tratado como um par de coordenadas e desenhado como pontos no plano
Curva de Loess • Adiciona uma curva suave em um diagrama de dispersão para fornecer uma melhor percepção dos padrões de dependência • Uma Curva de Loess é ajustada pelo controle de dois parâmetros: um parâmetro de suavização, e o grau dos polinômios que serão ajustados via regressão
Descrição de Conceitos: Caracterização e Comparação • O que é Descrição de Conceitos? • Caracterização baseada em generalização e resumo • Análise da relevância de atributos • Comparação de Classes: Discriminação entre diferentes classes • Estatística Descritiva em grandes bases de dados • Discussão