320 likes | 654 Views
MINERAÇÃO DE DADOS. BANCOS DE DADOS NÃO CONVENCIONAIS. BDs NÃO CONVENCIONAIS. BDs de estrutura complexa BDs de Planos BDs Espaciais BDs Multimedia Arquivos flat Web. BDs DE ESTRUTURA COMPLEXA. Aspecto relevante : GENERALIZAÇÃO Generalização de atributos multivalorados :
E N D
MINERAÇÃO DE DADOS BANCOS DE DADOS NÃO CONVENCIONAIS
BDs NÃO CONVENCIONAIS • BDs de estrutura complexa • BDs de Planos • BDs Espaciais • BDs Multimedia • Arquivos flat • Web
BDs DE ESTRUTURA COMPLEXA • Aspecto relevante : GENERALIZAÇÃO • Generalização de atributos multivalorados : • Atributos com conjunto de valores (set-valued data) • Atributos com lista de valores (list-valued data) • Atributos com estruturas aninhadas (nested structured data)
Atributos com conjunto de valores (set-valued data) • Generalização de cada valor do conjunto para hierarquia de nível mais alto ex : alimento = {maçã, uva, couve-flor, cebola, arroz} generalização pode ser {frutas, verduras, cereais} ou • Derivação do comportamento geral do conjunto • Número de elementos, tipos ou intervalos de valores, média para dados numéricos ;
Atributos com lista de valores(list-valued data) • Generalização semelhante à de atributos com conjunto de valores, exceto que a ordem dos elementos deve ser mantida na generalização ; • Uma lista pode ser generalizada excluindo-se os elementos menos importantes ou mantendo apenas o mais importante: ex: Atributo historico_escolar =((Tecnico em contabilidade, Esc.Tecnica, 1990),(Mestrado em Matemática, UFPE, 1994),(Doutorado em Matemática, UFPE, 1998)) ; Manter, por exemplo : (Doutorado em Matemática, UFPE, 1998)
Atributos com estruturas aninhadas (nested structured data) • Um atributo complexo pode conter conjuntos, listas, registros, árvores, e a combinação destes, onde uma estrutura pode estar aninhada em outra. Generalização : 1. Generalizar cada atributo da estrutura e manter o formato da estrutura ; 2. Transformar a estrutura num flat file e generalizá-la a partir daí ; 3. Retornar o tipo da estrutura ;
Generalização em BDs Espaciais • Agregação e aproximação : • Generalização de pontos geográficos em grupos de regiões tais como regiões de negócio, residencial, agricultura ou indústria de acordo com o uso da terra ;
Generalização em BDs Multimidia • Reconhecimento e extração de características essenciais ou padrões gerais ; • Imagem : Tamanho, cor, formato podem ser extraídos por agregação ou aproximação ; • Música : Resumo Melodia => Padrões que ocorrem repetidamente no segmento ; Resumo Estilo => Baseado no tom, tempo ou principais instrumentos tocados ;
GENERALIZAÇÃO Identificadores de Objetos e Classes 1 - O OID é generalizado para o ID da mais baixa subclasse à qual o objeto pertence ; 2 - O ID da subclasse é generalizado para o ID da classe escalando-se um nível acima na hierarquia de classes ; 3 - Similarmente, uma classe pode ser generalizada para sua super-classe correspondente escalando-se um nível acima na hierarquia de classes ;
Mineração de cubos de objetos • Estende-se o Método de Indução Orientado a Atributo , visto em mineração de características em BDs relacionais ; • Aplica-se uma sequência de operadores de generalização baseado em classes ; • Controle do limite da generalização : • Até a classe resultante conter um número pequeno de objetos ; • Por eficiência : • Cada atributo multivalorado de um objeto complexo é generalizado para conter dados simples, univalorados ; • Constrói-se um Cubo de Objetos ; • Problema : • Nem sempre é desejável se generalizar dados multivalorados !
BANCOS DE DADOS DE PLANOS • PLANO : Sequência variada de ações ; • BD de Planos : Coleção de planos ; • Mineração de plano : Tarefa de se minerar conhecimento ou padrões significantes de um BD de Planos .
Exemplo - Plano de vôo Como minerar esta base de planos ?
Mineração da base Passos : (1) Generalizar a Base de planos em diferentes direções usando o modelo multidimensional ; (2) Observar planos generalizados que possuem padrões em comum e sequenciais interessantes com bom suporte ; (3) Derivar planos concisos de alto nível ;
Visão Multidimensional Ex : num_passageiros < 50.000 => categoria = “S” num_passageiros > 50.000 => categoria = “L”
Generalização Multidimensional Daí, podemos encontrar padrões sequenciais genéricos, como : [S] - L+ - [S] [98,5%]
Estratégia dividir pra conquistar • Ao encontrar um padrão genérico com um suporte alto, podemos particionar o plano base em subplanos ; • A partir daí, mineramos cada subsequência para encontrar características em comum ; • Para o exemplo dado, podemos gerar a regra : vôo(x,y) ^ categoria(x,S) ^ categoria(y,L) => região(x) = região(y) [75 %] • O plano base é particionado em subplanos base e características interessantes são descobertas pelo processo de mineração de dados .
BANCOS DE DADOS ESPACIAIS • Armazena grande quantidade de dados relacionados ao espaço : • Imagens médicas • Mapas • Navegação • Controle tráfego aéreo • Armazena informações topológicas e de distância • Desafio em mineração : • Encontrar técnicas eficientes de mineração (grande quantidade de dados , complexidade de tipos e de métodos de acesso)
Construção de D.W. Espacial • Desafios : • Integração de dados de vários sistemas e fontes heterogêneas • Estrutura baseada em vetores, objetos ou relacionais • Fornecedor : Mapinfo, intergraph ... • Realização de OLAP rápido e flexível em DW espacial • Algumas dimensões e medidas possuem comportamento espacial
Cubos de dados espaciais • Três dimensões presentes : • Dimensão não-espacialex: temperatura : 35 a 45 º C --> quente • Dimensão espacial p/ não -espacial ex: Pernambuco --> “região _nordeste” • Dimensão espacial p/ espacial ex : Pernambuco --> Nordeste • Dois tipos de medidas : • Medida numérica • Distributiva: Obtida pela aplicação da função de agregação ex: count() • Algébrica: Obtida pela aplicação da função algébrica ex: avg = sum()/count() • Holística : Não deriva de função algébrica ex: Median() • Medida espacial • ex: Coleção de ponteiros para região de mesma temperatura
DW espacial: BC_weather Esquema estrela :
OPERAÇÕES DE ROLL-UP Por Precipitação Por Temperatura
Computação de medidas espaciais em cubos de dados • Dilema : armazenamento x custo computacional • Armazenamento de ponteiros para objetos sem pré-computação de medidas espaciais • Pré-computação e armazenamento aproximado de medidas espaciais • ex: estimativa de região • um retângulo - MBR (min.bounding rectangle) pode ser visto como uma estimativa grosseira do mapa de uma região • Materialização de porções de cubos que mais se tem acesso • Examinar cada grupo de obj. espaciais que podem sofrer merge
Regras de associação espacial • Forma : A => B [s%,p%] é_uma (X,”escola”)^perto_de(X,”clube”) => perto_de(X,”parque”) [0.5%,80%] • Predicados espaciais : • perto_de , longe_de (relacionado a distância) • intercepta, sobrepõe (relacionado a topologia) • à_esquerda, à_direita, à_oeste (orientação espacial)
Classificação e análise de tendência • Classificação de regiões : • rica x pobre (propriedades associadas a objetos espaciais) ex: possui universidade ? Shoppings ? • Análise de tendência (espacial e temporal) • Mudança de dados (espaciais ou não) com o espaço ex: Distância do oceano muda clima e vegetação • Mudança de padrões com o tempo e espaço ex : Fluxo de tráfego em rodovias e cidades
BDs MULTIMIDIA • Armazenam e gerenciam objetos multimídia, tais como imagem, audio, vídeo, hipertexto • Sistemas de recuperação de similaridades em imagens : • Baseado em descrição : • Manualmente : laborioso • Automaticamente : resultado de baixa qualidade • Ex:palavra-chave, título, tamanho, tempo de criação • Polissemia : uma só forma com mais de um significado • Baseado em conteúdo : • Usa características visuais para indexar imagens e fazer a recuperação baseada em similaridade com outras imagens • Ex: Textura, forma, cor, objetos
MultiMediaMiner • Sistema de mineração de dados multimídia • Imagem : grid 8 x 8 • Cada imagem contém dois descritores : • Descritor de características • Imagem original não é armazenada diretamente no BD, mas nome do arquivo, URL, tipo da imagem, URLs pais • Descritor de layout • Vetor de cores - cor mais frequente em cada uma das 64 células • Vetor de margens - Número de lados em cada uma das células
MultiMediaMiner Dimensões em cubo de dados multimídia :
MultiMediaMiner Thumbnails
Minerando associações Que tipos de associação podem ser mineradas em BDs multimídia ? • Três categorias de associação : • Associação entre conteúdo de imagem e de não-imagem Se 50% da parte superior da imagem é azul então é “céu” • Associação entre conteúdo de imagens não relacionadas ao espaço Se imagem possui dois quadrados azuis então contém círculo vermelho • Associação entre conteúdo de imagens relacionadas ao espaço Se imagem possui um triângulo vermelho entre dois quadrados então contém grande círculo abaixo
Mineração de regras de associações BDs transacionais x BDs multimídia • Refinamento progressivo de resolução : Uma imagem pode conter muitos objetos com características diferentes, tais como cor, forma, textura ... semelhança de características numa resolução baixa podem diferir em uma resolução melhor; • Uma figura contendo dois objetos iguais difere daquela contendo apenas um objeto do mesmo tipo em BDs multimídia. Em BDs transacionais, a pessoa comprar uma ou duas caixas de leite é tratado como o mesmo atributo compra_leite ; • Existem relações espaciais entre objetos multimídia, tais como acima, através de , abaixo, à esquerda ...
Conclusão • A cada dia , mais e mais dados são armazenados de forma complexa, estruturados ou não estruturados, hipertexto e multimídia ; • Mineração de tipos complexos de dados, tais como objetos, dados espaciais, multimídia, dados seriais-temporais, textos e web tem se tornado uma tarefa muito importante ; • Mineração de dados complexos ainda está em fase inicial, e muitos desafios ainda terão de ser superados.
Bibliografia • Han, Jiawei. Kamber, Micheline. Data Mining: Concepts and Techniques - Morgan Kaufmann Publishers. • MultiMediaMiner. Site - http://db.cs.sfu.ca/MMMiner • Bechara, Evanildo. Moderna Gramática Portuguesa - Editora Lucerna / Rj - 2000