1 / 32

Minera ç ão de Dados

Minera ç ão de Dados. Profa. Sandra de Amo Pós-Graduação em Ciência da Computação Faculdade de Computação Universidade Federal de Uberlândia. Contexto e Motivação. Mineração de dados: Por que ? O que é ? O processo de descoberta de conhecimento

ava-boyle
Download Presentation

Minera ç ão de Dados

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Mineração de Dados Profa. Sandra de Amo Pós-Graduação em Ciência da Computação Faculdade de Computação Universidade Federal de Uberlândia

  2. Contexto e Motivação • Mineração de dados: Por que ? O que é ? • O processo de descoberta de conhecimento • Tarefas de mineração: preditivas, descritivas Mestrado em Ciencia da Computacao 2008

  3. Mineração de Dados: Por que ? Ponto de Vista Comercial • Quantidades gigantescas de dados são coletados e armazenados em empresas, corporações, etc • Dados de comércio eletrônico, • Dados de navegação na internet • Dados de compras de clientes em grandes lojas de departamentos, supermercados, • Dados de transações bancárias, ou de cartão de crédito • Computadores mais baratos e mais potentes • Pressão da Competição Mestrado em Ciencia da Computacao 2008

  4. Mineração de Dados: Por que ? Ponto de Vista Cientifico : Medicina, Biologia, Engenharia • Dados coletados e armazenados a velocidades enormes (GB/hora) • Sensores remotos em satélites • Telescópios • Microarrays gerando dados de expressões de genes • Simulações científicas gerando terabytes de dados. • Técnicas tradicionais não apropriadas para analisar tais dados: • ruídos e grande dimensionalidade Mestrado em Ciencia da Computacao 2008

  5. Mineração de Dados - Por que ? • Frequentemente existe informação “escondida” nos dados que não é evidente de ser encontrada utilizando linguagens de consultas tradicionais. • Analistas humanos podem levar semanas para correlacionar e descobrir alguma informação útil dentro de uma grande massa de dados. • Boa parte dos dados nunca é analisado: “cemitério” de dados. Mestrado em Ciencia da Computacao 2008

  6. Mineração de Dados: Por que ? • Técnicas de Mineração podem ajudar analistas: • Entender e prever as necessidades dos clientes • Descobrir fraudes • Descobrir perfis de comportamento de clientes • Técnicas de Mineração podem ajudar cientistas: • Classificar e segmentar dados • Formular hipóteses Mestrado em Ciencia da Computacao 2008

  7. Mineração de Dados: O que é ? • Não • Fazer uma consulta no Google sobre “Data Mining ” • Procurar um nome numa lista telefônica • Fazer uma consulta SQL a um banco de dados. • Sim • Agrupar documentos similares retornados pelo Google de acordo com seu contexto. • Descobrir se certos nomes aparecem com mais frequência em determinadas regiões da cidade (periferia, centro, bairros abastados,…) Mestrado em Ciencia da Computacao 2008

  8. Exemplos • Qual o perfil do cliente que consome mais ? • Que produtos são comprados conjuntamente ? E em sequência ? • Meu site web tem uma boa estrutura ? • Como as chuvas, variação de temperatura, aplicação de pesticidas afetam as colheitas ? • Existe uma relação entre o aquecimento global e a frequência e intensidade das perturbações no ecossistema tais como secas, furacões, enchentes ? Mestrado em Ciencia da Computacao 2008

  9. Etapas do Processo de KDD • Limpeza dos Dados • Integração dos Dados • Seleção • Transformação • Mineração • Avaliação ou Pós-Processamento • Visualização dos Resultados Mestrado em Ciencia da Computacao 2008

  10. Conhecimento Análise do Resultado Mineração: Etapa central do processo de Descoberta de Conhecimento Mineração Dados Relevantes Seleção Data Warehouse Limpeza Integração dos Dados Banco de Dados Mestrado em Ciencia da Computacao 2008

  11. Tarefas de Mineração Tarefa ato de descobrir um certo tipo de padrão • Regras de Associação • Análise de Sequências • Classificação • Agrupamento • Outliers Mestrado em Ciencia da Computacao 2008

  12. Tarefas de Mineração de Dados • Tarefas Preditivas • predizer o valor de um determinado atributo baseado nos valores de outros atributos Classificação – Predição • Tarefas Descritivas • Derivar « padrões » : correlações, tendências, anomalias, agrupamentos dentro de uma grande massa de dados. Regras de Associação – Padrões Sequenciais – Agrupamentos - Anomalias Mestrado em Ciencia da Computacao 2008

  13. Técnicas de Mineração • Técnicas Estatísticas • Técnicas de Inteligência Artificial • Técnicas de Gerenciamento Eficiente de Grandes Volumes de Dados

  14. O que é Mineração ? • Mineração de Dados • Descoberta de Conhecimento (KDD) • KDD = Knowledge Discovery in Databases Mestrado em Ciencia da Computacao 2008

  15. Sistemas de Mineração • Intelligent Miner (IBM) • DBMiner • Enterprise Miner • Clementine • MineSet • Genamics Expressions Mestrado em Ciencia da Computacao 2008

  16. Tópicos AtuaisMineração de Preferências Sistemas de Recomendação

  17. Resposta Consulta • Quais os pacotes turísticos de menos de 15 dias que você pode me propor em 2011 ?

  18. Minhas Preferências ... • Prefiro estadias mais curtas (menos de duas semanas) do que estadias longas (de duas semanas ou mais). • Prefiro viajar durante as férias de verão. • Para estadias curtas prefiro aquelas nas grandes cidades, pois gosto de ir a museus, bons restaurantes e shows. • Para minhas viagens durante as férias de verão, prefiro viajar para a praia, caso eu viaje com a família. Caso eu viajo sozinho, je prefiro ir para uma cidade histórica.

  19. Problemas a resolver • Como modelar as preferências do usuário ? Usar regras ? Usar scores ? 2. Como obter as preferências do usuário ? 3. Como utilizar as preferências do usuário para “personalizar” as respostas ? 4. Como utilizar as preferências do usuário para “recomendar” produtos (filmes, livros, notícias, pacotes turísticos,...) aos usuários ?

  20. 1) Como modelizar preferências Conjunto de regras

  21. 2) Como obter as preferências do usuário ? • Perguntar ao usuário ? • Mostrar algumas respostas e pedir um feedback do usuário se gostou ou não ? • Utilizar métodos automáticos ? Mineração de Preferências

  22. 3) Como colher as amostras de preferências do usuário Sistema de Amostragem de NOTAS (scores) Sistema de Amostragem de Pares Sistema de Amostragem de Listas Mestrado em Ciencia da Computacao 2008

  23. Exemplo Internet Movie Database Dados Coletados

  24. Pequena amostragem de filmes classificados por um usuário

  25. Comparando dois filmes pela nota dada ...

  26. Temas de Pesquisa • Como “descobrir” as preferências de um usuário a partir de uma amostra de preferências capturada na internet ? • Como “descobrir” as preferências comuns a um perfil de usuários ? • Como utilizar este conhecimento para recomendar produtos para um novo usuário ?

  27. Mineração de Preferências

  28. Pesquisa desenvolvidas no Grupo • CprefMiner (tese de Mestrado) • Otimização de Cprefminer (tese de Mestrado) • Uso de Cprefminer no desenvolvimento de um Sistema de recomendação (tese de Mestrado) • FPSMining e IncFPSMining: Mineração de Preferências em Data streams (tese de Mestrado). • ProfMiner (em colaboração com pesquisadores da Université de Tours (França)

  29. Pesquisa em Desenvolvimento Sistemas de Recomendação Sociais Dinâmicos (Tese de Doutorado) Sistema de Recomendação para Imagens (tese de Mestrado)

  30. Tarefas • Livro Introduction to Data Mining • Capitulo 2: Data • Capitulo 3: Exploring Data • Entrega de Exercicios no dia 14 de Abril • Exercicios 16, 17, 19 e 20, Capitulo 2 • Exercicios 5, 16 e 17, Capitulo 3.

More Related