320 likes | 422 Views
Minera ç ão de Dados. Profa. Sandra de Amo Pós-Graduação em Ciência da Computação Faculdade de Computação Universidade Federal de Uberlândia. Contexto e Motivação. Mineração de dados: Por que ? O que é ? O processo de descoberta de conhecimento
E N D
Mineração de Dados Profa. Sandra de Amo Pós-Graduação em Ciência da Computação Faculdade de Computação Universidade Federal de Uberlândia
Contexto e Motivação • Mineração de dados: Por que ? O que é ? • O processo de descoberta de conhecimento • Tarefas de mineração: preditivas, descritivas Mestrado em Ciencia da Computacao 2008
Mineração de Dados: Por que ? Ponto de Vista Comercial • Quantidades gigantescas de dados são coletados e armazenados em empresas, corporações, etc • Dados de comércio eletrônico, • Dados de navegação na internet • Dados de compras de clientes em grandes lojas de departamentos, supermercados, • Dados de transações bancárias, ou de cartão de crédito • Computadores mais baratos e mais potentes • Pressão da Competição Mestrado em Ciencia da Computacao 2008
Mineração de Dados: Por que ? Ponto de Vista Cientifico : Medicina, Biologia, Engenharia • Dados coletados e armazenados a velocidades enormes (GB/hora) • Sensores remotos em satélites • Telescópios • Microarrays gerando dados de expressões de genes • Simulações científicas gerando terabytes de dados. • Técnicas tradicionais não apropriadas para analisar tais dados: • ruídos e grande dimensionalidade Mestrado em Ciencia da Computacao 2008
Mineração de Dados - Por que ? • Frequentemente existe informação “escondida” nos dados que não é evidente de ser encontrada utilizando linguagens de consultas tradicionais. • Analistas humanos podem levar semanas para correlacionar e descobrir alguma informação útil dentro de uma grande massa de dados. • Boa parte dos dados nunca é analisado: “cemitério” de dados. Mestrado em Ciencia da Computacao 2008
Mineração de Dados: Por que ? • Técnicas de Mineração podem ajudar analistas: • Entender e prever as necessidades dos clientes • Descobrir fraudes • Descobrir perfis de comportamento de clientes • Técnicas de Mineração podem ajudar cientistas: • Classificar e segmentar dados • Formular hipóteses Mestrado em Ciencia da Computacao 2008
Mineração de Dados: O que é ? • Não • Fazer uma consulta no Google sobre “Data Mining ” • Procurar um nome numa lista telefônica • Fazer uma consulta SQL a um banco de dados. • Sim • Agrupar documentos similares retornados pelo Google de acordo com seu contexto. • Descobrir se certos nomes aparecem com mais frequência em determinadas regiões da cidade (periferia, centro, bairros abastados,…) Mestrado em Ciencia da Computacao 2008
Exemplos • Qual o perfil do cliente que consome mais ? • Que produtos são comprados conjuntamente ? E em sequência ? • Meu site web tem uma boa estrutura ? • Como as chuvas, variação de temperatura, aplicação de pesticidas afetam as colheitas ? • Existe uma relação entre o aquecimento global e a frequência e intensidade das perturbações no ecossistema tais como secas, furacões, enchentes ? Mestrado em Ciencia da Computacao 2008
Etapas do Processo de KDD • Limpeza dos Dados • Integração dos Dados • Seleção • Transformação • Mineração • Avaliação ou Pós-Processamento • Visualização dos Resultados Mestrado em Ciencia da Computacao 2008
Conhecimento Análise do Resultado Mineração: Etapa central do processo de Descoberta de Conhecimento Mineração Dados Relevantes Seleção Data Warehouse Limpeza Integração dos Dados Banco de Dados Mestrado em Ciencia da Computacao 2008
Tarefas de Mineração Tarefa ato de descobrir um certo tipo de padrão • Regras de Associação • Análise de Sequências • Classificação • Agrupamento • Outliers Mestrado em Ciencia da Computacao 2008
Tarefas de Mineração de Dados • Tarefas Preditivas • predizer o valor de um determinado atributo baseado nos valores de outros atributos Classificação – Predição • Tarefas Descritivas • Derivar « padrões » : correlações, tendências, anomalias, agrupamentos dentro de uma grande massa de dados. Regras de Associação – Padrões Sequenciais – Agrupamentos - Anomalias Mestrado em Ciencia da Computacao 2008
Técnicas de Mineração • Técnicas Estatísticas • Técnicas de Inteligência Artificial • Técnicas de Gerenciamento Eficiente de Grandes Volumes de Dados
O que é Mineração ? • Mineração de Dados • Descoberta de Conhecimento (KDD) • KDD = Knowledge Discovery in Databases Mestrado em Ciencia da Computacao 2008
Sistemas de Mineração • Intelligent Miner (IBM) • DBMiner • Enterprise Miner • Clementine • MineSet • Genamics Expressions Mestrado em Ciencia da Computacao 2008
Tópicos AtuaisMineração de Preferências Sistemas de Recomendação
Resposta Consulta • Quais os pacotes turísticos de menos de 15 dias que você pode me propor em 2011 ?
Minhas Preferências ... • Prefiro estadias mais curtas (menos de duas semanas) do que estadias longas (de duas semanas ou mais). • Prefiro viajar durante as férias de verão. • Para estadias curtas prefiro aquelas nas grandes cidades, pois gosto de ir a museus, bons restaurantes e shows. • Para minhas viagens durante as férias de verão, prefiro viajar para a praia, caso eu viaje com a família. Caso eu viajo sozinho, je prefiro ir para uma cidade histórica.
Problemas a resolver • Como modelar as preferências do usuário ? Usar regras ? Usar scores ? 2. Como obter as preferências do usuário ? 3. Como utilizar as preferências do usuário para “personalizar” as respostas ? 4. Como utilizar as preferências do usuário para “recomendar” produtos (filmes, livros, notícias, pacotes turísticos,...) aos usuários ?
1) Como modelizar preferências Conjunto de regras
2) Como obter as preferências do usuário ? • Perguntar ao usuário ? • Mostrar algumas respostas e pedir um feedback do usuário se gostou ou não ? • Utilizar métodos automáticos ? Mineração de Preferências
3) Como colher as amostras de preferências do usuário Sistema de Amostragem de NOTAS (scores) Sistema de Amostragem de Pares Sistema de Amostragem de Listas Mestrado em Ciencia da Computacao 2008
Exemplo Internet Movie Database Dados Coletados
Temas de Pesquisa • Como “descobrir” as preferências de um usuário a partir de uma amostra de preferências capturada na internet ? • Como “descobrir” as preferências comuns a um perfil de usuários ? • Como utilizar este conhecimento para recomendar produtos para um novo usuário ?
Pesquisa desenvolvidas no Grupo • CprefMiner (tese de Mestrado) • Otimização de Cprefminer (tese de Mestrado) • Uso de Cprefminer no desenvolvimento de um Sistema de recomendação (tese de Mestrado) • FPSMining e IncFPSMining: Mineração de Preferências em Data streams (tese de Mestrado). • ProfMiner (em colaboração com pesquisadores da Université de Tours (França)
Pesquisa em Desenvolvimento Sistemas de Recomendação Sociais Dinâmicos (Tese de Doutorado) Sistema de Recomendação para Imagens (tese de Mestrado)
Tarefas • Livro Introduction to Data Mining • Capitulo 2: Data • Capitulo 3: Exploring Data • Entrega de Exercicios no dia 14 de Abril • Exercicios 16, 17, 19 e 20, Capitulo 2 • Exercicios 5, 16 e 17, Capitulo 3.