490 likes | 578 Views
Tópicos de I.A. DATA MINING – MINERAÇÃO DE DADOS Prof. Régis Albuquerque. DATA MINING – MINERAÇÃO DE DADOS INTRODUÇÃO. A evolução da computação possibilitou um aumento na capacidade de processamento e armazenamento de dados.
E N D
Tópicos de I.A. DATA MINING – MINERAÇÃO DE DADOS Prof. Régis Albuquerque
DATA MINING – MINERAÇÃO DE DADOSINTRODUÇÃO • A evolução da computação possibilitou um aumento na capacidade de processamento e armazenamento de dados. • Diante da deficiência para analisar e compreender grande volume de dados. Diversos estudos têm sido direcionados ao desenvolvimento de tecnologias de extração automática de conhecimento de Bases de Dados. • Extração de Conhecimento de Base de Dados (Knowledge Discovery in Database - KDD) • Mineração de Dados (MD).
DATA MINING – MINERAÇÃO DE DADOSINTRODUÇÃO Segundo Figueira(1998), “a tecnlogia tornou relativamente fácil o acúmulo de dados. A consequência é a apliação do uso dos Data Warehouses. Ao mesmo tempo, a informação é valorizada como nunca antes na história, e os dados armazenados nos Data Warehouses são vasculhados por profissionais especializados, a procura de tendências e padrões”. Data Warehouse: Um datawarehouse é um conjunto de dados orientado por assunto, integrado, variável com o tempo, e não-volátil, que fornece suporte ao processo de tomada de decisão do negócio.
DATA MINING – MINERAÇÃO DE DADOSINTRODUÇÃO • Grande disponibilidade de dados armazenados eletronicamente • Existem informações úteis, invisíveis, nesses grandes volumes de dados • Aproveitar para prever um conhecimento futuro (ir além do armazenamento explícito de dados).
DATA MINING – MINERAÇÃO DE DADOSDEFINIÇÃO • Segundo Groth (1998), Data Mining é o processo de descoberta automático de informações. • Para Ávila (1998), Data Mining é uma área de pesquisa da Inteligência Artificial que busca encontrar padrões em bases de dados. Geralmente, considerado como um dos passos no processo de KDD – Knowledge Discovery Database (Descobrimento de Conhecimento em Bases de Dados. • Data Mining é uma tecnologia usada para revelar informação estratégica escondida em grandes massas de dados (KREMER, 1999).
DATA MINING – MINERAÇÃO DE DADOSPOR QUÊ DATAMINING? • Grandes quantidades de dados (bases de dados) • Conhecimento dos mercados / clientes • Sectores muito dependentes da informação • banca, seguros, telecomunicações, retalho • Forte pressãocompetitiva • Vantagemeconómica • Respostasmaisrápidas • Produtividade • Personalizaçãoemmassa • Promoção directa em função das compras • Automação de tarefas /Apoio à decisão • Detecção de fraude
DATA MINING – MINERAÇÃO DE DADOSEXEMPLO Produtos azuis são de alto lucro ou Arizona é um lucro baixo?
DATA MINING – MINERAÇÃO DE DADOSOBJETIVO • O processo de Extração de Conhecimento de Base de Dados tem o objetivo de encontrar conhecimento a partir de um conjunto de dados para ser utilizado em um processo decisório. • Um requisito importante é que esse conhecimento descoberto seja compreensível a humanos, além de útil e interessante para os usuários finais do processo. • Procura de padrões úteis em grandes quantidades de dados • padrão: motivo que se repete com alguma frequência • útil: o padrão deve servir para resolver um problema
DATA MINING – MINERAÇÃO DE DADOSCONCEITOS RELACIONADOS • Dados • Padrões • Processo • Válidos • Novos • Úteis • Compreensíveis • Conhecimento A união desses conceitos define o processo de Mineração de Dados.
DATA MINING – MINERAÇÃO DE DADOSconceitos relacionados - dados • Conjunto de fatos ou casos em um repositório de dados. Por exemplo, os dados correspondem aos valores dos campos de um registro de vendas em uma Base de dados qualquer;
DATA MINING – MINERAÇÃO DE DADOSconceitos relacionados - padrões • Denota alguma abstração de um subconjunto dos dados em alguma linguagem descritiva de conceitos; • Padrões são unidades de informação que se repetem. • A tarefa de localizar padrões não é privilégio da mineração de dados. O cérebro dos seres humanos utiliza-se de processos similares, pois muito do conhecimento que temos em nossa mente é, de certa forma, um processo que depende da localização de padrões EX: ABCXYABCZKABDKCABCTUABEWLABCWO
DATA MINING – MINERAÇÃO DE DADOSconceitos relacionados - processo • A Extração de Conhecimento de Base de Dados envolve diversas etapas como a preparação dos dados, busca por padrões e avaliação do conhecimento;
DATA MINING – MINERAÇÃO DE DADOSconceitos relacionados - válidos • Os padrões descobertos devem possuir algum grau de certeza,ou seja, devem satisfazer funções ou limiares que garantem que os exemplos cobertos e os casos relacionados ao padrão encontrado sejam aceitáveis;
DATA MINING – MINERAÇÃO DE DADOSconceitos relacionados - novos • Um padrão encontrado deve fornecer novas informações sobre os dados. O grau de novidade serve para determinar quão novo ou inédito é um padrão. Pode ser medido por meio de comparações entre as mudanças ocorridas nos dados ou no conhecimento anterior;
DATA MINING – MINERAÇÃO DE DADOSconceitos relacionados - úteis • Os padrões descobertos devem ser incorporados para serem utilizados
DATA MINING – MINERAÇÃO DE DADOSconceitos relacionados - compreensíveis • Um dos objetivos de realizar MD é encontrar padrões descritos em alguma linguagem que pode ser compreendida pelos usuários permitindo uma análise mais profunda dos dados;
DATA MINING – MINERAÇÃO DE DADOSconceitos relacionados - conhecimento • O conhecimento é definido em termos dependentes do dominio que estão relacionados fortemente com medidas de utilildade, originalidade e compreensão
DATA MINING – MINERAÇÃO DE DADOSO PROCESSO DE MINERAÇÃO DE DADOS • Todo o processo de Mineração de Dados é orientado em função de seu conhecimento de aplicação e dos reposotórios de dados inerentes aos mesmos. • Para usar os dados é necessário que estejam estruturados de forma a serem consultados e analisados adequadamente.
EXERCÍCIO - Prático 1 – Construir uma visão em árvore baseado nos dados acima. 2 – Tirar no mínimo duas conclusões apartir dessa visão.
baixo 40 anos médio alto 50 anos M médio médio 60 anos alto 40 anos baixo baixo F 50 anos médio 60 anos médio SEXO IDADE COLESTEROL
Todos os Homens de 50 anos tem o colesterol médio • Todas as Mulheres de 40 anos tem o colesterol baixo
DATA MINING – MINERAÇÃO DE DADOSO PROCESSO DE MINERAÇÃO DE DADOS • Existme diversas abordagens para a divisão das etapas do processo de Extração de Conhecimento de Base de Dados. • Aguns autores dividem o processo em quatro, seis ou nove etapas, dependendo do autor. • Porém existem três grandes etapas: • Pré-processamento, • Extração de Padrões e • Pós-Processamento • O processo de MD é centrado na interação entre as diversas classes de usuários, e o seu sucesso depende, em parte, dessa interação. (Classes: Especialista do Domínio, Analista e Usuário Final)
DATA MINING – MINERAÇÃO DE DADOSO PROCESSO DE MINERAÇÃO DE DADOS
DATA MINING – MINERAÇÃO DE DADOSO PROCESSO DE MINERAÇÃO DE DADOS
DATA MINING – MINERAÇÃO DE DADOSO PROCESSO DE MINERAÇÃO DE DADOS INDENTIFICAÇÃO DO PROBLEMA: • O estudo do domínio da aplicação e a definição de objetivos e metas a serem alcançados no processo de Mineração de Dados são identificados nesta fase. • Questões importantes que devem ser respondidads nesta fase: • Quais são as principais metas do processo? • Quais critérios de desempenho são importantes? • O conhecimento estraído deve ser compreensível a seres humanos ou um modelo do tipo caixa-preta é apropriado? • Qual deve ser a relação entre simplicidade e precisão do conhecimento extraído?
DATA MINING – MINERAÇÃO DE DADOSO PROCESSO DE MINERAÇÃO DE DADOS PRÉ-PROCESSAMENTO: • Normalmente, os dados disponíveis para análise não estão em um formatoa dequado para a Extração de Conhecimento. • Diversas transformações nos dados podem ser executadas nesta etapa: • Extração e Integração; • Transformação; • Limpeza; • Seleção e Redução de Dados
DATA MINING – MINERAÇÃO DE DADOSO PROCESSO DE MINERAÇÃO DE DADOS EXTRAÇÃO DE PADRÕES: • Esta etapa é direcionada ao cumprimento dos objetivos definidos na Identificação do Problema. • É realizada a escolha, a configuração e execução de um ou mais algoritmos para extração de conhecimento. • Compreende a escolha da: • tarefa de Mineração de Dados a ser empregada, • a escolha do algoritmo e • a extração dos padrões propriamente dita.
DATA MINING – MINERAÇÃO DE DADOSO PROCESSO DE MINERAÇÃO DE DADOS PÓS-PROCESSAMENTO: • A obtenção do conhecimento não é o passo final do processo de Extração de Conhecimento de Bases de Dados. • O conhecimento extraído pode ser utilizado na resolução de problemas da vida real. Para isso é importante responder algumas questões aos usuários: • O conhecimento extraído representa o conhecimento do especialista? • De que maneira o conhecimento do especialista difere do conhecimento extraído? • Em que parte o conhecimento do especialista está correto?
DATA MINING – MINERAÇÃO DE DADOSTÉCINCAS E FERRAMENTAS USADAS EM MINERAÇÃO DE DADOS ALGUMAS TÉCNICAS: • Análise Estatística; • Aprendizado de Máquina; • Algoritmos Genéticos; • Clustering; • Lógica Fuzzy; • Regras e Árvores de Decisão; • Redes Neurais.
DATA MINING – MINERAÇÃO DE DADOSTÉCINCAS E FERRAMENTAS USADAS EM MINERAÇÃO DE DADOS ALGUMAS FERRAMENTAS: • Enterprise Miner, ferramenta de data mining do SAS • Microsoft SQL Server, ferramenta originalmente de banco de dados que a cada nova versão tem ganho novas funcionalidades de Business Intelligence. Possui 8 algorítmos na versão do SQL Server 2008 e sua plataforma é extensível para integração de outros algorítmos desenvolvidos. • IlliMine Projeto de mineração de dados escrito em C++. • InfoCodex Aplicação de mineração de dados com uma base de dados linguística. • KDB2000 Uma ferramenta livre em C++ que integra acesso à bases de dados, pre-processamento, técnicas de transformação e um vasto escopo de algoritmos de mineração de dados. • KXEN Ferramenta de mineração de dados comercial, utiliza conceitos do Profesor Vladimir Vapnik como Minimização de Risco Estruturada (Structured Risk Minimization ou SRM) e outros.
DATA MINING – MINERAÇÃO DE DADOSTÉCINCAS E FERRAMENTAS USADAS EM MINERAÇÃO DE DADOS • KNIME Plataforma de mineração de dados aberta que implementa o paradigma de pipelining de dados. Baseada no eclipse • LingPipe API em Java para mineração em textos distribuída com código-fonte. • MDR Ferramenta livre em Java para detecção de interações entre atributos utilizando o método da multifactor dimensionality reduction (MDR). • OrangeTookit livre em Python para mineração de dados e aprendizado de máquina. • Pimiento Um ambiente para mineração em textos baseado em Java. • PolyaAnalyst Ambiente que permite a montagem de fluxos para mineração de dados e texto. • Tanagra Software livre de mineração de dados e estatística. • WEKA Software livre em java para mineração de dados. • Cortex Intelligence Sistema de PLN para mineração de textos aplicado à Inteligência Competitiva
SAS Enterprise Miner • Presente em 110 países, com mais de 40 mil instalações, a SAS no Brasil é o parceiro de negócios líder de mercado na oferta de soluções para a gestão corporativa baseada em inteligência.
IBM Intelligent Miner • O Intelligent Miner, uma poderosa ferramenta para análise de dados integrada. As tradicionais técnicas de mineração de dados (análise de 40 agrupamentos, análise de afinidades, classificação, estimativa e previsão) são suportadas. Adicionalmente, ricos componentes de apresentação estão disponíveis para possibilitar uma análise visual dos resultados.
Oracle Darwin Data Mining Software • poderosa ferramenta de mineração de dados que ajuda a transformar gigantes massas de dados em inteligência corporativa. Darwin ajuda a encontrar padrões significativos e correlações em dados corporativos. Padrões que permitem um melhor entendimento e previsão do comportamento de clientes.