770 likes | 1.03k Views
Técnicas de Mineração de Dados na Agricultura. Palestrante: Raquel Stucchi Boschi. O problema da explosão de dados. Dados, informação e conhecimento. O que é mineração de dados? Estatística versus mineração de dados. O processo de descoberta de conhecimento em banco de dados (KDD).
E N D
Técnicas de Mineração de Dados na Agricultura Palestrante: Raquel Stucchi Boschi
O problema da explosão de dados. Dados, informação e conhecimento. O que é mineração de dados? Estatística versus mineração de dados. O processo de descoberta de conhecimento em banco de dados (KDD). Uma visão geral das tarefas de mineração. Exemplos de aplicação na agricultura. Índice
O Problema da Explosão de Dados Avanços em diversas áreas tecnológicas Crescimento explosivo na capacidade de GERAR, COLETAR E ARMAZENAR dados. Tipos de Dados: Científicos: satélites, sondas, pesquisas... Sociais: censo, estudos de comportamento.... Comerciais e econômicos: transações bancárias, acesso a servidores... Registro Simples!
Somos ricos em dados e pobres em informação e conhecimento. O Problema da Explosão de Dados MOTIVAÇÃO PARA MINERAÇÃO DE DADOS
Dado, Informação e Conhecimento Dados • Algo bruto; é a matéria-prima da qual podemos extrair informação. Operações lógicas Informação • Dado processado, com significado e contexto bem definido. Conhecimento Interpretações • Uso inteligente da informação; é a informação contextualizada e utilizada na prática.
Dados Faturamento de vendas Região NE = R$300 Região SE= R$1.000 Informação Operações lógicas Estabelecimento Parâmetro de comparação Meta= R$300 Meta= R$2.000 Interpretações Conhecimento Ações a implementar, as decisões a tomar.
O que é mineração de dados? Analista Tarefas de Mineração de Dados Conhecimento Dados
O que é mineração de dados? • Processo de identificação de padrões válidos, novos, potencialmente úteis e compreensíveisembutidos em grandes volumes de dados, por meio da aplicação de algoritmos específicos (FAYYAD et al., 1996). • Padrões podem ser: • expressões descrevendo parte dos dados; • modelos aplicáveis aos dados.
Processamento de consultas (“query processing”); Sistemas Especialistas; Pequenos programas para análise estatística. O que não é mineração de dados?
Estatística x Mineração • Número de pontos analisado é pequeno • Número de pontos analisado é muito grande • É baseada em hipótese (rejeita ou aceita) • Atividade exploratória • Uma amostra dos dados é suficiente • Quanto maior a quantidade de dados, melhor.
Qual o maiorconjunto de dados quevocêjáanalisou? Fonte: http://www.kdnuggets.com/
FerramentasmaisutilizadasparaMineração de Dados % usuários 2010 % usuários 2011 Fonte: http://www.kdnuggets.com/
Exemplo 1 DADOS Registros de venda de automóveis das concessionárias de uma determinada marca em todo o país. CONHECIMENTO DESCOBERTO SE(tipo = pick–up)E(sexo = M) E (idade < 28)ENTÃO(acessórios = completo) (85%) DECISÃO Lançar um novo modelo de pick-up com jogo completo de acessórios e cores atrativas a jovens do sexo masculino.
Exemplo 2 DADOS Cadastro de 500 mil clientes de uma loja de roupas. CONHECIMENTO DESCOBERTO • 7% dos clientes são casados; • Faixa etária de 31 a 40 anos; e • Pelo menos 2 filhos. ? Campanha de Marketing Importante: inicialmente não foi elaborada uma consulta para identificar clientes com esses perfis. Mineração é uma atividade EXPLORATÓRIA !
Principais Fases do Processo de KDD Selecionar um conjunto de dados para mineração Dados
Principais Fases do Processo de KDD Identificação/Eliminação de ruídos e dados faltantes Pode consumir 60% ou mais do tempo no processo de KDD Dados
Principais Fases do Processo de KDD • Identificar atributos relevantes, • reduzir variáveis, normalizar valores • de atributos, etc. Dados
Principais Fases do Processo de KDD • Seleção da tarefa adequada e • extração de padrões Dados
Principais Fases do Processo de KDD • Visualização, transformação, • filtro de padrões redundantes, etc.
Novos:os padrões descobertos devem possuir um certo grau de novidade. Úteis:os padrões descobertos devem ter potencial de conduzir a ações com utilidade. Compreensíveis:linguagem compreendida pelos usuários análise mais profunda. Característica de padrões interessantes Padrões interessantes representam CONHECIMENTO
Um padrão é interessante quando atende, de forma global, às qualidades desejadas: Validade; Novidade; Utilidade; Simplicidade. Padrões são dependentes do domínio de aplicação e do usuário!! Um padrão também é interessante quando valida uma hipótese que o usuário pretendia confirmar. Característica de padrões interessantes
Tarefas na Mineração de Dados Envolvem aprendizado com um conjunto de dados para posterior predição do atributo definido como meta. Consistem na identificação de padrões inerentes a determinado banco de dados.
Clusterização • Técnica inicial de exploração; • Identificar um conjunto finito de clusters (agrupamentos); • Os conjunto devem ser: • Mais homogêneo possível dentro de si; • Mais heterogêneo possível em relação a outro conjunto. • Não é necessário identificar os agrupamentos desejados ou os atributos a serem utilizados
Clusterização “Processo para organizar objetos em grupos nos quais seus membros sejam de alguma forma similares”.
Aplicações Gerais • Reconhecimento de padrões; • Análise de dados climáticos; • Agrupamento de pacientes com mesmos sintomas; • Marketing e business: segmentação de mercado; • Web: classificação de documentos; • Uso da terra; • Seguro.
Métodos baseados em particionamento K cluster Banco de dados D Registros Semelhantes • Muitos padrões nos dados Difíceis Interpretação • A “Clusterização” reduz a complexidade dentro de cada “Cluster”. • Algoritmo K-Means
k-means: algoritmo Input: k, D Output: K centróides e os objetos de cada cluster
PASSO 1 • Seleção “arbitrária” de “K” pontos para serem os “Centros de Cluster” Escolha Inicial de “Centros de Cluster”
PASSO 2 • Associar cada registro ao “Centro de Cluster” mais próximo. Atenção a esse Registro! Associação de cada Registro aos “Centros de Cluster”
PASSO 3 • Calcular os novos “Centros de Cluster” • Média das coordenadas de todos os pontos associados a cada “Centro de Cluster” Novos “Centros de Cluster” após 1a. Iteração
PASSO 4 • Associar cada registro aos novos “Centros de Cluster” Associações de Registros aos Novos “Centros de Cluster”
k-means: algoritmo • PROCESSO ITERATIVO • Passos 2, 3 e 4 são repetidos até que não ocorra mais mudanças no conjunto de registros que compõem cada “Cluster” Dist. intracluster Dist. intercluster
k-means: algoritmo • OBSERVAÇÕES: • Normalização dos dados; • Necessidade de especificar k, a priori; • Experimentar vários ke avaliar o conjunto de “Clusters” obtido exceto no caso em que se tem alguma razão a priori para definição do k. • Melhor conjunto de “Clusters” padrão inesperado ações que possam vir a ser um diferencial competitivo.
Classificação • Predição de um valor categórico (atributo meta). • Tentativa de definição de modelos, regras. • conjunto de exemplos pré-classificados corretamente; • posterior classificação de exemplos novos e desconhecidos; • Árvore de decisão técnica mais utilizada!
Classificação • Dado um conjunto de registros (dataset): • Cada registro contém um conjunto de atributos, em que um dos atributos é chamado classe. • O conjunto de dados é dividido em 2 subconjuntos: • conjunto de treinamento para construir o modelo; • conjunto de teste para validar o modelo; • Divisão do dataset: conjunto de treinamento (2/3) e conjunto de teste (1/3)
Classificação – Conjunto de Exemplos Atributos Preditivos Atributo Meta Dataset Conjunto de Treinamento (2/3) Conjunto de Teste (1/3)
Classificação Passo 1: encontrar um modelo para o atributo classe como uma função dos valores dos outros atributos. algoritmo usado Indução Criação do Modelo Modelo Conjunto de Treinamento Aplicação do Modelo Dedução Conjunto de Teste Passo 2: registros não conhecidos devem ser associados à classe com a maior precisão possível.
Exemplo - Árvore de Decisão Aparência nó raiz sol chuva nublado umidade vá ventando ≤78 sim não ≥78 nó folha vá Não_vá Não_vá vá nó folha Figura 3 - Exemplo de uma árvore de decisão (Monard e Baranauuskas, 2005).
Aplicando o modelo ao conjunto teste Aparência Início da raiz da árvore Conjunto de Teste sol chuva nublado umidade vá ventando ≤78 sim não ≥78 vá Não_vá Não_vá vá
Aplicando o modelo ao conjunto teste Início da raiz da árvore Conjunto de Teste Aparência sol chuva nublado umidade vá ventando ≤78 sim não ≥78 vá Não_vá Não_vá vá
Aplicando o modelo ao conjunto teste Início da raiz da árvore Conjunto de Teste Aparência sol chuva nublado umidade vá ventando ≤78 sim não ≥78 vá Não_vá Não_vá vá
Aplicando o modelo ao conjunto teste Início da raiz da árvore Conjunto de Teste Aparência sol chuva nublado umidade vá ventando ≤78 sim não ≥78 vá Não_vá Não_vá vá
Aplicando o modelo ao conjunto teste Início da raiz da árvore Conjunto de Teste Aparência sol chuva nublado umidade vá ventando ≤78 sim não ≥78 vá Não_vá Não_vá vá
Regras de Classificação Antecedente Consequente SE Aparência = sol E umidade ≤78 ENTÃO Classe = vá Cada regra representa um nó folha
Classificação: Aplicações • Diagnóstico médico; • Classificar transações de cartão de crédito como legítima ou fraudulenta; • Avaliar riscos de empréstimos; • Classificação de solos; • Previsão de tempo, etc.
Classificação X Clusterização • Aprendizado supervisionado (classificação) • Conjunto de treinamento com atributo meta com classe pré-definida; • Novas ocorrências são classificadas com base no conjunto de treinamento. • Aprendizado não supervisionado (clusterização) • Não existe classe pré-definida para nenhum dos atributos; • Um conjunto de observações é dado com o propósito de se estabelecer a existência das classes ou clusters.
Relevância no Pré-Processamento • Limpeza dos dados: reduzir os ruídos e valores faltantes (missing). • No mundo real, dados são imperfeitos. • Derivado do próprio processo que gerou os dados; • Derivado do processo de aquisição dos dados; • Derivado do processo de transformação; • Classes rotuladas incorretamente; Ex: Dados de chuva. • Relevância na análise (featureselection) • Remover atributos irrelevantes ou redundantes ( ex: CEP).
Problemas • Prevalência de Classe • Problema com desbalanceamento de classes em conjunto de exemplos Exemplo: distribuição (C1,C2) = (99,75%;0,25%) • Classe Majoritária (ou Prevalente) é C1 • Classe Minoritária é C2 Classificador que classifique novos exemplos como C1 teria uma precisão de 99,75%. E se a Classe C2 fosse, por exemplo, ocorrência de Geada...
Problemas • Overfitting • Classificador Indução muito específica Superajuste dos dados de treinamento • Ruído nos dados; • Excesso de procura. • Bom desempenho no conjunto de treinamento, mas um desempenho ruim em exemplos diferentes.