1.6k likes | 1.73k Views
Prof. Edilson Ferneda (eferneda@pos.ucb.br) ERIN’2010. Agenda CONTEXTUALIZAÇÃO Inteligência Organizacional METODOLOGIAS CRISP-DM Modelagem do conhecimento FERRAMENTAS WEKA APLICAÇÕES xxx. Inteligência Organizacional Aprendizagem Organizacional
E N D
Agenda CONTEXTUALIZAÇÃO Inteligência Organizacional METODOLOGIAS CRISP-DM Modelagem do conhecimento FERRAMENTAS WEKA APLICAÇÕES xxx
Inteligência Organizacional Aprendizagem Organizacional Habilidade de uma empresa aprender e rapidamente traduzirem ações o conhecimento como um meio eficaz de atingir vantagem competitiva O que uma empresa conhece, como usa o que conhece e com que rapidez pode assimilar algo novo Um dos objetivos da Inteligência Organizacional: Melhorar a qualidade da tomada de decisão em todos os níveis da organização, através do aumento do acesso às informações e da redução do problema de sobrecarga de informações.
Inteligência Organizacional Ciclo do conhecimento Decisão Conhecimento Informação Dado Realidade COMPREENSÃO, ANÁLISE, SÍNTESETécnicas de visualização, ... AÇÃO DESCOBERTA DE CONHECIMENTOProjeto de busca de padões, Data Mining, Estatística, ... Potencial de apoio a decisões estratégicas ORGANIZAÇÃO/TRANSFORMAÇÃO/ANÁLISE Data Warehouse, Data Mart, OLAP, consultas, relatórios, ... COLETAPapel, arquivos, bases de dados operacionais, ...
Inteligência Organizacional Contexto de organizações no mundo competitivo(O modelo das 5 forças de Porter)
Inteligência Organizacional Definição “Conjunto de conceitos e metodologias que, fazendo uso de acontecimentos (fatos) e sistemas baseados nesses acontecimentos, apóia a tomada de decisões em negócios” Elementos técnico-organizacionais Database Marketing CRM Balanced Scorecard Data warehousing “BI” DCBD Negócio Gestão InteligênciaOrganizacional Tecnologia daInformação
Inteligência Organizacional Para que sistemas de IO? Database Marketing (“Marketing de precisão”) Ajuda a melhorar os contatos futuros e assegura um planejamento mais realista do marketing Usa canais e meios de comunicação de marketing para: Ampliar a ajuda na busca do público-alvo da empresa Estimular a demanda de seu público Estar perto do público, registrando e mantendo uma memória eletrônica sobre clientes, clientes potenciais, todos os contatos comerciais e de comunicação
InteligênciaOrganizacional Para que sistemas de IO? CRM (CustomerRelationship Management) Estratégia de negócio voltada ao atendimento e à antecipação das necessidades dos clientes atuais e potenciais Envolve ... ... a captura dos dados dos clientes ao longo de toda a empresa ... a consolidação em um banco de dados central ... a análise e distribuição dos resultados da análise para todos os pontos de contato, utilizando as informações ao interagir com os clientes por meio de qualquer ponto de contato com a empresa Engloba ... ... conceitos, métricas, processos, soluções, gestão de canais e estratégias ... ferramentas das áreas de marketing, vendas e serviços
InteligênciaOrganizacional Para que sistemas de IO? BalancedScorecard Sistema de gestão da estratégia a longo prazo Busca traduzir a missão e a estratégia das organizações num conjunto abrangente de desempenho como base para um sistema de medição e gestão estratégica Empresas podem adotar esta metodologia para ... Esclarecer e obter consenso em relação à estratégia Comunicar a estratégia a toda a organização Alinhar as metas departamentais e pessoais à estratégia corporativa Associar objetivos estratégicos metas de longo prazo orçamentos anuais Identificar e alinhar as iniciativas estratégicas Realizar revisões estratégicas periódicas e sistemáticas Obter feedback p/aprofundar o conhecimento da estratégia e aperfeiçoá-la
Inteligência Organizacional Sistemas de Suporte à Decisão Problema: Explosão de dados Ferramentas automáticas de coleta de dados e tecnologia madura de armazenamento acarretam o surgimento de grandes bancos de dados e outros repositórios de informação “Estamos nos afogando em dados, mas carentes de conhecimento!” Excesso de dados nas Organizações • Disseminação de sistemas de informação (aplicações) • Eficiência para coletar e armazenar grandes volumes de dados Sistemas de Suporte à Decisão Dificuldade de se extrair informações táticas e estratégicas e se obter conhecimento dos negócios
Inteligência Organizacional Sistemas de Suporte à Decisão ... necessitam de informação / conhecimento (Análises, Diagnósticos, Recomendações, Ações realizadas / em curso, ...) Devem extrair e integrar dados de múltiplas fontes Servem-se da experiência para analisar dados contextualizados Trabalham com hipóteses (criação de cenários) Procuram relações de causa/efeito Transformam os registros obtidos em informação útil para o conhecimento empresarial
Inteligência Organizacional Onde está o conhecimento das Organizações? Conhecimento refere-se à habilidade de criar um modelo mental que descreva objetos e indique ações a realizar Conhecimento tácito, segundo a gestão do conhecimento, Está nas pessoas (Experiências, casos, rotinas, observações, requisitos, códigos, especificações, mensagens, ...) Não permite representação Difícil de explicar e se elicitar Se torna dados e informação quando assume forma explícita Conhecimento explícito (“informação”) Bases de Dados, documentos, correspondências, arquivos, livros, filmes, textos, planilhas, ..
Inteligência Organizacional Onde está o conhecimento das Organizações? Conhecimento na IA IA busca viabilizar a transferência desses processos para sistemas capazes de simular o processo de decisão do ser humano Representação do conhecimento Simbólica (Frames, Redes Semânticas, Ontologias, Regras de Produção, Árvores de Decisão, ...) Conexionista (Redes Neurais Artificiais) Métodos de aprendizagem Agrupamento - Clustering (Não supervisionados) Classificação (Supervisionados) Associação ... if ... then ...
Inteligência Organizacional • Explicitação do conhecimento • “Processo de articulação do conhecimento tácito em conceitos explícitos. O tácito se torna explícito expresso na forma de metáforas, analogias, conceitos, hipóteses ou modelos.” (Nonaka & Takeuchi) • Engenharia do conhecimento • CommonKADS • Descoberta de conhecimento(Reconhecimento de padrões) • Fayyad CRISP-DM Elicitação de“conhecimento”
CRISP-DM • Introdução • CRISP-DM = Cross Industry Standard Process for Data Mining • Projeto que padroniza conceitos e técnicas na busca de informações em banco de dados • Surgiu a partir da experiência de três empresas pioneiras no setor (1996): • DaimlerChrysler - Aplica análises de data mining em seus negócios • NCR - Provê soluções de datawarehouse • SPSS - Disponibiliza soluções baseadas no processo de mineração de dados • Padroniza os passos do processo de descoberta de conhecimento e sua aplicação em diferentes mercados, independente do segmento • Agiliza grandes projetos de DCBD, com mais eficiência e com menor custo • Pode ser usada por qualquer analista de informações, tendo como base qualquer software de DM • Manual disponível em www.crisp-dm.org
CRISP-DM • Fases • Compreensão do problema • Compreensão dos dados • Preparação dos dados • Modelagem • Avaliação • Aplicação (Deployment)
CRISP-DM • Compreensão do problema 1.1 - Objetivos do negócio • Plano de fundo • Objetivos do negócio • Critério de sucesso do negócio 1.2 - Avaliação da situação • Inventário de recursos • Exigências, suposições e limitações • Riscos e contingências • Terminologia • Custos e benefícios 1.3 - Objetivos do data mining (DCBD) • Objetivos do data mining • Critério do sucesso do data mining 1.4 - Plano de projeto • Plano de projeto • Avaliação inicial de ferramentas e técnicas
CRISP-DM • Entendimento dos dados 2.1 - Coleta inicial dos dados • Relatório da coleta inicial dos dados 2.2 - Descrição dos dados • Relatório da descrição dos dados 2.3 - Exploração de dados • Relatos da exploração de dados 2.4 - Verificação da qualidade dos dados • Relatório de qualidade dos dados
CRISP-DM • Preparação dos dados 3.1 - Seleção dos dados • Racionalização para inclusão/exclusão 3.2 - Limpeza dos dados • Relatório da limpeza de dados 3.3 -Construção dos dados • Atributos derivados • Registros gerados 3.4 - Integração dos dados • Dados combinados 3.5 - Formatação dos dados • Dados reformatados
CRISP-DM • Modelagem 4.1 - Seleção da técnica de modelagem • Técnica de modelagem 4.2 - Geração do design de teste • Design de teste 4.3 - Construção do modelo • Ajustes de parâmetros • Modelos • Descrição dos modelos 4.4 - Avaliação do modelo (Acurácia e generalidade do modelo) • Avaliação do modelo (Validação cruzada, taxas de erro, etc) • Avaliação do modelo revisado
CRISP-DM • Avaliação do modelo 5.1 - Avaliar resultados • Avaliação dos resultados do data mining a respeito dos critérios do sucesso do negócio • Modelos aprovados 5.2 - Processo de revisão • Revisão do processo 5.3 - Determinação dos próximos passos • Lista das ações possíveis • Decisão
CRISP-DM • Aplicação (Deployment) 6.1 - Planejamento da implantação • Plano de implantação 6.2 - Planejamento do monitoramento e manutenção • Plano de monitoramento e manutenção 6.3 - Produção do relatório final • Relatório final • Apresentação final 6.4 - Revisão o projeto • Documentação de experiências • Exemplos: • Estruturação de Call Center com televendas • Marketing de precisão baseado em segmentação de mercado • Refinamento de perfis de clientes • Combate a fraudes (cartões de crédito, TRE, TCU, CGU, etc). • Gestão epidemiológica • Gestão de Ciência & Tecnologia • Avaliação do cumprimento de objetivos
Base de Conhecimento IF ... THEN ... IF ... THEN ... IF ... THEN ... IF ... THEN ... Modelagem do conhecimento • Objetivo: construção de uma “base de conhecimento” ...
Modelagem do conhecimento ... no contexto organizacional Base de Conhecimento INTERNET Engenharia do Conhecimento Reconhecimento de Padrões InteligênciaCompetitiva Benchmarking, Monitoramento, Head-hunting, ... Coleta/Busca, Captura, ... Método empírico Código de sistemas IO Bases de dados Regras de negócio Casos Requisitos GC Filmes Rotinas Textos Livros Método analítico Planilhas e-mail Especificações Sistemas de Suporte à Decisão Documentos Gravações Experiências Observações OLAP Data Mart DW
Modelagem do conhecimento Data Mining Utiliza técnicas sofisticadas de análise estatística e modelagem (aprendizagem de máquina) para descobrir padrões e relações escondidas nas bases de dados das organizações Padrões que métodos tradicionais não encontrariam! Padrões encontrados pela construção de modelos (representações abstratas da realidade) Um bom modelo ajuda a compreender um negócio e sugere ações que podem ajudar uma organização a ter sucesso É um processo iterativo!
Modelagem do conhecimento Data Mining Treino (estimativa) do modelo com um conjunto dos dados Teste com os dados restantes Às vezes, é preciso uma validação com um terceiro grupo de dados (grupo de validação) Dados de teste podem ser um fatores de influência no modelo Grupo de validação atua como uma medida independente da precisão do modelo A precisão resultante é uma boa estimativa para como o modelo se irá comportar com futuras bases de dados Isto não garante que o modelo está correto! Se mesma técnica fosse utilizada numa sucessão de bases com dados semelhantes aos de treino e teste, a precisão média estaria próxima à obtida desta forma Por melhor que seja a precisão, não há garantia de que o modelo reflita de fato o mundo real Existem sempre circunstâncias que podem levar a modelos incorretos Treinamento Teste Treino Modelo Mineração BD1 BD2 BD3 Ac1 BD BD1 BD3 Ac BD2 Ac2 Teste Teste BD2 BD3 BD1 Ac3 Acurácia
Modelagem do conhecimento Data Mining Tecnologias de suporte if ... then ... Conhecimento Informação DM DM OLAP DW Dado
Modelagem do conhecimento Data Mining O que Data Miningpode fazer Data Mining permite Confirmar relações empíricas Descobrir padrões novos e úteis Pode trazer melhoria de desempenho, se comparado com os que não utilizam eficientemente estas técnicas Às vezes, descobre-se fatos que podem conduzir a melhorias radicais no negócio! O que Data MiningNÃOpode fazer Não se pode prescindir de conhecer o negócio, compreender os dados disponíveis ou de compreender os métodos analíticos Ajuda a encontrar padrões nos dados, mas nada diz sobre seu valor para a organização! Os padrões encontrados devem ser verificados no mundo real! É conveniente que se compreenda o funcionamento das ferramentas escolhidas e os algoritmos em que se baseiam! Não encontra respostas a perguntas que não se fez – deve-se saber a priori o tipo de padrão que se procura Não substitui analistas e gestores de negócio, mas lhes oferece uma poderosa ferramenta para melhorarem o seu trabalho!
Modelagem do conhecimento Data Mining Modelos preditivos Utilizam dados com resultados conhecidos para desenvolver um modelo que possa ser utilizado para prever valores para diferentes dados Fazem uma previsão explícita Modelos descritivos Descrevem padrões em dados existentes, que podem ser utilizados para guiar decisões Podem ser utilizados para ajudar a construir um modelo preditivo ou para fazer uma previsão implícita quando formam a base para uma ação ou decisão Data Mining Atividades preditivas Atividades descritivas Classificação Sériestemporais Regressão Regras de associação Clustering Sumarização
Modelagem do conhecimento Atividades preditivas Classificação É preciso identificar as características ou casos que indicam a que grupo cada caso pertence Utilizado para compreender os dados existentes e para prever a classe de novas instâncias (variável discreta) Os modelos de classificação são criados examinando dados previamente classificados (casos) e ajustando-se o modelo em construção para mapear o padrão preditivo Os casos existentes podem derivar de uma base de dados histórica ou de uma experiência em que uma amostra de uma base de dados é testada no mundo real Regressão Funciona como a classificação, tendo como saída um valor numérico (variável contínua) No caso mais simples, utilizam-se técnicas estatísticas padrão, como regressão linear No entanto, a maioria dos problemas reais não são projeções lineares, demandando métodos mais sofisticados (geração de modelos não lineares) Séries temporais Baseia-se na evolução temporal para, dados valores referentes a um determinado momento, prever valores em momentos futuros Consideram-se propriedades temporais diferenciadoras, como sazonalidade, efeitos do calendário (feriados), ...
Modelagem do conhecimento Atividades descritivas Agrupamento (Clustering) Divide a base de dados em grupos diferentes Encontrar grupos diferentes cujos membros são aparentemente semelhantes Ao contrário da classificação, não há uma variável que identifique os grupos, ou por quais atributos os dados serão agrupados Os grupos devem ser analisados por alguém que conheça muito bem o negócio Associações Identifica co-ocorrência de valores que caracterizam os casos Por exemplo, itens que, com frequência, aparecem juntos em compras de supermercado Descobrem regras do tipo: Se o item A é parte de um evento, então em x% das vezes (fator de confiança) o item B também é parte do evento Sequenciamento Funciona como a associação, mas os itens relacionados ocorrem em tempos diferentes Para se encontrar seqüências, além da captura dos detalhes de cada transação, é preciso garantir a a origem única de cada sequência Por exemplo, em análise de logs, é preciso associar cada clickstream a um único ator
Modelagem do conhecimento Técnicas Análise Estatística Árvores de Decisão (ID3 e suas derivações, ...) Redes Neurais (MLP, ...) Agrupamento (K-médias, ...) Associação (Apriori, ...) ...
Modelagem do conhecimento Técnicas Estatística Estuda a coleta, organização e interpretação de dados numéricos Assim como Data Mining, tenta encontrar padrões e regularidades nos dados Data Mining se serve da Estatística para descoberta de padrões, cálculo de aproximações, médias, taxas de erro e desvios Técnicas estatísticas mais utilizadas Técnicas baseadas em modelos lineares e não-lineares Amostragem Avaliação de hipóteses e do conhecimento obtido Modelo bayesiano Análise multivariada
Modelagem do conhecimento Técnicas Classificação CONHECIMENTODO DOMÍNIO CONHECIMENTODO DOMÍNIO Especialista Variável dependente (classe) Variáveis independentes (atributos) Classificador Especificação do problema Aprendizado de máquina Dados brutos Avaliação
Modelagem do conhecimento Técnicas Árvores de Decisão • Neste caso, o diagrama de retângulos é a representação mais adequada para se visualizar a partição do espaço de características gerada pela árvore de decisão • Todos os pontos dentro de um retângulo são classificados da mesma forma, pois todos satisfazem a regra que define o retângulo o Dívida R6 R4 o o R1 o o 20000 o o o o x x o 10000 x R3 o x x x o x x 100 o o o R5 R2 1000 10000 Renda R1: Se R 1000 EntãoNão rentável R2: Se 1000 < R < 10.000 E D 100 EntãoNão rentável R3: Se 1000 < R < 10.000 E 100 < D < 10.000 EntãoRentável R4: Se 1000 < R < 10.000 E D 10.000 EntãoNão rentável R5: Se R 10.000 E D < 20.000 EntãoRentável R6: Se R 10.000 E D 20.000 EntãoNão rentável
Modelagem do conhecimento Técnicas Árvores de Decisão X2 X1 a3 X2 X2 X1 a2 a4 a1 X1 Raiz <a1 >a1 Regra Nó <a2 >a2 <a3 >a3 <a4 >a4
Modelagem do conhecimento Técnicas Árvores de Decisão Árvore “pensada”
Modelagem do conhecimento Técnicas Árvores de Decisão Ganho de informação Sono Transporte UCB Álcool Sair Fome Vai pra balada? E1 Pouco Carro Sim Sim Não Sim Sim E7 Pouco Carro Sim Não Sim Sim Sim E11 Não Carro Não Sim Sim Sim Sim E3 Sim Carro Não Sim Sim Sim Não E9 Sim Carro Não Sim Sim Não Não E2 Pouco Carona Não Não Sim Sim Sim E4 Pouco Carona Não Não Sim Não Sim E12 Não Carona Não Sim Sim Sim Sim E8 Pouco Carona Não Não Não Sim Não E10 Não Outros Sim Sim Sim Não Sim E5 Sim Outros Sim Sim Sim Não Não E6 Pouco Outros Não Sim Não Sim Não Transporte? carro carona outros +: {E1, E7, E11} –: {E3, E9} +: {E2, E4, E12} –: {E8} +: {E10} –: {E5, E6}
Modelagem do conhecimento Técnicas Árvores de Decisão Ganho de informação Sono Transporte UCB Álcool Sair Fome Vai pra balada? E1 Pouco Carro Sim Sim Não Sim Sim E2 Pouco Carona Não Não Sim Sim Sim E4 Pouco Carona Não Não Sim Não Sim E7 Pouco Carro Sim Não Sim Sim Sim E6 Pouco Outros Não Sim Não Sim Não E8 Pouco Carona Não Não Não Sim Não E3 Sim Carro Não Sim Sim Sim Não E5 Sim Outros Sim Sim Sim Não Não E9 Sim Carro Não Sim Sim Não Não E10 Não Outros Sim Sim Sim Não Sim E11 Não Carro Não Sim Sim Sim Sim E12 Não Carona Não Sim Sim Sim Sim Sono? sim pouco não +: {} –: {E3, E5, E9} +: {E1,E2, E4, E7} –: {E6, E8} +: {E10, E11, E12} –: {}
Modelagem do conhecimento Técnicas Árvores de Decisão Árvore calculada
Modelagem do conhecimento Técnicas Redes Neurais Artificiais Técnica computacional que utiliza modelos matemáticos inspirados na estrutura neural de organismos inteligentes e que adquirem conhecimento através da experiência
Modelagem do conhecimento Técnicas Redes Neurais Artificiais
Modelagem do conhecimento Técnicas Redes Neurais Artificiais Iniciar todas as conexões com wi = 0 (ou aleatórios) Repita Para cada padrão de treinamento (X, d) faça Calcular a saída y Se (d y) então atualizar pesos até o erro ser aceitável Classe B Classe B Classe A Classe A Modelos não lineares Modelos lineares
Modelagem do conhecimento Técnicas Agrupamento Dado um conjunto de objetos, colocar os objetos em grupos baseados na similaridade entre eles Utilizado para encontrar padrões inesperados nos dados Aquático Ovíparo Mamífero
Modelagem do conhecimento Técnicas Agrupamento Clustering- Técnica de aprendizado não-supervisionado, ou seja, quando não há uma classe associada a cada exemplo Os exemplos são colocados em clusters (grupos), cujos membros são similares entre si Por outro lado, os clusters devem ser diferentes entre si Representações de agrupamentos:
Modelagem do conhecimento Técnicas Agrupamento Métricas de similaridade A distância é o método mais natural para dados numéricos Valores pequenos indicam maior similaridade Não generaliza muito bem para dados não numéricos (Qual a distância entre “masculino” e “feminino”?) Métricas de Distância mais comuns Hamming - Usada para dados categóricos Euclidiana - Usada para dados numéricos Normalização As distâncias são freqüentemente normalizadas dividindo a distância de cada atributo pelo intervalo de variação (i.e. diferença entre valores máximo e mínimo) daquele atributo Assim, a distância para cada atributo é normalizada para o intervalo [0,1]
Modelagem do conhecimento Técnicas Agrupamento Passos para se fazer um agrupamento Passo 1: Escolha aleatória de clusters e cálculo dos centróides (círculos maiores) Passo 2: Atribua cada ponto ao centróide mais próximo Passo 3: Recalcule centróides (neste exemplo, a solução é agora estável)
Modelagem do conhecimento Técnicas Agrupamento Exemplo
Modelagem do conhecimento Técnicas Agrupamento Exemplo (K = 2)
Modelagem do conhecimento Técnicas Agrupamento Exemplo (K = 3)