420 likes | 549 Views
Aluno: Rodrigo Estevan Bela Orientadora: Profa. Dra. Marilde T. P. Santos Co-Orientador: Prof. Dr. Mauro Biajiz. Ontologias de domínio auxiliando tarefas de mineração de dados: anotações semânticas e filtros de regras. Agenda. Contextualização Proposta Estudo de Caso
E N D
Aluno: Rodrigo Estevan Bela Orientadora: Profa. Dra. Marilde T. P. Santos Co-Orientador: Prof. Dr. Mauro Biajiz Ontologias de domínio auxiliando tarefas de mineração de dados: anotações semânticas e filtros de regras
Agenda • Contextualização • Proposta • Estudo de Caso • Trabalhos Correlatos - Discussão • Conclusão
Agenda • Contextualização • Mineração de Dados • Desafios de pesquisa • Ontologias • Anotações • Proposta • Estudo de Caso • Discussão - Trabalhos Correlatos • Conclusão
Mineração de Dados • Extração de conhecimento de bases de dados é o processo de identificação de padrões válidos, novos, potencialmente úteis e compreensíveis embutidos nos dados [Fayyad, U., G.P. Shapiro, and P. Smyth, 1994] • Utiliza processos não convencionais para realizar a extração dos padrões. • Envolve técnicas de diversas áreas • Banco de Dados, Estatística, Aprendizado de Máquina, Reconhecimento de Padrões, Inteligência Artificial e outras.
O processo de Mineração de Dados • Processo iterativo e interativo • Conhecimento do domínio tem impacto em todas as etapas • O conhecimento sobre o domínio subsidia tomadas de decisão nas etapas subsequentes do processo de Mineração de Dados [Melanda, E. A., 2004] Extraído do Livro Sistemas Inteligentes. Capítulo sobre Mineração de Dados. Rezende, S. O. 1 ed. 2003
Tarefa de Extração de Regras de Associação • Identifica itemsets, conjuntos de itens que tendem a ocorrer juntos em transações. • Gera regras da forma: • A B • Métricas de avaliação: • Suporte: a porcentagem de transações, em relação ao todo, que contém A e B; • Confiança: a porcentagem de transações que contém A que também contém B. • Assim, se A B (suporte 0.4 / confiança 0.9): • Então, 40% das transações contém A e B; • Em 90% das vezes que a transação contém A, ela também contém B.
Desafios de Pesquisa em Mineração de Dados • Desempenho de algoritmos • Avaliar automaticamente o grau de interesse dos padrões encontrados • Técnicas de visualização eficientes para padrões mais complexos • Enriquecer o processo com o conhecimento do domínio • Tratamento de informações já conhecidas ou desinteressantes.
Desafios de Pesquisa em Mineração de Dados • Enriquecer o processo com o conhecimento do domínio • Como representar o conhecimento? • Como utilizar o conhecimento como entrada nos algoritmos de mineração? • Como e quais decisões podem ser tomadas pelo algoritmo com base no conhecimento inserido? • Tratamento de informações já conhecidas ou desinteressantes. • Como tratar informações que já fazem parte do conhecimento do domínio?
Ontologias • Uma ontologia é uma especificação formal e explícita de uma conceitualização compartilhada [Gruber, T.R., 1993] • Conceitualização • Explícita • Formal • Compartilhada
Ontologias • Uma ontologia é uma descrição explícita de um domínio, constituída por • Conceitos [classes] • Propriedades [atributos e relacionamentos] • Axiomas [restrições sobre as propriedades] • Instâncias [dos conceitos] • Uma ontologia define • Um vocabulário comum • Um entendimento compartilhado
Anotações • Todo o conjunto de marcas, notas, breves comentários e explicações adicionais que são realizadas sobre algum tipo de conteúdo • O contexto e a forma de utilização definem formas especificas, como: • Metadados • Conteúdos • Hipertexto • Contexto
Anotações: aplicações • Bibliotecas digitais • Web • Estratégias de busca • Banco de dados
Agenda • Contextualização • Proposta • Problemas • Anotações Semânticas • Filtro de Regras • Estudo de Caso • Discussão - Trabalhos Correlatos • Conclusão
Problemas • Enriquecer o processo com o conhecimento do domínio • Como explicitar o significado presente em alguns conjuntos de dados brutos? • Como possibilitar a melhor visualização de dados brutos? • Tratamento de informações já conhecidas ou desinteressantes. • Como tratar informações que já fazem parte do conhecimento do domínio?
Como explicitar o significado de alguns conjuntos de dados? • Anotações Semânticas! • Metadados adicionais que descrevem o significado. • Significado descrito usando termos controlados. • Utilização de ontologia de domínio para definir o significado e vocabulário. • Que possam ser geradas automaticamente.
(Select avg(n.nota) as resultado from notas as n inner join aluno as a on n.aluno_id = a.id...) >6.0 Select avg(n.nota) as resultado from notas as n inner join aluno as a on n.aluno_id = a.id... 6,0 Regras de Mapeamento Tabela com as regras de produção para geração de regras de mapeamento
Semantic Annotation TOol - SATO Representação das principais atividades realizadas na SATO
Semantic Annotation TOol – SATOcontinuação Principais tela da SATO: A)Definição de um domínio; B) Definição de regra de mapeamento baseada em consulta; C) Definição de regra de mapeamento lógica; D) Visualização de anotações semânticas geradas
Como tratar informações que já fazem parte do conhecimento do domínio? • Utilizar conhecimento definido na ontologia. • Considerar que termos da ontologia são um item dentro da regra • Considerar propriedades entre conceitos como associações já conhecidas. • Usuário define quais propriedades devem ser avaliadas.
maçã frango associada_com Filtro de Regras Pseudocódigo do Filtro de Regras de Associação maçã frango, maionese maçã frango, maionese maçã frango, maionese maçã frango, maionese
Varrer a base Identificar Itens Similares Gerar Candidatos Calcular o peso dos Candidatos Avaliar os Candidatos Gerar as Regras Aplicação de Filtro Generalização e Tratamento de Redundância Generalização e Tratamento de Redundância Aplicação de Filtro Algoritmo Filtered-NARFO Passos do algoritmo Filtered-NARFO.
Agenda • Contextualização • Proposta • Estudo de Caso • Introdução – contexto • Processo de Mineração de Dados • Discussão - Trabalhos Correlatos • Conclusão
Estudo de CasoIntrodução e contexto • Dados da ferramenta de ensino LECH-GEIC. • Ferramenta baseada no paradigma de Equivalência de Estímulos • Ferramenta desenvolvida no contexto do projeto TIDIA-Ae fase II. • Dados descrevem respostas dadas por estudantes durante interação com a ferramenta.
Estudo de CasoExemplo Organização de um programa de Ensino Exemplo dos dados coletados pela ferramenta
Estudo de CasoProcesso: Conhecimento do Domínio • Conhecimento sobre o domínio • Construção da ontologia de domínio necessária • Definição dos objetivos do processo: • Verificar as relações de comportamento presentes nos dados; • Suporte e confiança como métricas de desempenho; • Conhecimento obtido deve ser claro e de fácil compreensão.
Estudo de CasoProcesso: Pré-processamento • Geração de anotações para um conjunto de 30 sessões de ensino. • Sessões referentes a um passo que ensina as relações AC (mts som-texto) e AE (cr som-texto) para as palavras: vaca, bolo e tatu. • Definição de regras de mapeamento para: • Comportamentos/Termos a serem gerados: • ACTreinoTatuSim, ACTreinoTatuNao e outras; • Geração de anotações para as latências observadas, como: • ACLatenciaMuitoBaixa, AELatenciaMuitoBaixae outras.
Estudo de CasoProcesso: Pré-processamento (2) select if ((select count(se.id) from sessaoexec se inner join sessaoexec_passoexec sepe on se.id = sepe.sessaoexec_id inner join passoexec pe on pe.id = sepe.passosExecutados_id inner join passoexec_blocoexec pebe on pe.id = pebe.passoexec_id inner join blocoexec be on be.id = pebe.blocosExecutados_id inner join blocoexec_tentativaexec bete on be.id = bete.blocoExec_id inner join tentativaexec te on te.id = bete.tentativasExecutadas_id inner join tentativaexec_tentativainteracao teti on te.id = teti.tentativaexec_id inner join tentativainteracao ti on ti.id = teti.interacoes_id inner join blocotentativaocorrencia bto on bto.id = te.ocorrencia_id inner join passoblocoocorrencia pbo on pbo.id = be.ocorrencia_id where se.id = ?transacao? and bto.bloco_id = 18 and pbo.ocorrencia = 3) > 0…. 88 Tuplas ACTreinoTatuSIM Redução da dimensionalidade dos dados sem perda de significado
Estudo de CasoProcesso: Extração de Padrões • Comparações entre 3 algoritmos de regras de associação: Apriori, NARFO e Filtered-NARFO. • Comparação de vários níveis de conhecimento. • Objetivos: • Validar algoritmos; • Validar filtro; • Observar impacto do conhecimento no filtro; • Atingir objetivos definidos pelo especialista no processo;
4 1 2 3 5 Estudo de CasoProcesso: Extração de Padrões / Pós-processamento Tabela com as interações realizadas AETeste->ACTreinoBoloNao sup=0.6333 conf=1.0 ACLatenciaMuitoBaixa~ACLatenciaBaixaAETesteVacaNao,AETesteTatuNão sup=0.38 conf=0.85714287 (Possuindo item 'ACLatenciaBaixa' com maior relevância!!!) ACLatenciaBaixaAETesteVacaNao,AETesteTatuNao sup=0.33333334 conf=0.90909094 Versões da Ontologia de Domínio
Estudo de CasoProcesso: Utilização do Conhecimento • Apresentação dos resultados a especialista do domínio; • Validação do filtro de regras; • Validação de comportamentos esperados; • Novos indícios para pesquisa: • ACLatenciaMuitoBaixa~ACLatenciaBaixaAETesteVacaNao,AETestTatuNão sup=0.38 conf=0.85714287 (Possuindo item 'ACLatenciaBaixa' com maior relevância!!!)
Agenda Contextualização Proposta Estudo de Caso Discussão - Trabalhos Correlatos Conclusão
Discussão - Trabalhos Correlatos :Conhecimento do Domínio [kuo, Y.-T., A. Lonie, and L. Sonenberg, 2007] Extraído do Livro Sistemas Inteligentes. Capítulo sobre Mineração de Dados. Rezende, S. O. 1 ed. 2003
Discussão - Trabalhos Correlatos :Pré-processamento [Sidhu, A.S., T.S. Dillon, and E. Chang, 2007] [Zhou, X. and J. Geller, 2007] [Bogorny, V., P.M. Engel, and L.O. Alvares, 2007] Extraído do Livro Sistemas Inteligentes. Capítulo sobre Mineração de Dados. Rezende, S. O. 1 ed. 2003
Discussão - Trabalhos Correlatos :Extração de Padrões [Khelif, K., R. Dieng-Kuntz, and P. Barbry, 2007][Pahm, M.H., et al, 2007] [Miani et al, 2009] Extraído do Livro Sistemas Inteligentes. Capítulo sobre Mineração de Dados. Rezende, S. O. 1 ed. 2003
Discussão - Trabalhos Correlatos :Pós-processamento [STAMOU et al. 2007] Extraído do Livro Sistemas Inteligentes. Capítulo sobre Mineração de Dados. Rezende, S. O. 1 ed. 2003
Discussão - Trabalhos Correlatos :Utilização do conhecimento [Trousse, B., et al, 2007] [Mothe, J. and N. Hernandez, 2007] [Kotsifakos, E., G. Marketos, and Y. Theodoridis, 2007] Extraído do Livro Sistemas Inteligentes. Capítulo sobre Mineração de Dados. Rezende, S. O. 1 ed. 2003
Discussão • Utilização do conhecimento em todas as etapas do processo; • Identificação do problema: entendimento dos dados, de seus significados e potenciais; • Pré-processamento: explicitação do significado dos dados por meio da geração de anotações semânticas; • Extração de padrões: redução da complexidade da tarefa, • Pós-processamento: filtro de regras já conhecidas; • Utilização do conhecimento: conhecimento obtido pode ser utilizado para atualizar a ontologia
Discussão: 88 Tuplas ACLatenciaMuitoBaixa~ACLatenciaBaixaAETesteVacaNao,AETestTatuNão sup=0.38 conf=0.85714287 (Possuindo item 'ACLatenciaBaixa' com maior relevância!!!) ACTreinoTatuSIM
Contribuições • Ontologia de Domínio para a Equivalência de Estímulos; • Uma abordagem para a geração de anotações semânticas para dados brutos; • Um protótipo de ferramenta para a geração de anotações; • Uma proposta para a realização de filtros de regras de associação; • Algoritmo Filtered-NARFO que aplica a abordagem de filtro de regras; • Um estudo de caso real que foi viabilizado pelas propostas e ferramentas apresentadas.
Trabalhos Futuros • Melhorar ferramenta SATO. • Aplicação da abordagem proposta com dados de outros domínios. • Combinar conhecimento do domínio com métricas de interesse para avaliar regras. • Identificar exceções por meio do conhecimento do domínio. • Algoritmo baseado no Filtered-NARFO para extrair padrões sequenciais.
Publicações • Pôster “Geração Automática de Anotações Semânticas para o Domínio de Controle de Estímulos” no Second Brazilian Workshop on Semantic Web and Education, workshop satélite ao Simpósio Brasileiro de Informática na Educação de 2008; • Resumo “Stimuli: uma ontologia para o paradigma de Equivalência de Estímulos” no I Portuguese and Multi-lingual Ontologies Workshop, workshop satélite ao 7th Brazilian Symposium in Information and Human Language Technology • Demo “SATO: uma ferramenta para a geração de anotações semânticas” na sessão de Demos do Simpósio Brasileiro de Banco de Dados (SBBD 2009)