60 likes | 166 Views
Projetos de descobertas de conhecimento em banco de dados e mineração de dados. Jacques Robin, Francisco de Assis e Paulo Adeodato CIn-UFPE. Mineração do CNCT. BD : Cadastro Nacional de Competência em ciência e Tecnologia Dados :
E N D
Projetos de descobertas de conhecimento em banco de dados e mineração de dados Jacques Robin, Francisco de Assis e Paulo Adeodato CIn-UFPE
Mineração do CNCT • BD: Cadastro Nacional de Competência em ciência e Tecnologia • Dados: • atributos sobre profissionais de C&T no Brasil (demográficos, formação, carreira, produção, ...) • já selecionados e preparados para aplicar algoritmos de aprendizagem na área ~learning acessível via nsu learning • Tarefa: • classificar pesquisadores em classes de produtividade a partir do seus outros atributos no CNCT • produtividade definida como soma ponderadas das publicações do pesquisador durante um dado período (ex, 5 últimos anos) • prever produtividade de novos pesquisadores na base dessa classificação produtividade = f(atributos)
Mineração do CNCT • Objetivo da mineração: • descobrir fatores contribuindo a produtividade ou improdutividade dos pesquisadores • comparar precisão da classificação obtida com vários métodos de aprendizagem (ID3, ILP, MLP, BN) • Estado do projeto: • 2a iteração no processo de KDD • informação sobre 1a iteração em: • ~compint/aulas-IAS/kdd-991/primCNCT.ppt • ~compint/aulas-IAS/kdd-991/questCNCT.ppt • ~compint/aulas-IAS/kdd-001/cnct-taci2.ppt • 2 modificações em comparação da 1a iteração: • usar agrupamento estatístico (S+) para definir classes alvos de produtividade tamanho comparáveis • ponderar o calculo da produtividade não apenas em função do típo de publicação mas também em função da área de pesquisa (ex, dar mas peso a uma publicação em jornal para um matemático do que para um físico)
Mineração do ProDoc • Mesma tarefa do que Mineração do CNCT • Com BD do ProDoc • Prodoc x CNCT: • 1a iteração • Dados nem selecionados, nem preparados • Atributos usados para classificação a definir • Formula do índice de produtividade a definir • Mais atributos disponíveis • Menos campos nulos • Possibilidades de descobrir regras mais interessantes
Data mart de estatísticas da RoboCup • Dados: informações gravada no arquivos de log do simulador de jogo (SoccerServer log file) • Objetivos do OLAP: descobrir tipos de jogadas que contribuem a vitoria • Passos do projeto: 1. Geração dos dados • criar log file fazendo rodar o SoccerServer com time do CIn • ou com times da RoboCup cujo código é disponível na web • ou baixar log files disponíveis na web 2. Extração de dados: parsing do arquivos de log e armazenamento dos campos em BD relacional (Java/JDBC ou XSB/ODBC) 3. Modelagem multidimensional dos dados e criação do cubo • CREATE do MDX 4. Carga de dados do BD relacional para o cubo OLAP • INSERT do MDX 5. Consultas analíticas • SELECT FROM WHERE do MDX
Data mart de estatísticas de acesso ao CIn • Dados: informações do arquivos de log do servidor web do CIn • Objetivos do OLAP: descobrir padrões de acesso ás páginas do cite do CIn • Passos do projeto: 1. Geração dos dados • usar arquivos log antigos arquivados • gerar durante uns semanas arquivos de log com informação mais rica obtida com configuração especial do servidor web do CIn 2 a 5: idênticos aos passos do projeto de Data Mart de estatísticas da RoboCup