1 / 6

Projetos de descobertas de conhecimento em banco de dados e mineração de dados

Projetos de descobertas de conhecimento em banco de dados e mineração de dados. Jacques Robin, Francisco de Assis e Paulo Adeodato CIn-UFPE. Mineração do CNCT. BD : Cadastro Nacional de Competência em ciência e Tecnologia Dados :

shauna
Download Presentation

Projetos de descobertas de conhecimento em banco de dados e mineração de dados

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Projetos de descobertas de conhecimento em banco de dados e mineração de dados Jacques Robin, Francisco de Assis e Paulo Adeodato CIn-UFPE

  2. Mineração do CNCT • BD: Cadastro Nacional de Competência em ciência e Tecnologia • Dados: • atributos sobre profissionais de C&T no Brasil (demográficos, formação, carreira, produção, ...) • já selecionados e preparados para aplicar algoritmos de aprendizagem na área ~learning acessível via nsu learning • Tarefa: • classificar pesquisadores em classes de produtividade a partir do seus outros atributos no CNCT • produtividade definida como soma ponderadas das publicações do pesquisador durante um dado período (ex, 5 últimos anos) • prever produtividade de novos pesquisadores na base dessa classificação produtividade = f(atributos)

  3. Mineração do CNCT • Objetivo da mineração: • descobrir fatores contribuindo a produtividade ou improdutividade dos pesquisadores • comparar precisão da classificação obtida com vários métodos de aprendizagem (ID3, ILP, MLP, BN) • Estado do projeto: • 2a iteração no processo de KDD • informação sobre 1a iteração em: • ~compint/aulas-IAS/kdd-991/primCNCT.ppt • ~compint/aulas-IAS/kdd-991/questCNCT.ppt • ~compint/aulas-IAS/kdd-001/cnct-taci2.ppt • 2 modificações em comparação da 1a iteração: • usar agrupamento estatístico (S+) para definir classes alvos de produtividade tamanho comparáveis • ponderar o calculo da produtividade não apenas em função do típo de publicação mas também em função da área de pesquisa (ex, dar mas peso a uma publicação em jornal para um matemático do que para um físico)

  4. Mineração do ProDoc • Mesma tarefa do que Mineração do CNCT • Com BD do ProDoc • Prodoc x CNCT: • 1a iteração • Dados nem selecionados, nem preparados • Atributos usados para classificação a definir • Formula do índice de produtividade a definir • Mais atributos disponíveis • Menos campos nulos • Possibilidades de descobrir regras mais interessantes

  5. Data mart de estatísticas da RoboCup • Dados: informações gravada no arquivos de log do simulador de jogo (SoccerServer log file) • Objetivos do OLAP: descobrir tipos de jogadas que contribuem a vitoria • Passos do projeto: 1. Geração dos dados • criar log file fazendo rodar o SoccerServer com time do CIn • ou com times da RoboCup cujo código é disponível na web • ou baixar log files disponíveis na web 2. Extração de dados: parsing do arquivos de log e armazenamento dos campos em BD relacional (Java/JDBC ou XSB/ODBC) 3. Modelagem multidimensional dos dados e criação do cubo • CREATE do MDX 4. Carga de dados do BD relacional para o cubo OLAP • INSERT do MDX 5. Consultas analíticas • SELECT FROM WHERE do MDX

  6. Data mart de estatísticas de acesso ao CIn • Dados: informações do arquivos de log do servidor web do CIn • Objetivos do OLAP: descobrir padrões de acesso ás páginas do cite do CIn • Passos do projeto: 1. Geração dos dados • usar arquivos log antigos arquivados • gerar durante uns semanas arquivos de log com informação mais rica obtida com configuração especial do servidor web do CIn 2 a 5: idênticos aos passos do projeto de Data Mart de estatísticas da RoboCup

More Related