Projetos de descobertas de conhecimento em banco de dados e mineraÃ§Ã£o de dados

Projetos de descobertas de conhecimento em banco de dados e mineração de dados Jacques Robin, Francisco de Assis e Paulo Adeodato CIn-UFPE

Mineração do CNCT • BD: Cadastro Nacional de Competência em ciência e Tecnologia • Dados: • atributos sobre profissionais de C&T no Brasil (demográficos, formação, carreira, produção, ...) • já selecionados e preparados para aplicar algoritmos de aprendizagem na área ~learning acessível via nsu learning • Tarefa: • classificar pesquisadores em classes de produtividade a partir do seus outros atributos no CNCT • produtividade definida como soma ponderadas das publicações do pesquisador durante um dado período (ex, 5 últimos anos) • prever produtividade de novos pesquisadores na base dessa classificação produtividade = f(atributos)

Mineração do CNCT • Objetivo da mineração: • descobrir fatores contribuindo a produtividade ou improdutividade dos pesquisadores • comparar precisão da classificação obtida com vários métodos de aprendizagem (ID3, ILP, MLP, BN) • Estado do projeto: • 2a iteração no processo de KDD • informação sobre 1a iteração em: • ~compint/aulas-IAS/kdd-991/primCNCT.ppt • ~compint/aulas-IAS/kdd-991/questCNCT.ppt • ~compint/aulas-IAS/kdd-001/cnct-taci2.ppt • 2 modificações em comparação da 1a iteração: • usar agrupamento estatístico (S+) para definir classes alvos de produtividade tamanho comparáveis • ponderar o calculo da produtividade não apenas em função do típo de publicação mas também em função da área de pesquisa (ex, dar mas peso a uma publicação em jornal para um matemático do que para um físico)

Mineração do ProDoc • Mesma tarefa do que Mineração do CNCT • Com BD do ProDoc • Prodoc x CNCT: • 1a iteração • Dados nem selecionados, nem preparados • Atributos usados para classificação a definir • Formula do índice de produtividade a definir • Mais atributos disponíveis • Menos campos nulos • Possibilidades de descobrir regras mais interessantes

Data mart de estatísticas da RoboCup • Dados: informações gravada no arquivos de log do simulador de jogo (SoccerServer log file) • Objetivos do OLAP: descobrir tipos de jogadas que contribuem a vitoria • Passos do projeto: 1. Geração dos dados • criar log file fazendo rodar o SoccerServer com time do CIn • ou com times da RoboCup cujo código é disponível na web • ou baixar log files disponíveis na web 2. Extração de dados: parsing do arquivos de log e armazenamento dos campos em BD relacional (Java/JDBC ou XSB/ODBC) 3. Modelagem multidimensional dos dados e criação do cubo • CREATE do MDX 4. Carga de dados do BD relacional para o cubo OLAP • INSERT do MDX 5. Consultas analíticas • SELECT FROM WHERE do MDX

Data mart de estatísticas de acesso ao CIn • Dados: informações do arquivos de log do servidor web do CIn • Objetivos do OLAP: descobrir padrões de acesso ás páginas do cite do CIn • Passos do projeto: 1. Geração dos dados • usar arquivos log antigos arquivados • gerar durante uns semanas arquivos de log com informação mais rica obtida com configuração especial do servidor web do CIn 2 a 5: idênticos aos passos do projeto de Data Mart de estatísticas da RoboCup

Projetos de descobertas de conhecimento em banco de dados e mineraÃ§Ã£o de dados

Projetos de descobertas de conhecimento em banco de dados e mineraÃ§Ã£o de dados

Presentation Transcript

MBA GERÊNCIA DE PROJETOS GERÊNCIA de TEMPO em PROJETOS Edmarson Bacelar Mota

Modelo de Dados Objeto-Relacional

Dados e Resultados do Projeto-Piloto Tratamento do Superendividamento

Relatório em Janeiro de 2013

Avaliação Econômica de Projetos

TÉCNICAS DE PESQUISA EM ECONOMIA

Introdução à Comunicação de Dados

Sistemas de Informações Geográficas

Administração de Projetos

Prof.: José Eustáquio Rangel de Queiroz rangel@dsc.ufcg.br rangeldequeiroz@gmail

Aquisição de Dados Multimédia

DESENVOLVIMENTO HUMANO I

Capítulo 4 : SGBDOR Oracle 11g

Capítulo 7 Conhecendo os Dados

Estatística e Análise de Dados

Pesquisa Qualitativa 1

Módulo I Interface com BancoDados JDBC

Capítulo 1 : SQL-PSM (Persistent Stored Modules)

Prof. Lorí Viali, Dr. viali@ufrgs.br ufrgs.br/~viali/

Banco de Dados I Capítulo 6: Uso de SQL em Aplicações

Capítulo 3 : Modelo de Dados Objeto-Relacional

Banco de Dados Multimídia