140 likes | 272 Views
Planejamento de Experimentos Aplicação ao SCAE. Eliana Zandonade EstatÃstica elianaz@cce.ufes.br. Sumário. Problema estatÃstico a ser resolvido Noções básicas do planejamento de experimento Como escolher uma base de dados representativa para o projeto Propostas de base de dados
E N D
Planejamento de Experimentos Aplicação ao SCAE Eliana Zandonade Estatística elianaz@cce.ufes.br
Sumário • Problema estatístico a ser resolvido • Noções básicas do planejamento de experimento • Como escolher uma base de dados representativa para o projeto • Propostas de base de dados • Atividades atuais
Problema estatístico Definir uma base de dados representativa que tenha como missão: 1) aferir a capacidade de classificação dos classificadores manuais; 2) estudar os modelos quanto a sua capacidade de resolver o problema proposto no projeto, considerando as particularidades; 3) calibrar os modelos automatizados propostos (baseados em aprendizado); 4) aferir a capacidade de classificação dos modelos propostos; 5) comparar estatisticamente estes modelos.
Planejamento Experimentos • Da metodologia científica temos: • Problema definido • Planejamento do experimento: organização da pesquisa experimental • Cálculo do Tamanho da amostra • Coleta dos dados • Análise estatística do problema • Conclusões
Pesquisa Experimental • Definição: Experimentos aleatórios são situações que ao serem repetidas nas mesmas condições não produzem o mesmo resultado. • Definição: Planejamento de Experimento é uma atividade necessária para se descobrir informações sobre um processo ou sistema em particular
Processo a ser estudado: • dicionário • tabela cnae 2.0 • conhecimento das regras Fatores controláveis • contrato social • texto livre ......... x1 x2 xp Entrada Saída Processo Y • códigos • descritores ......... zq • interpretação • Codificação errada z1 z2 Fatores incontroláveis
Método do Planejamento O delineamento é um teste ou uma série de testes que modifica propositalmente as variáveis de entrada para observar mudanças nas variáveis de saída.
Conseqüências da Utilização • Redução da variabilidade; • Redução de tempo; • Redução de custos.
Três princípios Básicos • REPETIÇÃO • ALEATORIZAÇÃO • FORMAÇÃO DE BLOCOS OU ESTRATOS
Nossa base de dados • Repetição:Para cada código CNAE precisamos ter mais de um objeto social. O número de objetos sociais em questão depende da dificuldade de classificação de cada documento. Podemos, no entanto, definir que todos os documentos têm o mesmo grau de dificuldade e assim definir um número mínimo de documentos de cada código. Vamos chamar aqui de código, o código da atividade principal.
Nossa base de dados • Aleatorização:Os objetos sociais devem ser escolhidos aleatoriamente, incluindo todas as possibilidades em todas as unidades da federação.
Nossa base de dados c) Formação de estratos: Definição das possíveis fontes conhecidas de variação de classificação dos códigos, como por exemplo • as três esferas do governo: federal, estadual e municipal, • os Códigos no nível hierárquico de subclasse • e as demandas regionais (sul, sudeste, centro oeste, nordeste e sul).
Nossa base de dados BASE 1: dados da central de dúvidas do IBGE (texto da atividade principal, perguntas do IBGE e o código atribuído pelos especialistas). Ver documento! Ver Protótipo de avaliação BASE 2: dados de objeto social das prefeituras de Vitória e Belo Horizonte (texto das atividades e códigos atribuídos pelos órgãos). Ver documento!
Nossa base de dados BASE 3: Dados da pesquisa econômica do IBGE. Em torno de 30 mil empresas. Dados da atividade principal, perguntas e códigos. Ver documento! BASE 4: Base montada para os experimentos do projeto. Será criado um protótipo de entrada de dados com texto livre de atividades, perguntas adicionais e estes dados serão classificados pelos classificadores manuais. Ver documento!