1 / 14

Mineração de dados

Mineração de dados. Exercícios sobre classificação. O que deveria ser feito, na fase de preparação de dados, para aplicar o método ID3 para classificação com os dados abaixo?.

guy-pruitt
Download Presentation

Mineração de dados

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Mineração de dados Exercícios sobre classificação

  2. O que deveria ser feito, na fase de preparação de dados, para aplicar o método ID3 para classificação com os dados abaixo?

  3. O que deveria ser feito, na fase de preparação de dados, para aplicar o método k-NN para classificação com os dados abaixo?

  4. O que deveria ser feito, na fase de preparação de dados, considerando uma rede neural backpropagation para classificação usando os dados abaixo?

  5. O que deveria ser feito, na fase de preparação de dados, considerando o uso do algoritmo naïve bayes e os dados abaixo?

  6. Considere o seguinte conjunto de treino, em que cada exemplo é definido por três atributos (A,B,C). a) Qual a incerteza (entropia) associada ao conjunto de treino inicial? b) Qual o Ganho de Informação de um teste efetuado no primeiro atributo (X1)? c) Face a este resultado, qual seria a estrutura de uma árvore de decisão obtida para este conjunto de treino, construída de acordo com o critério de maximização do ganho de informação?

  7. Determine a classificação obtida para o exemplo C11 utilizando o algoritmo naive Bayes, considerando os dados de treino abaixo e sabendo que P( E1 |H ).P( E2 | H)... .P(En | H).P(H ) P(H|E)= P( E1 ).P( E2)... .P(En)

  8. Entre no Weka e carregue o arquivo golf.arff (preprocess/open file) Examine os dados escolha a aba de Classificação (Classify) e selecione o classificador J48 (Choose/Trees/J48) e execute com os parâmetros default (start) Compreenda a saída fornecida Visualize a árvore gerada (clicando com o botão direito na lista de resultados e escolhendo visualize tree) EXERCÍCIO 1

  9. Outros classificadores no Weka • Nome de alguns classificadores vistos em aula, no Weka: • C 4.5: Choose/trees/J48 • ID3: Choose/trees/Id3 • naïve bayes: Choose/bayes/NaiveBayes • k-NN: Choose/lazy/IBk • SVM: Choose/functions/SMO • Rede neural backpropagation: Choose/functions/MultilayerPerceptron

  10. Exercício 2 • Carregue o arquivo iris.arff (150 registros) • Execute o classificador J48 com os parâmetros default. • Se familiarize com o formato da saída fornecida, incluindo a matriz de confusão • Visualize a árvore gerada • Visualize os erros de classificação. No gráfico, como se diferenciam as instancias corretamente das incorretamente classificadas? Como pode-se ver informações detalhadas de uma instância (registro)? • Execute outras formas de avaliação e verifique o efeito: • Use training set (usa para teste o mesmo arquivo do treinamento) • Percentage split (divide o arquivo em uma parte para o treinamento e outra para o teste) • Use outros algoritmos de classificação e anote o seu nome e o resultado (acurácia)

  11. EXERCÍCIO 3 • Carregue o arquivo credit-g.arff (arquivo com dados para decisão sobre crédito bancário, com 1000 registros) • Use percentage split como método de avaliação (o número de registros é razoavelmente grande). • Para este problema, considere que um falso positivo (prever que a classe é good quando na verdade é bad) tem um custo 5 vezes maior que o de um falso negativo. • Encontre o menor custo com o J48 (usando a matriz de confusão ), considerando os custos: VP=-1; VN=-1; FP=5; FN=1. • Utilizando os valores default dos parâmetros, teste com outros classificadores e anote o resultado em uma tabela com: classificador, acurácia, custo, tempo de execução

  12. Abra o arquivo hepatitis.arff Execute o J48 com os parâmetros default. Salve o resultado. Execute outros classificadores e anote o resultado. Qual o melhor? Compare as matrizes de confusão geradas pelos diversos classificadores EXERCÍCIO 4

  13. Exercício 5 • Abra o arquivo mushroom.arff. • Utilize alguns algoritmos de classificação. Faça uma tabela com o classificador e acurácia obtida. Qual o melhor resultado, com que classificador?

  14. Salvar e utilizar o modelo de classificação Salvar: • executar o algoritmo de classificação (porexemplo, o J48) pararealizar o treinamento (geração do modelo) • Clique o botãodireitosobre o modeloquedeve ser salvo, naResults list • SelecioneSave model e salve o modelo. Carregar(o modelo salvo anteriormente) • Carregueos dados de testeusando a opçãoSupplied test set • Clique o botãodireitonaResults list, selecioneLoad model e escolha o modelo salvo paracarregar • SelecioneRe-evaluate model on current test set OBS: - o arquivo usado para teste deve conter os mesmos nomes de atributos e os mesmos tipos que o arquivo usado para gerar o modelo. - Quando se carrega um arquivo CSV, o primeiro registro é usado para nomear os atributos.

More Related