Mineração de dados

Mineração de dados Exercícios sobre classificação

O que deveria ser feito, na fase de preparação de dados, para aplicar o método ID3 para classificação com os dados abaixo?

O que deveria ser feito, na fase de preparação de dados, para aplicar o método k-NN para classificação com os dados abaixo?

O que deveria ser feito, na fase de preparação de dados, considerando uma rede neural backpropagation para classificação usando os dados abaixo?

O que deveria ser feito, na fase de preparação de dados, considerando o uso do algoritmo naïve bayes e os dados abaixo?

Considere o seguinte conjunto de treino, em que cada exemplo é definido por três atributos (A,B,C). a) Qual a incerteza (entropia) associada ao conjunto de treino inicial? b) Qual o Ganho de Informação de um teste efetuado no primeiro atributo (X1)? c) Face a este resultado, qual seria a estrutura de uma árvore de decisão obtida para este conjunto de treino, construída de acordo com o critério de maximização do ganho de informação?

Determine a classificação obtida para o exemplo C11 utilizando o algoritmo naive Bayes, considerando os dados de treino abaixo e sabendo que P( E1 |H ).P( E2 | H)... .P(En | H).P(H ) P(H|E)= P( E1 ).P( E2)... .P(En)

Entre no Weka e carregue o arquivo golf.arff (preprocess/open file) Examine os dados escolha a aba de Classificação (Classify) e selecione o classificador J48 (Choose/Trees/J48) e execute com os parâmetros default (start) Compreenda a saída fornecida Visualize a árvore gerada (clicando com o botão direito na lista de resultados e escolhendo visualize tree) EXERCÍCIO 1

Outros classificadores no Weka • Nome de alguns classificadores vistos em aula, no Weka: • C 4.5: Choose/trees/J48 • ID3: Choose/trees/Id3 • naïve bayes: Choose/bayes/NaiveBayes • k-NN: Choose/lazy/IBk • SVM: Choose/functions/SMO • Rede neural backpropagation: Choose/functions/MultilayerPerceptron

Exercício 2 • Carregue o arquivo iris.arff (150 registros) • Execute o classificador J48 com os parâmetros default. • Se familiarize com o formato da saída fornecida, incluindo a matriz de confusão • Visualize a árvore gerada • Visualize os erros de classificação. No gráfico, como se diferenciam as instancias corretamente das incorretamente classificadas? Como pode-se ver informações detalhadas de uma instância (registro)? • Execute outras formas de avaliação e verifique o efeito: • Use training set (usa para teste o mesmo arquivo do treinamento) • Percentage split (divide o arquivo em uma parte para o treinamento e outra para o teste) • Use outros algoritmos de classificação e anote o seu nome e o resultado (acurácia)

EXERCÍCIO 3 • Carregue o arquivo credit-g.arff (arquivo com dados para decisão sobre crédito bancário, com 1000 registros) • Use percentage split como método de avaliação (o número de registros é razoavelmente grande). • Para este problema, considere que um falso positivo (prever que a classe é good quando na verdade é bad) tem um custo 5 vezes maior que o de um falso negativo. • Encontre o menor custo com o J48 (usando a matriz de confusão ), considerando os custos: VP=-1; VN=-1; FP=5; FN=1. • Utilizando os valores default dos parâmetros, teste com outros classificadores e anote o resultado em uma tabela com: classificador, acurácia, custo, tempo de execução

Abra o arquivo hepatitis.arff Execute o J48 com os parâmetros default. Salve o resultado. Execute outros classificadores e anote o resultado. Qual o melhor? Compare as matrizes de confusão geradas pelos diversos classificadores EXERCÍCIO 4

Exercício 5 • Abra o arquivo mushroom.arff. • Utilize alguns algoritmos de classificação. Faça uma tabela com o classificador e acurácia obtida. Qual o melhor resultado, com que classificador?

Salvar e utilizar o modelo de classificação Salvar: • executar o algoritmo de classificação (porexemplo, o J48) pararealizar o treinamento (geração do modelo) • Clique o botãodireitosobre o modeloquedeve ser salvo, naResults list • SelecioneSave model e salve o modelo. Carregar(o modelo salvo anteriormente) • Carregueos dados de testeusando a opçãoSupplied test set • Clique o botãodireitonaResults list, selecioneLoad model e escolha o modelo salvo paracarregar • SelecioneRe-evaluate model on current test set OBS: - o arquivo usado para teste deve conter os mesmos nomes de atributos e os mesmos tipos que o arquivo usado para gerar o modelo. - Quando se carrega um arquivo CSV, o primeiro registro é usado para nomear os atributos.

Mineração de dados