70 likes | 188 Views
Mini testes. A apresentar na aula da semana a seguir à data descrito em cada teste. As respostas não devem exceder mais do que duas páginas A4. Semana 1 (7/5/2010).
E N D
Mini testes A apresentar na aula da semana a seguir à data descrito em cada teste.As respostas não devem exceder mais do que duas páginas A4.
Semana 1 (7/5/2010) • Em naiveBayes típico, é assumido a independência entre os atributos dos dados de treino. Explique a razão para esta presunção e as implicações da mesma. • Recorrendo a exemplos, mostra o impacto na estratégia de escolha dos testes (atributos) nos nós de uma árvore de decisão. Use o WEKA para mostrar as diferenças entre entropia e gini.
Semana 2 (21/5/2010) • Considere o datasetiris. Apresente resultados de taxas de acerto comparativo (para o algoritmo J48 do Weka) usando o datasetpré-discretizado com o algoritmo Fayyad-Irani e o dataset original. Apresente justificações para os resultados obtidos. • Considere o datasetlabor. Usando os algoritmos J48 e simpleCart (Weka) apresente resultados (as diferentes árvores) que ilustram o uso das várias opções de pruning estudadas e.g. sub-treerasing, replacement, laplace, minimal complexitypruning, etc. Apresente a justificação para os resultados obtidos com as avaliações por 10-xval e por training data.
Semana 3 (28/5/2010) • Considere o datasetsoybean. Apresente um estudo comparativo usando validação cruzada e os algoritmos NaiveBayes, SimpleCART e J48. Apresente conclusões sobre os melhores desempenhos para cada classe (das 19 existentes). • Considerando o valor de AUC para a classe “frog-eye-leaf-spot” obtido pelo J4.8, que tipo de curva ROC esperaria obter? Justifique.
Semana 4 (4/6/2010) • Apresenta as diferentes características dos algoritmos de clusteringk-means e EM. Ilustre com a execução de um exemplo. • Sugira uma estratégia para definir automaticamente o valor de k (número de partições) em algoritmos como o k-means, em que no algoritmo original k é fixado pelo utilizador.
Semana 5 (11/6/2010) • Execute um 10-XVal para o datasetiris com o algoritmo J48 e com o AdaBoostM1 sobre J48. Apresente os resultados obtidos em termos de erro. Sugira uma explicação para a comparação dos erros obtidos. • Que tipo de benefícios esperaria da aplicação de Bagging sobre NaiveBayes num dataset específico, sabendo que o resultado do modelo individual NaiveBayes nesse dataset é bastante bom (erro = 0.005). Justifique.
Semana 6 (18/6/2010) • Apresente os principais factores de complexidade de um algoritmo de geração de regras de associação. Ilustre a sua resposta com exemplos. • Descreva as principais fraquezas da medida de interessa confiança. Apresente exemplos de regras para ilustrar essas fraquezas. Sugira formas de ultrapassar os problemas levantados pelo usa da confiança.