1 / 28

Data Mining com a Ferramenta Weka

Data Mining com a Ferramenta Weka. Diogo Fernando Veiga Pedro de Stege Cecconello. Software Weka. Software para data mining/machine learning escrito em Java (distribuído sob GNU Public License) Utilizado em pesquisa e educação Principais características:

Download Presentation

Data Mining com a Ferramenta Weka

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Data Mining com a Ferramenta Weka Diogo Fernando Veiga Pedro de Stege Cecconello

  2. Software Weka • Software para data mining/machine learning escrito em Java (distribuído sob GNU Public License) • Utilizado em pesquisa e educação • Principais características: • Extenso conjunto de rotinas para pré-processamento, esquemas de aprendizagem, além de métodos de avaliação • GUIs (inclusive para visualização dos dados) • Ambiente para comparação de algortimos de aprendizagem.

  3. Versões Weka • WEKA 3.0: “book version” compatível com a descrição do livro • WEKA 3.4: Última versão (utilizada na apresentação) • Esquema de versões Linux

  4. Weka trabalha com flat files @relation heart-disease-simplified @attribute age numeric @attribute sex { female, male} @attribute chest_pain_type { typ_angina, asympt, non_anginal, atyp_angina} @attribute cholesterol numeric @attribute exercise_induced_angina { no, yes} @attribute class { present, not_present} @data 63,male,typ_angina,233,no,not_present 67,male,asympt,286,yes,present 67,male,asympt,229,yes,present 38,female,non_anginal,?,no,not_present ... Flat file in ARFF format

  5. Weka trabalha com flat files @relation heart-disease-simplified @attribute age numeric @attribute sex { female, male} @attribute chest_pain_type { typ_angina, asympt, non_anginal, atyp_angina} @attribute cholesterol numeric @attribute exercise_induced_angina { no, yes} @attribute class { present, not_present} @data 63,male,typ_angina,233,no,not_present 67,male,asympt,286,yes,present 67,male,asympt,229,yes,present 38,female,non_anginal,?,no,not_present ... Atributo numérico Atributo nominal

  6. Weka: vários ambientes

  7. Explorer: Pre-processing • Importação dos dados em vários formatos: ARFF, CSV, C4.5, binary • Dados também podem ser lidos de uma URL ou de um banco de dados (utilizando o pacote JDBC) • Rotinas de pré-processamento no Weka são chamados de filtros • Weka tem filtros para: • Discretização, normalização, amostragem, seleção de atributos, transformação e combinação de atributos, entre outros.

  8. Filtros: Redução dos dados • Metodos supervisados weka.filters.supervised.instance.* • Resample: Faz uma amostragem estratificada com o dataset fornecido. O dataset deve ter um atributo nominal informando a classe. Bias para distribuição das classes na amostra seja uniforme. • StratifiedRemoveFolds: Cria um fold estratificado para o cross-validation. • SpreadSubsample: Produz uma amostra aleatória dos dados. Este filtro permite definir o máximo spread entre a classe mais rara e a classe mais comum. Por exemplo, 5:1

  9. Filtros: Redução dos dados • Metodos não-supervisados weka.filters.unsupervised.instance.* • Resample: amostragem aleatória (não estratificada) do dataset • Randomize - embaralha conjunto de dados • RemoveFolds – Define um fold para o crossvalidation • RemovePercentage – Remove uma proporção do dataset • RemoveRange - Remove um determinado intervalo de instâncias do dataset.

  10. Filtros: Redução dos Atributos • Metodos não-supervisados weka.filters.unsupervised.attribute.* • Normalize: valores no intervalo [0,1], exceto o atributo de classe • NumericTransform - Aplica uma função matemática qualquer aos valores do atributo (classe Java) • ReplaceMissingValues – Preenche com a média (atrib. numerico ) ou a moda (atrib.nominal) • Standardize – transformação dos valores para uma • RemoveUseless - Remove atribs. nominais que variam muito (threshold definido pelo usuário, ex.: 95%) e atributos constantes (nme/nml)

  11. Filtros: Redução dos Atributos • Metodos supervisados weka.filters.supervised.attribute.* • AttributeSelection: Permite a combinacao de varios metodos de avaliacao e busca de atributos. • Avaliação: ganho de info., PCA e vários outros • Busca: best first, greedy, genetic search, exhaustive search, rank search • Discretize: Discretiza um intervalo de atributos numericos utilizando a tecnica MDL (Fayyad & Irani's) ou MDL (Kononenko) • NominalToBinary: Converte todos os atributos nominais para atributos binários numéricos

  12. Explorer: Attribute Selection • Usado para investigar quais atributos (subconjuntos deles) são mais preditivos • AttributeSelection em 2 etapas: • Um método de busca • Um método de avaliação • Flexibilidade: (quase) qualquer combinação de busca/avaliação

  13. Weka:Clustering • Metódos para variáveis numéricas e nominais: • EM • k-Means • CobWeb • Exemplo

  14. Weka: Classificadores • Modelos para a previsão de classes (nominal ou númerica): • Weka implementa: • Árvore de decisão, listas, classificadores baseado em instâncias, multi-layer perceptrons, regressão, redes bayesianas, ... • “Meta”-classificadores: • Bagging, boosting, stacking, error-correcting output code, locally weighted learning, ...

  15. Weka: Associações • Identificar dependências estatísticas entre grupos de atributos • 3 algorítimos para aprender associações: • Apriori; • PredictiveApriori; • Tertius; • Trabalha somente com dados nominais; • Computa regras que dêem um suporte mínimo e ultrapasse um nível de confiança.

  16. Weka: Visualização • Ajuda a identificar a dificuldade na aprendizagem do problema • Visualização 2D • Difere as classes por cor

  17. Weka: Experimentos em conjunto • Experimenter: permite a comparação de diferentes estratégias de aprendizagem. • Para problemas de classificação e regressão • Resultados escritos em um arquivo ou base de dados • Opções de avaliação: cross-validation, curva de aprendizagem, hold-out • Pode ser executado com diferentes configurações de parâmetros • Teste de significância acoplado

More Related