1 / 21

Mineração da Dados

Mineração da Dados. Entradas: Conceitos, instâncias, atributos. Terminologia O que é um conceito ? Classificação, associação, agrupamento, predição numérica O que é um exemplo ? Relações, arquivos flats, recursão O que é um atributo? Nominal, ordinal, intervalo Preparando a entrada

Download Presentation

Mineração da Dados

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Mineração da Dados

  2. Entradas: Conceitos, instâncias, atributos • Terminologia • O que é um conceito? • Classificação, associação, agrupamento, predição numérica • O que é um exemplo? • Relações, arquivos flats, recursão • O que é um atributo? • Nominal, ordinal, intervalo • Preparando a entrada • ARFF, atributos, valores faltando

  3. Terminologia • Componentes da entrada: • Conceitos: tipos • Propósito: descrição inteligível e operacional • Instâncias: o exemplo independente do conceito • Note:entradas mas complicadas são possíveis • Atributos: medindo aspectos de uma instância • Foco em nominais e numéricos

  4. O que é um conceito? • Estilo do aprendizado: • Classificação:predição de uma classe discreta • Associação:detecção de associação entre características • Agrupamento (Clustering):agrupamento de instâncias similares em grupos • Predição numérica:predição de um valor numérico • Conceito: aquilo que se aprende • Descrição do conceito:saída do esquema de aprendizado

  5. Classificação • Exemplos de problemas: weather, contactlenses, • A tarefa de Classificação é supervisionada • Os exemplos são fornecidos com a saída esperada • A saída é chamada de classe • Mede-se o sucesso em dados não vistos anteriormente, • porem conhece se a classe • Na pratica o sucesso é medido de forma subjetiva

  6. Associação • Pode ser aplicada se nenhuma classe é especificada e qualquer tipo de estrutura é considerada interessante • Diferenças com a classificação: • Podem predizer qualquer atributo e mais de um atributo • Portanto: existem muito mais regras de associação do que regras de classificação • Assim: restrições são necessárias • Cobertura mínima e máxima acuracia

  7. Agrupamento (Clustering) • Encontrar grupos de itens que são similares • Agrupamento é não supervisionado • A classe de um exemplo não é conhecida • O sucesso é subjetivo Sepal length Sepal width Petal length Petal width Type 1 5.1 3.5 1.4 0.2 Iris setosa 2 4.9 3.0 1.4 0.2 Iris setosa … 51 7.0 3.2 4.7 1.4 Iris versicolor 52 6.4 3.2 4.5 1.5 Iris versicolor … 101 6.3 3.3 6.0 2.5 Iris virginica 102 5.8 2.7 5.1 1.9 Iris virginica …

  8. + + + + + + + + + + + + + + + + + débito t renda +: exemplo Exemplo de descrição (I) • Agrupamento • Exemplo: • vector quantization; Análise de crédito Métodos

  9. PrediçãoNumerica • Uma variante da classificação na qual a classe é numérica (também chamada de regressão) • O aprendizado é supervisionado • Os exemplos são fornecidos com o valor alvo • Medida de sucesso nos dados de teste Outlook Temperature Humidity Windy Play-time Sunny Hot High False 5 Sunny Hot High True 0 Overcast Hot High False 55 Rainy Mild Normal False 40 … … … … …

  10. O que é um exemplo? • Instância: tipo especifico de exemplo • Algo a ser classificado, associado ou agrupado • Individual, exemplo independente do conceito alvo • Caracterizado por um conjunto pre-determinado de atributos • Entrada do algoritmo de aprendizado: conjunto de instâncias/bases • Representados como uma relação simples/arquivo flat

  11. Umaarvore de familia Peter M Peggy F Grace F Ray M = = Steven M Graham M Pam F Ian M Pippa F Brian M = Anna F Nikki F

  12. Arvore da familia representado como um arquivo Name Gender Parent1 parent2 Peter Male ? ? Peggy Female ? ? Steven Male Peter Peggy Graham Male Peter Peggy Pam Female Peter Peggy Ian Male Grace Ray Pippa Female Grace Ray Brian Male Grace Ray Anna Female Pam Ian Nikki Female Pam Ian

  13. A relação “Irmão de” First person Second person Sister of? First person Second person Sister of? Peter Peggy No Steven Pam Yes Peter Steven No Graham Pam Yes … … … Ian Pippa Yes Steven Peter No Brian Pippa Yes Steven Graham No Anna Nikki Yes Steven Pam Yes Nikki Anna Yes … … … All the rest No Ian Pippa Yes … … … Assume-se Closed-world Anna Nikki Yes … … … Nikki Anna yes

  14. Representaçãocompletanumatabela First person Second person Sisterof? Name Gender Parent1 Parent2 Name Gender Parent1 Parent2 Steven Male Peter Peggy Pam Female Peter Peggy Yes Graham Male Peter Peggy Pam Female Peter Peggy Yes Ian Male Grace Ray Pippa Female Grace Ray Yes Brian Male Grace Ray Pippa Female Grace Ray Yes Anna Female Pam Ian Nikki Female Pam Ian Yes Nikki Female Pam Ian Anna Female Pam Ian Yes All the rest No If second person’s gender = femaleand first person’s parent = second person’s parentthen sister-of = yes

  15. O que é um atributo? • Cada instância é descrita como um predefinido conjunto de características, seus atributos • Porém: o numero de atributos pode variar na pratica • Possível solução: “valores irrelevantes” • Possíveis tipos de atributos: • Nominal, ordinal, intervalos

  16. AtributosNominais • Os valores são símbolos diferentes • Exemplo: atributo “outlook” da base weather • Valores: “sunny”,”overcast”, e “rainy” • Não existe relação entre os valores nominais (sem ordem ou medida de distância) • Somente testes de igualdade podem ser realizados

  17. Atributosordinais • Impõe uma ordem nos valores • Porém: não existe distancia nos valores predefinidos • Exemplo:atributo “temperature” nos dados weather • Valores: “hot” > “mild” > “cool” • Note: adição e subtração não tem sentido • Exemplo de regra:temperature < hot Þ play = yes • A diferença entre atributos nominais e ordinais não sempre é clara

  18. QuantidadesIntervalos • Os intervalos são ordenados e medidos em unidades fixas e iguais • Exemplo 1: atributo “temperature” expresso em graus Fahrenheit • Exemplo 2: atributo “year” • A diferença entre 2 valores faz sentido • A soma ou produto não fazem sentido

  19. Atributos • A maior parte dos algoritmos diferenciam 2 : nominal e ordinal • Atributos Nominais são também chamados “categorical”, ”enumerated”, ou “discrete” • Porém: “enumerated” e “discrete” implicam em uma ordem • Caso especial: dicotomia (“boolean” ) • Atributos ordinais são chamados de “numeric”, ou “continuous” • Porém: “continuous” implica em continuidade matematica

  20. O formato ARFF % % ARFF file for weather data with some numeric features % @relation weather @attribute outlook {sunny, overcast, rainy} @attribute temperature numeric @attribute humidity numeric @attribute windy {true, false} @attribute play? {yes, no} @data sunny, 85, 85, false, no sunny, 80, 90, true, no overcast, 83, 86, false, yes ...

  21. Atributosadicionais ARFF suporta atributos string: Similar a os atributos nominais porém uma lista de valores não é pre-especificada Suporta dados tipo data: Usa o formato ISO-8601 yyyy-MM-dd-THH:mm:ss @attribute description string @attribute today date

More Related