1 / 17

Tópicos Avançados de Base de Dados

Tópicos Avançados de Base de Dados. Carlos Rodrigues 070316102 Nuno Loureiro 070316088. Improved Histograms for. Selectivity Estimation of Range Predicates. Autores . Viswanath Poosala. Yannis E. Ioannidis. Peter J. Has. Eugene J.Shekita.

hugh
Download Presentation

Tópicos Avançados de Base de Dados

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Tópicos Avançados de Base de Dados Carlos Rodrigues 070316102 Nuno Loureiro 070316088 ImprovedHistograms for SelectivityEstimationof Range Predicates Autores ViswanathPoosala Yannis E. Ioannidis Peter J. Has Eugene J.Shekita FCUP / DCC 2012

  2. Índice • Introdução • Definição de Histogramas • Regra de Partição • Regras de Histogramas • Abordagens Anteriores a Histogramas • Histogramas Anteriores • Novas abordagens a Histogramas • Novos Histogramas • Técnicas Computacionais • Conclusões

  3. Introdução Vários Histogramas propostos no passado Vários módulos de um sistema de BD, necessitam de estimativas para o tamanho do resultado da consulta Estudos anteriores estimam que erros numa consulta podem aumentar exponencialmente com o número de conjuntos

  4. Definição de Histogramas • Os Histogramas aproximam a frequência da distribuição de um atributo • agrupando os seus valores em “baldes” (subconjuntos) • aproximando os verdadeiros valores do atributo e a sua frequência na BD • Praticamente não ocorre nenhum gasto em tempo de execução. • Nem sempre são eficientes ou práticos

  5. Definição de Histogramas • Um Histograma sobre um atributo X é construído através de: • Partição da distribuição dos dados T em β, subconjuntos disjuntos chamados Baldes. • Aproximação das frequências e valores em cada Balde com algo em comum entre si. • Baldes são calculados de acordo com a regra da Partição que procura uma aproximação a T

  6. Regra de Partição Juntar a T uma terceira coluna que é derivada das duas primeiras, com T como objecto de ordenação Especificar uma subclasse restrita de todos os Histogramas possíveis numa distribuição T Juntar uma quarta coluna derivada das duas primeiras Determinar a única partição de T em β baldes, tal que o Histograma pertença à subclasse restrita e satisfaça uma restrição especificada na quarta coluna

  7. Regras de Histogramas • Classe de partição: • É a classe restrita de histogramas, considerada pela regra da partição. • Restrição de partição: • É a Restrição matemática, sendo aquela que identifica unicamente o histograma dentro da sua classe de partição • Parâmetro de Ordenação e Parâmetro de Origem: • Os parâmetros derivados de T e colocados na terceira e quarta coluna.

  8. Regras de Histogramas • Aproximação de valores dentro de um subconjunto: • A hipótese que determina os valores próximos dentro de um subconjunto do histograma. • Aproximação das frequências dentro de um subconjunto: • A hipótese que determina a frequência aproximada de cada valor dentro de um subconjunto do histograma. • Estas duas regras determinam a informação que necessita estar armazenada em cada balde.

  9. Abordagens anteriores a Histogramas • Classe de partição: • Os Histogramas clássicos não têm restrição no número de elementos de T que podem ser atribuídos ao Balde. • Histogramas “End-Biased” obrigam que todos os baldes contenham apenas um elemento de T • Restrição de partição: • Para a classe em série são considerados 3 tipos de histogramas, definidos para várias fontes de parâmetros: • Equi-sum: Usa β Baldes, a soma da fonte de valores em cada subconjunto é igual a 1/β vezes a soma de todas as fontes de valores no histograma • V-Optimal: É um histograma com variância ponderada, a fonte de valores é minimizada. • Spline-based: O máximo absoluto que difere entre a fonte de valor e a média da fonte de valores no seu Balde é minimizado.

  10. Abordagens anteriores a Histogramas • Aproximação de valores atribuídos e frequências: • Todos os histogramas fazem a frequência uniforme supondo e aproximando todas as frequências num Balde pelas suas médias. • Todos os histogramas necessitam de armazenar a frequência média para cada Balde

  11. Histogramas anteriores • Trivial Histogram: • Tem apenas um único Balde. • Equivalentes à popular hipótese de distribuição uniforme • Equi-Sum(V,S) alias Equi-width: • Histograma contíguo aos intervalos dos atributos nos Baldes. • Soma das propagações em cada balde • Equi-sum(V,F) alias Equi-depth: • Como o histograma acima porém tem a soma das frequências em cada Balde em vez da soma da propagação.

  12. Histogramas anteriores • Spline-Based(V,C): • Inspiram outros histogramas para melhoramentos em análise numérica para aproximar curvas. • V-Optimal(F,F): • Histogramascontíguos ao conjunto de frequências em Baldes de forma a minimizar a variância sobre a frequência aproximada. • V-Optimal-End-Biased(F,F): • Algumas das maiores frequências e algumas das mais pequenas são colocadas em Baldes individuais enquanto asfrequências médias são agrupados num único Balde.

  13. Novas abordagens a Histogramas • Classe de Partição: • Histogramas tendenciosos têm pelo menos um Balde singleton e possivelmente vários “não-singleton”. • Restrições de Partição: • Duas novas restrições • Maxdiff:Baldelimitado entre duas fontes de parâmetros de valores adjacentes. • Compressed:Osn maiores valores de origemsão guardados separadamente em n Baldes singleton, o resto é particionado em histogramas equi-sum.

  14. Novas abordagens a Histogramas • Parâmetros de Ordenação e Parâmetros de origem: • Introduziu-se a área como uma possível escolha na classificação e fonte de parâmetros. • Aproximação de valores atribuídos dentro de um Balde: • Introduziu-se a hipótese de propagação uniforme em que para cada atributo dentro de um Balde, assume-se que a propagação é igual à média do Balde.

  15. Novos Histogramas • V-Optimal(V,F), V-Optimal(V,A), V-Optimal(A,A) e V-Optimal(V,C): • V-Optimal(V,F) e V-Optimal(V,A) minimizam a variância em frequências e nas áreasrespectivamente. • O V-Optimal(A,A) minimiza a variância da aproximação global da área. • V-Optimal-End-Biased(A,A) : • Idêntico ao (F,F) excepto que este usa a área como parâmetros de ordenação e origem. • Maxdiff(V,F), Maxdiff(V,A): • Tentam alcançar o seu objectivo inserindo limite nos Baldes entre os valores de origem adjacentes. • Compressed(V,F) e Compressed(V,A): • Os atributoscom a maior frequência são colocados num Balde singleton e depois os valores restantes são distribuídos por múltiplos Baldes.

  16. Técnicas Computacionais • A construção de Histogramas necessita de: • Cálculo dos quantis para Histogramas equi-depth • Necessário calcular o limite de Baldes • Cálculo das frequências e das frequências acumuladas de cada atributo • Necessário um contador para cada atributo distinto • Cálculo do número de atributos distintos que se encontram num dado intervalo • Cálculo da propagação de cada atributo

  17. Conclusões • Inovações: • Restrições de Partição são mais precisas que as tradicionais. • Uso do número de valores distintos num Balde para aproximar de forma mais precisa a distribuição dos valores e frequências no Balde. • Adaptação a algoritmos aleatórios para uma construção eficiente de Histogramas em série. • Uso de um reservatório de amostras e técnicas de estimações estatísticas para construir eficientemente Histogramas usando uma única verificação dos dados.

More Related