280 likes | 432 Views
Comparação de Sistemas Usando Amostragem de Dados. por: Tiago A. E. Ferreira. Amostragem vs. População. População. Amostragem. Milhões de números. X 1 , X 2 , ..., X n. Média Desv. Pad. . Média X Desv. Pad. s. Objetivo: Determinar parâmetros a partir das estatisticas.
E N D
Comparação de Sistemas Usando Amostragem de Dados por: Tiago A. E. Ferreira
Amostragem vs. População População Amostragem Milhões de números X1, X2, ..., Xn Média Desv. Pad. Média X Desv. Pad. s Objetivo: Determinar parâmetros a partir das estatisticas
Intervalo de Confiança • Em estatística, inferências (a partir de dados) não são definitivas inquestionáveis: devem ser sempre apresentadas com os intervalos de confiança associados • Nós apenas medimos os fenômenos do mundo real em observações discretas e generalizamos as conclusões para todo o domínio • Há sempre um erro ao processo de generalização
Intervalo de Confiança • P(a b) = 1 - onde: • :valor esperado do parâmetro (desconhecido) • (a,b):intervalo de confiança (variável aleatória) • : nível de significância • 100(1 - ) nível de confiança • (1 - ) coeficiente de confiança
Métodos para se Determinar o Intervalo de Confiança. • Quantis de k médias • Teorema Central do Limite (a partir de 1 média) • Aproximação pela distribuição normal (n30) • Aproximação pela distribuição t de Student (n<30)
a b Exemplo: Quantis de 100 Médias a 90% de Nível de Confiança-1 • Tomam-se 100 amostras {x1 , x2,.., xn} de n exemplos • Calculam-se as 100 médias • Colocam-se as 100 médias em ordem crescente • Toma as [1+0,05(100-1)] e [1+(1-0,05)(100-1)]-ésimas médias como limites inferior e superior
Intervalo de Confiança – Distribuição Normal - N(0,1) • Faz-se a transformação para a normal reduzida N(0,1) • Consulta-se na tabela o quantil z[1-/2]da normal reduzida • Encontra o intervalo de confiança (a,b)
Exemplo 1 Suponha uma certa distribuição de pontos que tenha: x = 3.90 s = 0.95 n = 32 Queremos um intervalo de confiança sobre a média de 90%! 100(1-) = 90 = 0.1 Temos, Z[0.995] = 1.645, o que implica um intervalo de confiança 3.62 3.90 4.17
Intervalo de Confiança – Estatística de t-Stundent • Faz-se a transformação para a t de Student com graus de liberdade • Consulta-se na tabela o quantil t[1-/2;]da t de Student • Encontra o intervalo de confiança (a,b)
Exemplo 2 Suponha a amostragem: {-0.04, -0.19, 0.14, -0.09, -0.14, 0.19, 0.04, 0.09}. Temos, x = 0 s = 0.138 n = 8 Queremos um intervalo de confiança sobre a média de 90%! 100(1-) = 90 = 0.1 Temos, t[0.95;7] = 1.895, o que implica um intervalo de confiança -0.0926 0 0.0926
Teste de Média Zero médias 0 Intervalos de Confiança que incluem o zero Intervalos de Confiança que não incluem o zero
Exemplo 3 A diferença de tempo de processamento para duas diferentes implementações do mesmo algoritmo é dada pela amostragem: {1.5, 2.6, -1.8, 1.3, -0.5, 1.7, 2.4} n = 7; x = 1.03; s2 = 2.57 ; s = 1.60 Intervalo de Confiança de 99% : 100(1-) = 99, = 0.01, 1-/2 = 0.995
Procedimentos Estatísticos para Comparação de Dois Sistemas • Observações Emparelhadas Se n experimentos são realizados sobre dois sistemas, e existe uma relação um para um entre o i-ésimo teste do sistema A e o i-ésimo teste do sistema B, estas observações são ditas emparelhadas • Observações Não Emparelhadas Se não existir uma correspondência entre as amostras dos sistemas A e B, as observações são ditas não em parelhadas.
Observações Emparelhadas Seis medidas similares foram aplicas a dois sistemas, e obtemos: {(5.4, 19.1), (16.6, 3.5), (0.6, 3.4), (1.4, 2.5), (0.6, 3.6), (7.3, 1.7)} Um Sistema é melhor do que o outro? A diferença de rendimento constitui ma amostragem das seis observações: {-13.7, 13.1, -2.8, -1.1, -3.0, 5.6} X = -0.32; s = 9.03; IC(90%) = -0.32 t0.95 (3.69), t0.95 = 2.015 IC(90%) = (-7.75, 7.11) O intervalo de Confiança incluí o zero, desta forma os dois sistemas não são diferentes!
Observações Não Emparelhadas É necessário realizar uma estimativa da variância e dos graus de liberdade: Receita: Procedimento teste-t 1) Calcular as médias
Observações Não Emparelhadas 2) Calcular os Desvios Padrões:
Observações Não Emparelhadas 3) Calcula a diferença das médias: 4) Calcular o desvio padrão da diferença das médias:
Observações Não Emparelhadas 5) Calcular o número efetivo de graus de liberdade:
Observações Não Emparelhadas 6) Calcule o intervalo de confiança para a diferença das médias: 7) Se o intervalo de confiança incluir o zero, a diferença é não significativa em um nível de confiança de 100(1-)%. Se o intervalo de confiança não incluir o zero, então o sinal da diferença das médias indicará qual sistema é o melhor!
Exemplo – Observações não Emparelhadas O tempo de processador requerido para executar uma tarefa foi medido em dois sistemas: Sistema A: {5.36, 16.57, 0.62, 1.41, 0.64, 7.26} Sistema B: {19.12, 3.52, 3.38, 2.50, 3.60, 1.74} Sistema B: Média xb = 5.64 Variância sa2 = 44.11 nb = 6 Sistema A: Média xa = 5.31 Variância sa2 = 37.92 na = 6
Exemplo – Observações não Emparelhadas Diferença das médias: xa – xb = -0.33 Desvio Padrão para diferença das médias: s =3.698 Número efetivo de graus de liberdade: = 11.921 t[0.95; 12] = 1.71 Intervalo de confiança = (-6.92, 6.26) O intervalo de confiança inclui o zero! Assim sobre este nível de confiança os sistemas são iguais!
Teste Visual • Os CI’s não se sobrepõem, o sistema vermelho é melhor. • Os CI’s se sobrepõem e as médias estão dentro do CI do sistema oposto. Os sistemas são iguais! • 3) Os CI’s se sobrepõem, mas as médias não estão dentro do CI do sistema oposto. É necessário o procedimento do teste-t!
Intervalo de Confiança Unilateral Se desejarmos comparar uma grandeza x com um determinado valor, para sabermos, por exemplo, se ela é maior que este valor. Só necessitamos de um lado do intervalo de confiança. Assim, pode-se definir:
Exemplo – IC Unilateral O tempo de resposta a um estimulo foi medido para um sistema A e um sistema B. Procedimento Teste-t: = 191.05 ( > 30) s = 19.35 z0.90=1.28 IC = (-17.37, -17.37+1.28*19.35) = (-17.37, 7.402)
Intervalos de Confiança para Proporções Estatística de Dados Categóricos – Probabilidades associada às Categorias. Tais probabilidade são chamadas de proporções! Dado que n1 das n observação são do tipo 1, o IC para a proporção é dado por:
Exemplo - Proporções Um experimento foi repetido 4 vezes em dois sistemas. O sistema A foi superior Ao sistema B em 26 repetições. O sistema A é superior com uma confiança de 99%? P = 26/40 = 0.65; s = 0.075 ; z0.995 = 2.576 O que dá um IC = 0.62 (2.576)(0.075) = (0.46, 0.84) Como o ponto 0.5 pertence ao IC não pode-se afirmar que o Sistema A é superior ao Sistema B com 99% de certeza!
Determinação do Tamanho das Amostras • Tamanho da amostra para determinação da média: • Se queremos um precisão de r% e um IC de 100(1-)% • Tamanho da amostra para determinação de proporções: • Se queremos um precisão de r% e um IC de 100(1-)%
Determinação do Tamanho das Amostras • Tamanho da amostra para IC’s que não se sobrepõem: