320 likes | 435 Views
Geometria dos mínimos quadrados. Renato Assunção DCC-UFMG. Produção numa unidade da Itambé. Y = óleo consumido no mes X1 = qte de acido graxo consumido X2 = glicerina fabricada X3 = numero de dias do mês X4 = numero de dias operacionais X5 = Dias abaixo de 32 graus
E N D
Geometria dos mínimos quadrados Renato Assunção DCC-UFMG
Produção numa unidade da Itambé • Y = óleo consumido no mes • X1 = qte de acido graxo consumido • X2 = glicerina fabricada • X3 = numero de dias do mês • X4 = numero de dias operacionais • X5 = Dias abaixo de 32 graus • X6 = temperatura media do mes
Gráfico de óleo x temperatura • Y = Óleo consumido • X = temperatura • Clara relação linear Dados americanos aqui
Modelo de regressão • Cada valor Yi de oleo consumido e’ igual `a soma de dois componentes: • Um componente que e’ uma reta desconhecida • Um erro (desconhecido) em relacao a esta reta • Yi = β0 + β1 xi + εi • Onde xi e’ a temperatura no dia i • εi e’ o erro no dia i
Y e’ vetor em R25 X e’ matriz 25 x 2
Queremos Y ≈ Xβ Ou então Y = Xβ + ε onde ε e’ pequeno Mas o que significa ter ε pequeno: e’ um vetor...
Operações matriciais Em geral, temos: OBS: SEMPRE INVERSIVEL SE OS x’s não forem todos iguais
Retas demais, infinitas retas • Queremos uma reta que fique bem proxima de todos os pontos. • Uma reta que fica proxima de UM ÚNICO PONTO (digamos o i-esimo ponto) e’ uma reta em que • εi = Yi – ( β0 + β1 xi ) ≈ 0 • Mas queremos que isto seja verdade para TODOS OS PONTOS.
Caminhando... • Isto e’, queremos que • εi = Yi – ( β0 + β1 xi ) ≈ 0 para todo i • Podemos então pedir que a soma de todos os | εi | ≈ 0. • Isto e’, pedir que Σi| εi | ≈ 0 (e’ sempre > 0). • Uma solução: achar a reta que minimiza
Mínimos quadrados • Na verdade preferimos trabalhar com a soma dos QUADRADOS e não com a soma dos VALORES ABSLOUTOS • Encontre β0 e β1 que minimizem • A razão e’ que a função quadrática e’ derivável no seu ponto de mínimo
Quadrado ou valor absoluto? • Media amostral de vetor e’ o valor • A media amostral de x e’ o numero μ que minimiza
Quadrado ou valor absoluto? • Mediana amostral de vetor • Ordene os numeros. • Se n for impar, pegue o valor do meio. • Se n for par, pegue a media dos dois centrais • A mediana amostral de x e’ o numero μ que minimiza
De equações para matriz • Pode-se mostrar que a solução de mínimos quadrados • Pode ser escrita de forma matricial como o vetor β = (XtX)-1 XtY • Esta forma pode ser generalizada e gera interpretação geométrica
Sejam e • Observe que • E’ uma combinação linear das duas colunas x e 1 da matriz X • Matriz = maiúsculo e coluna =minúsculo
Procurando por ... • Nosso problema então e’ encontrar a combinação linear das duas colunas da matriz X que minimiza a distancia entre os vetores Y e Xβ • E isto vale sempre, mesmo que tenhamos varios fatores preditivos!! • Vamos ver nosso exemplo com mais variáveis
Regressão múltipla Xb e’ uma combinação linear das colunas de X
Queremos minimizar Espaço vetorial das colunas de X
O que queremos? • Queremos o vetor do espaco C(X) das colunas de X que seja o mais proximo de Y • Distancia = distancia euclidiana • |Y – Xb|2 deve ser minimo • Este vetor Xb que minimiza e’ a projecao ortogonal de Y em C(X) • E’ o único vetor Xb tal que Y-Xb e’ ortogonal a Xb
Equações normais • Assim, temos = 0 e portanto • E’ a solução. β = (XtX)-1 XtY