420 likes | 745 Views
Korelasyon (Bağıntı) Parametre Tayini, Karelerin En Küçüğü Yöntemi. Korelasyon Katsayısı. Değişkenler arasındaki ilişkinin kuvvetini nicelendirmek üzere kullanılan istatistik: KORELASYON KATSAYISI
E N D
Korelasyon (Bağıntı)Parametre Tayini, Karelerin En Küçüğü Yöntemi
Korelasyon Katsayısı • Değişkenler arasındaki ilişkinin kuvvetini nicelendirmek üzere kullanılan istatistik: KORELASYON KATSAYISI • Dikkat: Neden sonuç ilişkisiyle karıştırmayın. X artarken Y artıyorsa bu x’deki artış y’de artışa neden oluyor demek değildir.
Kovaryans • İki değişken arasındaki doğrusal (lineer) bağımlılığın ölçüsü x ile y arasındaki kovaryansdır. • Eğer x ve y bağımsızsa cov(x,y) = 0 • Eğer cov(x,y) = 0 ise bu x ve y’nin bağımsız olduğuna veya x ve y arasında lineer olmayan bir bağıntı olduğuna işarettir. • Excel’de cov(x,y) = kovaryans(dizi1;dizi2) fonksiyonu ile hesaplanabilir. X ve Y için yığın ortalamaları Yığındaki birim sayısı
Korelasyon (Bağıntı) Katsayısı • Kovaryans değişkenlerin birimine bağlı olduğundan büyük ya da küçük olması ilişkinin kuvvetli veya zayıf olması hakkında bir fikir vermez. • Birimsiz kovaryans = Korelasyon katsayısı • Birimsiz hale getirmek için kovaryans x ve y’nin standard sapmasına bölünür. p = [-1,1]
Bağıntı Katsayısı • 0<p =Pozitif bağıntı • 0>p = Negatif bağıntı p = [-1,1] y x y x
Örneklemlere Ait Bağıntı Katsayısı X örnekleminin standard sapması Y örnekleminin standard sapması Excel’de korelasyon katsayısı = korelasyon(dizi1;dizi2) fonksiyonu kullanılarak hesaplanır.
Örnek • İki farklı kişi tarafından yapılan BOİ ölçümleri verilmiştir. Ölçümler arasındaki bağıntıyı değerlendirin.
Bağıntı Katsayısı r = 0.93 • r değerleri değişkenler arasında lineer bir ilişki varsa anlamlıdır. Eğer iki değişken arasında y =a + bx + cx2 gibi bir ilişki varsa r ±1 ‘ e yaklaşmaz. • Grafiksel gösterim ilişkinin nasıl olduğunu göstermesi açısından önemlidir. • Ne kadar kuvvetli olursa olsun bağıntı nedensellik demek değildir.
Korelasyon ve Regresyon • Korelasyonda iki bağımsız değişken sözkonusudur. Regreseyondaysa iki değişken belirli roller üstlenir. • x: bağımsız • y: bağımlı değişken olarak ele alınır. • Regresyon çözümlemesi sadece y’nin ölçüm hatalarından etkilendiğini varsayar. Eğer x’deki hatalar küçükse (sx< sy/3)sonuçlar yararlıdır.
Bağıntı Katsayısının Değerlendirilmesi • Bağıntının anlamlı olup olmadığı gözlem sayısına bağlı olarak değişebilir ve kritik r değerleri tablosundan değerlendirilebilir.
Bağıntı Katsayısının Değerlendirilmesi df = v = Gözlem sayısı -2
Bağıntı Katsayısının Değerlendirilmesi • Genelde bağıntının kuvveti için: .01 - .20 çok az ya da hiç .20 - .40 zayıf .40 - .60 orta .60 - .80 orta kuvvette .80 - .99 çok kuvvetli
Serisel İlgileşim • Eğer eldeki veri sıralı olarak toplanmışsa, yere veya zamana bağlı olarak birbirine yakın olanlar birbirine daha yakın değerler taşır. Diyelim ki bugün havadaki SO2 konsantrasyonu 150 mg/m3 ise durgun hava şartlarında ertesi gün için buna yakın bir değer bekleriz. Dünden kalan SO2 hala etkisini sürdürecektir. • Bu şekilde birbirine yakın zamanda veya konumda alınan verilerin benzer olması durumuna serisel bağlılık veya otokorelasyon denir. Serisel bağlılığın nicel ölçütü otokorelasyon katsayısıdır.
Oto Korelasyon Katsayısı • Oto korelasyon bir değişkenin kendi içindeki ilgileşimdir. • Eğer günlük ölçümler yapıldıysa yt’ye karşılık yt-7 serisel haftalı bir bağlantıya işaret eder. İlgileşim için incelenen gözlemler arasındaki uzaklık lag ile ifade edilir. Bu uzaklık örnek alma aralıkları ile ölçülür. yt+1 yt
Oto-Korelasyon Katsayısı,rk rk [-1, 1] k = 1,2 veya uygun bir sayı rk = 1 (mükemmel pozitif korelasyon
BOİ Verisi Her iki saatte bir 10 gün süreyle alınan BOİ verisi. Oto korelasyon hakkında ne söylenebilir?
rk = 0.45 k = 1 k = 3 (3 lag, 6. saat) - rk = 0.03 k = 6 (6 lag, 12 saat) rk = -0.39 k = 12 (12 lag, 24 saat) rk = 0. 25
İlk 24 saatlik örüntü ikinci 24 saatlik kısımda tekrar ediyor ama korelasyonun kuvveti azalıyor. • Örneklem arasındaki zaman farkı yüzünden diğer faktörlerin değişimiyle sistemin hafızası kısalıyor.
Karelerin En Küçüğü Yöntemiyle Parametre Tahmini (Regresyon) • İstatistikte en çok karşılaşılan sorulardan biri eldeki veriye bir eşitliğin uydurulmasıdır. • Neden veriye bir eğilim çizgisi ekleme ihtiyacı duyuluyor? • y’yi bağlı olduğu değişkenlere göre ilerde tahmin etmek istiyoruz • x’deki değişkenliğin y’yi nasıl etkileyeceğini ve böylece sistemi ve onu daha iyi sonuçlar verecek şekilde değiştirmek istiyoruz.
Veriye uydurulan eşitlik • 1. Görgül deneysel (Emprikal) –tanımlayıcı • 2. Mekanistik: sistemin nasıl işlediğinedair temel süreçlere dayanarak Bağımlı değişken (y) bağımsız değişken (x’in) birkaç değerinde ölçülür. X aynı zamanda girdi değişkeni,regresör, tahmin edici değiken olarak da tanımlanır. Regresyon: Bir denklemi veriye uydurma işlemidir. Bazen de eğilim çizgisi uydurma veya parametre tayini de denir.
Lineer Regresyon: Etkiler nedenlerle orantılı. Örnek: F = ma Faa • Lineer olmayan Regresyon: etkiler nedenlerle doğrudan orantılı değil. Örnek: Hareket eden bir objenin üzerindeki hava akımının kuvveti hızın karesiyle orantılıdır: F av2 Sistemde daha fazla fiziksel özelliği hesaba kattıkça sistem lineer olmaktan uzaklaşır
Regresyon Modeli • (yi,xi) • Y=f(x) Lineer regresyonda x ve y’ler ölçülerek b ve q parametrelerinin değerlerini bulmak. Eğer kullanılan eşitlik lineer değilse lineer olmayan regresyon kullanılır veya lineer formata dönüşüm sağlanıyorsa dönüştürme yapılır. xb =y bLogx= logy bx’=y’
Doğrusal ve doğrusal olmayan arasında farkı belirtmek üzere • Doğrusal: • Doğrusal Olmayan X: bağımsız değişkenlerden oluşan vektör B: modelin parametreleri b =[b1,b2,b3] Parametrelerin tahmin edilen değerleri ise b1, b2, b3 ile gösterilir. q = k = [k1,k2,k3] ile gösterilir.
İyi planlanmış bir deney için xi değerlerinin hatasız, yi değerlerinin de rastsal hatalardan etkilendiği varsayılır. • yi = mi + ei i = 1,2,3,….n • Eğer model doğruysa ei rastsal hatalardan daha büyük olmayacaktır. Eğer değilse, e = rastsal hatalar + model hataları (modelin oluşturulmasında dikkate alınmamış kayıp terimler) Modeli veriye uydurduktan sonra ölçülen değerler ile modellenen değerler arasındaki fark (ei) rassal ve bağımsızsa modelin veriye uyduğunu söyleyebiliriz. Eğer kalanlar bir örüntü gösteriyorsa, bu bize modeli hangi yönde geliştireceğimizi gösterir.
Basit Doğrusal Model • yi = b0 + b1xi+ ei • Kalanlar = ei = yi-(b0 + b1xi) • Regresyon gözlemlenen veriye “en iyi” uyan eğrinin parametrelerini seçmemizi sağlar. • NASIL ? Karelerin En Küçüğü Yöntemi m = b0 +b1x ei Ölçüm değerleri Model değerleri
1. Karelerin En Küçüğü Yöntemi ile Parametre Tayini • Model ile gözlemler arasındaki farkları en aza indirmek Modelden hesaplanan değerler Gözlemlenen değerler
ÖrnekDoğrusal Model • y = bx Eğer uydurulacak eşitlikte iki parametre varsa, iki tane normal denklem olur. Parametre sayısı arttıkça lineer regresyon hesaplamalarında cebirsel matrisler kullanılarak çözüme ulaşılır.
Doğrusal Olmayan Modeller • m = exp(-qx) Cebirsel yolla çözülemez. Bu durumda iteratif (yinelemeli) yöntemler kullanılır. Öyle bir q değeri bulunacak ki S(q) en az değere düşecek.
2. Yinelemeli Yöntemle Parametre Tayini Yandaki veri seti için yinelemeli yöntemle doğrusal model parametrelerini belirleyin. y = bx Yinelemeli yöntemde b parametresi için bir ilk değer verilir. Model ile y değerleri hesaplanır. Modellenen y ile gözlenen y’ler arasındaki farkların karesi hesaplanır. Bir sonraki b ile işlem tekrarlanır. Karelerin farkının en küçük değerine karşılık gelen b bulunduğunda parametre tayini işlemi sonlanmış olur.
Doğrusal Model, y = bx 1. Yineleme: b = 0.115
Doğrusal Model, y = bx 1. Yineleme: b = 0.14
Doğrusal Model, y = bx 1. Yineleme: b = 0.10
Kareler Toplamının Kalanı En Küçük Kareler Tahmini Tek değişkenli doğrusal bir model için kalanların kareleri her zaman için bir parabol verir. Parabol olduğuna göre bir doğrusal model için karelerin en küçüğüne denk gelen parametre değerini nasıl bulabiliriz?
Doğrusal Olmayan Modelde Parametre Tayini Yandaki veri seti için yinelemeli yöntemle doğrusal olmayan model parametrelerini belirleyin. y = exp(-qx) Yinelemeli yöntemde b parametresi için bir ilk değer verilir. Model ile y değerleri hesaplanır. Modellenen y ile gözlenen y’ler arasındaki farkların karesi hesaplanır. Bir sonraki b ile işlem tekrarlanır. Karelerin farkının en küçük değerine karşılık gelen b bulunduğunda parametre tayini işlemi sonlanmış olur.
Doğrusal Olmayan Model, y = exp(-x) Min S(q) = Σ[yi-exp(-qxi)]2 1. Yineleme: q = 0.32
Doğrusal Olmayan Model, y = exp(-x) 2. Yineleme: q = 0.15
Doğrusal Olmayan Model, y = exp(-x) 3. Yineleme: q = 0.20 (optimum)
Kareler Toplamının Kalanı q En Küçük Kareler Tahmini Lineer olmayan modeller için kalanların kareleri parabol değildir ve genelde simetrik olmazlar.
Parametrelerin Hassasiyeti • Parametrelerin en iyi değerlerini hesaplamak için parametrelerin hassasiyetinin bilinmesi gerekir. • Tek parametreli doğrusal model için var(b) = s2/Sxi2 s2deneysel hata varyansıdır. İdealde s2, x’in belli bir değeri için tekrar deneyleri yaparak hesaplanabilir. Ancak bu örnekte ve gerçekte yapılan bir çok deneyde tekrar gözlem mevcut değildir. Bu durumdan s2 kalanların karelerinin toplamından (SR) tahmin edilir. Eğer model doğruysa kalanlar rastsal hatalardan oluşur ve kalanlarını karelerinin ortalaması s2’yi verir.
Doğrusal Modelde b’nin Hassasiyeti • s2 = SR/v v: serbestlik derecesi =n-p n: gözlem sayısı p: parametre sayısı Doğrusal model için SR = 0.91584 s2 =0.91584/(6-1) =0.0023 var(b) = s2/Sxi2 =0.0023/713 =3.25x10-4 SE(b) : b’nin standard hatası= karekök(3.25x10-4) =0.0018 1. b± SE(b) = 0.10 ±0.0018
b’nin hassasiyeti • b’nin hassasiyeti b± SE(b) = 0.10 ±0.0018 şeklinde ifade edilebileceği gibi diğer bir yol da güvenilirlik aralığını belirtmek olabilir. • Güvenilirlik aralığı: b ± tv=5,a=0,025 SE(b) • %95 güven aralığı için: t = 2.57 • 0.1 ± (2.57)(0.0018) = 0.1 ± 0.0046 = b = [0.095,0.105]