450 likes | 775 Views
t Testi, Karşılaştırmalar, Standard ve Ortalamayı Değerlendirme. Anlamlılık Testleri ve Güvenirlik Aralığı. İstatistiksel tümevarım: Bilinmeyen yığın parametreleri hakkında deneysel veriye dayanarak değerlendirme yapmak
E N D
t Testi, Karşılaştırmalar, Standard ve Ortalamayı Değerlendirme
Anlamlılık Testleri ve Güvenirlik Aralığı • İstatistiksel tümevarım: Bilinmeyen yığın parametreleri hakkında deneysel veriye dayanarak değerlendirme yapmak • Diyelim ki gerçek yığın ortalamasının değerini bilmiyoruz. Eğer nitrat numunesi ölçümlerinin ortalamasını 7.51 bulduysak, yığının gerçek ortalamasının 8.00 mg/l olma olasılığı nedir? Bu değerlendirme için anlamlılık testleri ve güvenlik aralığı kullanılan en yaygın iki metottur.
Anlamlılık Testleri • 1. Hipotez testi şeklinde olur: • Hipotez testi için bir “sıfır hipotezi”, bir “alternatif hipotez” ve bir de testin sonucunun belirleneceği anlamlılık düzeyi değeri (a) ‘ya ihtiyaç vardır. Test edilecek hipotez: Ho : m = 8 mg/l Ho “sıfır hipotezi” veya “geçersizlik” hipotezi diye adlandırılır. Ha :m<8 veya m>8 (tek yönlü) veya Ha: m≠8 (çift yönlü) H: “alternatif hipotez” Anlamlılık düzeyi: 0.05 (sıfır hipotezinin yanlışlıkla reddedilme riski)
1. Hipotez Testleri, Örnek • Nitrat ölçüm sonuçları için ortalamanın 8.0 mg/l olduğunu a =0.05 düzeyinde test edin. • Çözüm: • Ho=m=8 mg/l • Ha=m<8 mg/l (tek yönlü test) • a=0.05 • Hesaplanan t, a=0.05 yani %5 olma olasılığı olan t istatistiğinden küçükse, Sıfır hipotezi reddedilecektir. Serbestlik derecesi 26 için bu kritik t değeri tablodan bulunur. • tk=t(26,0.05)=-1.706 • t<tk .
Hipotez Testleri, Örnek t dağılımı m = 8 a =%5 tk-1.706 -3 -2 -1 0 1 2 3 • t<tk . -1.842<-1.706. • Bu durumda alternatif hipotez lehine sıfır hipotezi reddedilir. Yani ortalamasının 7.51 bulunduğu nitrat ölçümlerinin ait olduğu yığının ortalamasının %5 riskle, 8 olmadığını söyleyebiliriz. Hesaplanan t=-1.842
Çift Yönlü Test • Ho : m = 8 mg/l • Ha : m ≠ 8 mg/l (çift yönlü test) • a=0.05. Bu durumda t referans dağılımının hem negatif hem de pozitif kuyruk alanları dikkate alınır. Simetriden dolayı bu kuyruk alanları birbirine eşittir. 0.05/2 = 0.025. Serbestlik derecesi 26 için kritik t değeri tablodan bulunur. • tk=t(26,0.025)=±2.056 (excel’de =tters(0.05;26)) • t = ±1.842 • t>tk (-1.842>-2.056). • Sıfır hipotezini reddetmek için yeterli kanıt yok.
t dağılımı m = 8 a =%2.5 a =%2.5 tk-2.056 -3 -2 -1 0 1 2 3 t dağılımı m = 8 a =%5 tk-1.706 -3 -2 -1 0 1 2 3 Tek Yönlü Çift Yönlü Tek ve çift yönlü hipotez testleri sonuçları farklı çıkarımlar doğurdu, aynı ortalama, aynı veri, aynı anlamlılık düzeyi ve aynı sıfır hipotezi kullanılmasına rağmen. Tek fark alternatif hipotezdi, Ha. İstatistiksel olarak sıfır hipotezini reddetmek için için y- ile m arasındaki sapma çift yönlü testte tek yönlü teste göre daha fazla olmalıdır. SORU: HANGİ TESTİ KULLANMALIYIZ?
Hangi Test? • Genel olarak bir yanıtı yoktur. Problemin içeriği hangi testin kullanılması gerektiğini belirler. Örneğin eğer pozitif sapma bir sorun ama negatif sapma sorun değilse tek yönlü test kullanılır. • Örneğin yüksek değerler kanuna uygunluğu ihlal etmek demek olduğu bir durumda uygunluğunu değerlendirmek ya da verimliliği artırılması bir A maddesi eklediğinizdeki durumu değerlendirmek için tek yönlü test diğer taraftan örneğin A maddesinin verimliliği değiştirip değiştirmediğine bakmak isterseniz çift yönlü testi kullanabilirsiniz.
2. Güvenirlik Aralığı • Genellikle parametre değerinin hangi değerler arasında kalacağını belirtmek daha bilgilendiricidir. a = 0.05 ise, yukarıdaki ifade bize gerçek değerin %95 ihtimalle güvenirlik aralığı içinde olduğunu gösterir.
Örnek t dağılımı a =%2.5 a =%2.5 • Nitrat ölçümleri için %95’lik güvenirlik aralığını hesaplayın. • m=8 mg/l • a=0.05 • n=27 • v=26 • t(26,0.025)=-2.056 Excel’de =tters(0.05;26) 6.96 < m < 8.05 8 mg/l bu aralığın içinde. tk-2.056 7.0 7.25 7.5 7.75 8.0
Standartla Karşılaştırma • Kalite kontrol yapmak üzere bir niceliğin standart ile karşılaştırılması • Örnek: Bir laboratuara 1.2 mg/l’lik ÇO bulunduran14 adet numune yollanıyor ve ÇO’nun Winkler titrasyon yöntemi ile ölçülmesi isteniyor. Laboratuarın yaptığı ölçümler aşağıda verilmiştir. Laboratuarın ölçümlerde bir yanlılık gösterdiği söylenebilir mi?
Örnek, devam • ÇO= {1.2,1.4,1.4, 1.3, 1.2, 1.35, 1.4, 2.0, 1.95, 1.1, 1.75, 1.05, 1.05, ve 1.4 mg/l} 1. Hipotez yöntemi: • Ho:m=m0 (yanlılığın 0 olduğu hipotezi) • m0: bilinen yığın ortalaması • m: y ile tahmin edilen ortalama • Normal dağılımdan alınmış rassal bir örneklem 13 serbestlik derecesiyle bir t dağılımına sahiptir.
Örnek • 14 ölçümün ortalaması: y= 1.4 mg/l H0 = m-m0 = 0 • s = 0.31 • sy-=0.083 mg/l Bilinen değer 1.2 ile ortalama 1.4 arasındaki fark büyük (0.2 mg/l) ancak ölçümler arasındaki değişkenlik de büyük. Arada istisnai bir farkın olup olmadığını anlamak için hipotez testi uygularsak: • H0 = m-m0 = 0 • Ha = m-m0≠ 0 t = (1.4-1.2)/0.083 = 2.4 df=14-1=13 a = 0.05 a/2 = 0.025 tk(13,0.025) = ±2.16 Hesaplanan t 2.5, tablodan bulduğumuz tk’nin dışında kalıyor. Bu durumda 1.4 lük bir ÇO ortalaması bulmamız %95 güvenilirlik sınırında istisnai bir durumdur. Yani 1.4 gibi büyük bir ortalamanın bulunması şans eseri değil ölçümlerdeki sistematik bir hatanın varlığına işaret edebilir. Sıfır hipotezi bu durumda reddedilir. a =%2.5 2.16 -2.16 -2.4 2.4 -3 -2 -1 0 1 2 3 y-mo/sy
Örnek 2. Güvenirlik Aralığı Standartla ölçülen ortalamanın farkının %95lik güvenilirlik aralığını hesaplarsak: t = 2.16 0± t(0.05;13)sy--> -0.18 < m-y-< 0.18 Standard değer 1.2 ile 14 ölçümün ortalamasının farkı 1.4-1.2 = 0.2 bu aralığın dışında kalır. Yine aynı şekilde bunu şu şekilde yorumlayabiliriz. Fark o derece büyük ki bunun şans eseri olması olası değil. NOT: “Olası değil” bu durumda %5 olasılıkla bu fark rassal ölçüm değişkenliğinden kaynaklanabilir demek. 2.16 -2.5 2.5
SONUÇ • Ölçümler gerçekte bilinen ÇO konsantrasyonundan daha büyük. • 1) Eğer ÇO konsantrasyonu gerçekten 1.2 ise, ölçüm yönteminde sorun var. • 2) Eğer metot sorunlu değilse standarda bir hata var. SORU: Neden ÇO ölçümleri farklı çıkmış olabilir? Artış yönünde bir fark olmasını nasıl yorumlarsınız?
Farkların Ortalamasını Değerlendirmek • A’yı iki farklı şekilde ölçmek farklı sonuçlar verir mi? Eşleştirilmiş Deneyler analitik yöntemleri karşılaştırmada kullanılır. Eşleştirilmiş test sonuçları eşleştirilmiş t testi ile değerlendirilir. NOT: İki ortalamanın farkını değerlendirirken bağımsız t testi, eşleştirilmiş farkların ortalamasını karşılaştırırken eşleştirilmiş t test kullanılır. Yapılan deneyin tasarımına göre uygun olan seçilir. Fark hesaplandıktan sonra üç yargıya varılabilir. • fark pozitif • fark negatif • fark o derece küçük ki kesin bir şey söylenemez.
Örnek • ÇO miktarı 1.2 mg/l’lik standart bir çözelti iki ayrı laboratuar gönderiliyor. Lab A Winkler metoduyla, laboratuar B ise elektrod metoduyla 14 ayrı numuneyi ölçüyor. İki yöntem arasında bir fark olduğunu söyleyebilir miyiz?
Winkler metoduyla yapılan ölçümler, elektrod metodundan daha küçük gözüküyor.
d = eşleştirien y1 ve y2 değişkenleri arasındaki farkın gerçek ortalaması d = 0 (y1 ve y2 ‘nin geldiği yığınlar eşitse d’yi d ile tahmin edebiliriz.) Güvenilirlik Aralığı
=0.05 a/2=0.025 %95lik güvenilirlik aralığı: T0.025,13=2.16 d-2.16(0.132)<d<d+2.16(0.132) -0.65 mg/l<d<-0.04 mg/l İki yöntem arasındaki fark -0.65 ile -0.04 arasında, bu güvenilirlik aralığı 0’ı kapsamıyor. Demek ki istatistiksel olarak “%95 güvenilirlikle” elektrod ile yapılan ölçümler daha yüksek sonuçlar veriyor” diyebiliriz. Eğer 0 güvenilirlik aralığının içinde yer alsaydı, o zaman “iki metodun farklı olduğunu söyleyemeyiz” diyebilirdik.
Ne zaman eşleştirilmiş t kullanılır? • Eşleştirilmiş deneyler sonucu etkileyen tüm faktörlerin kontrol edilmesi güç olduğunda kullanılır. Diyelim ki bir arıtma tesisinden toplanan örnekler üzerinde karşılaştırma yapılsın. Giriş su kalitesi zamana göre değişecektir. Giriş suyundaki değişimi sonuçlara etkileyen bir etken olmaktan çıkarmak üzere giriş ve çıkış suyunun kalitesi ölçülüp aradaki fark hesaplanır. Eşleştirilmiş aynı gün testler arasındaki fark günlük değişimden etkilenmez.
Örnek • Bir elektrik santralinin soğutma suyunun alıcı ortamdaki bazı su organizmalarının sayısını etkilediğinden şüphe ediliyor. Copoed’un santral deşarjının öncesinde ve sonrasında 17 gün boyunca ölçülüyor. Aşağıdaki grafik oluşturuluyor. Sezondan kaynaklanan farkları kaldırmak için giriş ve çıkış ölçümleri eşleştiriliyor.
Veri dönüştürmeye gerek var mı? Başka bir deyişle, sayı arttıkça varyans artıyor mu? Sayılar büyüdükçe farklar da büyüyor. Oysa t testini kullanabilmek için sabit varyans olması lazım. Bu durumda ln dönüşümü kullanılabilir. Giriş Organizma Sayısı
Giriş Organizma Sayısı z = ln(y) ln(Giriş Organizma Sayısı)
%95 lik güvenirlik aralığı 0’ı kapsıyor. Bu demek ki, yüksek bir güvenilirlikle çıkış sularının kalitesinin giriş suyunun kalitesinden farklı olduğunu söyleyecek bir kanıtımız yok.
İki Ortalamanın Farkının Değerlendirilmesi, Bağımsız t Testi • Eğer testleri eşleştirmek mümkün değilse, iki ayrı setin ortalaması bağımsız t testi ile karşılaştırılır. • Örnek: Atık sulardaki cıva sınırları oldukça düşüktür. Ne zaman ağır metal derişimi yüksekse, sorun sanayiyi o maddeyi deşarj etmeyi durdurması istenerek çözülmeye çalışılır. Ancak civa, suyun kaynağından veya atık sulardan da geliyor olabilir. Tablo 14.1 şehir su kaynağını kullanan bir yerleşim bölgesi ile kuyu suyu kullanan bir yerleşim yerinden alınan atıksulardaki Hg ölçümlerini veriyor. İki bölgeden alınan sular arasında Hg içeriği açısından bir fark var mı?
Eğer varyanslar yaklaşık eşit büyüklükte ise bileşik varyans aşağıdaki formülle hesaplanır.
%95 güvenirlik aralığı 0 güvenilirlik aralığının içinde. İki bölgede cıva derişimlerinin farklı olduğuna dair ikna edici bir kanıt yok. “Su kaynağının çıkış suyundaki cıva derişimini etkiler” endişesi olmadan ileri bir örnekleme yapılabilir.
NOT • Diyelim ki 0.15 mg/l ve 0.17 mg/l cıva bulunmuş olsun. 0.02 mg/l lik fark istatistiksel olarak anlamlıdır. Ancak bu derece büyük bir cıva kirlenmesinin olması aradaki farkı ana kaygı yapmaz. İstatistiksel olarak anlamlı olan çevre kalitesi açısından çok önemli olmayabilir. • Cıva örneğinde farklı günlerde ölçümlerin yapılmış olması günlük farkların da rastsal değişimlerin üzerine geleceği muhakkaktır. Eşleştirilmiş testlerde bu etki olabildiğince ortadan kaldırılmış olur.
Oranların Farkını Değerlendirme • Oranlar, biyoloji, epidomoloji ve halk sağlığı ile ilgili çalışmalarda kullanılır. • Örnek: Biyoassay Testi: Organizma iki tip duruma maruz bırakılır. 1) Çıkış suyunu içeren bir ortam 2) Temiz su içeren bir ortam. Eşit sayıda rastsal olarak seçilmiş organizmalar iki akvaryuma yerleştirilir. Deneyden alınan cevabın ikili(binary) bir ölçütü vardır: Belli bir özelliğin varlığı ya da yokluğu
Oranların Farkını Değerlendirme • 80 organizmanın temiz ve atıksuya maruz kaldığını varsayalım. (n1 = n2 =80) • İki gruptaki organizmaların hayatta kalma oranları, iki ortamın zehirlilik açısından yüksek bir kesinlikle farklı olduğunu gösterir mi? Ölü Binary (İkili, Kesikli sonuç) BİNOMİYAL IŞLEM Diri
Binomiyal Olasılık Dağılımı • N deney içinde x olayının gözlenme olasılığını verir. Deneyler genellikle deneme olarak adlandırılır. Eğer x gözlemlendiyse deneme başarılıdır denir. p: olayın olma olasılığı 1-p : olayın olmama olasılılığı. Çevre sorunlarında genellikle olayın olmama olasılığının büyük olmasını isteriz. Küçük p.
Binomiyal Olasılık Dağılımı • Binomial olasılık dağılımı fonksiyonu x için n ve p cinsinden p: olayın olma olasılığı 1-p : olayın olmama olasılılığı. N deneme için beklenen olma sayısı = mx = np N deneme için değişke: sx2 = np(1-p)
Varsayımlar: • p sabit ve sonuçlar denemeden denemeye bağımsız • r kadar ya da daha az sayıda olayın olma olasılığı • Biyoassay testlerinde her test organizması bir deneme sayılır ve ilgilenilen olay organizmanın belirlenen test süresinde ölüp ölmediğidir.
N organizmanın test koşullarına tabi tutulduğu durumda, organizmaların öldüğünü gözlemleme olasılığı binom dağılımından hesaplanır. • Excelde BİNOMDAĞ(sayı_b;deneme;olasılık_b;kümülatif) • Sayı_b denemelerdeki başarı sayısıdır. • Deneme bağımsız deneme sayısıdır. • Olasılık_b her denemedeki başarı olasılığıdır. • Kümülatif fonksiyonun biçimini belirleyen mantıksal değerdir. Kümülatif DOĞRU ise, BİNOMDAĞ, en çok sayı_b başarı olasılığı olan kümülatif dağılım fonksiyonunu verir
20 organizmalık bir gruptaki x Ölümün Kümülatif Binom Olasılığı Eğer p=0.05 ise, 20 test organizması içinden 20x0.05 = 1 ölüm bekleriz. Tablodan bir ya da daha az ölüm gözleme olasılığı %74’dür. Tam olarak 1 ölüm gözleme olasılığı ise Pr (x=1) = Pr(x<=1) –Pr(x=0) = 0.74-0.36 = 0.38
20’li bir grupta tam olarak x ölüm görme olasılığı x Binom dağılımı yerine eğer np>5 ve n(1-p)>5 ise normal dağılım kullanılabilir. Yukarıdaki grafikte görüldüğü gibi p = 0. 5 için dağılım tamamen simetrik, p = 0. 2 için ise simetriye yakın (np = 4 ve n(1-p) = 3.2 olmasına rağmen)
Normal Dağılımı Kullanarak İki Oranın Farkını İncelemek • Amaç iki binom prosesi için p değerlerinin aynı mı yoksa farklı mı olduğuna bakmak. Hesaplanan oranı p’ ile gösterelim: • p’ = x/n, x: hayatta kalan organizma sayısı Bunu cevaplayabilmek için p’1-p’2 farkının 0’dan farklı olup olmadığına bakılır. İki oran arasındaki farkın ortalaması 0 ve varyansı: Standartlaştırılmış Fark (z) Yığına ait p değeri (p1 = p2 =p) için yaklaşık değer hesaplanır.
Farkın büyük ya da küçük olmasıyla ilgiliysek o zaman za/2 yerine za kullanılır. Çözüm Normal yaklaşımı kullanılabilir mi? 5 za=0.05 = 1.64 (Excel’de =NORMSTERS(0.05)) Alt güvenirlik sınırı 0’dan daha büyük, farkın sadece şans eseri olmadığını düşünmek için sebebimiz var.
NOT Örnek soruda 0.008 lik gibi küçük bir fark bulundu. Ancak kullanılan organizma sayısı 80 gibi büyük bir rakam olduğundan istatistiksel olarak önemli bir fark. Normalde biyoassay testleri 20 organizma ile yapıldığından yüksek bir güvenle sonuç verebilmek için aradaki farkın daha büyük olması gerekir. Ayrıca düşük sayıda organizma kullanılması, normal dağılım yaklaşımını da tehlikeye sokar.