300 likes | 551 Views
Veriyi Çizme ve Veri Düzleme. Yöntemler. Veri Çizme. Grafikler veriyi analiz etmenin en iyi yoludur. Verinin genel özelliklerini, ilginç yanlarını ve hangi analizlerin uygulanması gerektiğini en kısa yoldan gösterir.
E N D
Veriyi Çizme ve Veri Düzleme Yöntemler
Veri Çizme Grafikler veriyi analiz etmenin en iyi yoludur. Verinin genel özelliklerini, ilginç yanlarını ve hangi analizlerin uygulanması gerektiğini en kısa yoldan gösterir. Tek bir grafik ancak tüm bunları söylemeye yetmez. Veriye farklı açılardan bakmamızı sağlayacak şekilde grafikler oluşturmak önemlidir. Grafikte amacın farklı formlar deneyerek bakış açısını özgürleştirmek olduğunu unutmamak gerekir.
Veriyi Grafikle Gösterme Bilgisayar programları sınırlı sayıda grafik tarzı sunduğundan tahayyülü genişletmek yerine sınırlandırabilir. Bu programlardaki grafik formlardan haberdar olmak iyi ancak verinizi daha iyi sunacağınıza inandığınız bir form varsa bunu kullanmak çok daha yararlı olabilir.
Ödev • Verilen Excel sayfasındaki verilere uygun istenen grafikleri kullandığınız herhangi bir grafik programını kullanarak oluşturun.
Neden Veri Düzlemesi?Verideki parazitlerden kurtulmak ve alttaki asıl eğilimi görebilmek için veri düzleme yöntemleri uygulanır.
Düzleme Yöntemleri • Veriyi Farklı Biçimde İfade Etme • Veriyi Ortalama Değerlerle İfade Etme • Hareketli (yürüyen) Ortalama • Üstel Ağırlıklı Yürüyen Ortalama
Hareketli Ortalama • En son k tane veri değerinin toplamının k’ya bölünmesi ile elde edilir. Yedi günlük hareketli ortalama (HO7) en son 7 veri noktasını kullanır. HO10 son 10 veriyi vb. Her veri noktasına aynı ağırlık verilir. • i=k,k+1,…..n • Her yeni gözlem yapıldığında toplam bir terim azaltılıp diğer nokta eklenir.
1 2 3 4 5 6 7 Örnek Y3 (k) = 2.0 Y4(k) = 3.0 Y4 (k) = 2.0 + (1/3)*(4-1) = 3
Örnek Hareketli ortalama verideki eğilimi daha iyi görmemizi sağlar.
Üstel (exponential) HO • Basit HO’da hem çok geçmişte kalan hem de son zamanın verilerinin ağrılıkları eşittir. Yani HO (30) için 4 hafta öncenin durumu, dünkü durumla aynı şekilde yansıtılmıştır ki belki de söz konusu sistem için 1 ay öncenin verisinin hiçbir önemi kalmamıştır. ÜAHO (üstel ağırlıklı hareketli ortalama) ise son zamanlarda olan olaylara daha fazla, geçmişte olanlara ise göreceli olarak daha az ağırlık verir. • Örneğin bir nehre boşaltılan BOİ, boşaltıldığı gün önemlidir. 2 -3 günlük ortalama da önemli olabilir zira 2-3 günlük ÇO azalması felaket olabilir. (organizmalar 1 günlük düşük ÇO seviyesini idare edebilirler)
ÜAHO • Bazı kirleticiler etkilerini yıllarca göstermeyebilirler. Kanserojen maddeler için uzun dönemli (yıllar) ortalamalar önemli olabilir. İlk alınan tahriş edici bir madde çok yakında alınan bir maddeden daha önemli olabilir. Örneğin akciğerdeki asbest birikimi gibi. Bu durumda kirliliğin kaynağı şimdiki etkilerle bağlantısı ile ilgili bir istatistik verilmek isteniyorsa geçmiş olaylara daha fazla ağırlık verilir.
ÜAHO • i=0,1,… • Ф = ÜAHO’nun hafızasının uzunluğunu belirleyen, uygun olarak seçilmiş 0 ile 1 arasında bir sayı • Terim sayısı ise sonsuza giderken gittikçe 0’a yaklaştığından genellikle baştan birkaç terim alınır. Örneğin Ф 0.3 olarak alınırsa • Her yeni gözlem yapıldığında ÜOHA kolayca yenilenebilir.
Ф’nin büyüklüğüne göre geçmiş zamana ait verilere nasıl bir ağırlık verileceği şekilde görülebilir. Ф’nin değeri büyükse uzun dönemli dairesel hareketler daha net görülür. Eğer Ф’nin değeri küçükse ÜAHO’nun hafızası kısadır, birkaç günü geçmiş değerler hızla sıfıra yaklaşır. Genellikle Ф’nin 0.3 ile 0.5 arasındaki bir değeri düzleme ve karşılık gelmede iyi bir denge oluşturur.
Özet ve Önemli Noktalar • Bu yöntemler ilk ve keşif analizleri için idealdir. • Uygulamaları hızlı, belirgin ve kolaydır. • En iyi Ф değerini bulmak veriye eğilim çizgisi uydurarak elde edilebilir. • Sadece verinin gösterdiği eğilimi belirlemek amaçsa,geleceğe yönelik tahminlerde bulunmak gerekmiyorsa gördüğümüz temel düzleme yöntemleri yeterlidir. • Daha düzleşmiş bir sistem için, kısa süreli değişikliklere sistemce verilen yanıt feda edilir. • ÜAHO ise hem düzleşme hem de göreceli olarak daha karşılık vericidir. • Ortalamayı almadan önce eğer çok fazla sayıda değilse veri setindeki eksikler lineer ara değerleme (interpolation) ile bulunabilir
Çoğunlukla bir veri setine ilk yapılan şey ortalama ve standart sapmasını hesaplamaktır. • Ancak çevre mühendisliğinde nehir kalitesi verileri, arıtma tesisi giriş ve çıkış su kalitesi, hava kalitesi verileri genellikle pozitif çarpıklık (yüksek değerlerden oluşan bir kuyruk), tam normal dağılım göstermeyen özelliktedir. • Bu nedenle setin daha genel bir analizinin yapılması gerekmektedir.
Eğer bir sürecin %90 oranında belli bir performans seviyesinde başarılı olduğunu bulmak isterseniz (yüzde 90 dilimi), normal dağılım varsayarak hesapladığınız seviye lognormal varsayarak hesapladığınız seviyeden çok daha düşük olacaktır. Bu durumda dağılımı varsaymak yerine gerçek veriyi kullanıp hesaplamak gerekir. • Eğer sorun örneklemin ortalamasının %95 seviyesindeki güvenilirlik aralığını hesaplamaksa lognormal olması fark etmez,çünkü ortalamaların dağılımı örneklemin dağılımından bakmaksızın normal olma eğilimindedir.
Olasılık Çizileri (Grafikleri) Beş günlük Biyolojik Oksijen İhtiyacını (BOİ5) gösteren veri setinin yapısını belirlemek. Atıksu artıma tesisindeki bir sürecin tasarımı için toplam 99 adet, 4 saatlik kompozit numune yapılmış ölçümlerden ortalama BOİ5 değeri ile yaklaşık zamanın %5’inde geçilen BOİ5 konsantrasyon değerini belirlemek istiyoruz. Suyun kalitesindeki değişimin şekli aynı zamanda BOİ5 yüklemesindeki değişimi azaltmak üzere bir eşitleme işleminin uygunluğunu da göstermesi açısından önemli. Bu nedenle açık,bütünsel ve yanlış anlaşılmaya mahal vermeyecek bir çizisel gösterime ihtiyacımız var. BOİ5 Değerleri
Verinin zamana karşı çizisi. Ortalamanın altında ve üstünde hemen hemen eşit bir değişim, ortalama 687 mg/L, değerler 207’ den 1185’e kadar değişiyor. Dairesel bir örüntü (pattern) var ancak çok düzenli değil. Tablodaki veriyi yorumlayabilmek için olasılık çizisi gerekir. Olasılık çizisi ya da sıklık dağılımı gözlenen değerleri küçükten büyüğe sıralayarak oluşturulur.
p= i/(n+1) (n küçükse, mühendislerin tercihi) p= (i-0.5)/n (n küçükse) p=(i-a)/(n+1-2a), a = 0.5 or 0.375
BOİ5 Verisi İçin Olasılık Çizisi (Normal Olasılık Çizi Kağıdında Eğer dağılım normalse olasılık çizi kağıdında düz bir çizgi olması gerekirdi. BOİ5 Konsantrasyonu Simetrik ancak normal değil X ekseni (%) : BOİ5 değerinin karşılık gelen BOİ5 değerinden az ya da eşit olma olasılığı S şekli kalın kuyrukları olan dağılımların karakteristiğidir. İnce kuyruklu ya da çarpık bir dağılım da farklı eğimli bir S şekli verir. Bizim dağılımımızın şekli nasıl?
BOİ5 Verisi Histogramı Şekilde de görüldüğü gibi Tektip dağılıma yakın Sayı Sıklığı BOİ5 Konsantrasyon, mg/l
BOİ5 Verisi İçin Olasılık Çizisi (Lineer Ölçekli Grafik Kağıdında) Eğer dağılım tektip (uniform) ise lineer ölçekte düz bir çizgi oluşturur. BOİ5 Değerleri tektipe yakın bir dağılıma gösteriyorlar.
Zamanın %95’inde Küçük Olacağı BOİ5 Değeri 1146 Eğer verinin normal dağılıma sahip olduğunu varsayarak %95’lik değeri 688 + 1,65 x 296.35= 1177 mg/l Bu değer verinin gerçekte gösterdiği %95’lik sınır değerinden daha fazladır. Ancak zaten bu örnekte verinin normal dağılım göstermediği, tektip dağılım olduğu histogramda açıkça görülmüştür.
Notlar • Olasılık çizi kağıdı aynı zamanda logaritmik eksenli olarak da bulunur. Eğer bu kağıtta çizilen olasılıklar düz bir çizgi oluşturuyorsa, dağılım lognormaldir. • Eğer verinizin lognormal olarak dağıldığına inanıyorsanız, noktalardan geçen göz kararı bir doğru çizin. Eğer çizilen doğru görülen noktaları iyi tanımlamıyorsa o zaman düzleştirilmiş bir eğri çizin.
Olasılık Çizilerinin Kullanımı ve Yanlış Kullanımı • Mühendislik kitaplarında olasılık çizi kağıdına çizildiğinde p=%50’nin ortalama, p =%50’den p=%84.1’e olan uzaklığın da standard sapma olduğu söylenir. Bu çizisel hesaplar ancak ve ancak veri normal olduğu zaman geçerlidir. • Çoğu çevresel veri normal dağılım göstermediğinden, grafiksel yöntemin çok yararlı olduğu söylenemez. Ancak çizi, medyanı (p = %50) ve belli bir yüzde değerini direkt bulmak için idealdir.
Özet • Olasılık dağılım çizileri dağılımın şeklini görmek için kullanışlı grafiksel araçlardır. • Ancak çevresel veriler söz konusu olduğunda diğer grafiklerle birlikte kullanılmalıdır. • Olasılık çizileri yüzde değerleri elde etmede yararlıdır. • Özel durumlar dışında olasılık çizilerini kullanarak ortalama ve standart sapma bulmaktan kaçınılmalıdır. • Eğer veride pozitif bir çarpıklık varsa logaritmik ölçek kullanmak uygun olabilir.