200 likes | 461 Views
BBY 220 - Bilgi Erişim İlkeleri. BES’de Etkinlik Değerlendirme. İdeal Bilgi Erişim Sistemleri. Derlemde bulunan tüm ilgili belgelere erişim sağlamayı ve erişim çıktısındaki tüm belgelerin ilgili olmasını amaçlıyor.
E N D
BBY 220 - Bilgi Erişim İlkeleri BES’de Etkinlik Değerlendirme
İdeal Bilgi Erişim Sistemleri Derlemde bulunan tüm ilgili belgelere erişim sağlamayı ve erişim çıktısındaki tüm belgelerin ilgili olmasını amaçlıyor. Bilgi erişim sistemleri üzerindeki etkinlik (başarım) ölçümleri de genellikle bu iki değere bakılarak değerlendiriliyor.
Etkinlik Değerlendirmesi Nasıl Yapılır? Bilgi erişim sistemine bir sorgu gönderilir, Sorgu sonucu erişim çıktısında yer alan ve almayan belgeler incelenir: - İlgili belgelere hangi oranda ulaşıldı? - Erişim çıktısındaki belgelerin ne kadarı ilgili? - Erişim çıktısındaki belgelerin ne kadarı ilgisiz? Sorgu sonucu elde edilen bu değerlere göre ikili sınıflandırma tablosu doldurulur, İkili sınıflama tablosundan anma, duyarlık ve posa değerleri hesaplanarak sistemin etkinliği ortaya konulur.
İkili Sınıflama Tablosu Gerçekte Durum Sistem Kararı a : Sistem tarafından erişilen ve kullanıcının ilgili bulduğu belge sayısı (relevant), b : Sistem tarafından erişilen ve kullanıcının ilgisiz bulduğu belge sayısı (false drops), c : Sistem tarafından erişilemeyen ve kullanıcının ilgili bulduğu belge sayısı, d : Sistem tarafından erişilemeyen ve kullanıcının ilgisiz bulduğu belge sayısı, a+b: İlgili ya da ilgisiz erişilen toplam belge sayısı, a+c: Sorguya karşılık erişilen ya da erişilemeyen derlemdeki toplam ilgili belge sayısı.
Anma (Recall) Değeri Anma: Sistem tarafından erişilen ilgili belgelerin (a) derlemdeki toplam ilgili belgelere (a+c) oranıdır. Anma hedefi vurma oranı olarak da bilinir. İlgili belgelere hangi oranda erişim sağlandığını gösteren bir değerdir. Anma = a / (a+c)
Duyarlık (Precision) Değeri Duyarlık: Sistem tarafından erişilen ilgili belgelerin (a) erişim çıktısında yer alan ilgili veya ilgisiz toplam belge sayısına (a+b) oranıdır. Duyarlık erişim çıktısında hangi oranda ilgili belge bulunduğunu gösteren bir değerdir. Duyarlık= a / (a+b)
Posa Değeri Posa: Sistem tarafından ilgili olduğu düşünülüp erişilen fakat gerçekte ilgisiz olan belge sayısının (b) toplam ilgisiz belge sayısına (b+d) oranıdır. Posa değeri, bir sistemin ilgisiz belgeleri ne derece sağlıklı olarak reddettiğini ölçer. Posa= b / (b+d)
Değerlendirme Nasıl Yapılıyor? Anma ve duyarlık değerleri 0-1 arasında değerler alır. Bir sistemin etkinliği çoğunluklar anma ve duyarlılık değerlerinin birlikte kullanılması ile ifade edilir. Anma ve duyarlık ne kadar yüksekse bir sistemin etkinliğinin de o kadar yüksek olduğu kabul edilmektedir (Salton, 1989).
Etkinlik Hesaplama Örneği Bir Bilgi Erişim Sisteminde, “vektör uzayı modeli” sorgusuna karşılık olarak elde edilen erişim çıktısı değerlendirilmiş ve aşağıdaki sonuçlar elde edilmiştir. Buna göre sistemin anma, duyarlık ve posa değerlerini hesaplayınız. Toplam Erişilen Belge Sayısı: 200 Erişim Çıktısındaki İlgili Belge Sayısı: 50 Derlem Üzerindeki Toplam Belge Sayısı: 1000 Derlem Üzerinde “vektör uzayı modeli” sorgusuyla ilgili belge sayısı: 250
Etkinlik Hesaplama Örneği İkili sınıflama tablosu. b = (a+b) – b = 200 – 50 = 150 c = (a+c) – a = 250 – 50 = 200 (b+d) = (a+b+c+d) – (a+c) = 1000 – 250 = 750 d = (b+d) – b = 750 – 150 = 600
Etkinlik Hesaplama Örneği İkili sınıflama tablosu. anma = a / (a+c) = 50 / 250 = 0,2 duyarlık = a / (a+b) = 50 / 200 = 0,25 posa = b / (b+d) = 150 / 750 = 0,2
Etkinlik Hesaplama Örneği Anma =0,2 Duyarlık =0,25 Posa = 0,2 Bu bilgi erişim sistemi “vektör uzayı modeli” sorgusu için: • İlgili belgelerin %20’sine erişim sağlamıştır, • Erişim çıktısındaki belgelerin %25’i ilgilidir, • İlgisiz belgelerin %20 oranında reddetmektedir. Bu bilgi erişim sistemi başarılı mıdır?
Anma ve Duyarlık Arasındaki İlişki Bilgi erişim sistemlerinde anma ve duyarlık arasındaki ilişki ters orantılıdır. Yani; BES için anma değerinin artırılması duyarlık değerinin düşmesi ile sonuçlanır ya da tersi. precision x x x x recall
Sistem Toplam Başarımı Nasıl Hesaplanır? Genellikler bilgi erişim sistemlerinin başarımı hesaplanırken tek sorgu değil çok sayıda sorgu sisteme gönderilerek hesaplama yapılır. Her bir sorgu sonucu elde edilen çıktılar için bir ikili sınıflama tablosu oluşturulur. Bu tablolara göre sistemin genel başarımı iki farklı şekilde hesaplanabilir. • Mikro ortalama: sayıların aritmetik ortalaması • Makro ortalama: oranların aritmetik ortalaması
Sistem Toplam Başarımı Nasıl Hesaplanır? Bir arama motoruna iki sorgu yöneltilmiştir. • Birinci sorgu sonucunda erişilen 5 belgeden 2 tanesi ilgili. • İkinci sorguda erişilen 10 belgeden 1 tanesi ilgili. Sistemin genel duyarlık başarım değeri nedir? Mikro ortalama yöntemi: Duyarlık = (2+1) / (5+10) = 0,2 Makro ortalama yöntemi: Duyarlık1 = 2 / 5 = 0,4 Duyarlık2= 1 / 10 = 0,1 Duyarlık = (Duyarlık1+Duyarlık2)/2 = (0,4 + 0,1) /2 = 0.25
Normalize Sıralama 3 farklı bilgi erişim sistemine aynı konuyla ilgili sorgu yollanmış ve sistemler tarafından oluşturulan erişim çıktıları tabloda verilmiştir. Duyarlık açısından hangi sistem daha başarılıdır?
Normalize Sıralama • Duyarlık tüm EÇ için aynı = 5/9 = 0,56 • Erişim çıktısında üst sıralarda ilgili belgeleri gösteren sistemler daha başarılı olmalı!
Normalize Sıralama • İlgili belgelerin erişim çıktısındaki sıralamasını da göz önünde bulunduran değerlendirme yöntemi “Normalize Sırlama” olarak adlandırılır. • Bu yöntem üst sıralarda ilgili belgelere yer veren bilgi erişim sistemlerini ödüllendirir.
Normalize Sıralama ∆ : Erişim çıktısı no S+ : Erişim çıktısında ilgili belgelerin ilgisiz belgelerin önünde yer aldığı belge çiftleri sayısı, S- : Erişim çıktısında ilgisiz belgelerin ilgili belgelerin önünde yer aldığı belge çiftleri sayısı S+max : maksimum ilgili belge sayısı
Normalize Sıralama Yukarıdaki örnek için max değeri 20 kabul edelim. • Snorm (EÇ1) = ½ (1+(20-0)/20) = 1 • Snorm (EÇ2) = ½ (1+(0-20)/20) = 0 • Snorm (EÇ3) = ½ (1+(13-9)/20) = 0.6