370 likes | 801 Views
BBY 220 - Bilgi Erişim İlkeleri. Erişim Fonksiyonları: Vektör Uzayı Modeli. Erişim Fonksiyonu: Vektör Yaklaşımı. Ters Dizin Kütüğünde bulunan her bir doküman bir vektör olarak düşünülebilir.
E N D
BBY 220 - Bilgi Erişim İlkeleri Erişim Fonksiyonları: Vektör Uzayı Modeli
Erişim Fonksiyonu: Vektör Yaklaşımı Ters Dizin Kütüğünde bulunan her bir doküman bir vektör olarak düşünülebilir. Örnek kütükte, D1,D2…D6 ve Q1 aynı boyutlarda vektörler olarak düşünülebilir. Vektörlerdeki her bir indis aynı dizin terimini ifade etmektedir. Eğer kullanıcı sorgusunu da bir vektör olarak ifade edersek vektörel işlemlerle sorgu ve belgelerin benzerliklerini belirlemek mümkündür.
Vektörler Uzunluk, alan ve hacim gibi büyüklüklerin yanlızca bir gerçel sayı ile belirtilmelerine karşın, özellikle fizikten gelen ivme, hız, kuvvet gibi nicelikleri belirlemek için bir gerçel sayı yeterli değildir. İkinci türden niceliklerin bir yönü, doğrultusu, büyüklüğü ve uygulama noktası vardır. Bu büyüklükler için yönlendirilmiş doğru parçaları kullanılır. Bir düzlemde, yönü, doğrultuları ve büyüklükleri olan yönlendirilmiş doğru parçalarına vektör denir. http://www.aof.anadolu.edu.tr/kitap/IOLTP/2288/unite03.pdf
Vektörler İki Vektörün Eşitliği: İki vektörün eşit olması için gerek ve yeter koşul bu iki vektörün karşılıklı bileşenlerinin eşit olmasıdır. İki Vektörün Toplamı: İki vektörün toplamı, bu iki vektörün karşılıklı koordinatlarının toplanmasıyla elde edilir. Bir vektörün gerçel bir sayıyla çarpılması: İki vektörün toplamı, bu iki vektörün karşılıklı koordinatlarının toplanmasıyla elde edilir. http://www.aof.anadolu.edu.tr/kitap/IOLTP/2288/unite03.pdf
Vektörler: Toplama Örneği http://www.aof.anadolu.edu.tr/kitap/IOLTP/2288/unite03.pdf
Vektörler: Bir Vektörün Boyu Başlangıç noktası R ve bitiş noktası S olan vektörünün boyu bu iki nokta arasında kalan uzaklıktır. Vektörün boyu yerine vektörün büyüklüğü, vektörün uzunluğu ve vektörün normu terimleri de kullanılır ve biçiminde gösterilir. Vektörün boyu aşağıdaki gibi hesaplanır. Özel olarak bir R(r1,r2) yer vektörünün boyu aşağıdaki gibi hesaplanır. http://www.aof.anadolu.edu.tr/kitap/IOLTP/2288/unite03.pdf
Vektörler: Bir Vektörün Boyu Örneği http://www.aof.anadolu.edu.tr/kitap/IOLTP/2288/unite03.pdf
Vektörler: İki Vektörün Skaler Çarpımı http://www.aof.anadolu.edu.tr/kitap/IOLTP/2288/unite04.pdf
Skaler Çarpımın Özellikleri: Vektörün Normu http://www.aof.anadolu.edu.tr/kitap/IOLTP/2288/unite04.pdf
Skaler Çarpımın Özellikleri: İki vektör arasındaki açı http://www.aof.anadolu.edu.tr/kitap/IOLTP/2288/unite04.pdf
Skaler Çarpımın Özellikleri: İki vektör arasındaki açı örneği 1 http://www.aof.anadolu.edu.tr/kitap/IOLTP/2288/unite04.pdf
Skaler Çarpımın Özellikleri: İki vektör arasındaki açı örneği 2 Verilen a,b ve c vektörleri için bir birine en yakın olanlar hangileridir. Bir birine en yakın olan vektörler a ve b, neden?
Benzerlik Ölçüsü (ya da skoru) Vektörler arasında hesaplanan cos Ø değeri açıyı değil açısının cos değerini gösteriyor. Ø açsı büyüdükçe açının cos değeri küçülüyor. O zaman cos Ø değeri ne kadar büyükse vektörler bir birine o kadar yakındır diyebiliriz. Vektörler arasındaki cosØ değeri iki vektörün bir birine ne kadar yakın olduğunu gösterir. İki vektör arasındaki açının cosinüsünün 1.0 çıkması iki vektörün aynı ya üst üste olduğunu gösterir. Yani aralarındaki Ø açısı 0(sıfır). Vektörler arasındaki bu açı Bilgi Erişim alanında benzerlik ölçüsü (similarity) olarak adlandırılır.
Benzerlik Ölçüsü (ya da skoru) O zaman vektörler arasındaki bu ilişki ters dizin kütüğü üzerinde de kullanılabilir. Derlemde bulunan her bir belge ve her bir sorgu birer vektör olarak düşünülür. Vektör elemanları ters dizin kütüğünde bulunan tekil kelimelerden oluşturulur. Vektör katsayıları kullanılan modele göre değişiyor. Örneğin bool modelinde katsayılar 1 ve 0 oluyor. Örneğimizde her bir vektörün eleman sayısı = derlemdeki tekil kelime sayısı = 18 Tüm vektörler eşit eleman sayısında olmak zorunda.
Benzerlik Ölçüsü (ya da skoru) Sorgu (“bilgi erişim”) ve D1, D2, D3 belgeleri arasındaki benzerlik skorları nedir?
Benzerlik Ölçüsü (ya da skoru) Sorgu (“bilgi veri erişim”) olursa sorgu ve D1, D2, D3 belgeleri arasındaki benzerlik skorları ne olur? Sadece “bilgi” ve sadece “veri” terimlerinin kesiştiği durumda aynı benzerlik skoruna erişildi (0,289). Sorgu ve D1 belgesi arasındaki benzerlik skoru düştü, neden?
BoolAğırlıklandırma (0-1) Problemleri Bool modelindeki en büyük problem doküman belge eşleşmeleri için bir derece (rank) belirlenememesiydi. Vektör yaklaşımı ile bu bir nebze giderildi. Şimdi problem belge içerisindeki her terimin aynı önemle değerlendirilmesi. Oysa bir kelime bir belge içerisindeki ne kadar çok geçiyorsa o belge için o kadar değerlidir. Diğer taraftan bir terim derlemdeki belgelerde ne kadar çok geçiyorsa ayırt edici olma olasılığı o kadar düşüktür. O halde bir belge içinde çok geçen ancak derlemde çok sayıda belgede bulunmayan terimler bizim için daha anlamlı bu nedenle erişim fonksiyonunda bu tür terimler daha değerli olmalı ama nasıl?
tf*idfağırlıklandırma • Ters dizin kütüğünde terimler için 0/1 ağırlığı yerinetf(w)*idf(w) çarpımı kullanılır. • tf (term frequency): Terim sıklığı anlamına gelir ve bir terimin bir belge içerisindeki geçeme sayısını ya da sıklığını (frequency) ifade eder.tf değerini hesaplamak için 2 yöntem var: • Birincisinde; terimin ilgili doküman içerisinde geçme sayısı doğrudan kullanılır, • İkincisinde; terimin ilgili doküman içerisinde geçme sayısı, ilgili dokümandaki toplam kelime sayısına bölünür ve sayı normalleştirilir. • idf (inverse document frequency): Ters doküman sıklığı anlamına gelir ve bir terimin derlemdeki diğer belgelerde geçme sıklığını ifade eder. • idfhesaplanırken aşağıdaki formül kullanılır, • NDerlemde bulunan toplam belge sayısı • df(w) w teriminin geçtiği belge sayısı • Ölçeği küçültmek için bölümün logaritması alınır
tf*idfağırlıklandırma • Bir terim bir belge içerisinde ne kadar çok geçiyorsa o kadar değerlidir. • Bir terim derlemdeki diğer belgelerde ne kadar çok geçiyorsa belge için ayırt edici olma gücü o kadar düşüktür. 1000 adet belgenin bulunduğu bir derlemde idf değerleri: log(1) = 0 log(10) = 1 log(100) = 2 log(1000) = 3 log(10000) = 4 log(5,67) = ? log(128,4) = ? log(18912) = ?
tf*idfağırlıklandırma örneği • “bilgi” teriminin D1 belgesi için tf ve idfdeğerleri nedir? • tf(“bilgi”) = 2 • idf(“bilgi”)=log(6/2) = 0,477 • tf(“bilgi”)*idf(“bilgi”) = 0,954 Derlemdeki Belgelerimiz: D1 : bilgi erişim ve bilgi dizinleme D2 : sanal dünya ve bilgi D3 : kütüphane ve veri saklama D4 : dünyada ekonomik durum D5 : günlük ekonomik veriler D6 : haftalık mali ve günlük mali veriler • “ve” teriminin D6 belgesi için tf ve idfdeğerleri nedir? • tf(“ve”) = 1 • idf(“ve”)=log(6/4) = 0,176 • tf(“ve”)*idf(“ve”) = 0,176 Örnekler içinde en değerli kelime hangisi? Neden? • “mali” teriminin D6 belgesi için tf ve idfdeğerleri nedir? • tf(“mali”) = 2 • idf(“mali”)=log(6/1) = 0,778 • tf(“mali”)*idf(“mali”) = 1,556
tf*idfağırlıklandırma ve ters dizin kütüğü Derlemdeki terimlere göre ters dizin kütüğündeki terim ağırlıklarını D1 için güncelleyelim. Derlemdeki Belgelerimiz: D1 : bilgi erişim ve bilgi dizinleme D2 : sanal dünya ve bilgi D3 : kütüphane ve veri saklama D4 : dünyada ekonomik durum D5 : günlük ekonomik veriler D6 : haftalık ve günlük mali veriler tf(“bilgi”)*idf(“bilgi”)= 2*0,477 = 0,954 tf(“erişim”)*idf(“erişim”)= 1*0,778 = 0,778 tf(“dizinleme”)*idf(“dizinleme”)= 1*0,778= 0,778 tf(“ve”)*idf(“ve”)= 1*0,176 = 0,176
tf*idfağırlıklandırma ve ters dizin kütüğü Aynı işlemlerin sorgular için de yapılması gereklidir. Q={bilgi erişim} tf(“bilgi”)*idf(“bilgi”)= 1*0,477 = 0,477 tf(“erişim”)*idf(“erişim”)= 1*0,778 = 0,778 ÖDEV 1. Yandaki ters dizin kütüğünü tüm terim/doküman çiftleri için güncelleyiniz. ÖDEV 2. Q sorgusu ağrılıkları güncellenmiş bu derlem üzerinde yürütülürse erişim çıktısı ne olur? Sıralı ve benzerlik skorları ile beraber yazınız.
Eşik Değer (Threshold) Seçimi • N adet belgenin bulunduğu bir derlemde Q kullanıcı sorgusu ile ilgili belgelere erişim sağlanıyor. Erişim çıktısında kaç adet belgeye erişim sağlanacak? • Belge ile sorgu arasında bir kelime bile kesişse bu belge erişim çıktısında yer alacak mı? • Derleme yollanan sorgu derlemdeki her bir belge ile karşılaştırılarak her bir belge – sorgu çifti için bir skor değeri oluşturulur, • Hangi skordan yüksek eşleşmeler ilgili ?
Eşik Değer (Threshold) Seçimi • Eşik değer: erişim çıktısında bulunan belgeler için belli bir skor değerinin altında kalanlar ilgisiz kabul edilir, ilgili / ilgisiz ayrımının yapılmasını sağlayan bu skor değeri eşik değer olarak kabul edilir, • Eğer BES’de eşik değeri kullanılmazsa erişim çıktısında ilgisiz ya da çok az ilgili belge sayısı artar, • İlgililik ile ilgili skorlar için eşik değeri hangi noktada seçilecek, yani hangi skorlar ilgili hangileri ilgisiz kararı nasıl verilecek? • Eşik değerleri seçilirken BES’de anma ve duyarlık değerlerinin en yüksek olduğu noktadaki skor değeri alınır. • Anma: Sistem tarafından erişilen ilgili belgelerin (a) derlemdeki toplam ilgili belgelere (a+c) oranıdır. • Duyarlık: Sistem tarafından erişilen ilgili belgelerin (a) erişim çıktısında yer alan ilgili veya ilgisiz toplam belge sayısına (a+b) oranıdır. x precision x x x recall
Eşik Değer (Threshold) Seçimi • BES’de eşik değerini hesaplamak için bir eğitim kümesi (training set) yaratılır. Bu eğitim kümesi belgeler ve sorgulardan oluşur. • Eğitim kümesinde her bir sorgunun hangi belgelerle ilgili olduğu önceden bilinir. Bu sayede BES’in sorguya karşılık olarak döndürdüğü belgelerin doğru mu yanlış mı olduğu belirlenebilir. • Eğitim kümesindeki her bir sorgu derlem üzerinde yürütülerek sorgu ve belgenin ilgili olduğu eşleşmeler için benzerlik skor değerleri elde edilir. • Sonraki aşamada ilgili belge – sorgu çiftleri için ortalama bir skor değeri belirlenir ve bu eşik değerine göre örnek sorguların anma ve duyarlık değerleri hesaplanır, • Daha sonra başlangıçta belirlenen eşik değerinin altında ve üstünde yeni eşik değerleri seçilerek yeni anma ve duyarlık değerleri hesaplanır, • Anma ve duyarlık değerleri arttıkça eşik değeri değiştirilmeye (arttırılmaya ya da azaltılmaya) devam edilir, • Anma ve duyarlık değerlerinin en yüksek olduğu durumdaki skor değeri sistem için eşik değeri olarak kabul edilir.
Vektör Uzayı Modeli Değerlendirme • Sorgu sonucu derecelendirilebilmektedir, • Cos ölçümüne göre her belgeye bir sorgu ile benzerlik değeri verilebilmektedir, • Terim ağırlıklandırma sorgu sonucu döndürülen belgelerin kalitesini artırmaktadır yani bilgiye erişim daha başarılı olmaktadır, • Hızlı ve etkin bir fonksiyon, hala popüler olarak kullanılıyor, • Terimleri bir birlerinden bağımsız görmesi dezavantajı (belgedeki kelimeler arası ilişkiler göz ardı ediliyor)