190 likes | 421 Views
SKOR DAĞILIMLI ÜST ARAMA MODELİ Güven KÖSE - Hayri SEVER BAŞKENT ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ. Bilgi Erişim Sistemleri. Tekli Çerçeve Çalışmaları Sadece bir sorgu işleme motoru. Belge başlığı, özet, vücut ve kaynakça ağırlıkları. Çoklu Çerçeve Çalışmaları
E N D
SKOR DAĞILIMLI ÜST ARAMA MODELİGüven KÖSE - Hayri SEVERBAŞKENT ÜNİVERSİTESİBİLGİSAYAR MÜHENDİSLİĞİ
Bilgi Erişim Sistemleri • Tekli Çerçeve Çalışmaları • Sadece bir sorgu işleme motoru. • Belge başlığı, özet, vücut ve kaynakça ağırlıkları. • Çoklu Çerçeve Çalışmaları • Birden fazla sorgu işleme motoru. • Veri Birleştirme ve Kolleksiyon Birleştirme. Başkent Üniversitesi - 2003
Üst Arama Problemi • Skor Normalleştirme Adımı • Farklı sistemler farklı erişim çıktıları sunar. • Erişim çıktıları ortak bir ölçeğe çekilir. • Birleştirme Adımı • CombSUM ve CombMNZ en etkili yöntemler. Başkent Üniversitesi - 2003
Varolan Normalleştirme Yöntemleri • Belge skorlarının doğrusal olarak kaydırılması ve ölçeklenmesi. • Skorlar ilgili belgeler için doğru olasılıkları yansıtmalı. • 4 arama sisteminden sonra azalan bir performans oluşmakta. Başkent Üniversitesi - 2003
Üst Arama Verileri • Geliştirilen sistemlerin test edilmesi için büyük veri kümelerine ihtiyaç duyulur. • Ulusal Standartlar ve Teknoloji Enstitüsü (NIST) tarafından TREC geliştirildi. • Derlem 2 gb büyüklüğünde yaklaşık 1 milyon belgeden oluşmakta. • Kullanılan değerlendirme yöntemlerinde birlikteliğin sağlanmasını sağlar.
Trec-4 ve -9 için varolan normalleştirme teknikleri Başkent Üniversitesi - 2003
Trec-4 ve -9 için varolan normalleştirme teknikleri Trec-4 Trec-9 Başkent Üniversitesi - 2003
ZMUV Normalleştirme Tekniği • Bu teknik iki Gaussian dağılımın varyans ve ortalama değerleninin normalleştirilmesidir. • İlgili ve ilgisiz belge skorlarının dağılımları iki normal dağılımın birleşimi ile modellenemez. Başkent Üniversitesi – 2003
Uygun Normalleştirme Tekniği Farklı arama sistemlerine ait erişim çıktılarındaki ilgisiz belge skor dağılımları kullanılarak uygun normalleştirme sağlanabilir. Başkent Üniversitesi - 2003
Dağılım Eşitlenmesi Yöntemi • İlgisiz dağılımların üstel doğası, belge skorları için bilgi sağlar. • p(x) = λ exp(-λx), x=skor(D). • μ = 1 / λ (üstel dağılımın ortalaması). • Üstel ilgisiz bir dağılım için minimum skorlar 0 ve maximum skorlar 1 olarak kabül edilir. • Üstel ilgisiz bir dağılım için üstel uygunluk ML(Maximum Likelihood) yöntemi ile hesaplanır. λ = count({D | D Є NonRel}) / ΣD Є NonRel score(D) • skor(D) = skor(D)*λ . • Bu teknik EXPML olarak adlandırlır. Başkent Üniversitesi - 2003
İlgisiz Dağılımların Kestirilmesi • Karma model uygunluğu kullanılarak kestirme • Toplam dağılım kullanılarak kestirme • Ortalama kullanılarak kestirme Başkent Üniversitesi - 2003
Karma Model Uygunluğu • İlgili belgeler için normal ve ilgisiz belgeler için üstel bir dağılım kullanılır. • Expectation Maximization yöntemi kullanılarak üstel ve Gaussian dağılımlarından oluşan karma bir model skor dağılımları için uygunlaştırılabilir. • Üstel bileşen için ortalama, normal bileşen içinde ortalama ve standart sapma değerleri hesaplanarak skorlar normalleştirilir. • Bu yöntem EXPEM olarak adlandırılır. Başkent Üniversitesi - 2003
Toplam Dağılım • Arama sistemlerinin çıktılarında ilgili belgelerin oranı çok düşük olduğu için ilgili ve ilgisiz bütün belge skorlarının dağılımları kullanılarak normalleştirme işlemi yapılabilir. • Minimum değerler 0 olarak belirlenerek ve tüm belge skorları eşitlenerek normalleştirme işlemi gerçekleştirilir. • Bu yöntem SUM normalleştirme tekniğine eşdeğer olarak görülür. Başkent Üniversitesi - 2003
Ortalama Kullanılarak Kestirme • Karma model kestirmesi ve toplam dağılımların kestirmesi yöntemlerinin ortalaması alınarak yeni bir kestirme elde edilir. • Bu yöntem EXPEM-CombSUM ve Sum-CombSUM yöntemleri arasında bir performans değerine sahiptir. Başkent Üniversitesi - 2003
Trec-4 ve -9 için normalleştirme teknikleri Başkent Üniversitesi - 2003
Trec-4 ve -9 için normalleştirme teknikleri Başkent Üniversitesi - 2003
Sonuçlar • Bu çalışmada tartışılan, farklı arama sistemlerine ait ilgisiz skor dağılımlarının eşitlenmesi ve sonuç skorlarının ortalamalarının alınması yöntemi ile en iyi sonuçlar üretilmiştir. • İlgisiz dağılımların kestirilmesi için üç farklı yöntem üzerinde durulmuş ancak en kolay tekniğin toplam dağılımların kestirilmesi olduğu görülmüştür. • Çoklu arama sistemlerinin birleştirilmesi bilgi erişiminde genellikle önemli bir ilerleme sağlamaktadır ancak 5’den fazla arama motorunun sonuçlarının birleştirilmesinden sonra performans artışının devam edeceğini söylemek doğru görünmemektedir. Başkent Üniversitesi - 2003