1 / 18

Bilgi Erişim Sistemleri

SKOR DAĞILIMLI ÜST ARAMA MODELİ Güven KÖSE - Hayri SEVER BAŞKENT ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ. Bilgi Erişim Sistemleri. Tekli Çerçeve Çalışmaları Sadece bir sorgu işleme motoru. Belge başlığı, özet, vücut ve kaynakça ağırlıkları. Çoklu Çerçeve Çalışmaları

Télécharger la présentation

Bilgi Erişim Sistemleri

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. SKOR DAĞILIMLI ÜST ARAMA MODELİGüven KÖSE - Hayri SEVERBAŞKENT ÜNİVERSİTESİBİLGİSAYAR MÜHENDİSLİĞİ

  2. Bilgi Erişim Sistemleri • Tekli Çerçeve Çalışmaları • Sadece bir sorgu işleme motoru. • Belge başlığı, özet, vücut ve kaynakça ağırlıkları. • Çoklu Çerçeve Çalışmaları • Birden fazla sorgu işleme motoru. • Veri Birleştirme ve Kolleksiyon Birleştirme. Başkent Üniversitesi - 2003

  3. Üst Arama Problemi • Skor Normalleştirme Adımı • Farklı sistemler farklı erişim çıktıları sunar. • Erişim çıktıları ortak bir ölçeğe çekilir. • Birleştirme Adımı • CombSUM ve CombMNZ en etkili yöntemler. Başkent Üniversitesi - 2003

  4. Varolan Normalleştirme Yöntemleri • Belge skorlarının doğrusal olarak kaydırılması ve ölçeklenmesi. • Skorlar ilgili belgeler için doğru olasılıkları yansıtmalı. • 4 arama sisteminden sonra azalan bir performans oluşmakta. Başkent Üniversitesi - 2003

  5. Üst Arama Verileri • Geliştirilen sistemlerin test edilmesi için büyük veri kümelerine ihtiyaç duyulur. • Ulusal Standartlar ve Teknoloji Enstitüsü (NIST) tarafından TREC geliştirildi. • Derlem 2 gb büyüklüğünde yaklaşık 1 milyon belgeden oluşmakta. • Kullanılan değerlendirme yöntemlerinde birlikteliğin sağlanmasını sağlar.

  6. Trec-4 ve -9 için varolan normalleştirme teknikleri Başkent Üniversitesi - 2003

  7. Trec-4 ve -9 için varolan normalleştirme teknikleri Trec-4 Trec-9 Başkent Üniversitesi - 2003

  8. ZMUV Normalleştirme Tekniği • Bu teknik iki Gaussian dağılımın varyans ve ortalama değerleninin normalleştirilmesidir. • İlgili ve ilgisiz belge skorlarının dağılımları iki normal dağılımın birleşimi ile modellenemez. Başkent Üniversitesi – 2003

  9. Uygun Normalleştirme Tekniği Farklı arama sistemlerine ait erişim çıktılarındaki ilgisiz belge skor dağılımları kullanılarak uygun normalleştirme sağlanabilir. Başkent Üniversitesi - 2003

  10. Dağılım Eşitlenmesi Yöntemi • İlgisiz dağılımların üstel doğası, belge skorları için bilgi sağlar. • p(x) = λ exp(-λx), x=skor(D). • μ = 1 / λ (üstel dağılımın ortalaması). • Üstel ilgisiz bir dağılım için minimum skorlar 0 ve maximum skorlar 1 olarak kabül edilir. • Üstel ilgisiz bir dağılım için üstel uygunluk ML(Maximum Likelihood) yöntemi ile hesaplanır. λ = count({D | D Є NonRel}) / ΣD Є NonRel score(D) • skor(D) = skor(D)*λ . • Bu teknik EXPML olarak adlandırlır. Başkent Üniversitesi - 2003

  11. İlgisiz Dağılımların Kestirilmesi • Karma model uygunluğu kullanılarak kestirme • Toplam dağılım kullanılarak kestirme • Ortalama kullanılarak kestirme Başkent Üniversitesi - 2003

  12. Karma Model Uygunluğu • İlgili belgeler için normal ve ilgisiz belgeler için üstel bir dağılım kullanılır. • Expectation Maximization yöntemi kullanılarak üstel ve Gaussian dağılımlarından oluşan karma bir model skor dağılımları için uygunlaştırılabilir. • Üstel bileşen için ortalama, normal bileşen içinde ortalama ve standart sapma değerleri hesaplanarak skorlar normalleştirilir. • Bu yöntem EXPEM olarak adlandırılır. Başkent Üniversitesi - 2003

  13. Toplam Dağılım • Arama sistemlerinin çıktılarında ilgili belgelerin oranı çok düşük olduğu için ilgili ve ilgisiz bütün belge skorlarının dağılımları kullanılarak normalleştirme işlemi yapılabilir. • Minimum değerler 0 olarak belirlenerek ve tüm belge skorları eşitlenerek normalleştirme işlemi gerçekleştirilir. • Bu yöntem SUM normalleştirme tekniğine eşdeğer olarak görülür. Başkent Üniversitesi - 2003

  14. Ortalama Kullanılarak Kestirme • Karma model kestirmesi ve toplam dağılımların kestirmesi yöntemlerinin ortalaması alınarak yeni bir kestirme elde edilir. • Bu yöntem EXPEM-CombSUM ve Sum-CombSUM yöntemleri arasında bir performans değerine sahiptir. Başkent Üniversitesi - 2003

  15. Trec-4 ve -9 için normalleştirme teknikleri Başkent Üniversitesi - 2003

  16. Trec-4 ve -9 için normalleştirme teknikleri Başkent Üniversitesi - 2003

  17. Sonuçlar • Bu çalışmada tartışılan, farklı arama sistemlerine ait ilgisiz skor dağılımlarının eşitlenmesi ve sonuç skorlarının ortalamalarının alınması yöntemi ile en iyi sonuçlar üretilmiştir. • İlgisiz dağılımların kestirilmesi için üç farklı yöntem üzerinde durulmuş ancak en kolay tekniğin toplam dağılımların kestirilmesi olduğu görülmüştür. • Çoklu arama sistemlerinin birleştirilmesi bilgi erişiminde genellikle önemli bir ilerleme sağlamaktadır ancak 5’den fazla arama motorunun sonuçlarının birleştirilmesinden sonra performans artışının devam edeceğini söylemek doğru görünmemektedir. Başkent Üniversitesi - 2003

  18. TEŞEKKÜRLER

More Related