1 / 21

TIKLARIN DİLİ

TIKLARIN DİLİ Web içerik ve web kullanım madenciliği tekniklerinin entegrasyonu ile oluşmuş bir veri tabanından nasıl yararlanılabilir? ozakar@likya.iyte.edu.tr. Giriş Web Madenciliği Sınıflandırması Patern Tespit Teknikleri Web Madenciliği Prosesi IYTE Web Kullanım Madenciliği Sistemi

marie
Télécharger la présentation

TIKLARIN DİLİ

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. TIKLARIN DİLİ Web içerik ve web kullanım madenciliği tekniklerinin entegrasyonu ile oluşmuş birveri tabanından nasıl yararlanılabilir? ozakar@likya.iyte.edu.tr Tıkların DiliBelgin ÖZAKAR

  2. Giriş Web Madenciliği Sınıflandırması Patern Tespit Teknikleri Web Madenciliği Prosesi IYTE Web Kullanım Madenciliği Sistemi Veri Hazırlama İYTE Web Madenciliği Vertabanı Sorgu Mekanizması Sonuç Planlanan Çalışmalar İçerik Tıkların DiliBelgin ÖZAKAR

  3. Giriş • Sınıflandırma • Teknikler “Web madenciliği,veri madenciliği teknikleri kullanarak, World Wide Web dökümanları ve servislerinden, otomatik olarak, anlamlı bilgi çıkarmaktır” Etzioni Tıkların DiliBelgin ÖZAKAR

  4. Fazla karışık, değişik bilgi tipleri, standardizasyon yetersizliği Kısıtlı kapsam, ulaşılamayan veritabanları Kısıtlı sorgu arayüzleri (anahtar kelimeye göre) Kısıtlı kişiselleştirme Web üstündeki bilginin az bir bölümü gerçekten ilgili ve faydalı • Giriş • Sınıflandırma • Teknikler Problemler Tıkların DiliBelgin ÖZAKAR

  5. Web Madenciliği Sınıflandırması • Sınıflandırma • Teknikler • IYTE WUM Sistemi Web Madenciliği Web Yapı Madenciliği Web İçerik Madenciliği Web Kullanım Madenciliği Erişilebilir web kaynaklarından faydalı bilgi bulmaya çalışır Web sitesi ve sayfalarının yapısal olarak özetini çıkarmaya çalışır Kullanıcı erişimleri esnasında oluşan hareket verisinden anlamlı ve faydalı paternler bulmaya çalışır Tıkların DiliBelgin ÖZAKAR

  6. Web Madenciliği Web Yapı Madenciliği Web Kullanım Madenciliği Web İçerik Madenciliği • Sınıflandırma • Teknikler • IYTE WUM Sistemi Web Madenciliği Sınıflandırması • WebSIFT • WUM • Shahabi Kişiselleştirme • WebWatcher • WebPersonalizer • Analog Sistem İyileştirme • Schecher • Aggarval Site Güncelleme • PageGather Genel Kullanım (Business Intelligence & Usage Characterization) • Surfaid • WebLogMiner Tıkların DiliBelgin ÖZAKAR

  7. Patern Tespit Teknikleri • Teknikler • Proses • IYTE WUM Sistemi • Tanımsal İstatistik • çeşitli değişkenlere dayalı analizler • İlişkilendirme Kuralları • veriler arasında önceden kestirilemeyen ilişkiler bulma • Gruplama/Kümeleme • benzer özellikteki verileri gruplama • Sınıflandırma • verileri tanımlı sınıflara atama • Sıralı Paternler • bağlantılar süresince oluşan paternleri bulma • Bağımlılık Modellemesi • farklı değişkenler arasındaki bağımlılıkları ortaya koyan modeller oluşturma Tıkların DiliBelgin ÖZAKAR

  8. Web Madenciliği Prosesi • Teknikler • Proses • IYTE WUM Sistemi Anlamlı Bilgi Patern Değerlendirme Veri Madenciliği Patern Tespiti İlgili Veri Seçim Veri Tabanları Veri Temizleme Veri Entegrasyonu Web erişim verisi Tıkların DiliBelgin ÖZAKAR

  9. Veri Temizleme (Java Classes) Veri Seçimi & Entegrasyonu (Java Classes, JDBC & MySQL DDL) İlişkilendirme Kuralları (Java Classes, JDBC & MySQL DDL & DML) Sunucu Erişim Verisi Temizlenen Sunucu Erişim Verisi Temizlenen Sunucu Hata Verisi Sunucu Hata Verisi Sunucu Kullanıcı Verisi Temizlenen Sunucu Kullanıcı Verisi IYTE WUM Sistem Mimarisi • IYTE WUM Sistemi • Sonuç • Plan. Çalışmalar Apriori Sorgu Mekanizması (Mysql DML) IYTE WUM VERİTABANI (Mysql) TanımsalSorgu Mekanizması (Mysql DML) IYTE Web Sitesi İçerik Verisi www.iyte.edu.tr Tıkların DiliBelgin ÖZAKAR

  10. CLF Kayıt Yapısı • IYTE WUM Sistemi • Sonuç • Plan. Çalışmalar Remote Host – Ident and Authuser – [Date and Time] “Request” Status Bytes Bilgisayar ismi ya da bağlanan makinanın IP adresi Login ismi, gönderilmez, genellikle boş GET sayfa talepleri için, POST teslimler için pergamon.iyte.edu.tr ­ ­ [20/Jun/2000:15:13:05 +0300]''GET /courses.html HTTP/1.1 '' 304 ­ pergamon.iyte.edu.tr ­ ­ [20/Jun/2000:15:13:05 +0300]''GET / will/courses/CS101/ HTTP/1.1'' 304 ­ pergamon.iyte.edu.tr - - [20/Jun/2000:15:13:05 +0300]”GET / gif/geney.jpg HTTP/1.0 “ 304 - pergamon.iyte.edu.tr - - [20/Jun/2000: 15:13:05 +0300]” GET / gif/acad.gif HTTP/1.0 “ 304 - pergamon.iyte.edu.tr - - [20/Jun/2000:15:13:05| +0300]” GET / gif/ciz7.gif HTTP/1.0 “304 - +---------------------------+---------------+-----------+---------+-----------+--------+-------------------------------+--------+-------+ | user | ldate | ltime | rtime | demand | url_m| url | sts_m | status | +---------------------------+---------------+-----------+--------+------------+------------+-------------------------------+----+-------+ | pergamon.iyte.edu.tr | 2000-06-20| 15:13:05 | +0300 | GET | gif | gif/yazi.gif HTTP/1.0 | 304 | 304 -| | pergamon.iyte.edu.tr | 2000-06-20 | 15:13:05 | +0300 | GET | gif | gif/zemin1.gif HTTP/1.0| 304 | 304 -| | pergamon.iyte.edu.tr | 2000-06-20 | 15:13:05 | +0300 | GET | gif | gif/geney.jpgHTTP/1.0 | 304 | 304 -| | pergamon.iyte.edu.tr | 2000-06-20 | 15:13:05 | +0300 | GET | gif | gif/acad.gif HTTP/1.0 | 304 | 304 -| | pergamon.iyte.edu.tr | 2000-06-20 | 15:13:05 | +0300 | GET | gif | gif/living1.gif HTTP/1.0 | 304 | 304 -| +---------------------------+---------------+-----------+---------+-----------+--------+-------------------------------+--------+------+ Tıkların DiliBelgin ÖZAKAR

  11. Hata Verisi • IYTE WUM Sistemi • Sonuç • Plan. Çalışmalar [Thu Aug 19 14:02:34 1999] Server configured -- resuming normal operations [Thu Aug 19 14:12:27 1999] accept: (client socket): Connection timed out [Thu Aug 19 14:12:27 1999] accept: (client socket): Connection timed out [Thu Aug 19 14:13:01 1999] accept: (client socket): Connection reset by peer [Thu Aug 19 14:17:05 1999] accept: (client socket): Connection timed out [Thu Aug 19 14:17:59 1999] accept: (client socket): Connection timed out [Thu Aug 19 14:18:52 1999] accept: (client socket): Connection timed out [Thu Aug 19 14:44:40 1999] accept: (client socket): No route to host [Thu Aug 19 14:44:43 1999] accept: (client socket): No route to host [Thu Aug 19 14:44:47 1999] accept: (client socket): No route to host +--------------+------------+------------------------------------------------------------+ | date | time | message | +--------------+-----------+-------------------------------------------------------------+ | 1999-08-19 | 14:02:34 | created shared memory segment #0 | | 1999-08-19 | 14:02:34 | Server configured -- resuming normal operations | | 1999-08-19 | 14:12:27 | accept: (client socket): Connection timed out | | 1999-08-19 | 14:12:27 | accept: (client socket): Connection timed out | | 1999-08-19 | 14:13:01 | accept: (client socket): Connection reset by peer | | 1999-08-19 | 14:17:05 | accept: (client socket): Connection timed out | | 1999-08-19 | 14:17:59 | accept: (client socket): Connection timed out | | 1999-08-19 | 14:18:52 | accept: (client socket): Connection timed out | | 1999-08-19 | 14:44:40 | accept: (client socket): No route to host | | 1999-08-19 | 14:44:43 | accept: (client socket): No route to host | +--------------+-----------+------------------------------------------------------------+ Tıkların DiliBelgin ÖZAKAR

  12. Kullanıcı Verisi • IYTE WUM Sistemi • Sonuç • Plan. Çalışmalar +-------------------------------+-------------------+--------------------------------+-----------+ | user_name | type | user_ip | depcode | +-------------------------------+-------------------+--------------------------------+-----------+ | busra | MX 5 | busra.iyte.edu.tr. | 0 | | pergamon | MX 5 | pergamon.iyte.edu.tr. | 0 | | buamtest | MX 5 | buamtest.iyte.edu.tr. | 0 | | radyo-bahattin | CNAME | troya | 0 | | radyo-tolga | CNAME | troya | 0 | | sevgi-canlier | A | 193.140.248.37 | 0 | | edibe-ciftci | A | 193.140.248.38 | 0 | | bulent-kusev | A | 193.140.248.39 | 0 | | yasar-olmez | A | 193.140.248.40 | 0 | | haluk-yaren | A | 193.140.248.44 | 0 | +-------------------------------+-------------------+--------------------------------+-----------+ Tıkların DiliBelgin ÖZAKAR

  13. Web Sitesi İçerik • IYTE WUM Sistemi • Sonuç • Plan. Çalışmalar crawlDepth = 0 0http://www.iyte.edu.tr/general.htm 0http://www.iyte.edu.tr/library/index-tr.html 0http://www.iyte.edu.tr/president.htm 0http://www.iyte.edu.tr/ar_fon_proje/research_project.htm 0http://www.iyte.edu.tr/academic.htm 0http://www.iyte.edu.tr/iyte-press.htm 0http://www.iyte.edu.tr/living.htm 0http://www.iyte.edu.tr/iyte-services.htm 0http://www.iyte.edu.tr/search.htm 0http://likya.iyte.edu.tr/announcements/2002-2003Takvim/2002- 2003AkademikTak.html Tıkların DiliBelgin ÖZAKAR

  14. İYTE Web Madenciliği Veritabanı • IYTE WUM Sistemi • Sonuç • Plan. Çalışmalar logfile(user, date, time, rtime, demand, url, status) links(page_no, url, type, keyword, rank, status) pageviews(page_no,title,type,keyword,cr_date,upd_date,rank) users(user, type, user_ip, depcode) departments(depcode, dep_name, faculty, start_ip, end_ip) errors(date, time, message) Tıkların DiliBelgin ÖZAKAR

  15. Günlük Erişim Grafiği (2000-06-20 ile 2002-01-31tarihleri arasında) • IYTE WUM Sistemi • Sonuç • Plan. Çalışmalar Minimum günlük erişim : 74 Toplam erişim : 10.740.138 Maximum günlük erişim : 46.552 Kayıtlı kullanıcı erişimleri : 85.353 Ortalama günlük erişim : 18.296 Tıkların DiliBelgin ÖZAKAR

  16. Günlük Hata Grafiği (1999-08-19 ile 2002-01-31 tarihleri arasında) • IYTE WUM Sistemi • Sonuç • Plan. Çalışmalar Minimum günlük hata : 1 Maximumgünlük hata :223.210 Ortalama günlük hata :1.109 Tıkların DiliBelgin ÖZAKAR

  17. Sorgu Çeşitleri • IYTE WUM Sistemi • Sonuç • Plan. Çalışmalar • Üniversite içi ve dışı kullanıcıların dağılımı •  Kullanım sürelerinin günlere ve saatlere göre dağlımı •  Sayfalara göre istemlerin dağılımı •  Ulaşılmayan sayfalar • Ulaşılamayan linkler •  Hataların günlere ve sürelere göre dağılımı • İstemlerin statülerine göre dağılımı Tıkların DiliBelgin ÖZAKAR

  18. Sonuç • IYTE WUM Sistemi • Sonuç • Plan. Çalışmalar • IYTE WUM Sistemi genel web kullanım madenciliği konusunda veritabanı yaklaşımı getiren bir çalışma • Sistem veri madenciliği prosesinin tüm adımlarını içermekte • Web sorumlusu için faydalı bir araç Tıkların DiliBelgin ÖZAKAR

  19. Planlanan Çalışmalar • IYTE WUM Sistemi • Sonuç • Plan. Çalışmalar • Kullanıcı Önyüzü • Veri Madenciliği Algoritmaları • IYTE Web Sunucusu ile Entegrasyon Tıkların DiliBelgin ÖZAKAR

  20. Referanslar [1] Oren Etzioni, The World Wide Web: Quagmire or gold mine. Communications of the ACM, 39(11):65­68, (1996) [2] S.K.Madria, S.S.Bhowmick, W.K.Ng, and E.P.Lim, Research issues in Web data mining. In Proceedings of Data Warehousing and Knowledge Discovery, First International Conference, DaWaK '99, sayfa 303­312 , (1999) [3] R. Cooley, Web Usage Mining: Discovery and Application of Interesting Patterns from Web data. Ph.D. thesis, Dept. of Computer Science, University of Minnesota, (2000) [4] R. Agrawal and A. Srikant, Fast algorithms for mining association rules. Proc. VLDB'94, sayfa 487-499, (1994) [5] B. Özakar, Finding and evaluating patterns in Web Repositories using data mining algorithms and database technologies, Master Tezi, 2002, İzmir Yüksek Teknoloji Enstitüsü Bilgisayar Mühendisliği Bölümü Tıkların DiliBelgin ÖZAKAR

  21. İlginize Teşekkürler Tıkların DiliBelgin ÖZAKAR

More Related