1 / 62

Pengantar Temu-Balik Informasi

Pengantar Temu-Balik Informasi. Pertemuan ke-2. Sistem Temu-Balik Informasi. Pengantar Temu-Balik Informasi. ...akan dibahas. • • • • • • •. Information Retrieval (IR) Sistem IR Istilah dalam IR IR Berbasis Teks Arsitektur Sistem IR Sejarah IR Area Terkait. 2.

tacey
Télécharger la présentation

Pengantar Temu-Balik Informasi

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. PengantarTemu-BalikInformasi Pertemuanke-2 SistemTemu-Balik Informasi

  2. PengantarTemu-BalikInformasi ...akandibahas • • • • • • • InformationRetrieval(IR) SistemIR IstilahdalamIR IRBerbasisTeks ArsitekturSistemIR SejarahIR AreaTerkait 2

  3. PengantarTemu-BalikInformasi DefinisiIR •Pencarianmateri(biasanyadokumen)darisesuatu yangsifatnyatak-terstruktur(unstructured,biasanya teks)untukmemenuhikebutuhaninformasidari dalamkoleksibesar(biasanyadisimpandalam komputer). •Representasi,penyimpanan,organisasi,pencarian danakseskeiteminformasiuntukmemenuhi kebutuhaninformasipengguna. •Penekananpadaprosesretrievalinformasi(bukan data). •Karakterisasikebutuhaninformasitidaklahmudah. Harusditranslasikedalamsuatuqueryterlebih dahulu. 3

  4. PengantarTemu-BalikInformasi Motivasi •Dataretrieval –Dokumenmanayangmengandunghimpunan keyword? –Semantikdidefinisikandenganbaik –Errordarisuatuobyekmengakibatkankegagalan! •Informationretrieval –Informasimengenaisuatusubyekatautopik –Semantikdapatbersifatlepas(longgar) –Errorkecilditoleransi 4

  5. PengantarTemu-BalikInformasi ...Motivasi •IRditengahpertunjukan –IRdalam20tahunterakhir: •Klasifikasidankategorisasi •Sistemdanbahasa •Antarmukapenggunadanvisualisasi –Masih,areadilihatsebagaibidangyangsempit –Webmengubahpersepsiini •Repositorypengetahuanuniversal •Aksesuniversalgratis(biayarendah) •Volumeraksasadariinformasitanpaeditorialboard terpusat •Meskipunbanyakmasalah:IRmerupakankunciuntuk menemukansolusi! 5

  6. PengantarTemu-BalikInformasi SistemIR •Menerimaquerypenggunayangmewakili kebutuhaninformasi •Mencaridanmenginterpretasikancontent (isi)dariitem-iteminformasi •Membangkitkansuaturankingyang mencerminkanrelevansiterhadap kebutuhaninformasitersebut •Idemengenairelevansiadalahsangat penting 6

  7. 7

  8. PengantarTemu-BalikInformasi KebutuhanIR •WWW:lebih25milyarhalamanweb,1.3milyar gambardanlebih1milyarpesanUsenetyang diindekspadaGoogle(2006) •Berbagaikebutuhaninformasi: – – – – – Mencaridokumenyangmasukdalamtopiktertentu Mencarisuatuinformasispesifik Mencarijawabandarisuatupertanyaan Mencariinformasidalambahasaberbeda ... 8

  9. PengantarTemu-BalikInformasi PenjualanSoftwareTextRetrieval 9

  10. PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi InformationRetrieval(IR) •Secarateknis:indexing(pembuatan index)danretrieval(pencarian keterangan)dokumentextual. •PencarianhalamanpadaWWWadalah aplikasipaling“ngetop”saatini •Fokuspertama:meretrievedokumen- dokumenyangrelevandenganquery. •Fokuskedua:meretrievehimpunanbesar dokumensecaraefisien. 10

  11. PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi InformationvsDataRetrieval •Sistemdataretrieval(sepertidatabase)berurusandengan structureddatayangmempunyaisemantikterdefinisi denganbaikdankebutuhanmeretrievehasilyangpasti (exact) •SistemIRberurusandengandokumenbahasaalami (naturallanguage)danerrorkecildapatdiabaikan. •SistemIRharusmenginterpretasikancontentkemudian merankingdaftarcontentsesuaidengantingkat relevansinya. •Tujuan:Meretrievesemuadokumenyangrelevan sekaligusmeretrievesesedikitmungkindokumen yangtidakrelevan 11

  12. PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi TugasIRDasar •Diberikan: –Suatucorpusdokumenbahasaalami tekstual. –Suatuquerypenggunadalambentukstring tekstual. •Temukan: –Suatuhimpunandokumenterurutmenurun (ranking)yangrelevandenganquery tersebut. 12

  13. PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi SistemIR 13

  14. PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi ContohSistemIR •Conventional(katalogperpustakaan) Pencariandengankatakunci,judul,penulis,dll. •Text-based(Google,Yahoo,ASK). Pencariandengankatakunci(keyword).Pencarian terbatasmenggunakanquerydalambahasaalami. •Multimedia(QBIC,WebSeek,SaFe) Pencariandenganpenampilanvisual(bentuk,warna,…) •Sistemjawabanpertanyaan(AskJeeves,Answerbus) Pencariandalambahasaalami(terbatas) •Lainnya: IRlintas-bahasa,musicretrieval 14

  15. PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi SistemIRdiWeb •Pencarianhalamanwebhttp://www.google.com •Pencariangambarhttp://images.google.com •Pencarianisi(content)gambar http://wang.ist.psu.edu/IMAGE/ •Pencarianjawabanpertanyaan http://www.askjeeves.com •Pencarianmusik?Hari-hati,janganmelanggar hukum. 15

  16. PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi Relevansi •Relevansimerupakansuatujudgment (keputusan)subyektifdandapatdidasarkan pada: – – – – topikyangtepat. waktu(informasiterbaru). otoritatif(darisuatusumberterpercaya). kebutuhaninformasidaripengguna. •Kriteriarelevansiutama:suatusistemIR sebaiknya(harus)memenuhikebutuhan informasipengguna. 16

  17. PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi PencarianKeyword •Idepalingsederhanadarirelevansi: apakahstringqueryadadidalam dokumen(katademikata,verbatim)? •Ideyanglebihfleksibel:Berapasering kata-katadidalamquerymunculdidalam dokumen,tanpamelihaturutannya(bag ofwords)? 17

  18. PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi MasalahdenganKeyword •Mungkintidakmeretrievedokumenrelevanyang menyertakansynonymousterms. –“restaurant”vs.“café” –“NDHU”vs.“NationalDongHwaUniversity” •Mungkinmeretrievedokumentak-relevanyang menyertakanambiguousterms. –“bat”(baseballvs.mamalia) –“Apple”(perusahaanvs.buah-buahan) –“bit”(unitdatavs.perilakumenggigit) 18

  19. PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi BukanSekedarKeyword •Kitaakanmendiskusikandasar-dasarIR berbasiskeyword,tetapi… –Fokuspadaperluasandanpengembangan terakhiruntukmendapatkanhasilterbaik. •Kitaakanmembahasdasar-dasar pembangunansistemIRyangefisien, tetapi… –Fokuspadaalgoritmadankemampuandasar, bukanmasalahsistemyangmemungkinkan pengembangankedatabaseukuranindustri. 19

  20. PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi IRCerdas •Memanfaatkanpengertianataumaknadarikata yangdigunakan. •Melibatkanurutankatadidalamquery. •Beradaptasidenganpenggunaberdasarkan padafeedback,langsungatautidaklangsung. •Memperluaspencariandengantermterkait. •Mengerjakanpemeriksaanejaaan/perbaikan tandapengenalotomatis. •MemanfaatkanOtoritasdarisumberinformasi. 20

  21. PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi Indeks •SistemIRjarangmencarikoleksidokumen secaralangsung.Berdasarkanpadakoleksi dokumen,dibangunsebuahindex.Pengguna mencariindextersebut. 21

  22. PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi IndexingOtomatis •Tujuandariautomaticindexingadalah membangunindexdanmeretrieveinformasi tanpaintervensimanusia. •Ketikainformasiyangdicariadalahteks, metodeautomaticindexingakansangatefektif. •Penelitianautomaticindexingfundamental dimulaiolehGeraldSalton,Professorof ComputerSciencediCornell&mahasiswa Pasca-Sarjananya(SistemSMART). 22

  23. PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi IRdariKoleksiBesar •Informationretrievaldarikoleksisangatbesar bersandarpada: –Jumlahcomputerpoweryangbesaruntuk mengerjakanalgoritmasederhanaterhadapjumlah datayangsangatbanyak. komputasikinerja-tinggi –Pemahamanpenggunaterhadapinformasidan kemampuandarisistem. Interaksimanusia-komputer •Machine-learningbanyakdigunakanuntuk mendapatkankinerjaterbaik. 23

  24. PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi Searching&Browsing •Orangdalamperulangan 24

  25. PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi IRdariKoleksiDokumenTeks •Kategoriutamadarimetode: –Rankingkemiripanterhadapquery(vectorspace model). –Pencocokanexact(Boolean). –Rankingberdasarkantingkatkepentingandokumen (PageRank) –Kombinasibeberapametode •Contoh:Websearchengine,sepertiGoogle& Yahoo,menggunakanmetodekombinasi, berdasarkanpadapendekatanpertamadan ketiga,dengankombinasiexactdipilih menggunakanmachinelearning. 25

  26. PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi IstilahPenting •Informationretrieval:sub-bidangilmu komputeryangberurusandenganpenemuan kembalidokumen(khususnyateks)terotomasi berdasarkanpadacontentdancontextnya. •Searching:Pencarianinformasispesifikdi dalambadaninformasi.Hasilnyaadalah sehimpunanhit. •Browsing:Eksplorasitak-terstrukturdaribadan informasi. •Linking:Berpindahdarisatuitemkeitemlain mengikutilink(sambungan)sepertirujukan (referensi). 26

  27. PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi ...Istilah •Query:Suatustringteks,menggambarkan informasiyangsedangdicaripengguna.Setiap katadariquerydinamakansearchterm. •Querydapatberupasearchtermtunggal,stringdari term,fraseatauekspresitertentumenggunakan simbolkhusus,misalnyaregularexpression. •PencarianFulltext:Metodeyangmembandingkan querydengansetiapkatadidalamteks,tanpa membedakanfungsidariberbagaikata. •PencarianBidang:Metodepencarianpadabidang strukturalataubibliografisspesifik,sepertipenulis ataujudul. 27

  28. PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi ...Istilah •Corpus:Koleksidokumenyangdiindeksdan dijadikantargetpencarian. •Daftarkata:Himpunansemuatermyangdigunakan dalamindeksuntuksuatucorpus(dikenalsebagai vocabularyfile). •Padapencarianfulltext,wordlistadalahsemua termdidalamcorpus,stopwordsdihapus.Term- termterkaitdikombinasidenganstemming. •Controlledvocabulary:Metodeindexingdimana wordlistbersifattetap.Term-termdarivocabulary tersebutdipilihuntukmendeskripsikansetiap dokumen. •Keyword:Namauntukterm-termdalamwordlist, terutamadengancontrolledvocabulary. 28

  29. PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi Mengurutan&RankingHit •Ketikapenggunamen-submitsuatuqueryke sistemIR,sistemmengembalikansehimpunanhit. Padakoleksidokumenbesar,himpunanhitakan sangatbesar. •Nilaiuntukpenggunaseringtergantungpada urutanhitditampilkan. •Tigametodeutama: –Mengurutkanhit,misalberdasarkantanggal –Merankinghitberdasarkankemiripanantaraquery dandokumen –Merankinghitberdasarkankepentingandaridokumen 29

  30. PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi IRBerbasisTeks •Sebagianbesarmetoderankingdidasarkanpadamodel ruangvektor(vectorspacemodel). •Sebagianbesarmetodepencocokan(matching) didasarkanadaoperatorBoolean. •MetodeWebsearchmengkombinasikanmodelruang vektordenganrankingberdasarkanpadatingkat kepentingandokumen. •Banyaksistem(dalampraktek)menggabungkanfitur- fiturdaribeberapapendekatan. •Padabentukdasar,semuapendekatanmenganggap katasebagaitokenterpisah,denganusahaminimal untukmemahamikata-katasecaralinguistik. 30

  31. PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi FrekuensiKata •Observasi:Beberapakatalebihumum daripadayanglain. •Statistika:Koleksisangatbesardari dokumentekstak-terstrukturmempunyai karakteristikstatistikserupa.Statistikini: –Mempengaruhiefektifitasdanefisiensidari strukturdatayangdigunakanuntuk mengindeksdokumen –Banyakmodelretrievalmemanfaatkannya. 31

  32. PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi ...FrekuensiKata •Contoh:Contohberikutinidiambildari: –JamieCallan,CharacteristicsofText,1997 –19Jutakatasampel –Slideberikutmemperlihatkan50katayang palingumum,diranking(r)berdasarkan frekuensinya(f). 32

  33. PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi ...FrekuensiKata 33

  34. PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi DistribusiRankingFrekuensi •Untuksemuakatadidalamsuatudokumen, untuksetiapkataw –fadalahfrekuensimunculnyaw –rrankingdariwdisusunmenurutfrekuensi.(kata yangpalingumummunculmempunyairank=1) 34

  35. PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi ContohFrekuensiRank •Slideberikutmemperlihatkankata-katadi dalamdataCallanyangtelahdinormali- sasi.Dalamcontohini: –radalahrankingdarikatawdalamsampel. –fadalahfrekuensikatawdidalamsampel. –nadalahjumlahtotalkemunculankatadi dalamsampel. 35

  36. PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi ...ContohRankingFrekuensi 36

  37. PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi HukumZipf •Jikakata-katadidalamsuatukoleksi diranking,r,berdasarkanfrekuensinya,f, makamemenuhirelasi: r×(f/n)=c dimananadalahjumlahkemunculankata didalamkoleksi,19jutadalamcontoh. •Koleksiberbedamempunyaikonstantac berbeda. •DalamteksbahasaInggris,csekitar0.1. 37

  38. PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi MetodepadaHukumZipf •Stoplists:Abaikankata-katayangsangat sering(uppercut-off).Digunakanolehhampir semuasistem. •Significantwords:Abaikankatayangpaling seringdanpalingsedikit(upperandlowercut- off).Jarangdigunakan. •Termweighting:Berikanbobotberbedauntuk term-termberdasarkanpadafrekuensinya,kata- katayangpalingseringdibobotkurang. Digunakanolehhampirsemuametode perankingan. 38

  39. PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi PandanganLogikDokumen •Representasidokumendipandang sebagaisuatucontinuum(rangkaian kesatuan). 39

  40. PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi ArsitekturSistemIR 40

  41. PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi ArsitekturIR:Contoh 41

  42. PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi KomponenSistemIR •OperasiTeksmembentukkata-kataindeks (token) –Tokenization(pemisahankata) –PenghapusanStopword(seperti‘the’,‘of’,…) –Stemming(mengubahkata-kataberbedakebentuk akarnya) •Indexingmembangunsuatuinvertedindexdari katakepenunjukdokumen. –PemetaandarikatakuncikeIddokumen. 42

  43. PengantarTemu-BalikInformasi ...KomponenSistemIR •Searchingmeretrievedokumen-dokumenyang mengandungtokenqueryyangdiberikandari invertedindex. •Rankingmemberikanscorekepadasemua dokumenyangdiretrievesesuaidengan relevancemetric. •UserInterfacemenanganiinteraksidengan pengguna: –Inputquerydanoutputdokumen. –Feedbackrelevansi –Visualisasihasil. 43

  44. PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi ...KomponenSistemIR •OperasiQuerymentransformasiqueryuntuk meningkatkanretrieval: –Queryexpansionmenggunakanthesaurus. –Querytransformationmenggunakanfeedback relevansi. –Optimisasiqueryuntukmeningkatkankinerja.(kurang pentingdaripadadalamsistemdataretrieval) •Pertanyaan:bagaimanamenambahkansuatu komponenpersonalisasikesistemIR? 44

  45. PengantarTemu-BalikInformasi PencarianWeb •AplikasiIRterhadapdokumenpadaWWW •Perbedaan: –Ukuran–lebihdari25milyardokumendiindekspada Google,terusbertambah –Perubahandokumentidakdapatdikendalikan. –Harusmenghimpuncorpusdokumendengan menjaring(spidering)web. –Dapatmengeksploitasiinformasilayoutstruktural dalamHTML(XML). –Dapatmengeksploitasistrukturlinkdariweb. 45

  46. PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi SistemPencarianWeb 46

  47. PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi TugaslainterkaitIR • • • • • • • • • Kategorisasidokumenotomatis Penyaringaninformasi(spamfiltering) Perutean(routing)informasi Clusteringdokumenotomatis Merekomendasikaninformasiatauproduk Ekstraksiinformasi Integrasiinformasi Jawabanpertanyaan ... 47

  48. PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi Timeline Sistem IR 48

  49. PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi SejarahIR •1960-70-an: –Eksplorasiawaldarisistemtextretrievaluntuk corporaabstrakilmiah“kecil”,dandokumen hukumdanbisnis. –Pengembanganmodelretrievaldasar Booleandanruangvektor. –Prof.SaltondanmahasiswanyadiCornell Universitymengawalipenelitiandibidangini. 49

  50. PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi ...SejarahIR •1980-an: –Sistemdatabasedokumenbesar,banyak dijalankanolehperusahaan: •LexisNexis–arsipyangdapatdicari(searchable) daricontentsuratkabar,majalah,dokumenlegal (hukum)dansumbertercetaklain. •Dialog •MEDLINE 50

More Related