1 / 32

Πολυγλωσσικότητα και ψηφιακές βιβλιοθήκες

Πολυγλωσσικότητα και ψηφιακές βιβλιοθήκες. Παρουσίαση της εργασίας “Multilingual Information Retrieval Based on Document Alignement Techniques” Martin Braschler, Peter Schäuble Μάθημα: Ψηφιακές βιβλιοθήκες Ματθαίος Στρατής. Πολυγλωσσική ψηφιακή βιβλιοθήκη (Βασικός ορισμός).

bruno
Télécharger la présentation

Πολυγλωσσικότητα και ψηφιακές βιβλιοθήκες

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Πολυγλωσσικότητα και ψηφιακές βιβλιοθήκες Παρουσίαση της εργασίας “Multilingual Information Retrieval Based on Document Alignement Techniques” Martin Braschler, Peter Schäuble Μάθημα: Ψηφιακές βιβλιοθήκες Ματθαίος Στρατής

  2. Πολυγλωσσική ψηφιακή βιβλιοθήκη(Βασικός ορισμός) Μια ψηφιακή βιβλιοθήκη, η οποία περιέχει τεκμήρια σε περισσότερες από μία γλώσσες

  3. Δια-γλωσσική ανάκτηση πληροφοριών(Cross-Language Information Retrieval - CLIR) Η πρακτική κατά την οποία ο χρήστης συντάσσει το ερωτηματολόγιο (Query) σε μια γλώσσα και ανακτά τα σχετικά τεκμήρια ανεξάρτητα από τη γλώσσα στην οποία είναι γραμμένα αυτά.

  4. Αναγκαιότητα της CLIR • Ο χρήστης πρέπει να έχει πρόσβαση σε όσο το δυνατόν περισσότερες πληροφορίες, χωρίς η γλώσσα ν’ αποτελεί φραγμό • Ο δημιουργός πρέπει να κάνει τις εργασίες του, απόψεις, ιδέες του κλπ. διαθέσιμα ευρέως, χωρίς τον περιορισμό της γλώσσας

  5. Προσεγγίσεις για την εκτέλεση μιας CLIR • 1η Προσέγγιση: Μετάφραση των τεκμηρίων-στόχων στη γλώσσα αναζήτησης • Πολύ βολική για τον χρήστη Αλλά: • Μη ρεαλιστική (Πολύ δαπανηρή και απαιτητική δραστηριότητα) • Τα προγράμματα αυτόματης μετάφρασης (MT) έχουν αποδειχθεί αναποτελεσματικά • Ένα μικρό ποσοστό της συλλογής μπορεί να ενδιαφέρει τον χρήστη. Γιατί να μεταφράζονται τα παντα;

  6. Προσεγγίσεις για την εκτέλεση μιας CLIR (συνέχεια) • 2ηΠροσέγγιση: Μετάφραση του querie στη γλώσσα των αντίστοιχων τεκμηρίων Τεχνικές knowledge-based • Με χρήση λεξικών • Με χρήση θησαυρών • Με χρήση οντολογιών (π.χ. Euro Wordnet) Τεχνικές corpus-based • Βασίζονται στην ίδια τη συλλογή • Χρησιμοποιούνται στατιστικά στοιχεία σχετικά με τη χρήση των όρων για εξαγωγή συμπερασμάτων • Βάσει των συμπερασμάτων δημιουργούνται τεχνικές μετάφρασης του querie, ειδικές για κάθε ξεχωριστή συλλογή • Εφαρμόζονται για την αναζήτηση μεταξύ παράλληλων (μεταφραστικά ισοδύναμων) ή συγκρίσιμων (με σχετικό περιεχόμενο) συλλογών

  7. Απαιτήσεις εφαρμογής για μια πολυγλωσσική ψηφιακή βιβλιοθήκη • Αναγνώριση, χειρισμός και εμφάνιση των διάφορων περιεχόμενων γλωσσών. (Υποστήριξη των σετ χαρακτήρων και κωδικοποιήσεων για την αναπαράσταση της πληροφορίας) • Επίτευξη Internationalization (Δυνατότητα πρόσβασης και χρήσης ανεξάρτητα από τοπικούς ή γλωσσικούς φραγμούς) • Εφαρμογή οδηγιών του HTTP και της HTML (ως προς την κωδικοποίηση χαρακτήρων) • Επίτευξη Localization (Προσαρμογή στις τοπικές ιδιαιτερότητες) • Δυνατότητα εφοδιασμού με ειδικά fonts

  8. Δυναμικό inrerface Σε ένα interface μιας πολυγλωσσικής βιβλιοθήκης είναι απαραίτητο: • Όλα τα επιμέρους interfaces να εμφανίζονται σε κάθε προτιμώμενη γλώσσα • Όλα τα μηνύματα να εμφανίζονται σε κάθε προτιμώμενη γλώσσα • Όλα τα στοιχεία των επιμέρους πινάκων να εμφανίζονται σε κάθε προτιμώμενη γλώσσα

  9. Πολυγλωσσική ψηφιακή βιβλιοθήκη(Ευρύς ορισμός) «Μια πολυγλωσσική ψηφιακή βιβλιοθήκη, είναι μια ψηφιακή βιβλιοθήκη, όλες οι λειτουργίες της οποίας εφαρμόζονται ταυτόχρονα σε όσες γλώσσες είναι επιθυμητό και της οποίας οι λειτουργίες αναζήτησης και ανάκτησης είναι ανεξάρτητες από τη γλώσσα».[1] [1]Pavani, Ana M. B. , A model of Multilingual Digital Libray, Ci. Inf., Brasília, v. 30, n. 3, p. 73-81, set./dez. 2001

  10. Παρουσίαση της εργασίας“Multilingual Information Retrieval Based on Document Alignement Techniques”Martin Braschler, Peter Schäuble

  11. Corpus-based μέθοδος πολυγλωσσικής ανάκτησης πληροφοριών κατά την οποία ο χρήστης συνθέτει το querie σεμια προτιμώμενη γλώσσα και ανακτά τα σχετικά τεκμήρια ανεξάρτητα από τη γλώσσα στην οποία είναι γραμμένα αυτά.

  12. Βάση εργασίας: • Συλλογή του Associated Press (AP) με αγγλικά κείμενα • Συλλογή του Schweizerische Depeschenagentur (SDA) με γερμανικά και γαλλικά κείμενα

  13. Τεχνική ευθυγράμμισης τεκμηρίων (Document alignment) • Διαδικασία κατά την οποία τεκμήρια με σχετικό περιεχόμενο οργανώνονται σε ζεύγη (alignments), παράγοντας ένα mapping των σχετιζόμενων μεταξύ τους τεκμηρίων διαφορετικών συλλογών

  14. Παράδειγμα ευθυγράμμισης (SDA)

  15. Δείκτες για τον εντοπισμό της συνάφειας • Τα τεκμήρια περιέχουν κοινά κύρια ονόματα (Η ορθογραφία των ονομάτων σε παρόμοιες γλώσσες είναι συνήθως σταθερή) • Τα τεκμήρια περιέχουν κοινούς αριθμούς (Οι αριθμοί σε μεγάλο βαθμό δεν εξαρτώνται απ’ τη γλώσσα) • Αν στα τεκμήρια έχουν αποδοθεί συμβατοί ταξινομητές (classifiers), αυτοί μπορούν να χρησιμοποιηθούν • Η ίδια ιστορία ή είδηση συνήθως δημοσιεύεται σε κοντινές ημερομηνίες από τα ειδησεογραφικά πρακτορεία. Κατά συνέπεια, οι ημερομηνίες μπορούν να χρησιμοποιηθούν σαν δείκτες • Λέξεις που περιέχονται και στα δύο τεκμήρια μπορούν να χρησιμοποιηθούν σαν ένδειξη συνάφειας. Ειδικά γι αυτό, μπορεί να χρησιμοποιηθεί λεξικό για τη μετάφραση των όρων από γλώσσα σε γλώσσα.

  16. Βασική σύλληψη της διαδικασίας ευθυγράμμισης • Τα κείμενα της πρώτης συλλογής μετατρέπονται σε queries με την εξαγωγή όρων απ’ αυτά • Τα queries μεταφράζονται στη γλώσσα-στόχο και «τρέχουν» πάνω στη δεύτερη συλλογή

  17. Ευθυγράμμιση συλλογών AP – German SDA • Χρήση όρων «μετρίας» συχνότητας • Χρήση wordlist (Απλοποιημένο λεξικό) • Χρήση τεχνικής Thresholding (Κατώτατου ορίου ή κατωφλίου) • Χρήση τεχνικής Date normalization (Κανονικοποίησης ημερομηνίας)

  18. Απεικόνιση των ευθυγραμμίσεων AP-German SDA (1)

  19. Απεικόνιση των ευθυγραμμίσεων AP-German SDA (2)

  20. Παράθυρο ημερομηνίας (Date window): Μπορεί να χρησιμοποιηθεί για τον περιορισμό της έκτασης προς αναζήτηση

  21. Ευθυγράμμιση συλλογώνFrench SDA – German SDA • Χρήση των αποδοθέντων Classifiers • Χρήση κυρίων ονομάτων και αριθμών σαν δείκτες • Δεν είναι απαραίτητη η χρήση γλωσσικών εργαλείων

  22. Αξιολόγηση των ευθυγραμμίσεων • Αξιολόγηση ανεξάρτητα από την εφαρμογή • Αξιολόγηση εφαρμογής που χρησιμοποιεί τις ευθυγραμμίσεις

  23. Αξιολόγηση ανεξάρτητα από την εφαρμογή • Πώς θα κριθεί η ποιότητα; Απαιτείται άνθρωπος κριτής που θα πρέπει να διαβάσει ολόκληρη τη συλλογή για να σιγουρευτεί ότι δεν υπάρχει κάποιο πιο συναφές κείμενο, πράγμα καθαρά μη πρακτικό. • Πώς θα εκτιμηθεί το ποσοστό συνάφειας σ’ ένα ζεύγος όταν το query είναι στην ουσία ένα ολόκληρο κείμενο; (Εφαρμογή πίνακα 5 κατηγοριών) • Ο άνθρωπος κριτής θα πρέπει να διαβάζει δύο τεκμήρια για κάθε αποτίμηση σχετικότητας αντί για ένα (όπως συμβαίνει στην αποτίμηση απλών διαδικασιών ανάκτησης). Αυτό συμβαίνει, γιατί το query είναι διαφορετικό για κάθε ευθυγραμμισμένο ζεύγος.

  24. Κατηγορίες για την αποτίμηση των ευθυγραμμισμένων ζευγών

  25. Αποτελέσματα αποτίμησης δείγματος 1% επί του συνόλου

  26. Εφαρμογή των ευθυγραμμίσεων για την ανάκτηση πληροφοριών • Δια-γλωσσική ανάκτηση πληροφοριών από παράλληλες ή συγκρίσιμες συλλογές • Για συγκρίσιμες συλλογές μπορεί να εφαρμοστεί η τεχνική του pseudo relevance feedback σε συνδυασμό με χρήση wordlist • Πρακτική εφαρμογή στη συλλογή CLIR του TREC-6

  27. Σύγκριση των διαφόρων τεχνικών στη συλλογή του TREC-6

  28. Λογισμικά εφαρμογής της CLIR • CINDORτης TextWise (http://www.cindorsearch.com) • TwentyOneτης Irion Technologies (http://www.irion.nl/products/index.html) • Pidgin της Irion Technologies (http://www.pidgin.nl) • AnswerWorksτης WexTech (http://www.wextech.com/products.html) • Lirix της Xerox (http://www.xrce.xerox.com/programs/lirix/) • Relevancyτης Eurospider (http://www.eurospider.com/en/relevancy/relevancy.htm

  29. Προβληματισμοί σχετικά με την CLIR • Πώς επιλέγονται οι σωστοί όροι για τη σύνταξη ενός query; • Έχει ξεπεραστεί πραγματικά ικανοποιητικά το φράγμα του «ζεύγους γλωσσών»; • Αν η αυτοποιημένη μετάφραση (MT) χρησιμοποιείται για να μεταφραστούν τα ανακτηθέντα τεκμήρια, γιατί να μη χρησιμοποιείται για τη μετάφραση όλων των τεκμηρίων μιας συλλογής; • Πόσο μπορεί να εφαρμοστεί η CLIR σε μεγάλες μηχανές αναζήτησης; (Ας μην ξεχνάμε οτι τα γλωσσικά εργαλεία που κατασκευάζονται είναι ειδικά για κάθε εφαρμογή) • Η φιλοσοφία του semantic web μπορεί να επεκταθεί και για την CLIR;

  30. Τέλος παρουσίασης

More Related