1 / 26

Wprowadzenie do eksploracji tekstu i technik płytkiej analizy tekstu

Wprowadzenie do eksploracji tekstu i technik płytkiej analizy tekstu. Wykład z przedmiotu Inteligentne Systemy Informacyjne mgr inż. Przemysław Sołdacki. Plan prezentacji. Text Mining & NLP Głęboka i płytka analiza tekstu Model płytkiej analizy tekstu Możliwości dalszego wykorzystania.

nevaeh
Télécharger la présentation

Wprowadzenie do eksploracji tekstu i technik płytkiej analizy tekstu

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Wprowadzenie do eksploracji tekstu i technik płytkiej analizy tekstu Wykład z przedmiotuInteligentne Systemy Informacyjne mgr inż. Przemysław Sołdacki

  2. Plan prezentacji • Text Mining & NLP • Głęboka i płytka analiza tekstu • Model płytkiej analizy tekstu • Możliwości dalszego wykorzystania

  3. Text Mining & NLP Text Mining / Text Data Mining / TDM • dziedzina zajmująca się przetwarzaniem zbiorów dokumentów w celu znalezienia informacji, która nie jest dostępna bezpośrednio lub też jest trudno dostępna. Jest to sposób znajdywania nowej wiedzy pośród olbrzymich zasobów tekstowych.

  4. Text Mining & NLP NLP (ang. Natural Language Processing) • zbiór technik komputerowych służących do analizy i reprezentacji tekstów występujących na poziomie analizy lingwistycznej w celu uzyskania przypominającego ludzki sposobu przetwarzania języka w określonym zakresie zadań i zastosowań.

  5. Text Mining & NLP

  6. Zadania TDM • Klasyfikacja dokumentów (ang. Document classification) • Grupowanie dokumentów (ang. Document clustering) • Sumaryzacja (ang. Summarization) • Automatyczne rozpoznawanie języka (ang. Automatic Language Identification) • Grupowanie pojęć (ang. Concept clustering) • Wizualizacja i nawigacja • Web Mining • Wyszukiwanie informacji (ang. Information Retrieval, IR) • Ekstrakcja informacji (ang. Information Extraction, IE)

  7. Wybrane techniki TDM • Reprezentacje tekstu • Prawo Zipfa • Algorytmy klasyfikacji • Rocchio • Algorymy klasteryzacji • Hierarchiczne • K-Means

  8. Głęboka i płytka analiza tekstu • Głęboka analiza tekstu (ang. Deep Text Processing, DTP) jest procesem komputerowej analizy lingwistycznej wszystkich możliwych interpretacji i relacji gramatycznych występujących w tekście naturalnym. • bardzo złożona • uzyskiwana informacja może nie być konieczna

  9. Głęboka i płytka analiza tekstu • Płytka analiza tekstu (ang. Shallow Text Processing, STP) może być krótko określona jako analiza tekstu, której efekt jest niepełny w stosunku do głębokiej analizy tekstu. • rozpoznawanie struktur nierekurencyjnych lub o ograniczonym poziomie rekurencji, które mogą być rozpoznane z dużym stopniem pewności. • struktury wymagające złożonej analizy wielu możliwych rozwiązań są pomijane lub analizowane częściowo • analiza skierowana jest głównie na rozpoznawanie nazw własnych, wyrażeń rzeczownikowych, grup czasownikowych bez rozpoznawania ich wewnętrznej struktury i funkcji w zdaniu.

  10. Głęboka i płytka analiza tekstu • TEZA: Wykorzystywanie płytkiej analizy tekstu (zamiast głębokiej) może w wielu wypadkach okazać się wystarczająco do uzyskania potrzebnych informacji, a dzięki wprowadzeniu uproszczeń pozwala na uzyskanie oszczędności czasu. • Przeprowadzenie głębokiej analizy prowadzącej do pełnego rozpoznania semantyki jest wciąż niemożliwe. • Pomimo pewnych uproszczeń płytka analiza jest procesem złożonym, wymagającym rozwiązaniem wielu zagadnień lingwistycznych i stworzenia zestawu niezbędnych narzędzi.

  11. Model płytkiej analizy tekstu • tokenizacja • wykrywanie końca zdania • analiza morfologiczna • usuwanie niejednoznaczności • zastępowanie zaimków • wykrywanie nazw własnych • rozkład zdań złożonych na zdania proste • rozbiór zdań (?) • …

  12. Tokenizacja • Jednoznaczny podział tekstu na tokeny • Jednolity i otwarty standard opisu tokenów (XML) • Numeracja tokenów • Przeniesienia

  13. Tokenizacja • Atrybut token.rodzajTokena (w nawiasie przykłady tokenów): • liczbaNaturalna („1234”, „433 322”) • liczbaRzeczywista („123,53”, „134.32”, „125 432,76” ) • liczbaProcent (23%) • liczbaSymbol (234PLN, 987EUR, 100cm, $100, USD255) • data (10/12/2004, 10-12-2004, 10.12.2004) • godzina (10:30, 10.30) • slowoDuze (ABC, CMS) • slowoMale (projekt, komin) • slowoPierwszaDuza (Politechnika) • slowoMieszane (PGNiG) • skrot (potencjalnie skrót: “mgr.”, „abc.”, „m.in.”, „cddfs.”, „S.A”) • email (abc@cdf.pl) • url (http://www.abc.pl, www.abc.pl, https://abc.pl) • CR – znak końca linii (do odtwarzania tekstu) • tab – znak tabulacji • ……

  14. Wykrywanie końca zdania • Wykorzystanie znaków interpunkcyjnych • Wykorzystanie wielkości liter • Problemy: skróty, nazwy własne, cytaty, listy, dialogi… • Rozwiązania: reguły, słowniki skrótów • Zależność od dziedziny

  15. Wykrywanie końca zdania • Atrybut zdanie.kontekst: • Zwykly – normalny tekst • Lista – element listy, wyliczenia itp. • Dialog – fragment dialogu • Cytat – element cytatu • Tabela – komórka tabeli • …

  16. Format pliku <dokument> <historia> <zadanie nr=”1” nazwa=”tokenizacja” wersja=”Kowalski” czas=”45” data=”2004.12.15 16:44”> </historia> <zdanie id=”1” kontekst=”zwykly”> <token id=”1” slowo=”Ala” rodzajTokena=”slowoPierwszaDuza” /> <token id=”2” slowo=”ma” rodzajTokena=”slowo” /> <token id=”3” slowo=”kota” rodzajTokena=”slowo” /> <token id=”4” slowo=”.” rodzajTokena=”znak” /> </zdanie> </dokument>

  17. Analiza morfologiczna • znajdywanie form podstawowych wyrazów (lematów), czyli tzw. stemming Zawodnik startuje w wyścigu. Zawodnicy startowali w wyścigach. • rozpoznawania i oznaczania części mowy i ich form • wykorzystanie słownika i reguł (ISPELL) • synteza • Problem: niejednoznaczność

  18. Analiza morfologiczna <token id=”1” slowo=”Ala” rodzajTokena=”slowo” lemat=”Ala” czescMowy=”rzeczownik” przypadek=”mianownik” rodzaj=”zenski” liczebnosc=pojedynczy”/> <token id=”2” slowo=”ma” rodzajTokena=”slowo” lemat=”mieć” czescMowy=”czasownik” liczba=”pojedyncza” osoba=”trzecia” rodzaj=”meski” tryb=”orzekajacy” czas=terazniejszy” strona=”czynna” lewy=”1”/> <token id=”2” slowo=”ma” rodzajTokena=”slowo” lemat=”mieć” czescMowy=”czasownik” liczba=”pojedyncza” osoba=”trzecia” rodzaj=”zenski” tryb=”orzekajacy” czas=terazniejszy” strona=”czynna” lewy=”1”/> <token id=”2” slowo=”ma” rodzajTokena=”slowo” lemat=”mieć” czescMowy=”czasownik” liczba=”pojedyncza” osoba=”trzecia” rodzaj=”nijaki” tryb=”orzekajacy” czas=terazniejszy” strona=”czynna” lewy=”1”/> …

  19. Usuwanie niejednoznaczności • niejednoznaczność on robi ona robi ono robi • reguły kontekstowe (wiedza eksperta) • ukryte modele markowa (anotowane zbiory trenujące)

  20. Zastępowanie zaimków • Zmniejszenie zależności od kontekstu • Przypisanie informacji do zaimków (stop-lista) • Kryteria • Zgodność rodzaju • Zgodność liczby • Zgodność kategorii znaczeniowej, np. zaimek osobowy (np. „on”) pasuje do wyrazu określającego osobę,

  21. Rozpoznawanie nazw własnych • Rozpoznanie • Przypisanie kategorii • Organizacja, osoba, lokalizacja, czas (data, godzina), ilość (liczba, kwota pieniężna, procent) • Wykorzystanie słowników • Składnia (np. data) • Heurystyki (np. z dużej litery) • Problem: fleksja nazw własnych

  22. Rozkład zdań złożonych na proste • Zdanie proste – aproksymacja faktu • Uproszczenie rozbioru zdań (mniej reguł) • Ułatwienie generacji streszczeń Ala ma kota i ona ma psa.  Ala ma kota. Ala ma psa. • Rozkład nie zawsze możliwy (zachowanie sensu) Jadzia jest tym dla nas, czym matka jest dla dzieci. Był taki, jak jest zawsze.

  23. Rozbiór zdań • rekurencyjny – trudne • statystyczno-adaptacyjny (HMM) • heurystyczny – znakowanie części zdania • Np. Reguła „Orzeczenie”. Ta reguła ma za zadanie znaleźć wszystkie orzeczenia słowne oraz łączniki orzeczeń imiennych. Reguła wyszukuje w pliku wszystkich form osobowych czasownika oznaczając je jako orzeczenie. Jeśli jest to forma osobowa czasownika „być”, „zostać”, „okazać się”, stać się”, zrobić się” to jest to łącznik w orzeczeniu imiennym. Reguła oprócz form osobowych czasownika wyszukuje wszystkie słowa „to”, które są łącznikami orzeczenia imiennego w równoważnikach zdania.

  24. Rozbiór zdań c.d. przykładu • Reguła „Przydawka”. Rozpoznawanie przydawek odbywa się następujący sposób: • wszystkie nierozpoznane przymiotniki są przydawkami • wszystkie nierozpoznane liczebniki są przydawkami • wszystkie nierozpoznane zaimki dzierżawcze, wskazujące, przymiotnikowe i liczebnikowe są przydawkami • jeśli został znaleziony rzeczownik i nie został on rozpoznany wcześniej jako przydawka, to frazy stojące bezpośrednio za nim uznawane są za przydawki jeśli jest to rzeczownik lub wyrażenie przyimkowe lub czasownik w formie bezokolicznika.

  25. Możliwości dalszego wykorzystania • Wykrywanie wątków tematycznych • Sumaryzacja • Klasyfikacja • Klasteryzacja

  26. Dziękuję za uwagę psoldack@datacom.pl

More Related