Wprowadzenie do eksploracji tekstu i technik płytkiej analizy tekstu

Wprowadzenie do eksploracji tekstu i technik płytkiej analizy tekstu Wykład z przedmiotuInteligentne Systemy Informacyjne mgr inż. Przemysław Sołdacki

Plan prezentacji • Text Mining & NLP • Głęboka i płytka analiza tekstu • Model płytkiej analizy tekstu • Możliwości dalszego wykorzystania

Text Mining & NLP Text Mining / Text Data Mining / TDM • dziedzina zajmująca się przetwarzaniem zbiorów dokumentów w celu znalezienia informacji, która nie jest dostępna bezpośrednio lub też jest trudno dostępna. Jest to sposób znajdywania nowej wiedzy pośród olbrzymich zasobów tekstowych.

Text Mining & NLP NLP (ang. Natural Language Processing) • zbiór technik komputerowych służących do analizy i reprezentacji tekstów występujących na poziomie analizy lingwistycznej w celu uzyskania przypominającego ludzki sposobu przetwarzania języka w określonym zakresie zadań i zastosowań.

Text Mining & NLP

Zadania TDM • Klasyfikacja dokumentów (ang. Document classification) • Grupowanie dokumentów (ang. Document clustering) • Sumaryzacja (ang. Summarization) • Automatyczne rozpoznawanie języka (ang. Automatic Language Identification) • Grupowanie pojęć (ang. Concept clustering) • Wizualizacja i nawigacja • Web Mining • Wyszukiwanie informacji (ang. Information Retrieval, IR) • Ekstrakcja informacji (ang. Information Extraction, IE)

Wybrane techniki TDM • Reprezentacje tekstu • Prawo Zipfa • Algorytmy klasyfikacji • Rocchio • Algorymy klasteryzacji • Hierarchiczne • K-Means

Głęboka i płytka analiza tekstu • Głęboka analiza tekstu (ang. Deep Text Processing, DTP) jest procesem komputerowej analizy lingwistycznej wszystkich możliwych interpretacji i relacji gramatycznych występujących w tekście naturalnym. • bardzo złożona • uzyskiwana informacja może nie być konieczna

Głęboka i płytka analiza tekstu • Płytka analiza tekstu (ang. Shallow Text Processing, STP) może być krótko określona jako analiza tekstu, której efekt jest niepełny w stosunku do głębokiej analizy tekstu. • rozpoznawanie struktur nierekurencyjnych lub o ograniczonym poziomie rekurencji, które mogą być rozpoznane z dużym stopniem pewności. • struktury wymagające złożonej analizy wielu możliwych rozwiązań są pomijane lub analizowane częściowo • analiza skierowana jest głównie na rozpoznawanie nazw własnych, wyrażeń rzeczownikowych, grup czasownikowych bez rozpoznawania ich wewnętrznej struktury i funkcji w zdaniu.

Głęboka i płytka analiza tekstu • TEZA: Wykorzystywanie płytkiej analizy tekstu (zamiast głębokiej) może w wielu wypadkach okazać się wystarczająco do uzyskania potrzebnych informacji, a dzięki wprowadzeniu uproszczeń pozwala na uzyskanie oszczędności czasu. • Przeprowadzenie głębokiej analizy prowadzącej do pełnego rozpoznania semantyki jest wciąż niemożliwe. • Pomimo pewnych uproszczeń płytka analiza jest procesem złożonym, wymagającym rozwiązaniem wielu zagadnień lingwistycznych i stworzenia zestawu niezbędnych narzędzi.

Model płytkiej analizy tekstu • tokenizacja • wykrywanie końca zdania • analiza morfologiczna • usuwanie niejednoznaczności • zastępowanie zaimków • wykrywanie nazw własnych • rozkład zdań złożonych na zdania proste • rozbiór zdań (?) • …

Tokenizacja • Jednoznaczny podział tekstu na tokeny • Jednolity i otwarty standard opisu tokenów (XML) • Numeracja tokenów • Przeniesienia

Tokenizacja • Atrybut token.rodzajTokena (w nawiasie przykłady tokenów): • liczbaNaturalna („1234”, „433 322”) • liczbaRzeczywista („123,53”, „134.32”, „125 432,76” ) • liczbaProcent (23%) • liczbaSymbol (234PLN, 987EUR, 100cm, $100, USD255) • data (10/12/2004, 10-12-2004, 10.12.2004) • godzina (10:30, 10.30) • slowoDuze (ABC, CMS) • slowoMale (projekt, komin) • slowoPierwszaDuza (Politechnika) • slowoMieszane (PGNiG) • skrot (potencjalnie skrót: “mgr.”, „abc.”, „m.in.”, „cddfs.”, „S.A”) • email (abc@cdf.pl) • url (http://www.abc.pl, www.abc.pl, https://abc.pl) • CR – znak końca linii (do odtwarzania tekstu) • tab – znak tabulacji • ……

Wykrywanie końca zdania • Wykorzystanie znaków interpunkcyjnych • Wykorzystanie wielkości liter • Problemy: skróty, nazwy własne, cytaty, listy, dialogi… • Rozwiązania: reguły, słowniki skrótów • Zależność od dziedziny

Wykrywanie końca zdania • Atrybut zdanie.kontekst: • Zwykly – normalny tekst • Lista – element listy, wyliczenia itp. • Dialog – fragment dialogu • Cytat – element cytatu • Tabela – komórka tabeli • …

Format pliku <dokument> <historia> <zadanie nr=”1” nazwa=”tokenizacja” wersja=”Kowalski” czas=”45” data=”2004.12.15 16:44”> </historia> <zdanie id=”1” kontekst=”zwykly”> <token id=”1” slowo=”Ala” rodzajTokena=”slowoPierwszaDuza” /> <token id=”2” slowo=”ma” rodzajTokena=”slowo” /> <token id=”3” slowo=”kota” rodzajTokena=”slowo” /> <token id=”4” slowo=”.” rodzajTokena=”znak” /> </zdanie> </dokument>

Analiza morfologiczna • znajdywanie form podstawowych wyrazów (lematów), czyli tzw. stemming Zawodnik startuje w wyścigu. Zawodnicy startowali w wyścigach. • rozpoznawania i oznaczania części mowy i ich form • wykorzystanie słownika i reguł (ISPELL) • synteza • Problem: niejednoznaczność

Analiza morfologiczna <token id=”1” slowo=”Ala” rodzajTokena=”slowo” lemat=”Ala” czescMowy=”rzeczownik” przypadek=”mianownik” rodzaj=”zenski” liczebnosc=pojedynczy”/> <token id=”2” slowo=”ma” rodzajTokena=”slowo” lemat=”mieć” czescMowy=”czasownik” liczba=”pojedyncza” osoba=”trzecia” rodzaj=”meski” tryb=”orzekajacy” czas=terazniejszy” strona=”czynna” lewy=”1”/> <token id=”2” slowo=”ma” rodzajTokena=”slowo” lemat=”mieć” czescMowy=”czasownik” liczba=”pojedyncza” osoba=”trzecia” rodzaj=”zenski” tryb=”orzekajacy” czas=terazniejszy” strona=”czynna” lewy=”1”/> <token id=”2” slowo=”ma” rodzajTokena=”slowo” lemat=”mieć” czescMowy=”czasownik” liczba=”pojedyncza” osoba=”trzecia” rodzaj=”nijaki” tryb=”orzekajacy” czas=terazniejszy” strona=”czynna” lewy=”1”/> …

Usuwanie niejednoznaczności • niejednoznaczność on robi ona robi ono robi • reguły kontekstowe (wiedza eksperta) • ukryte modele markowa (anotowane zbiory trenujące)

Zastępowanie zaimków • Zmniejszenie zależności od kontekstu • Przypisanie informacji do zaimków (stop-lista) • Kryteria • Zgodność rodzaju • Zgodność liczby • Zgodność kategorii znaczeniowej, np. zaimek osobowy (np. „on”) pasuje do wyrazu określającego osobę,

Rozpoznawanie nazw własnych • Rozpoznanie • Przypisanie kategorii • Organizacja, osoba, lokalizacja, czas (data, godzina), ilość (liczba, kwota pieniężna, procent) • Wykorzystanie słowników • Składnia (np. data) • Heurystyki (np. z dużej litery) • Problem: fleksja nazw własnych

Rozkład zdań złożonych na proste • Zdanie proste – aproksymacja faktu • Uproszczenie rozbioru zdań (mniej reguł) • Ułatwienie generacji streszczeń Ala ma kota i ona ma psa.  Ala ma kota. Ala ma psa. • Rozkład nie zawsze możliwy (zachowanie sensu) Jadzia jest tym dla nas, czym matka jest dla dzieci. Był taki, jak jest zawsze.

Rozbiór zdań • rekurencyjny – trudne • statystyczno-adaptacyjny (HMM) • heurystyczny – znakowanie części zdania • Np. Reguła „Orzeczenie”. Ta reguła ma za zadanie znaleźć wszystkie orzeczenia słowne oraz łączniki orzeczeń imiennych. Reguła wyszukuje w pliku wszystkich form osobowych czasownika oznaczając je jako orzeczenie. Jeśli jest to forma osobowa czasownika „być”, „zostać”, „okazać się”, stać się”, zrobić się” to jest to łącznik w orzeczeniu imiennym. Reguła oprócz form osobowych czasownika wyszukuje wszystkie słowa „to”, które są łącznikami orzeczenia imiennego w równoważnikach zdania.

Rozbiór zdań c.d. przykładu • Reguła „Przydawka”. Rozpoznawanie przydawek odbywa się następujący sposób: • wszystkie nierozpoznane przymiotniki są przydawkami • wszystkie nierozpoznane liczebniki są przydawkami • wszystkie nierozpoznane zaimki dzierżawcze, wskazujące, przymiotnikowe i liczebnikowe są przydawkami • jeśli został znaleziony rzeczownik i nie został on rozpoznany wcześniej jako przydawka, to frazy stojące bezpośrednio za nim uznawane są za przydawki jeśli jest to rzeczownik lub wyrażenie przyimkowe lub czasownik w formie bezokolicznika.

Możliwości dalszego wykorzystania • Wykrywanie wątków tematycznych • Sumaryzacja • Klasyfikacja • Klasteryzacja

Dziękuję za uwagę psoldack@datacom.pl

Wprowadzenie do eksploracji tekstu i technik płytkiej analizy tekstu

Wprowadzenie do eksploracji tekstu i technik płytkiej analizy tekstu

Presentation Transcript

Humanistische Ansätze – Ein Überblick

REPETYTORIUM MATURALNE

ZASADY BHP W PRACY NA OBRABIARKACH CNC

METODY DEZODORYZACJI

Methoden Sozialer Arbeit im Spannungsfeld zwischen Technik und Theorie

Podstawy intensywnej terapii

Entspannungstechniken und hypnotische Verfahren

FINANSE MENEDŻERSKIE

Neue Technologien in der Arbeit mit behinderten Menschen

Co nowego w Astronomii?

Biotechnologia a medycyna

METODY NUMERYCZNE

Jak zjeść tę żabę? czyli jak wybrać optymalną metodę analizy statystycznej

SZKOLENIE – SPORZĄDZANIE TEKSTU JEDNOLITEGO AKTU NORMATYWNEGO

ZARZĄDZANIE PROJEKTAMI dr inż.. Jan Betta I-23

Software-Technik

Cíle kurzu

Podstawy technik internetowych / Wprowadzenie do Internetu

O relacjach i algorytmach

Wielowymiarowe metody analizy i wizualizacji danych

Twarze sondażu

Ucieczka z Matrixa: (nie)bezpieczna analiza malware