1 / 18

Sztuczna Inteligencja Analiza języka naturalnego Najnowsze osiągnięcia

Sztuczna Inteligencja Analiza języka naturalnego Najnowsze osiągnięcia. Włodzisław Duch Katedra Informatyki Stosowanej UMK Google: Duch. Nagroda Loebnera. Przyznawana od 1994 roku, ograniczony test Turinga, jeśli 30% sędziów uzna za człowieka 25 K$ nagrody

Télécharger la présentation

Sztuczna Inteligencja Analiza języka naturalnego Najnowsze osiągnięcia

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Sztuczna InteligencjaAnaliza języka naturalnegoNajnowsze osiągnięcia Włodzisław Duch Katedra Informatyki Stosowanej UMK Google: Duch

  2. Nagroda Loebnera Przyznawana od 1994 roku, ograniczony test Turinga, jeśli 30% sędziów uzna za człowieka 25 K$ nagrody dla audio-wizualnej interakcji 100 K$ Sędziowie mają >15 minut na konwersację Ocena programów i ludzi, na ile sztuczny/prawdziwy w skali 1-10. Tylko 10% sędziów się myli (2000). http://www.loebner.net/Prizef/loebner-prize.html Oryginalna gra „w udawanie” Turinga odbyła się 4/2005.

  3. Przykład konwersacji PROGRAM: Hello. My name is Albert. Who are you? JUDGE002: Greetings, I'm judge 2 PROGRAM: I'm not sure what to talk about with you. Are you a girl or a boy? JUDGE002:girl. how are you? PROGRAM:Are you married? I'm doing just fine, thanks. JUDGE002:would you like to talk about somethng interesting? PROGRAM:MP is an abbreviation for Member of Parliament. JUDGE002:right, why did you say that? PROGRAM:I just felt like it. JUDGE002:okay, did you hit a wrong button? PROGRAM:Do you come from around here? JUDGE002:yes, do you? PROGRAM:No I don't.

  4. Przykład cd. J002:where do you come from PROGRAM:I am from Earth. J002:well that's very specific indeed. what are your interests> PROGRAM:Would you like to have a drink with me later? let's not get too personal. J002:what do you work as? P. I've worked on a lot of PC's and some mini computers and mainframes when I was in college. W 1994 roku tematami były koty i psy, kriogenika, Rolling Stones, proces O.J. Simpsona, zwyciężył program dyskutujący o seksie! Zawody w 1998 roku w Sydney nie miały ograniczeń tematu konwersacji. Programy często przejmują inicjatywę, co ułatwia oszukanie sędziego. Oceny: 1 – najbardziej ludzki, 10 – najmniej ludzki.

  5. Wyniki 2000 Program Alice oszukał sędziego 1 i 2.

  6. Wyniki 2004 W 2000 roku najsłabszy człowiek był lepszy od najlepszego programu 3.3 razy, w 2004 już tylko 1.9 razy. Postęp?

  7. Wyniki 2006 University College London, 17.09.2006. Judge: Do you know any good jokes?Joan: I don’t even know any bad ones. I just can’t rememberthem for very long. Judge: Tell me a joke.Joan: Sorry, I’m not very good at telling jokes. Judge: Please tell a joke.Joan: What do you get if you walk under a cow? Judge: I don’t know?Joan: A pat on the head. Judge: That’s very good.Joan: I know.

  8. Generacja tekstu Brutus - program tworzący opowiadania na zadany temat, np. zdanie: „Jerzy obudził się pewnego ranka z koszmarnym uczuciem, że stał się wielkim insektem”. Historie dziwaczne, a przez to interesujące, np. porównania: „Oczy Harta były jak wielkie, krwawiące słońca.” Użyto w nim „LAG: Literary augumented grammars”, co umożliwia formalizację takich pojęć jak „zdrada: nadaje się do scenariuszy TV! Inne programy: cyberpoeta,

  9. Mexica Mexica (Rafael Pérez y Pérez), zwyciężył w 2006 roku w komputerowo generowanych historiach. Reprezentuje w pamięci długotrwałej fakty i stare historie (sekwencje postaci-akcji), ma też reprezentacje informacji o emocjach. Program tworzy nowe historie oceniając różnice ze znanymi historiami i „napięcia dramatyczne” oceniane na podstawie informacji o emocjach. Ograniczenia na strukturę historii: kontekstowe, wiedzy, wskazówki kompozycyjne (nowość, zainteresowanie), wiarygodność. Przykładowa historyjka: At the Sunday market, a farmer tries to kill jaguar knight [The knight hates the farmer]. Inresponse, the knight thrashes the farmer [The knight hates the farmer. The farmer also hates theknight]. In that moment, the princess arrives to the market and sees the knight beating thefarmer...

  10. Szukanie semantyczne Jak zrozumieć sens informacji i wyszukać dokładnie to, o co chodzi pytającemu? W ramach projektów bibliotek cyfrowych (digital libraries) powstały projekty InterSpace, MedSpace, zastosowania „przestrzeni koncepcji” do określenia sensu pojęć: Słowo S => wektor kontekstowy W(S)i=p(S,Si) w okienku kontekstowym Jeśli mamy opisy własności Słowa wieloznaczne będą miały kilka wektorów, np. Wk(Rakieta). Relacje semantyczne => relacje odległości między W(S). Podobne podejście: mapy informacji tekstowych, pokazują pojęcia w otoczeniu skojarzonych z nimi pojęć. Przykłady: WebSOM, prace z Astronomy & Astrophysics. Klasteryzacja rezultatów z wyszukiwarek: projekty Carrot2 i Clusty

  11. Przykład wektorów semantycznych Zwierzęta i ich własności; jak wygląda podobieństwo między nimi?

  12. Mapy semantyczne: MDS Jeśli zminimalizować różnice pomiędzy odległościami wektorów ||W(X1)-W(X2)|| i ich odpowiedników w 2D dostaniemy taką mapę. Widać naturalne grupowanie różnych gatunków.

  13. Nowe podejścia NLP to bardzo aktywna ale i trudna dziedzina. Sporo linków: http://www.is.umk.pl/~duch/IR.html Z. Vetulani, Komunikacja człowieka z maszyną, AOW EXIT 2004 Podstawowe narzędzia NLP: Stworzono duże korpusy do trenowania i testowania programów NLP. Programy do normalizacji tekstu szukają form podstawowych. Analiza morfologiczna rozbija wyrazy na morfemy (rdzenie, przed/po). Taggery przypisują części mowy (POS, Part of Speech), formy gramatyczne, użyteczne przy odróżnianiu czy mamy do czynienia z nazwą rzeczą, przymiotnikiem czy czasownikiem (shallow parsing). Gramatyki probabilistyczne, rozkład oparty o statystykę danych, gramatyki połączeń, kodujące sposoby używania (relacje) słów: http://bobo.link.cs.cmu.edu/grammar/submit-sentence-4.html

  14. Systemy hybrydowe DISCERN - system NLP z neuronowym leksykonem. Problem: jak automatycznie uczyć się skojarzeń? Jak reprezentowane są symbole w naszych mózgach? Za pomocą połączonych grup neuronów tworzących podsieci reprezentujące brzmienie i znaczenie, łączące percepcję i działanie. Podejście hybrydowe: symbole do analizy gramatycznej, neurony do rozproszonej reprezentacji informacji. Słyszymy wibracje, widzimy kreski, to kojarzymy z koncepcją. DISCERN używa kilku map automatyczne tworząc skojarzenia na poziomie fonologicznym, ortograficznym i semantycznym dzięki rozproszonej reprezentacji wiedzy. W DISCERN zastosowano hierarchiczne sieci SOM, ale można by też stosować reprezentację wektorową. Analiza gramatyczna – jeszcze zbyt trudna dla modeli neuronowych? Niestety projekt przestał się rozwijać.

  15. Czego brakuje w NLP? Porównajmy NLP z ludzkimi kompetencjami w tej dziedzinie. Człowiek ma pamięć rozpoznawczą – koryguje słowa nawet jeśli są napisane z poważnymi błędami, odwołując się do zrozumienia pojęc w tekście i ogólnego sensu tekstu. Człowiek ma pamięć semantyczną – wiemy, że krowa ma ogon, rogi, daje mleko, jest duża, muczy ... nie da się tego znaleźć w słownikach! Definicja krowy (Wordnet): dojrzała samica ssaka, którego samiec nazywa się byk. Brakuje wiedzy! Projekty stworzenia słowników z licznymi relacjami, np. Wordnet, zmierzają w kierunku pamięci semantycznej, ale są na razie ubogie. Próby automatycznej akwizycji wiedzy są bardzo trudne.

  16. Pytanie Pamięć semantyczna Zastosowania, np. gra w 20 pytań Mówiąca głowa Zapamiętywanie Oznaczanie części mowy i ekstrakcja fraz weryfikacja Słowniki, encyklopedie Parser poprawki

  17. Rozumienie tekstów Próbujemy rozwinąć neurokognitywne podejście do rozumienia języka w oparciu o koncepcję grafów spójnych koncepcji, aktywnej części pamięci semantycznej z hamowaniem i rozchodzeniem się aktywacji. Dla tekstów medycznych mamy >2 mln koncepcji, 15 mln relacji …

  18. Salamandra. Zapytajcie Google!Strona o kwarkach będzie na początku … Generator zagadek Mając dobrą pamięć semantyczną i uproszczoną reprezentację wiedzy można tworzyć dowolną liczbę zagadek! Wystarczy znaleźć kilka cech, które unikalnie charakteryzują daną koncepcję. W tym celu z pamięci semantycznej wystarczy zostawić tylko jedną relację: tak/nie. Przykład automatycznie wygenerowanych zagadek: Jest pomarańczowy, ma czarne plamki, jest płazem. Co to za zwierz? Ma powab, spin i ładunek. Co to jest?

More Related