1 / 48

Osnovni pojmovi

Osnovni pojmovi. Uvod u računalnu metodologiju za jezično istraživanje Božo Bekavac. Osnovne obavijesti. dr. sc. Bo ž o Bekavac Uvod u računalnu metodologiju za jezično istraživanje Računalna učionica, subotom u 11 h Konzultacije: bbekavac@ffzg.hr. Literatura - (obavezna).

finn
Télécharger la présentation

Osnovni pojmovi

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Osnovni pojmovi Uvod u računalnu metodologiju za jezično istraživanje Božo Bekavac

  2. Osnovne obavijesti • dr. sc. Božo Bekavac • Uvod u računalnu metodologiju za jezično istraživanje • Računalna učionica, subotom u 11 h • Konzultacije: bbekavac@ffzg.hr

  3. Literatura -(obavezna) • McEnery, Tony & Wilson, Andrew (1996), Corpus Linguistics, Edinburgh University Press, na www: http://www.lancs.ac.uk/fss/courses/ling/corpus/ 2. Jurafsky Daniel, James H. Martin (2000), An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, Prentice Hall, drugo izdanje, poglavlja 2., 12. i 13. na www

  4. Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition http://www.hnk.ffzg.hr/Jurafsky/11.pdf (sve do 11.8) http://www.hnk.ffzg.hr/Jurafsky/12.pdf (samo Ambiguity 12.2 i 12.5.1. Finite-State Rule-Based Chunking)

  5. Literatura -(dodatna) 3. Emmanuel Roche, Yves Schabes (ur.) (1997), Finite State Devices for Natural Language Processing, MIT Press, Cambridge, Massachusetts 4. Mitkov, Ruslan (ur.) (2003), The Oxford Handbook of Computational Linguistics, Oxford University Press 5. Silberztein, Max (2000), INTEX Manual. ASSTRIL, Pariz

  6. Literatura -(preporuka) • nema na jednom mjestu > dolaziti na predavanja • Koristiti i WWW!

  7. Materijali sa nastave • http://www.hnk.ffzg.hr/download/urmj/materijali.zip

  8. Gdje se nalazi jezik? • Što je jezik? Gdje se nalazi, u umu govornika ili negdje drugdje? • Chomsky: “jezik je sustav predstavljen u umu/mozgu određenog pojedinca” • Chomsky mijenja smjer lingvistike od empirizma prema racionalizmu • Nastoji odbaciti svaku potrebu za korpusom

  9. Chomsky: sposobnost/uporaba • Sposobnost (competence) – prešutno, interno znanje o jeziku; nesvjesno znanje svih gramatičkih struktura idealiziranog govornika • Uporaba (performance) – vanjski dokaz jezične sposobnosti; stvarna proizvodnja i razumijevanje jezika u konkretnim iskazima • Chomsky: Performance, however, is a poor mirror of competence.

  10. Chomsky - korpus • Konkretni jezični ostvaraji manje su važni jer se na njih može utjecati faktorima koji su izvan jezične kompetencije: • "I live in New York." • "I live in Dayton Ohio.“ • Imaju li veze frekvencija pojavljivanja u korpusu i gramatičnost?

  11. Što je korpus ? • Korpus - zbir tekstova prirodnoga jezika sastavljen po stanovitu kriteriju • Corpus (plural corpora) • Tekstovi koji čine korpus zasnovani su na konkretnim jezičnim ostvarajima • Korpusna lingvistika - istraživanje jezika na osnovi korpusa tekstova, pri čemu se danas obično podrazumijeva – strojno (podržanih) izrađenih korpusa.

  12. Evidence/introspection • Fillmore: I don't think there can be any corpora, however large, that contain information about all of the areas of English lexicon and grammar that I want to explore… [but] every corpus I have had the chance to examine, however small, has taught me facts I couldn't imagine finding out any other way. My conclusion is that the two types of linguists need one another

  13. Računalna lingvistika • Računalna lingvistika, RL (Computational Linguistics, CL) je dio znanosti o jeziku koja koristi računala kao pomoćna sredstva u istraživanju jezika ili eksperimentiranju nad njim • RL: interdisciplinarnog karaktera, s uporištima u lingvistici i informatici

  14. Brown korpus • Prvi je računalno sastavljen i podržan korpus Brown korpus • dovršen je 1963-4. godine na temelju tekstova na američkom engleskom jeziku • Kučera i Francis sa Odsjeka za lingvistiku Sveučilišta Brown • sastoji se od oko milijun pojavnica (1M) • Pojavnica??? - METAJEZIK

  15. Pojavnica - različnica • Riječ? Koliko “riječi” ima rečenica: I see a cat and a dog. • Pojavnica (token) - sve ono što se nalazi između dva znaka koja služe kao graničnici (svako individualno pojavljivanje). • Različnica (type) - jedinstveni oblik pojavnice iz korpusa. • Pojavnica (tokens) ima 7. • Različnica (types) ima 6.

  16. British National Corpus (BNC) • Prvi nacionalni korpus koji je ponio takav naziv i postao referentan za neki jezik • 100 M pojavnica • Pisani (90 %) i govoreni (10 %) jezik (written and spoken language) • Gramatički obilježen (part of speech, POS) • http://www.natcorp.ox.ac.uk/

  17. British National Corpus (BNC)

  18. Unos: can

  19. Istopisnost (homography) • VANJSKA ISTOPISNOST – slučaj pripadanja istog oblika riječi dvjema ili više lema. Npr. can = limenka i can = moći, hr. šumemože pripadati četirima lemama, dvije imenice (leme šum i šuma), a dvije glagoli (leme šumiti i šumjeti) • UNUTARNJA ISTOPISNOST - slučaj postojanja više morfosintaktičkih interpretacija koje pripadaju istoj lemi: povijesti,povijest.N:cfpa:cfpg:cfpn:cfpv:cfsd:cfsg:cfsi:cfsl:cfsv

  20. Unos: "can"=NN1 (Singular common noun)

  21. Unos: "can"=VM0 (Modal auxiliary verb)

  22. CQL • CQL (pronounced “sequel”) is short for the corpus query language • Primjeri upita: • cat _ dog • cat*dog/10 • {s[iau]ng} • <head type=main>man • http://www.natcorp.ox.ac.uk/tools/chapter4.xml.ID=FIMNU#CQL

  23. Ostali korpusi engleskog jezika • The Bank of English (524 M): http://www.collins.co.uk/books.aspx?group=153 • http://www.titania.bham.ac.uk/docs/ • Oxford Text Archive (kolekcije tekstova) http://www.ota.ox.ac.uk/ • American National Corpus (100 M) http://americannationalcorpus.org/ • Mnogi drugi…

  24. Hrvatski nacionalni korpus (HNK) • 101,3 M pojavnica suvremenog HJ • Dijelom POS obilježen • Sastavlja se u Zavodu za lingvistiku FFZG • Pristup s pomoću programa za pretraživanje Bonito • http://www.hnk.ffzg.hr/default_en.htm

  25. HNK - Homepage

  26. HNK – rezultat pretrage: [msd="A.*"] [lemma="čovjek"]

  27. Hrvatska jezična mrežna riznica • http://riznica.ihjj.hr/en/

  28. Hrvatska jezična mrežna riznica

  29. Veličina korpusa? • John Sinclair: “The bigger the better.” • Monitor korpus(monitor corpus)- nije ograničen standardnim korpusnim parametrima (veličinom i vremenskim rasponom tekstova u korpusu) • Koji je danas najveći izvor digitaliziranih tekstova? • WWW!

  30. Web as corpus • Google as corpus: www.google.com • Velika (najveća ?) kolekcija tekstova danas • Nedostatak: kako kontrolirati izvore koje se pretražuje? • Do određene mjere ipak je moguće!

  31. Google as corpus (1)

  32. Google as corpus (2)

  33. Web as corpus – WebCorp (1) http://www.webcorp.org.uk/

  34. Web as corpus – WebCorp (2) http://www.webcorp.org.uk/

  35. Gateway to corpus linguistics • http://www.corpus-linguistics.com/

  36. Konkordancije (1) • današnji korpusi prevelikog su opsega da bi se mogli pretraživati bez pomoći računala • alat za konkordancije nalazi u samom središtu korpusne lingvistike i osnovni je alat korpusnoga jezikoslovca • osnovni je cilj alata za konkordancije omogućiti uvid u mnoštvo primjera određene pojavnice ili fraze u okolinama u kojima se pojavljuju

  37. Konkordancije (2) • KWIC (Key-Word In Context) • KWAL (Key-Word And Line)

  38. Konkordancije - terminali:irreflective

  39. Konkordancije - neterminali: <A><man>

  40. Leksikon (lexicon) - 1 • sinonim za rječničku bazu koja sadrži informacije o leksičkim kategorijama riječi • sadrži sve potencijalne interpretacije leksičkih unosaka(lexical entries), npr. "pig" N V A • ("pig" is familiar as a N, but also occurs as a verb ("Jane pigged herself on pizza") and an adjective, in the phrase "pig iron", for example.)

  41. Leksikon (lexicon): primjer - 2 apart,apart.A apart,apart.ADV apartment,apartment.N:s apartments,apartment.N:p • word-form lemma POS MSD • MSD - morfosinataktički opis (morphosyntactic description)

  42. Leksikon (lexicon) • U leksikonu se često nalazi širi raspon informacija o pojedinoj riječi, npr. • koju ulogu riječi ima – podatak o tranzitivnosti glagola (transitive, intransitive, bitransitive, etc.) • semantičke osobine – može li se riječ odnositi na ljudsko: analysis,analysis.N:s analysts,analyst.N+Hum:p

  43. Označavanje (tagging) • Označavanje (tagging, mark-up) je pridodavanje eksplicitnih informacija tekstu za računalnu obradu tamo gdje su one implicitno prisutne osobi koja čita tekst • Oznake (tags) – umeću se u tekst • U nekom kontekstu: obilježavanje (annotation) • Pri obilježavanju korpusa oznake se ubacuju iz određenoga skupa oznaka • Skupoznaka (tagset, tag list) je popis svih mogućih oznaka kojima se može obilježavati tekst: http://www.natcorp.ox.ac.uk/docs/bnc2guide.htm

  44. Označavanje vrsta riječi(Part-of-speech (POS) tagging) • Part-of-speech (POS) označavanje je postupak pridruživanja gramatičkih kategorija svakoj pojavnici u tekstu (ponekad se naziva gramatičko označavanje ili morfosintaktičko obilježavanje). • spada u osnovne vrsta lingvističkog označavanja i služi kao osnova za više razine analize teksta kao što je sintaktički parsing.

  45. POS tagging (2) • Točnost automatskog označavanja danas: do 96-97 % • POS oznake prvi su korak u razrješavanju istopisnica (homografa), tj. pojavnica koje imaju isti lik a različite gramatičke kategorije i/ili značenje

  46. POS označivač (tagger) • Alat s pomoću kojega se obavlja automatsko POS označavanje naziva se POS označivač (tagger). • Osnovna podjela prema načinu rada na: • One koji se zasnivaju na pravilima (Rule based) • Vjerojatnosne (Probabilistic)

  47. Označivač • Alembic POS Tagger online: http://complingone.georgetown.edu/%7Elinguist/postagger.html • Qtag (C:\Qtag) • Qtag TAGSET na: D:\BBpredavanja\Split\Qtag_tagset\QTAG 3_0.htm

  48. Vrste korpusa • Opći korpus • Specijalizirani korpus – ponekad postoji potreba za sastavljanjem vlastitog korpusa, npr. korpus tekstova iz određene domene

More Related