1 / 22

Talteknologi (vt04): Sannolikhetslära och markovmodeller

Talteknologi (vt04): Sannolikhetslära och markovmodeller. Leif Grönqvist GSLT, MSI@VxU, Ling@GU. Sannolikhetsteori. Vad är sannolikhetsteori? Teori för att hantera osäkerhet Beräkna värden på hur troligt det är att något inträffar Definition genom relativ frekvens Vad behöver vi det till?

adanne
Télécharger la présentation

Talteknologi (vt04): Sannolikhetslära och markovmodeller

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Talteknologi (vt04): Sannolikhetslära och markovmodeller Leif Grönqvist GSLT, MSI@VxU, Ling@GU

  2. Sannolikhetsteori • Vad är sannolikhetsteori? • Teori för att hantera osäkerhet • Beräkna värden på hur troligt det är att något inträffar • Definition genom relativ frekvens • Vad behöver vi det till? • Bra för att modellera allt för komplexa proceser: språk! • Eller för att bli bättre på Roulette, Black Jack, Poker…

  3. Viktiga begrepp • Experiment/Försök (experiment/trial): processen med vilken en observation görs. Exempel: • Kasta tärning och se vad det blev • Titta ut genom fönstret varje dag klockan 12 tills den dag det regnar och se hur många dagar det tog • Utfall (basic outcome): ett resultat av ett försök. Exempel: • ”femma”, ”trea” • 8 dagar, 0 dagar • Utfallrum (sample space): mängden av alla utfall (Ω). Exempel: • {”etta”, ”tvåa”, ”trea”, ”fyra”, ”femma”, ”sexa”} • {0, 1, 2, …}

  4. Utfallsrummet • Egenskaper hos utfallsrummet: • Diskret / kontinuerlig • Ändligt / oändligt

  5. Fler begrepp • Händelse (event): en delmängd av utfallsrummet. Exempel: • {“femma”, “sexa”} • {1, 2, 3} • Händelserum (event space): mängden av alla delmängder av utfallsrummet (potensmängden av Ω), benämns 2Ω • Hur stort är händelserummet för tärningsexemplet?

  6. Fler begrepp • Frekvensfunktion (probability function): P(x) = P(X=x), exempel: • P({“femma”, “sexa”}) = 1/3 • Täthetsfunktion (för kontinuerliga sannolikheter), exempel: • P(20<X<40) = ytan under kurvan från 20 till 40 • Några axiom: • P(Ω) = 1 • P(x) = 0 omm “x inträffar aldrig” • P(x) = 1 omm “x inträffar alltid” • 0≤P(x)≤1 för alla händelser x

  7. Räkneregler • AB =   P(A B) = P(A)+P(B) • Exempel: A={“etta”, tvåa”}, B={“fyra”, “femma”} • Exempel från boken • Kasta ett mynt tre gånger. Hur stor chans är det att vi får exakt två “klavar” [på tavlan]

  8. Betingade sannolikheter • Kallas också beroende sannolikheter eller a posteriori-sannolikheter (att jämföra med a priori-sannolikheter • Definition: • Kallas multiplikationsregeln

  9. Bayes regel • Ur multiplikationsregeln följer Bayes regel: • Bra att ha om P(A|B) är lättare än P(B|A) att beräkna

  10. Exempel med Bayes regel • S: Har stel nacke • M: Har Meningitis (farlig sjukdom) P(S|M) = ½, P(M) = 1/50000, P(S) = 1/20 • Bör man vara orolig om man är stel i nacken?

  11. Bayes regel i datalingvistiken • Ofta vill man beräkna P(A|B) men P(B|A) är mycket lättare att beräkna: • Vi kanske vill hitta B så att P(A|B) maximeras:

  12. Bayes regel i datalingvistiken, forts. • Eftersom A är konstant under maximeringen kan vi förenkla: • Denna formel är grunden för en vanlig form av ordklasstaggning, taligenkänning, maskinöversättning

  13. Stokastiska variabler • Lite förvillande benämning eftersom de faktiskt är funktioner: • X : Ω  R (R är de reella talen) • En diskret stokastisk variabel: • Y : Ω  S (S är en uppräknerlig delmängd av R) • Exempel: kasta två tärningar och summera: • Ω={”11”, ”12”, ”21”, …, ”66”} • S={2, 3, …, 12} • pmf: en funktion som ger sannolikheten för elementen i S, benämns ofta p(x) • Exempel: två tärningar [på tavlan]

  14. Väntevärde • Definieras: • Skrivs ofta µ • Exempel: en tärning [på tavlan] • Vad är det egentligen? Jo ett medelvärde!

  15. Varians • Var(X) = E((X- µ)2) eller: • µ, dvs E(X) är medelvärdet • Var(X) är ett mått på hur mycket X varierar • Ett ofta använt mått är standaravvikelse: • Var(X) skrivs ofta 2 • Exempel: två klassers tentaresultat [på tavlan]

  16. Fördelningar • Sättet “sannolikhetsmassan” är fördelad över Ω • Likformig fördelning (uniform distribution) • Alla element i Ω har samma sannolikhet • P(x)=1/| Ω| • Exempel: en tärning. • Normalfördelning (normal distribution) • Gauss ”Klockkurva” – resultatet av många små avvikelser • Exempel: släpp en boll från ett flygplan • Beräknas med parametrarna: µ och 

  17. Kombinatorik • Sannolikhetsteori för likformiga fördelningar • Enkelt att beräkna sannolikhet som antalet gynnsamma utfall delat med totala antalet utfall • En vanlig modell: • En urna med kulor (eventuellt numrerade, olikfärgade) • Tag upp ett antal kulor och notera deras nummer/färg • Lägg tillbaka kulan eller inte • Notera ordningen de dras i eller inte • Resulterar i fyra kombinationer

  18. Kombinatorik, fyra fall • Med återläggning, notera ordningen • Stryktips • Utan återläggning, notera inte ordningen • Lotto • Med återläggning, notera inte ordningen • Utan återläggning, notera ordningen

  19. De fyra fallen • Räkna antalet sätt att välja k kulor ur en urna med n

  20. En Markovmodell • En tillståndsmaskin • S={s1, s2, …, sN}: en mängd tillstånd • ={S1, S2, …, SN}: initialsannolikheter • A={aij}, i,j tas från S: transitionssannolikheter • X är en tillståndssekvens • Man kan beräkna • Sannolikheten för en tillståndssekvens X • Troligaste tillstånd i tidpunkt t • … • Ett exempel [på tavlan]

  21. En dold Markovmodell (HMM) • Vi lägger till observerade symboler tagna ur ett alfabet K = {k1, k2, …, kM} • Sannolikheter för att emittera en given symbol: B={bijk}, i,j tas från S, k från K • O är en sekvens av symboler • Samt tänker oss att tillståndssekvensen är osynlig • Tre viktiga uppgifter kan urskiljas: • Beräkna sannolikheten för en symbolsekvens O givet en modell • Beräkna den troligaste tillståndssekvensen givet en symbolsekvens O (Viterbi-algoritmen!) • Givet en symbolsekvens O, ta fram sannolikheter som bäst förklarar O

  22. HMM-exempel • En observationssekvens: • Alfabetet: K={får, man, tacka, “.”} • Tillstånd: S={nn, vb, pn, dl} • Transitionssannolikheter: anndl=0,29, … [OH] • Emmisionssannolikheter: annfår=1.2e-4, … [OH]

More Related