1 / 44

Tre- og multiveis-analyse En diskusjon av muligheter og begrensninger

Tre- og multiveis-analyse En diskusjon av muligheter og begrensninger. av Tobias Dahl. Oversikt. Hva slags data kan vi analysere? Historikk Prinsipal-komponenter Tre-veis og multi-veis analyse Muligheter og begrensninger Eksempler: Bilde/Video-kompresjon Blind kilde-separering

ruana
Télécharger la présentation

Tre- og multiveis-analyse En diskusjon av muligheter og begrensninger

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Tre- og multiveis-analyseEn diskusjon av muligheter og begrensninger av Tobias Dahl

  2. Oversikt • Hva slags data kan vi analysere? • Historikk • Prinsipal-komponenter • Tre-veis og multi-veis analyse • Muligheter og begrensninger • Eksempler: • Bilde/Video-kompresjon • Blind kilde-separering • Konklusjon

  3. Data • 2-veis data: tabeller • 3-veis data: flere ”like” tabeller • Andre eksempler: • 2-veis data: et bilde (rad x kolonne) • 3-veis data: en film (rad x kolonne x tid) • Antagelse • kontinuerlige data

  4. Kjemi & Sensorikk pH • NIR-spektroskopi • Sensorisk Analyse E Prøve # Dommer Salt Sur Merlot 8 1 Shiraz Prøve # Attributt

  5. 3-veis = 3-indeks • Prinsipal-komponent-analyse (PCA) er • Multi-dimensjonal… • …men bare 2-veis = 2-indeks Flere Variabler / Dimensjoner... Men én indeks = ”variabel” Variabler Objekter

  6. Historikk • 3-veis faktor-analyse ble startet innen psykometri (Psychometrika) • Brukt for studier av psykologiske profiler • Tucker (1966) • Harshmann (1970, PARAFAC) • Carroll & Chang (1970, CANDECOMP) • Multidimensjonal skalring • En del av INDSCAL • Kroonenberg & De Leeuw (1980) • Kloot & Kroonenberg (1985)

  7. Populært innen kjemometri • Geladi (1989) • Sanchez & Kowalski (1990) • Smilde (1992) • Rasmus Bro (1996-) • Brockhoff, Hirst & Næs (1996) • Hovedgrunn: modell-antagelsene holder svært godt for en rekke problemer på dette feltet.

  8. Prinsipal-komponenter • 2-veis datasett kan representeres ved sine prinsipal-komponenter • Kompresjon • En mer kompakt representasjon / strukturell modell • Tolkning: • Lettere å tolke færre tall (hvis man vet å tolke dem) • Prediksjon • økt robusthet • fjerner ko-lineæritet

  9. Hva er en prinsipal-komponent? Z PC1 Y X

  10. Bi-lineær modellering, PCAytreprodukt variabler 3 objekter 5 + 17 = 15 2 X = t * p’ + E

  11. Mer enn én komponent 3 2 5 1 + = 17 5*3 + 2*1 0 X = T * P’ + E T, P har uavhengige (ortogonale/ortonormale) kolonner

  12. Generalisering (SVD) = X = T * S * P’ + E • Skalerings-matrise S (diagonal) • Singulær-verdi-dekomposisjon • “Overkill” ekstra begrensninger på T og P

  13. Tolkning + = X = T * P’ + E PC2 • Scores T: koordinater i komprimert rom • Ladninger P: “basis-spektra”, latente variabler • Svakhet: T, P ikke unikt bestemt (bare inntil rotasjon) PC1

  14. PCA - Egenskaper • X = TP’ + E • Den mest kompakte representasjonen av X • Gitt et antall komponenter k gir minst kvadrat-feil (|E|) • Beregning: • T og P inneholder bestemte egenvektorer • Algoritmer: NIPALS, SVD

  15. Treveis-analyse • Utfolding eller ikke? • Klassisk analyse • Separat PCA på hver skive • Treveis analyse • Felles basis • “Ekte treveis” • Konsensus-metoder X1 X X1 X2 X3 XUtfoldet

  16. Separat PCA • Aspekter: • Ignorerer sammenhenger mellom skivene + bedre tilpasning (mindre feil) • mindre grad av kompresjon • Vanskelig å tolke • Mindre egnet til prediksjon X1 X

  17. Metoder med felles basis • Tucker 1: felles kolonne-basis T Xi = TPi’+ Ei → ekvivalent med PCA på XUtfoldet • Tucker 2: felles basis for ladninger og scoringer Xi = TWiP’+ Ei • Kan gjøres i “tre retninger” = + = +

  18. Ekte treveis-analyse • PARAFAC (PARalell FACtor analysis) • Generalisert ytreprodukt 2 2 5 = + 17 -3 X = + E

  19. PARAFAC med flere komponenter C X = B A • Generalisering av bi-lineær modellering • Kan generaliseres til multi-lineær modellering

  20. PARAFAC: Unikhet • Dersom • riktig antall komponenter velges • tri-lineær modell riktig • hvis globalt optimum opnåes ...så er PARAFAC-løsningen et estimat av den sanne løsningen. (dette holder ikke for PCA) • “Skoen passer kun til Askepott”

  21. Hva kommer ut av PARAFAC? Både A,B og C kalles ladninger C X Får flere sett ladninger som er koplet = B A B A C Objekt-plott 1 3 5 4 2 Dommer / pH - plott Variabel-plott

  22. Uteliggere • Felles modell for data-blokk • Kan finne uteliggere/avvikere i alle 3 doméner • Objekter som ikke passer • Dommere/Instrumenter som ikke passer • Variabler som har veldig mye eller veldig lite å si • Manglende data • Kan beregne PARAFAC også for disse, men får en dårligere modell • PARAFAC er ikke-sekvensiell • PCA kan beregne én og én komponent • PARAFAC må tilpasses på nytt ved nytt antall komponenter

  23. Validering + valg av komponenter • Kryssvalidering • Sammenheng med eksterne data • Prediksjon: • God modell gir god prediksjon Objekt-kooridnater Respons (konsentrasjon) C X = B A y A = +

  24. Egenskaper ved PARAFAC-modellen • Kjemometri: Stemmer godt med fysikken • Beers lov • Hvis modell-antagelsen feil: • Mange komponenter i PARAFAC

  25. Tucker 3 C G X B = A • Generalisering av SVD • G ikke-diagonal

  26. Hva kommer ut av Tucker 1,2, 3? • Tucker 1: Xi = TPi’ + Ei • Felles scoringer, men forskjellig basis/ladninger ??? • Tucker 2: Xi = TWi P’ + Ei • Hva skjer med Wi? • Tucker 3: • Hva er effekten av G? • Sterke koplinger mellom ladninger/scoringer/andre matriser • Konklusjon: 3-veis visualisering er ikke enkelt !

  27. PARAFAC: Unikhet! Dersom underliggende data tri-lineære: finner orginale strukturer! Færre parametere, dårligere tilpasning Bedre prediksjon! Enkel modell Lett å tolke løsning Passer bare for noen datasett Tung å beregne Tucker 3 Ikke unike ladninger, rotasjon gir lik tilpasning Ortogonale ladninger. Flere parametere, bedre tilpasning Dårligere prediksjon Mer komplisert modell Vanskelig å tolke løsning Passer for alle datasett Lett å beregne PARAFAC & Tucker 3

  28. PARAFAC & Tucker 3Hvilken metode når? • PARAFAC • Hvis a priori kunnskap tilsier det (tri-lineær) • Hvis unikhet ytterst nødvendig • Tucker 3 ellers • Nesten like ’sparsommelig’ som PARAFAC • Mye lettere å beregne

  29. Konsensus-metoder • Generalisert Procrustes Analyse (GPA) • forsøker å gjøre alle skiver like ved transformasjon • T(Xi) = Y + Ei, Y = snitt av T(Xi) • T = rotasjon + skalering (+ sentrering/translasjon) • Generalisert kanonisk analyse (Carroll) • Kan sees på som en konsensus-metode • T(Xi) = Z + Ei, Z = ortogonalt snitt av T(Xi) • T = generell lineær transform

  30. GPA vs. Tre-veis-metoder • Tre-veis er mer generell enn GPA • Bedre tilpasning. • Men: Bruk GPA dersom transformasjon, T = rotasjon + skalering er rimelig f.eks ombytting av variable • Generelt: GPA bedre for utrente dommere, Tre-veis bedre for et ekspert-panel.

  31. Multiveis-metoder • For 2-veis problemer: matrise-algebra • Konseptuelt sprang: 2-veis til 3-veis • Utvikling av notasjon • Khatri-Rao produkt, tensor-algebra • Notasjon generaliseres til n-veis problemer.

  32. Andre og relaterte metoder • N-PLS • Generalisering av PLS til n-veis analogi • PARAFAC2 • Egnet ved skift/forskyninger i spektra. • CANDECOMP • Ekvivalent med PARAFAC (Bro, 1998) • PMF3 • ekvivalent med PARAFAC + positivitets-betingelser og vektet tapsfunksjon • Raskere enn PARAFAC (Gauss-Newton, ikke ALS) • Krever (for) mye minne. • ”Multilinear engine”

  33. RAFA, GRAM, DTD: • Rank Annihilation Factor Analysis • Generalized Rank Annihilation Method • Direct Trilinear Decompostion • GRAFA, GRAM: generaliseringer av RAFA • Hybrider (PARATUCK) • Variansanalyse (Mandel) • PARAFAC kan sees på som en multiplikativ ANOVA

  34. Muligheter og Begrensninger • Eksempel 1: Kompresjon • Bildeanalyse • Eksempel 2: Unikhet • Blind kilde-separering (signalbehandling)

  35. Eksempel 1: Bildekompresjon(2-veis) • Ett enkelt bilde, bi-lineær modell

  36. Video-kompresjon(3-veis) Separat modellering? #1 = #2 = #3 = Film “Frames”

  37. Separat modellering • utnytter ikke temporær likhet mellom bildene. • Felles basis = bedre kompresjon • Tre-veis-modellering = kompakt modell Tunge å beregne, lite brukt

  38. Uteliggere • Når det finnes en ‘modell’ for hele sekvensen, kan man finne avvikere (“avstand fra modell”) • Hvis hvert bilde modelleres enkeltvis er det vanskeligere å bestemme uteliggere

  39. Eksempel 2: Blind kilde-separaring • Sidiropoulos, Bro & Giannakis: • PARAFAC for CDMA (“Code Division Multiple Access”) Base-stasjon • Hver telefon bruker sin egen sprede-kode • MEN: koden trenger ikke være kjent for mottaker (base-stasjon)

  40. 3-veis analyse for mottager Sprednings-diversitet (flere “chips”) • Indekser: • Antenne • Symbol • Chip • Gjenvinner signalene fra hver enkelt bruker • Utnytter unikheten i PARAFAC • Antagelse: ingen inter-symbol-interferens (ISI). • Resultat: nesten like bra som ikke-blind Tids-diversitet (flere symboler) Antenne-diversitet (flere stk.)

  41. Sammenlikning med PCA • “Blind identifikasjon er PCA-mannens drøm”. • PCA: Rotasjons-frihet forsøker å rotere til en “sann løsning”. • PARAFAC – unikhet gir “sann løsning”.

  42. Muligheter og fordeler • Meningsfulle modeller for fler-veis data • Unik struktur god tolkning! • Større grad av kompresjon • God ‘modell’ med færre parametre • Uteligger-deteksjon • Robusthet • Gode prediksjonsegenskaper

  43. Begrensninger • Beregningsmessig krevende (PARAFAC) • Konseptuelt vanskeligere enn 2-veis • Ingen statistiske tester • ingen statistisk modell • Ofte dårlig forklart (tensor-algebra) • Lineære metoder (bi-lineære, tri-lineære) • Bare “approksimativt” egnet for ikke-lineære problemer

  44. Konklusjon • Nyttig utvidelse av 2-veis metoder (PCA). • Krever ekspertise (matematikk + data) • Metode-valg avhenger av applikasjon • Krevende, men nyttige vektøy i kassen

More Related