Tre- og multiveis-analyse En diskusjon av muligheter og begrensninger

Tre- og multiveis-analyseEn diskusjon av muligheter og begrensninger av Tobias Dahl

Oversikt • Hva slags data kan vi analysere? • Historikk • Prinsipal-komponenter • Tre-veis og multi-veis analyse • Muligheter og begrensninger • Eksempler: • Bilde/Video-kompresjon • Blind kilde-separering • Konklusjon

Data • 2-veis data: tabeller • 3-veis data: flere ”like” tabeller • Andre eksempler: • 2-veis data: et bilde (rad x kolonne) • 3-veis data: en film (rad x kolonne x tid) • Antagelse • kontinuerlige data

Kjemi & Sensorikk pH • NIR-spektroskopi • Sensorisk Analyse E Prøve # Dommer Salt Sur Merlot 8 1 Shiraz Prøve # Attributt

3-veis = 3-indeks • Prinsipal-komponent-analyse (PCA) er • Multi-dimensjonal… • …men bare 2-veis = 2-indeks Flere Variabler / Dimensjoner... Men én indeks = ”variabel” Variabler Objekter

Historikk • 3-veis faktor-analyse ble startet innen psykometri (Psychometrika) • Brukt for studier av psykologiske profiler • Tucker (1966) • Harshmann (1970, PARAFAC) • Carroll & Chang (1970, CANDECOMP) • Multidimensjonal skalring • En del av INDSCAL • Kroonenberg & De Leeuw (1980) • Kloot & Kroonenberg (1985)

Populært innen kjemometri • Geladi (1989) • Sanchez & Kowalski (1990) • Smilde (1992) • Rasmus Bro (1996-) • Brockhoff, Hirst & Næs (1996) • Hovedgrunn: modell-antagelsene holder svært godt for en rekke problemer på dette feltet.

Prinsipal-komponenter • 2-veis datasett kan representeres ved sine prinsipal-komponenter • Kompresjon • En mer kompakt representasjon / strukturell modell • Tolkning: • Lettere å tolke færre tall (hvis man vet å tolke dem) • Prediksjon • økt robusthet • fjerner ko-lineæritet

Hva er en prinsipal-komponent? Z PC1 Y X

Bi-lineær modellering, PCAytreprodukt variabler 3 objekter 5 + 17 = 15 2 X = t * p’ + E

Mer enn én komponent 3 2 5 1 + = 17 5*3 + 2*1 0 X = T * P’ + E T, P har uavhengige (ortogonale/ortonormale) kolonner

Generalisering (SVD) = X = T * S * P’ + E • Skalerings-matrise S (diagonal) • Singulær-verdi-dekomposisjon • “Overkill” ekstra begrensninger på T og P

Tolkning + = X = T * P’ + E PC2 • Scores T: koordinater i komprimert rom • Ladninger P: “basis-spektra”, latente variabler • Svakhet: T, P ikke unikt bestemt (bare inntil rotasjon) PC1

PCA - Egenskaper • X = TP’ + E • Den mest kompakte representasjonen av X • Gitt et antall komponenter k gir minst kvadrat-feil (|E|) • Beregning: • T og P inneholder bestemte egenvektorer • Algoritmer: NIPALS, SVD

Treveis-analyse • Utfolding eller ikke? • Klassisk analyse • Separat PCA på hver skive • Treveis analyse • Felles basis • “Ekte treveis” • Konsensus-metoder X1 X X1 X2 X3 XUtfoldet

Separat PCA • Aspekter: • Ignorerer sammenhenger mellom skivene + bedre tilpasning (mindre feil) • mindre grad av kompresjon • Vanskelig å tolke • Mindre egnet til prediksjon X1 X

Metoder med felles basis • Tucker 1: felles kolonne-basis T Xi = TPi’+ Ei → ekvivalent med PCA på XUtfoldet • Tucker 2: felles basis for ladninger og scoringer Xi = TWiP’+ Ei • Kan gjøres i “tre retninger” = + = +

Ekte treveis-analyse • PARAFAC (PARalell FACtor analysis) • Generalisert ytreprodukt 2 2 5 = + 17 -3 X = + E

PARAFAC med flere komponenter C X = B A • Generalisering av bi-lineær modellering • Kan generaliseres til multi-lineær modellering

PARAFAC: Unikhet • Dersom • riktig antall komponenter velges • tri-lineær modell riktig • hvis globalt optimum opnåes ...så er PARAFAC-løsningen et estimat av den sanne løsningen. (dette holder ikke for PCA) • “Skoen passer kun til Askepott”

Hva kommer ut av PARAFAC? Både A,B og C kalles ladninger C X Får flere sett ladninger som er koplet = B A B A C Objekt-plott 1 3 5 4 2 Dommer / pH - plott Variabel-plott

Uteliggere • Felles modell for data-blokk • Kan finne uteliggere/avvikere i alle 3 doméner • Objekter som ikke passer • Dommere/Instrumenter som ikke passer • Variabler som har veldig mye eller veldig lite å si • Manglende data • Kan beregne PARAFAC også for disse, men får en dårligere modell • PARAFAC er ikke-sekvensiell • PCA kan beregne én og én komponent • PARAFAC må tilpasses på nytt ved nytt antall komponenter

Validering + valg av komponenter • Kryssvalidering • Sammenheng med eksterne data • Prediksjon: • God modell gir god prediksjon Objekt-kooridnater Respons (konsentrasjon) C X = B A y A = +

Egenskaper ved PARAFAC-modellen • Kjemometri: Stemmer godt med fysikken • Beers lov • Hvis modell-antagelsen feil: • Mange komponenter i PARAFAC

Tucker 3 C G X B = A • Generalisering av SVD • G ikke-diagonal

Hva kommer ut av Tucker 1,2, 3? • Tucker 1: Xi = TPi’ + Ei • Felles scoringer, men forskjellig basis/ladninger ??? • Tucker 2: Xi = TWi P’ + Ei • Hva skjer med Wi? • Tucker 3: • Hva er effekten av G? • Sterke koplinger mellom ladninger/scoringer/andre matriser • Konklusjon: 3-veis visualisering er ikke enkelt !

PARAFAC: Unikhet! Dersom underliggende data tri-lineære: finner orginale strukturer! Færre parametere, dårligere tilpasning Bedre prediksjon! Enkel modell Lett å tolke løsning Passer bare for noen datasett Tung å beregne Tucker 3 Ikke unike ladninger, rotasjon gir lik tilpasning Ortogonale ladninger. Flere parametere, bedre tilpasning Dårligere prediksjon Mer komplisert modell Vanskelig å tolke løsning Passer for alle datasett Lett å beregne PARAFAC & Tucker 3

PARAFAC & Tucker 3Hvilken metode når? • PARAFAC • Hvis a priori kunnskap tilsier det (tri-lineær) • Hvis unikhet ytterst nødvendig • Tucker 3 ellers • Nesten like ’sparsommelig’ som PARAFAC • Mye lettere å beregne

Konsensus-metoder • Generalisert Procrustes Analyse (GPA) • forsøker å gjøre alle skiver like ved transformasjon • T(Xi) = Y + Ei, Y = snitt av T(Xi) • T = rotasjon + skalering (+ sentrering/translasjon) • Generalisert kanonisk analyse (Carroll) • Kan sees på som en konsensus-metode • T(Xi) = Z + Ei, Z = ortogonalt snitt av T(Xi) • T = generell lineær transform

GPA vs. Tre-veis-metoder • Tre-veis er mer generell enn GPA • Bedre tilpasning. • Men: Bruk GPA dersom transformasjon, T = rotasjon + skalering er rimelig f.eks ombytting av variable • Generelt: GPA bedre for utrente dommere, Tre-veis bedre for et ekspert-panel.

Multiveis-metoder • For 2-veis problemer: matrise-algebra • Konseptuelt sprang: 2-veis til 3-veis • Utvikling av notasjon • Khatri-Rao produkt, tensor-algebra • Notasjon generaliseres til n-veis problemer.

Andre og relaterte metoder • N-PLS • Generalisering av PLS til n-veis analogi • PARAFAC2 • Egnet ved skift/forskyninger i spektra. • CANDECOMP • Ekvivalent med PARAFAC (Bro, 1998) • PMF3 • ekvivalent med PARAFAC + positivitets-betingelser og vektet tapsfunksjon • Raskere enn PARAFAC (Gauss-Newton, ikke ALS) • Krever (for) mye minne. • ”Multilinear engine”

RAFA, GRAM, DTD: • Rank Annihilation Factor Analysis • Generalized Rank Annihilation Method • Direct Trilinear Decompostion • GRAFA, GRAM: generaliseringer av RAFA • Hybrider (PARATUCK) • Variansanalyse (Mandel) • PARAFAC kan sees på som en multiplikativ ANOVA

Muligheter og Begrensninger • Eksempel 1: Kompresjon • Bildeanalyse • Eksempel 2: Unikhet • Blind kilde-separering (signalbehandling)

Eksempel 1: Bildekompresjon(2-veis) • Ett enkelt bilde, bi-lineær modell

Video-kompresjon(3-veis) Separat modellering? #1 = #2 = #3 = Film “Frames”

Separat modellering • utnytter ikke temporær likhet mellom bildene. • Felles basis = bedre kompresjon • Tre-veis-modellering = kompakt modell Tunge å beregne, lite brukt

Uteliggere • Når det finnes en ‘modell’ for hele sekvensen, kan man finne avvikere (“avstand fra modell”) • Hvis hvert bilde modelleres enkeltvis er det vanskeligere å bestemme uteliggere

Eksempel 2: Blind kilde-separaring • Sidiropoulos, Bro & Giannakis: • PARAFAC for CDMA (“Code Division Multiple Access”) Base-stasjon • Hver telefon bruker sin egen sprede-kode • MEN: koden trenger ikke være kjent for mottaker (base-stasjon)

3-veis analyse for mottager Sprednings-diversitet (flere “chips”) • Indekser: • Antenne • Symbol • Chip • Gjenvinner signalene fra hver enkelt bruker • Utnytter unikheten i PARAFAC • Antagelse: ingen inter-symbol-interferens (ISI). • Resultat: nesten like bra som ikke-blind Tids-diversitet (flere symboler) Antenne-diversitet (flere stk.)

Sammenlikning med PCA • “Blind identifikasjon er PCA-mannens drøm”. • PCA: Rotasjons-frihet forsøker å rotere til en “sann løsning”. • PARAFAC – unikhet gir “sann løsning”.

Muligheter og fordeler • Meningsfulle modeller for fler-veis data • Unik struktur god tolkning! • Større grad av kompresjon • God ‘modell’ med færre parametre • Uteligger-deteksjon • Robusthet • Gode prediksjonsegenskaper

Begrensninger • Beregningsmessig krevende (PARAFAC) • Konseptuelt vanskeligere enn 2-veis • Ingen statistiske tester • ingen statistisk modell • Ofte dårlig forklart (tensor-algebra) • Lineære metoder (bi-lineære, tri-lineære) • Bare “approksimativt” egnet for ikke-lineære problemer

Konklusjon • Nyttig utvidelse av 2-veis metoder (PCA). • Krever ekspertise (matematikk + data) • Metode-valg avhenger av applikasjon • Krevende, men nyttige vektøy i kassen

Tre- og multiveis-analyse En diskusjon av muligheter og begrensninger

Tre- og multiveis-analyse En diskusjon av muligheter og begrensninger

Presentation Transcript

Delprosjekt A Utvikling av Rinnleiret med vekt på begrensninger og muligheter knyttet til vern og museale forhold Beskri

”Barn og unge - muligheter og utfordringer i en reformtid”

Innsamling og analyse av intervju- og casedata

UTFORDRINGER OG MULIGHETER

Forløpsmålinger – bare til besvær? Muligheter og begrensninger i registerdata

Informasjonsplikt versus taushetsplikt – muligheter og begrensninger

Kreftpasienter : aktivitet og trening Begrensninger og kontraindikasjoner

Utfordringer og muligheter

En analyse og praktisk forståelse av begrepet inklusion

Smartnett og muligheter

Outsourcing av forretningsprosesser – muligheter og fallgruver

Et felles nordisk sertifikatmarkedet – muligheter og begrensninger ?

Nettet som læringsarena - muligheter og begrensninger

Retten til bolig og oppfølgningstjenester, muligheter og begrensninger – hva sier jussen?

Trådløst nett ved UiO Muligheter og begrensninger Lynkursdagene 2009

Regelverk og muligheter for egenproduksjon av strøm

LFC og AGC Funksjonalitet og muligheter

Digitale mapper og mappevurdering – muligheter og begrensninger

Rapporten består av tre deler Beskrivende Analyse Normativ drøfting og anbefalinger

Analyse og tolkning av datamaterialet

Frivillighet – muligheter og utfordringer

Arbeidsmarkedet og innvandring Tre hovedtemaer i samfunnsøkonomisk analyse: