html5-img
1 / 48

Analiza Informacji Meteorologicznych Wykład 10

Analiza Informacji Meteorologicznych Wykład 10. Krzysztof Markowicz Instytut Geofizyki UW kmark@igf.fuw.edu.pl. Elementy teorii procesów stochastycznych, definicje.

willem
Télécharger la présentation

Analiza Informacji Meteorologicznych Wykład 10

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Analiza Informacji MeteorologicznychWykład 10 Krzysztof Markowicz Instytut Geofizyki UW kmark@igf.fuw.edu.pl

  2. Elementy teorii procesów stochastycznych, definicje • Proces stochastycznynazywany teżprocesem losowymlubfunkcją stochastyczną (losową) od jednej zmiennej może być definiowany na wiele sposobów. • Rozpatrzymy tu dwie równoważne definicje (choć dowód ich równoważności nie jest oczywisty i zostanie tu pominięty):

  3. Definicja I (naturalna interpretacja) • Proces stochastyczny to rodzina funkcji zależnych od zmiennej (często czasu t) i parametru losowego C: (t,C) • Parametr losowy C należy rozumieć jako zmienną losową o pewnej dystrybuancie. • Interesują nasz następujące trzy przypadki: • Funkcja określona na przedziale: atb • Funkcja określona na całej osi czasu. • Funkcja określona na dyskretnym, nieskończonym ciągu punktów czasowych. Każda realizacja (funkcja z rodziny (t,C)) odpowiada konkretnej wartości C. Nie należy mylić procesu losowego, którego wartości są zdarzeniami losowymi, z funkcją, która zdarzeniom przypisuje wartość prawdopodobieństwa ich wystąpienia (mamy wówczas do czynienia z rozkładem gęstości prawdopodobieństwa).

  4. Cnależy rozumieć jako zmienną losową o pewnej określonej dystrybuancie; niekiedy może być dogodnie przyjąć, że jest to zmienna losowa wielowymiarowa). Dwa pierwsze przypadki określamy jako procesy ciągłe, trzeci - jako proces dyskretny; w tym ostatnim przypadku używa się też niekiedy terminu szereg czasowy. Przykład Przebieg zmian temperatury w styczniu w okresie 30 letnim dla określonej stacji meteorologicznej. Mamy więc 30 realizacji – każdy z nich może być uważany jako jedną z realizacji o prawdopodobieństwie 1/30 a za parametr C przyjąć numer kalendarzowy roku. Nie musimy znać wyrażenia analitycznego określającego (t,C) . Znajomość wszystkich przebiegów jest wystarczająca. W zależności od potrzeb możemy je traktować jako komplet danych określających proces lub jego próbkę.

  5. Definicja IIuogólnienie pojęcia wektora losowego • Mówimy, że proces stochastyczny (t,C) to taki, że dla dowolnie licznego ciągu punktów t [t1,…tn] oraz dla dowolnego wektora [(t1),…,(tn)] znamy rozkład prawdopodobieństwa. • W praktyce dziedziną, na której zdefiniowana jest funkcja, jest najczęściej przedział czasowy (taki proces stochastyczny nazywany jest szeregiem czasowym) lub obszar przestrzeni (wtedy nazywany jest polem losowym)

  6. Uwaga • Proces losowy nie jest po prostu zmienną losową zależną od t(choć taką funkcję określa) a tworem matematycznym pojęciowo innym! Ilustruje to następujący przykład: • Weźmy dwa przebiegi przedstawione na rysunkach 1,2 i rozpatrzmy dwa różne procesy losowe przez nie ilustrowane • Każdy z nich składa się z dwóch realizacji reprezentowanych odpowiednio przez linie ciągłą i przerywaną, występujące z prawdopodobieństwem np. 0,5. Oba generują tę samą dyskretną zmienną losową zależną od czasu, posiadającą w każdej chwili dwie wartości występujące z prawdopodobieństwem 0,5 za wyjątkiem punktu czasowego 0,5 w którym ma jedną wartość występującą z prawdopodobieństwem 1.

  7. Proces losowy tworzy zmienną losową zależną od czasu – nie odwrotnie! • Proces losowy ciągły to uogólnienie pojęcia wektora losowego n-wymiarowego na wymiar nieskończony (continuum). • Proces losowy dyskretny to uogólnienie na wymiar nieskończony (przeliczalny). W praktyce zawsze mamy skończony ciąg danych a więc – wektor n-wymiarowy (skończony) co najwyżej aproksymujący pewien idealny proces losowy dyskretny lub ciągły. • Idealizowane pojęcie procesu losowego wprowadzane jest ze względu na jego zalety teoretyczne. • Na procesach losowych, których realizacje są różniczkowalne lub całkowalne możemy wykonywać operacje różniczkowania i całkowania otrzymując w wyniku inne procesy losowe.

  8. W przypadku całek oznaczonych postaci otrzymujemy funkcjonały będące zmiennymi losowymi - funkcjami od losowego parametru C . • Uogólnieniem procesów stochastycznych na przypadek funkcji wielu zmiennych są pola stochastyczne (losowe), w których jednowymiarowy parametr t zastępowany jest n-wymiarowym punktem. • Innym uogólnieniem procesu losowego są wielowymiarowe procesy i pola losowe, tzn. funkcje i pola wektorowe zależne dodatkowo od parametru losowego. • Większość interesujących nas własności procesów stochastycznych rzeczywistych, zależnych od jednej zmiennej rzeczywistej, przenosi się w sposób trywialny na te uogólnienia, więc dla uproszczenia rozważań zajmiemy się głównie tymi pierwszymi. • Niektóre własności pól w sposób istotny należące od wielowymiarowości argumentu lub wartości procesu omówimy w dalszej części.

  9. Charakterystyki rozkładów prawdopodobieństwa dla procesów losowych - uśrednianie • Ponieważ proces zależy od parametru C, którego gęstość rozkładu ρ(C) uważamy za znaną, możemy wprowadzić uśrednianie procesu według wzoru jest to tzw. średnią po realizacjach (np. średni przebieg temperatury w styczniu), która jest oczywiście już funkcja „zwykłą” deterministyczna a nie losową. Nie należy mylić ze średnią „po czasie” daną wzorem: przy ustalonej wartości C, tzn. dla określonej realizacji.

  10. W podobny sposób możemy wprowadzić momenty wyższych rzędów (zwykłe i centralne) a w szczególności drugi moment centralny – wariancję. • Zauważmy, że operacja uśredniania po realizacjach jest liniowa i przemienna z różniczkowaniem i całkowaniem po czasie. • Podobnie jak w przypadku zmiennych losowych, w praktyce, operując zbiorami danych empirycznych, możemy mieć problem z ustaleniem rozkładu prawdopodobieństwa (np. w przypadku 30 miesięcznych przebiegów trudno jest każdemu przypisać sensownie jakieś prawdopodobieństwo). • Można natomiast łatwo wziąć średnią arytmetyczną. Zamiast więc posługiwać się pełnym rozkładem, zwracamy się ku parametrom, które łatwiej uzyskać (np. momentom) a które w licznych wypadkach zawierają wystarczającą informację o badanym procesie. • Generalnie, przy badaniu właściwości procesów losowych lub ich stosowaniu na ogół nie korzystamy z pełnej informacji o strukturze procesu (często niedostępnej) a operujemy jedynie pewnymi wybranymi charakterystykami.

  11. Mając dany proces losowy φ(t) możemy od niego odjąć jego średnią, uzyskując równoważny mu proces centrowany taki, że • W dalszym ciągu często zakładać będziemy, celem uproszczenia rozważań i rachunków, że rozpatrywane procesy są centrowane.

  12. Funkcja korelacyjna Do najczęściej stosowanych charakterystyk procesów losowych należą momenty wielopunktowe a w szczególności tzw. funkcje korelacyjne. Analogicznie jak dla współrzędnych wielowymiarowej zmiennej losowej, dla procesu losowego rozpatrujemy momenty wiążące wartości procesu w różnych punktach czasowych, tzn. wyrażenia postaci: W przypadku, gdy wszystkie wykładniki są równe 1, mówimy o n-punktowej funkcji korelacyjnej. W szczególności interesująca jest funkcja korelacyjna dwupunktowa, zwana też funkcją autokorelacyjną (w odróżnieniu od funkcji cross-korelacyjnej, wiążącej dwa różne procesy losowe – dwie składowe procesu wielowymiarowego) która reprezentuje kowariancję między (t1)i (t2). Jest ona symetryczna ze względu na t1 i t2 i równa wariancji gdy t1 = t2.

  13. Funkcja korelacyjna obrazuje związek pomiędzy dwoma kolejnymi punktami czasowymi procesu. Jeśli współczynnik korelacji wynosi 1, to związek jest deterministyczny i liniowy (z prawdopodobieństwem 1). • Funkcja korelacyjna, zwłaszcza w postaci znormalizowanej, stanowi w pewnym sensie miarę „pamięci” procesu, tzn. względnej wielkości składowej deterministycznej związku pomiędzy wartościami procesu w sąsiednich chwilach czasowych. • Gdy wartość jej osiąga zero, oznacza to, że wartości procesu w tych punktach są nie skorelowane ( w praktyce – niezależne), tak jakby proces w punkcie t2„zapomniał” jaką miał wartość w punkciet1. • Gdy wartość, procesu w punkcie t2 jest ( z prawdopodobieństwem 1) liniową funkcją jego wartości w punkciet1. • Czasem używa się funkcji korelacyjnej w postaci znormalizowanej (współczynnika korelacji):

  14. W licznych procesach występujących w praktyce przetwarzania danych obserwuje się stopniowe dążenie funkcji autokorelacyjnej do zera, w miarę oddalania się t2od t1. • Jeżeli proces losowy będziemy aproksymować n-wymiarowym wektorem losowym to funkcja autokorelacyjna procesu przejdzie na macierz korelacyjną tego wektora. • Jeśli, stosując odpowiednie przekształcenie liniowe, sprowadzimy macierz korelacyjną do postaci diagonalnej, jej wyrazy reprezentować będą wariancje składowych przekształconego wektora losowego, a więc wielkości nieujemne. • Oznacza to, że macierz korelacyjna musi być dodatnio określona, tzn. dodatnio określona będzie opisywana przez nią forma kwadratowa. Można udowodnić, że własność ta przenosi się na funkcję korelacyjną procesu, tzn. dla dowolnego procesuψ(t) zachodzi:

  15. Tak więc funkcja korelacyjna jest dodatnio określona jako jądro operatora całkowego • Funkcje korelacyjne są charakterystykami często używanymi praktyce i są wtedy wyznaczane na podstawie dyskretnych danych pomiarowych. • Pojawia się więc często problem ich aproksymacji przy pomocy jakichś prostych funkcji analitycznych. Trzeba wówczas pamiętać, by funkcja aproksymująca była dodatnio określona.

  16. Własności • Macierz korelacyjna jest symetryczna ze względu na t1i t2 : K(t1,t2)=K(t2,t1) • Dodatnio kreślona jako jądro operatora całkowego. dla każdego e(t) Wielkość mówi nam jak szybko funkcja losowa z biegiem czasu zapomina o swoim początku. Funkcja korelacyjna N-tego rzędu

  17. Funkcje strukturalne • Ogólna postać funkcji strukturalnych: • Najprostszym przykładem jest wariancja różnicy funkcji w różnych chwilach czasu • Funkcja strukturalna II rzędu daje się wyrazić przez funkcje korelacyjne.

  18. Rozwinięcie procesu losowego w szereg • Jeżeli założymy, że przestrzeń funkcyjna, z której pochodzą realizacje procesu jest ośrodkową przestrzenia L2 (funkcji całkowalnych z kwadratem), tzn. posiada przeliczalną bazę funkcji na których szereg możemy rozwinąć każda z tych realizacji (a założenie takie w stosunku do funkcji potrzebnych w zastosowaniach fizycznych jest z reguły dopuszczalne), możemy szukać przedstawienia procesu w postaci szeregu funkcji bazowych z współczynnikami będącymi zmiennymi losowymi gdzie i jest współczynnikiem losowym, ei(t) nielosową funkcją bazową zależną od czasu. Możliwe jest rozwinięcie odwrotne tzn. że isą liczbami zaś ei(t) funkcjami losowymi. Przyjmujemy jednak pierwsze podejście.

  19. W dalszym ciągu zakładać będziemy że są one unormowane, tzn. że, • oraz, że proces φ(t) jest wycentrowany, tzn. • Założenia te nie ograniczają ogólności rozważań. • Zbieżność powyższego rozwinięcia definiować można stosując rozmaite kryteria (metryki). Można na przykład dokonać następującego podziału: skończony szereg reszta i szukać takiego rozkładu, aby średnia po czasie wariancji R była minimalna, a w granicy dążyła do zera:

  20. W dalszym ciągu tak będziemy rozumieli zbieżność ciągów procesów losowych określonych na domkniętych przedziałach Przypadek w którym współczynniki i są parami nieskorelowane jest szczególny. Można wtedy zapisać: i w ten sposób wyznaczyć wartości k.

  21. Rozwinięcie kanoniczne • W przypadku gdy mamy ortogonalne funkcję bazowe oraz przy braku korelacji wszystkich par i j mówimy o rozwinięciu kanonicznym. ortogonalność funkcji bazowych brak korelacji współczynników losowych Powstaje pytanie, czy dla każdego procesu można znaleźć bazę dającą rozwinięcie kanoniczne. Okazuje się, że tak. Aby to pokazać, załóżmy hipotetycznie, że rozwinięcie takie istnieje. Funkcja autokorelacyjna procesu daje się wówczas przedstawić w postaci:

  22. (*) funkcja autokorelacyjna • Nietrudno sprawdzić, że funkcje bazowe spełniają następujące równanie całkowe: (**) • czyli są funkcjami własnymi operatora całkowego z jądrem K(t,t’) a - jego wartościami własnymi. • Rozumowanie to można odwrócić na mocy teorii Hilberta-Schmidta równań całkowych z jądrem symetrycznym, jakim w szczególności jest każda dostatecznie regularna funkcja autokorelacyjna. Wynika z niej, że zbudowane na niej równanie całkowe (**) posiada rzeczywiste, dodatnie wartości własne a jej funkcje własne tworzą ciąg ortogonalny (po normalizacji – ortonormalny), pozwalający na rozwinięcie postaci (*) .

  23. W przypadku nieskończonej liczby wartości własnych tworzą one ciąg dążący do zera, . • Losowe współczynniki rozwinięcia kanonicznego znajdujemy ze znanego wzoru dla współczynników rozwinięć na szeregi ortogonalne: • Wariancja procesu jako funkcja t przyjmuje postać: co pozwala interpretować poszczególne jako „wkłady” poszczególnych funkcji bazowych rozwinięcia w wariancję procesu. Jeszcze wyraźniej przedstawia się ta interpretacja w odniesieniu do wariancji procesu scałkowanej po czasie:

  24. Zwykle numerujemy i tak, aby tworzyły ciąg monotonicznie malejący. • Funkcje własne funkcji autokorelacyjnej stosowane w rozwinięciu kanonicznym noszą w literaturze różne nazwy: naturalne funkcje ortogonalne, empiryczne funkcje ortogonalne(empirical ortogonal functions – EOF), principal components, i inne. Zwłaszcza skrót EOF jest bardzo popularny i w dalszym ciągu będziemy z niego korzystać.

  25. mnożąc przez k a następnie uśredniając mamy ek(t) możemy wyznaczyć względem wybranego układu zmiennych losowych Uśrednijmy iloczyn funkcji  dla różnych chwil czasu

  26. Zagadnienie własne , równanie całkowe z jądrem symetrycznym Hilberta-Schmitta gdzie ei(t) oznacza unormowane funkcje własne Obliczmy czy współczynniki  będą nieskorelowane Czyli jest to rozwinięcie kanoniczne!

  27. Rozwinięcie całkowe • e(t,) opisuje rodzinę funkcji • jeśli istnieje (), że nasz proces losowy da się przedstawić w postaci To mówimy, iż jest to kanoniczne rozwinięcie całkowe Rozwinięcie jest naturalne gdy:

  28. Posługiwanie się rozwinięciem kanonicznym • Rozwinięcie w szereg funkcji bazowych pozwala zastąpić ciągły proces stochastyczny, dyskretnym ciągiem współczynników, w przypadku rozwinięcia kanonicznego szczególnie wygodnym rachunkowo. • Podając ich wartości możemy, przy znanych funkcjach bazowych, wybrać konkretną realizację procesu o określonym prawdopodobieństwie wystąpienia. • Na ogół funkcje bazowe mają, jako ortogonalne, charakter oscylacyjny, więc mogą charakteryzować składowe o różnych skalach; często (choć nie zawsze), mają one czytelną interpretację fizyczną. • W zastosowaniach z reguły występują rozwinięcia obcięte na pewnej liczbie pierwszych wyrazów, dające pewne przybliżenie procesu a charakteryzowane przez skończony ciąg współczynników. • Scałkowana po czasie wariancja reszty (sumy obciętych wyrazów) jest dogodną, czytelną miarą błędu takiego skończonego rozwinięcia.

  29. Często scałkowana wariancja kilku pierwszych wyrazów, wyznaczona przez sumę odpowiadających im wartości własnych funkcji autokorelacyjnej, stanowi tak znaczący ułamek wariancji całkowitej, że w praktyce można się do nich ograniczyć. • W zastosowaniach do materiału empirycznego, zawsze mamy do czynienia ze skończoną liczbą danych i zamiast procesu ciągłego mamy aproksymujący go wektor losowy, ale często o bardzo wysokim wymiarze. • Funkcja autokorelacyjna przechodzi wówczas w macierz korelacyjną tego wektora, a problem szukania EOF do sprowadzania tej macierzy na osie główne, tzn. szukania jej wartości i wektorów własnych stanowiących przybliżenie EOF. • Zastosowanie tych ostatnich jako bazy i obcięcie rozwinięcia na względnie małej liczbie pierwszych wyrazów, pozwala często, przy niewielkiej stracie dokładności, (w dodatku łatwej do oszacowania) bardzo ograniczyć wymiar wektora, którym się operuje.

  30. Przykład I : Przebieg zmian temperatury w styczniu nad określonym punktem w ciągu 30 kolejnych lat. Oznaczmy przez: • Tik- temperatura i-tego dnia w k-tym roku, mierzona jako odchylenie od średniej 30-letniej; i – mierzy czas, k – numeruje realizacje. • Uśrednianie po realizacjach to sumowanie pok i dzielenie przez 30; • Całkowanie po czasie to sumowanie po i (i ewentualnie dzielenie przez 31 by uzyskać średnią po czasie). • Funkcja autokorelacyjna jest tu macierzą symetryczną postaci i,j = 1,...,31, • Zagadnienie własne: s = 1,...,31 (kolejne dni stycznia)

  31. Zagadnienie własne daje po rozwiązaniu 31 równań • Mamy 31-wymiarowych parami ortogonalnych wektorów własnych ei(s) ,których kombinacje liniowe postaci: • (***) pozwalających przy ustalonych współczynnikach βwyznaczyć temperaturęi-tego dnia w p-tym roku. Współczynniki spełniają równość: Ograniczając we wzorze (***) sumowanie po s do np. 5 pierwszych wyrazów uzyskujemy przybliżoną reprezentacje procesu obejmującą 5*30=150 liczb zamiast pierwotnych 30*31=930

  32. to uzyskujemy znaczną kompresję informacji kosztem relatywnie niewielkiego błędu mierzonego zsumowaną wariancją reszty odrzuconych wyrazów rozwinięcia. Powyższy przykład nie jest może najlepszy ze względu na stosunkowo niewielkie liczby rozważanych danych lecz przy zdarzających się w praktyce sytuacjach gdy wchodzą w grę dziesiątki tysięcy pomiarów, taka kompresja jest często bardzo użyteczna. Jeżeli się przy tym okaże, że:

  33. EOF-y w pól meteorologicznych • Pole meteorologiczne Z(x,y,t) zapisujemy w postać szeregu N map (komponentów) zwanych EOF-ami. EOF(x,y) – kolejny komponent szeregu PC(t) – opisuje jak amplituda kolejnego EOF-u zmienia się w czasie (Principal component)

  34. Przykład II

  35. Wartości własne kolejnych ortogonalnych komponentów 2-wymiarowa interpretacja wariancji danych

  36. Przykład III • Rozważmy 40-letnią analizę temperatury powierzchni oceanu (SST) w rejonie południowego Atlantyku. Dane pochodzą z miesięcznych anomalii SST bazy COADS. • Trzy pierwsze mody EOF-u opisują 47% całkowitej wariancji SST. Wkłady każdego z modów są następujące: 30% 11% oraz 6%.

  37. Przykład IV • Rozważmy sześć pól meteorologicznych (ciśnienie): • Antycyklonalne, cyklonalne • Przepływy strefowe: wschód-zachód oraz zachód wschód • Przepływy południkowe: północ- południe, południe-północ • Na podstawie czasowej sekwencji powyższych pół wyznaczamy funkcje ortogonalne EOF-y. Trzy funkcje opisują całkowitą wariancję zmiennych. • Oznacza to, że pola wyjściowe mogą być otworzone na postawie tylko trzech funkcji ortogonalnych i trzech ciągów czasowych im odpowiadających. • Pola cyklonalne i antycyklonalne są idealne odtwarzane, jednak zamiast przepływach strefowych i południkowych otrzymujemy ich kombinacje liniowe

  38. Nawet zastosowanie EOFów do pól ortogonalnych nie gwarantuje, że EOF-y otworzą nam pola wyjściowe. • W celu uniknięcia tego problemu stosuje się obrócone EOF-y (rotated EOF - REOF) • W metodzie tej osłabia się warunek ortogonalności przestrzennej oraz braku korelacji czasowej kolejnych komponentów EOF-u

  39. Metoda VARTMAX • To jedna z metod obróconych EOF-ów • Zakłada się w niej, iż funkcje bazowe są maksymalnie proste. • Metoda ta jest bardziej subiektywna niż standardowe EOF-y gdyż zawiera więcej swobodnych parametrów, które muszą być zdefiniowane.

  40. Kiedy używać EOF-u a kiedy REOF-u? • Zależy to od rodzaju danych oraz celu analizy danych. • Ponieważ EOF-u są idealnym narzędziem do redukcji zmienności danych do kilku podstawowych modów więc jeśli nie potrzebujemy fizycznej interpretacji danych a jedynie używamy ich do redukcji szumów, predykcji, czy rozpoznawania kolejnych modów to stosujemy EOF-u • Jeśli zaś chcemy dokonać fizycznej interpretacji musimy używać REOF. • Musimy pamiętać, iż nie ma powodów aby zmienność rzeczywistych danych meteorologicznych miała być zdeterminowana poprzez ortogonalne komponenty

  41. EOF-y w matlabie - przykład • Załóżmy, że macierz M zawiera dane meteorologicznej w każdej kolumnie znajduje się szereg czasowy parametru meteorologicznego dla równych stacji • Centrujemy każdą z kolumn (stacja lub punkt węzłowy siatki) F=detrand(M,0) • Obliczamy macierz kowariancji R=F’*F • Obliczamy wartości własne oraz wektory własne macierzy kowariancji [C,L]=eig(R) lub [C,L]=eig(cov(M)) Wartości własne znajdują się na diagonali macierzy L, odpowiadające im wektory własne są kolumnami macierzy C • Obliczamy współczynniki rozwinięcia odpowiadające wartości własnej i: PCi=F*C(:,i) • Wartość wariancji dla poszczególnych wartości własnych • Diag(L)/trace(L)

More Related