Regresja logistyczna

Regresja logistyczna Monika Słoboda 26523 Piotr Bojaruniec 34205

Charakterystyka • Model logistyczny stwarza możliwość modelowania i symulacji prawdopodobieństwa zdarzenia opisywanego przez dychotomiczną zmienną zależną w zależności od różnych zmiennych niezależnych • W przypadku występowania tylko jednej zmiennej niezależnej model regresji logistycznej przyjmuje postać: • W przypadku występowania większej niż jednej zmiennej niezależnej model przyjmuje postać:

Funkcja logistyczna • Funkcja logistyczna przyjmuje wartości od 0 do 1. Model może opisywać wartości prawdopodobieństwa, które są zawsze zawarte między 0 a 1. • Kształt funkcji przypomina rozciągniętą literę S. Pokazuje on, że zmiany funkcji są minimalne, jeśli wartości zmiennych są mniejsze od pewnej wartości progowej. Gdy ją przekroczą, wówczas wartość funkcji zaczyna gwałtownie rosnąć do 1; prawdopodobieństwo utrzymuje się na wyjątkowo wysokim poziomie - blisko 1. • Pojęcie wartości progowej jest często używane w badaniach medycznych i epidemiologicznych.

Charakterystyka • Parametry równania szacuje się metodą największej wiarygodności, poszukując wartości parametrów maksymalizujących wiarygodność próby, na podstawie której estymuje się model • Miarą wiarygodności jest wyrażenie -2 lnL (L - funkcja wiarygodności). Dla doskonałego modelu, którego wiarygodność wynosi 1, wyrażenie -2 lnL=0 • Poprawność rozwiązania oceniana jest za pomocą wyrażenia -2 lnL(zmienne, stała)- [-2 lnL(stała)] • Dla dużych prób różnica ta ma rozkład zbliżony do rozkładu chi-kwadrat. Duża wartość statystyki wskazuje na istotność otrzymanego rozwiązania.

Ocena współczynników regresji • Ocenie podlega także istotność poszczególnych współczynników regresji za pomocą statystyki Walda: • Im wyższa wartość statystyki, tym mocniejsze są podstawy do uznania istotności oszacowanego współczynnika.

Interpretacja • Wartości oszacowanych współczynników nie podlegają interpretacji. • Interpretacji podlega natomiast wyrażenie zwane ilorazem szans: • W przypadku regresji logistycznej poziom szans można przedstawić wzorem: • Wyrażenie to relatywna zmiana możliwości wystąpienia zdarzenia pod wpływem czynnika opisanego przez zmienną

Interpretacja cd Gdy: • >1 to czynnik opisywany przez zmienną niezależną działa stymulująco na możliwość wystąpienia badanego zjawiska, przy kontrolowanym wpływie pozostałych zmiennych uwzględnionych w równaniu • <1 to czynnik opisywany przez zmienną niezależną działa ograniczająco na możliwość wystąpienia badanego zjawiska, przy kontrolowanym wpływie pozostałych zmiennych uwzględnionych w równaniu • =1 to czynnik opisywany przez zmienną niezależną nie ma wpływu na możliwość wystąpienia badanego zjawiska, przy kontrolowanym wpływie pozostałych zmiennych uwzględnionych w równaniu

Zastosowanie • Regresję logistyczną używa się w celuopisania wpływu kilku zmiennych niezależnych (zarówno ilościowych, jak i jakościowych) na dychotomiczną zmienną y. • Zmienna dychotomiczna często występuje w badaniach medycznych, na przykład: - 1 - przeżycie, 0 - zgon; - 1 - występuje dany objaw (np. hiperglikemia, gorączka), 0 - nie ma danego objawu; - 1 - występuje nowotwór, 0 - nie ma nowotworu. • Regresja pozwala odpowiedzieć na pytanie, która ze zmiennych niezależnych wpływa istotnie na przeżycie lub wystąpienie objawu.

Zastosowanie cd • Regresja logistyczna znajduje zastosowanie także w badaniach marketingowych, np. w badaniach możliwości zakupu produktu i rezygnacji z zakupu, w badaniach dotyczących wyboru konkretnej marki lub wyboru pozostałych marek. • Szerokie zastosowanie ma również w branży bankowej i ubezpieczeniowej, gdzie można badać takie zmienne jak: - zwrot kredytu, odmowa kredytu - zakup polisy ubezpieczeniowej, rezygnacja z zakupu ubezpieczenia i wiele innych…

Regresja logistyczna w praktyce • Wyobraźmy sobie, że jesteśmy urzędnikiem w banku (z kapitałem zagranicznym) i chcemy uzyskać charakterystykę polskich klientów, którzy prawdopodobnie będą mieli problemy ze spłatą kredytu. • W ten sposób otrzymamy prawdopodobieństwo udzielenia „złego” kredytu.

Regresja deine Chance • Przykładowe informacje o 850 dawnych i przyszłych klientach są zebrane w pliku bankloan.sav . • Pierwszych 700 przypadków to klienci, którzy już otrzymali kredyt. • Użyjemy losowej próby 700 klientów banku do stworzeniamodelu regresji logistycznej. • Pozostałych użyjemy do sprawdzenia wiarygodności modelu • Dla przyszłych 150 używając modelu będziemy wiedzieć, czy kredyt jest dobry.

Wybór losowej próby W 70% przypadków wstawi 1 • Dokonujemy wyboru losowej próby • Z naszych 700 klientów wybierzemy 70% Pominie przyszłych klientów

Zaczynamy... Wybiera naszą próbę

Forward wychodzi od modelu bez zmiennych objaśniających i stopniowo dodaje kolejne Backward wychodzi od modelu ze wszystkimi zmiennymi jako objaśniającymi i stopniowo je usuwa. Metody doboru zmiennych

Forward Stepwise (FSTEP) • Jeżeli FSTEP jestwybrana jako pierwsza, SPSS estymuje parametry i funkcję wiarygodności dla początkowego modelu. • W przeciwnym wypadku model z poprzedniej metody jest wyjściowym. • Otrzymuje potrzebne informacje: • MLE dla parameterówz obecnego current model, • Teoretyczną wartość prawdopodobieństwa pi , • Funkcję wiarygodności obecnego modelu.

Forward Stepwise (FSTEP) • (2) Bazując na MLE modelu, liczyscore statistic dla każdej zmiennej dopuszczonej do wejścia do modelu i znajduje poziom istotności • (3) Wybiera tą z najmniejszym poz. ist. • Jeżeli poz. ist. jest mniejszy od prawdopodobieństwa wejścia zmiennej do modelu, przechodzimy do kroku 4. W przeciwym razie zatrzymujemy FSTEP. • (4) Uaktualnia model o nową zmienną. • (5) Liczy LR lub statystykę Waldaalbo conditional statistic dla każdej zmiennej w modelu. Następnie szacuje poziom istotności

Forward Stepwise (FSTEP) • (6) Wybiera zmienną o najwyższym poz. istotności. • Jeżeli jest mniejszy niż prawdopodobieństwo usunięcia zmiennej, idzie do kroku 2 • Jeżeli model z usuniętą zmienną jest taki sam jak poprzedni, wtedy zatrzymuje FSTEP • (7) Modyfikuje model usuwając zmienną o najwyższym poz. ist. Szacuje parametry i wraca do kroku 5.

Backward Stepwise (BSTEP) • Liczony w analogiczny sposób.

Test zbiorowy współczynników modelu • Jest to test dla hipotezy analogicznej jak hipoteza w wielozmiennowej regresji liniowej • Jeżeli np. prawdopodobieństwo w teście (wykorzystującym statystykę chi-kwadrat) jest równe 0,003 odrzucamy hipotezę zerową na korzyść alternatywnej • w analizowanym zbiorze zmiennych objaśniających znajdą się takie, które są istotnie związane ze zmienną objaśnianą

Podsumowanie dla modelu • R2 może być traktowane jako pewna pseudo-miara jakości dopasowania: • nazywany niekiedy pseudo R2 dla odróżnienia od takiegoż miernika w regresji liniowej • jest wyrażony wzorami • L0 oznacza wartość funkcji wiarygodności gdy wszystkie zmienne, poza stałą, zostały usunięte z modelu, • L; Ls oznacza wartość funkcji wiarygodności modelu pełnego (saturated). • Lp oznacza wartość funkcji wiarygodności modelu ze zmienną oraz p zmiennymi objaśniającymi

Test Hosmera i Lemeshowa • Jest to najprostszy test jakości dopasowania modelu; • jeśli p > 0,05 brak podstaw do odrzucenia hipotezy, że wartości oszacowane i zaobserwowane są sobie równe • jeśli p < 0,05 • odrzucamy H0 • model jest źle dopasowany do naszych danych.

Tabela klasyfikacji Spośród 375 spłaconych kredytów 14 zostało zakwalifikowanych na podstawie modelu jako „złe” • Tabela klasyfikacji porównuje wyniki klasyfikacji na podstawie modelu z rzeczywistym obrazem „złych kredytów” badanej populacji (badanej próbie). Do grupy „złych” kredytów zostało zakwalifikowane 19,4%

Zmienne w modelu • W wierszu Step 4 wszystkie zmienne są istotnie różne od zera. • Stała przy =0,045 • Wsp. przy debtinc wynosi 0,072 > 0 • Wraz ze wzrostem stosunku dług/dochód rośnie prawdopodobieństwo wystąpienia „złego” kredytu

Exp(B) = OR (Odds Ratio) jest nazywany ilorazem szans i jest to estymator ryzyka względnego. Równoważność hipotez dla współczynników regresji z odpowiednimi ilorazami szans Iloraz szans, test Walda

Interpretacja ilorazu szans – zmienna ciągła • OR pozwala ocenić krotność zmian ryzyka przy wzroście o jednostkę zmiennej traktowanej jako czynnik ryzyka. • OR dla liczby lat w obecnej pracy = 0,781, tzn. że z każdym rokiem w obecnej pracy ryzyko „złego” kredytu spada o (1-0,781)*100% • Przyjmując, iż ryzyko to dla pracownika ze stażem 1 roku wynosi p, dla pracownika ze stażem 10 lat:

Interpretacja ilorazu szans – zmienna dyskretna • podawane są ilorazy szans dla poszczególnych kategorii tej zmiennej w odniesieniu do kategorii zadeklarowanej jako kategoria odniesienia. • OR dla kategorii plec(1) zmiennej płeć wynosi 4,308. • Zadeklarowaną kategorią odniesienia są mężczyźni • uzyskany wynik oznacza, że prawdopodobieństwo przyjęcia przez zm. objaśnianą wart. 1 dla kobiet jest 4,3 razy większe niż dla mężczyzn. • SPSS przenumerowuje kategorie zmiennych dyskretnych rozpoczynając od wartości 0. • Jeżeli zmienna płeć miała dwie wartości: 1 – mężczyźni i 2 – kobiety, to zostały one przenumerowane, 0 – mężczyźni i 1 – kobiety i stąd w wynikach analizy podawane jest OR dla plec(1) dla grupy kobiet

Interpretacja • Strzelając w ciemno, że wszystkie kredyty są złe (czyli default = 1) mamy ogólne prawdopodobieństwo równe 75,2%

Regresja logistyczna

Regresja logistyczna

Presentation Transcript

Regresja logistyczna

Regresja segmentami i wygładzające funkcje sklejane

TECHNIKA, TECHNOLOGIA i INFRASTRUKTURA LOGISTYCZNA

Regresja logistyczna - ćwiczenia

Korelacje, regresja prosta

Regresja wieloraka

ANALIZA KORELACJI LINIOWEJ PEARSONA / REGRESJA LINIOWA

Regresja liniowa

Korelacje, regresja prosta

Regresja segmentami i wygładzające funkcje sklejane

Regresja liniowa i paraboliczna (metoda najmniejszych kwadratów)

Wykład 12 Regresja liniowa

Regresja ciąg dalszy

Dwie zmienne losowe Kowariancja, współczynnik korelacji i regresja liniowa