V sobotu 2. listopadu proběhla mohutná oslava naší plnoletosti !!
Multimediaexpo.cz je již 18 let na českém internetu !!
V tiskové zprávě k 18. narozeninám brzy najdete nové a zásadní informace.

Logistická regrese

Z Multimediaexpo.cz

(Rozdíly mezi verzemi)
m (1 revizi)
m (Nahrazení textu „</math>“ textem „\)</big>“)
 
(Nejsou zobrazeny 3 mezilehlé verze.)
Řádka 1: Řádka 1:
-
{{Wikipedia-cs|Logistická regrese|700}}
+
'''Logistická [[regrese]]''' je označení metody [[matematická statistika|matematické statistiky]]
 +
zabývající se problematikou odhadu [[pravděpodobnost]]i nějakého jevu ([[závisle proměnná|závisle proměnné]]) na základě určitých známých skutečností ([[Proměnná|nezávisle proměnných]]), které mohou ovlivnit výskyt jevu.
 +
Událost, zda zkoumaný jev nastal, se modeluje pomocí [[náhodná veličina|náhodné veličiny]], která nabývá hodnoty 0, pokud jev nenastal, nebo 1, pokud jev nastal (viz též [[charakteristická funkce]]). O náhodné veličině, která nabývá dvou hodnot 0 a 1 se říká, že má [[alternativní rozdělení]]. Metoda logistické regrese předpokládá, že za podmínek, které určuje [[vektor]] <big>\(\mathbf{x}\)</big>, bude náhodná veličina <big>\(Y(\mathbf{x})\)</big> rovna 1 s pravděpodobností, jejíž závislost na <big>\(\mathbf{x}\)</big> můžeme vyjádřit pomocí tzv. [[logistická funkce|logistické funkce]], což zapisujeme jako <big>\(\operatorname{P}[Y(\mathbf{x})=1]=\frac{\exp (\boldsymbol{\beta}'\mathbf{x})}{1+\exp(\boldsymbol{\beta}'\mathbf{x})}.\)</big> Vektor <big>\(\boldsymbol{\beta}\)</big> je vektorem neznámých parametrů. Odhadem vektoru <big>\(\boldsymbol{\beta}\)</big> se tedy odhaduje i hledaná pravděpodobnost výskytu zkoumaného jevu (za předpokladu parametrizace logistickou funkcí). Vektor <big>\(\mathbf{x}\)</big> se obvykle bere ve tvaru <big>\((1,\mathbf{z}')'\)</big>.
 +
Složka <big>\((\beta_0)\)</big> pak určuje vliv tzv. absolutního členu. Skutečnost, že pravděpodobnost výskytu jevu nezávisí na námi zkoumaných nezávislých proměnných (tj. <big>\(\beta_1=0,\dots,\beta_k=0\,\)</big>) znamená, že se dá vyjádřit ve tvaru
 +
:<big>\(\operatorname{P}[Y(\mathbf{x})=1]=\operatorname{P}[Y(1,\mathbf{z}')')=1]=\frac{\exp(\beta_0)}{1+\exp(\beta_0)}\)</big> nezávisle na <big>\(\mathbf{z}\)</big>.
 +
 +
== Příklady ==
 +
# ''Výskyt onemocnění.'' Zkoumá se jev výskytu určitého onemocnění. Nechť <big>\(z\)</big> bude určovat, zda zkoumaný jedinec je muž nebo žena. <big>\(z\)</big> je rovno 0, pokud jedinec je muž, nebo 1, pokud jedinec je žena. Za vektor <big>\(\mathbf{x}\)</big> se vezme vektor <big>\((1,z)'\)</big>. Obecný vzorec potom přechází do tvaru :<big>\(\operatorname{P}[Y(z)=1]=\frac{\exp(\beta_0 + \beta_1 \cdot z)}{1+\exp(\beta_0+\beta_1 \cdot z)}.\)</big> Pokud je parametr <big>\(\beta_1\)</big> nulový, znamená to, že výskyt onemocnění nezávisí na pohlaví a pravděpodobnost výskytu onemocnění je rovna <big>\(\frac{\exp(\beta_0)}{1+\exp(\beta_0)}.\)</big> V případě, že <big>\(\beta_1\)</big> je kladné, znamená to, že výskyt nemoci je pravděpodobnější pro ženy než pro muže. Pokud je <big>\(\beta_1\)</big> záporné, znamená to, že výskyt nemoci je pravděpodobnější pro muže. Absolutní velikost <big>\(\beta_1\)</big> potom určuje, kolikrát je pravděpodobnost onemocnění pro muže resp. pro ženu větší.
 +
# ''Sázková kancelář.'' Odhaduje se vítězství hráče v tenisovém utkání. Vektor <big>\(\mathbf{z}\)</big> je kvantifikace známých skutečností, které mohou ovlivnit výsledek utkání. Například údaje posledních utkání hráčů, postavení v tenisovém žebříčku, datum posledního utkání atp. Vektor <big>\(\mathbf{x}\)</big> se potom bere jako <big>\((1,\mathbf{z}')'\)</big> podobně jako v předchozím příkladě. Kladné složky vektoru <big>\(\boldsymbol\beta\)</big> pak určují ty charakteristiky, které mají kladný vliv na vítězství hráče, záporné pak mají kladný vliv na vítězství soupeře.
 +
# ''[[Kreditní riziko]].'' Odhaduje se pravděpodobnost nesplacení (defaultu) klienta, kterému banka půjčí peníze na [[úvěr]]. Vektor <big>\(\mathbf{z}\)</big> vyjadřuje vlastnosti klienta banky v okamžiku žádosti o úvěr. Podobně jako v předchozích příkladech kladné složky vektoru <big>\(\boldsymbol{\beta}\)</big> určují charakteristiky, které mají pozitivní vliv na nesplacení úvěru. Složky vektoru, které jsou nulové, nemají na pravděpodobnost nesplacení klienta žádný vliv. V [[bankovnictví]] a [[řízení rizik]] se modely založené na logistické regresi často zahrnují pod pojem [[skóring]] nebo [[skóringové funkce]].
 +
 +
== Důležité úlohy v modelu logistické regrese ==
 +
* [[Odhad parametrů]] modelu. Provádí se obvykle [[metoda maximální věrohodnosti|metodou maximální věrohodnosti]].
 +
* [[Testování hypotéz]] o parametrech modelu. Obvykle na základě [[test poměrem věrohodností|testu poměrem věrohodností]] se testují zejména hypotézy o vlivu konkrétní nezávisle proměnné nebo podvektoru nezávisle proměnných na pravděpodobnost výskytu zkoumaného jevu.
 +
* [[Výběr modelu]]. Ze široké škály možných vstupních nezávisle proměnných se hledá co nejvhodnější kombinace, která co nejlépe vysvětluje pravděpodobnost výskytu zkoumaného jevu. Používají se obvykle metody [[postupné regrese]] ([[stepwise regression]]).
 +
 +
== Související pojmy ==
 +
* ''Odds'' (šance, riziko) udává podíl pravděpodobnosti výskytu jevu ku pravděpodobnosti jeho nevýskytu. Např. šance 1:5, z celkových 6 možných případů.
 +
* ''Log odds'' je [[přirozený logaritmus]] odds. V modelu logistické regrese je log odds rovno <big>\(\boldsymbol{\beta}'\mathbf{x}\)</big>. V teorii řízení kreditních rizik se tato hodnota někdy nazývá skóre.
 +
* ''Odds ratio'' (podíl šancí, podíl rizik) udává skutečně podíl šancí výskytu (rizika výskytu) pro dvě různé hodnoty nezávisle proměnných.
 +
* ''Log odds ratio'' je přirozený logaritmus odds ratio.
 +
 +
== Související články ==
 +
* [[Giniho koeficient]]
 +
* [[Lorenzova křivka]]
 +
* [[c statistika]]
 +
* [[Probitová analýza]]
 +
* [[Diskriminační analýza]]
 +
* [[Neuronové sítě]]
 +
* [[Regresní stromy]]
 +
* [[Regrese]]
 +
* [[Matematická statistika]]
 +
 +
== Reference ==
 +
* Agresti, Alan, ''Categorical Data Analysis'', 2nd ed., New York: Wiley-Interscience, 2002, ISBN 0-471-36093-7.
 +
* Hosmer, David W. and Stanley Lemeshow, ''Applied Logistic Regression'', 2nd ed., New York; Chichester, Wiley, 2000, ISBN 0-471-35632-8.
 +
 +
== Externí odkazy ==
 +
* [http://sreview.soc.cas.cz/cs/issue/64-sociologicky-casopis-4-2000/1149 Nebojte se logistické regrese]
 +
 +
 +
{{Článek z Wikipedie}}
[[Kategorie:Statistika]]
[[Kategorie:Statistika]]

Aktuální verze z 14. 8. 2022, 14:52

Logistická regrese je označení metody matematické statistiky zabývající se problematikou odhadu pravděpodobnosti nějakého jevu (závisle proměnné) na základě určitých známých skutečností (nezávisle proměnných), které mohou ovlivnit výskyt jevu. Událost, zda zkoumaný jev nastal, se modeluje pomocí náhodné veličiny, která nabývá hodnoty 0, pokud jev nenastal, nebo 1, pokud jev nastal (viz též charakteristická funkce). O náhodné veličině, která nabývá dvou hodnot 0 a 1 se říká, že má alternativní rozdělení. Metoda logistické regrese předpokládá, že za podmínek, které určuje vektor \(\mathbf{x}\), bude náhodná veličina \(Y(\mathbf{x})\) rovna 1 s pravděpodobností, jejíž závislost na \(\mathbf{x}\) můžeme vyjádřit pomocí tzv. logistické funkce, což zapisujeme jako \(\operatorname{P}[Y(\mathbf{x})=1]=\frac{\exp (\boldsymbol{\beta}'\mathbf{x})}{1+\exp(\boldsymbol{\beta}'\mathbf{x})}.\) Vektor \(\boldsymbol{\beta}\) je vektorem neznámých parametrů. Odhadem vektoru \(\boldsymbol{\beta}\) se tedy odhaduje i hledaná pravděpodobnost výskytu zkoumaného jevu (za předpokladu parametrizace logistickou funkcí). Vektor \(\mathbf{x}\) se obvykle bere ve tvaru \((1,\mathbf{z}')'\).

Složka \((\beta_0)\) pak určuje vliv tzv. absolutního členu. Skutečnost, že pravděpodobnost výskytu jevu nezávisí na námi zkoumaných nezávislých proměnných (tj. \(\beta_1=0,\dots,\beta_k=0\,\)) znamená, že se dá vyjádřit ve tvaru

\(\operatorname{P}[Y(\mathbf{x})=1]=\operatorname{P}[Y(1,\mathbf{z}')')=1]=\frac{\exp(\beta_0)}{1+\exp(\beta_0)}\) nezávisle na \(\mathbf{z}\).

Obsah

Příklady

  1. Výskyt onemocnění. Zkoumá se jev výskytu určitého onemocnění. Nechť \(z\) bude určovat, zda zkoumaný jedinec je muž nebo žena. \(z\) je rovno 0, pokud jedinec je muž, nebo 1, pokud jedinec je žena. Za vektor \(\mathbf{x}\) se vezme vektor \((1,z)'\). Obecný vzorec potom přechází do tvaru :\(\operatorname{P}[Y(z)=1]=\frac{\exp(\beta_0 + \beta_1 \cdot z)}{1+\exp(\beta_0+\beta_1 \cdot z)}.\) Pokud je parametr \(\beta_1\) nulový, znamená to, že výskyt onemocnění nezávisí na pohlaví a pravděpodobnost výskytu onemocnění je rovna \(\frac{\exp(\beta_0)}{1+\exp(\beta_0)}.\) V případě, že \(\beta_1\) je kladné, znamená to, že výskyt nemoci je pravděpodobnější pro ženy než pro muže. Pokud je \(\beta_1\) záporné, znamená to, že výskyt nemoci je pravděpodobnější pro muže. Absolutní velikost \(\beta_1\) potom určuje, kolikrát je pravděpodobnost onemocnění pro muže resp. pro ženu větší.
  2. Sázková kancelář. Odhaduje se vítězství hráče v tenisovém utkání. Vektor \(\mathbf{z}\) je kvantifikace známých skutečností, které mohou ovlivnit výsledek utkání. Například údaje posledních utkání hráčů, postavení v tenisovém žebříčku, datum posledního utkání atp. Vektor \(\mathbf{x}\) se potom bere jako \((1,\mathbf{z}')'\) podobně jako v předchozím příkladě. Kladné složky vektoru \(\boldsymbol\beta\) pak určují ty charakteristiky, které mají kladný vliv na vítězství hráče, záporné pak mají kladný vliv na vítězství soupeře.
  3. Kreditní riziko. Odhaduje se pravděpodobnost nesplacení (defaultu) klienta, kterému banka půjčí peníze na úvěr. Vektor \(\mathbf{z}\) vyjadřuje vlastnosti klienta banky v okamžiku žádosti o úvěr. Podobně jako v předchozích příkladech kladné složky vektoru \(\boldsymbol{\beta}\) určují charakteristiky, které mají pozitivní vliv na nesplacení úvěru. Složky vektoru, které jsou nulové, nemají na pravděpodobnost nesplacení klienta žádný vliv. V bankovnictví a řízení rizik se modely založené na logistické regresi často zahrnují pod pojem skóring nebo skóringové funkce.

Důležité úlohy v modelu logistické regrese

Související pojmy

  • Odds (šance, riziko) udává podíl pravděpodobnosti výskytu jevu ku pravděpodobnosti jeho nevýskytu. Např. šance 1:5, z celkových 6 možných případů.
  • Log odds je přirozený logaritmus odds. V modelu logistické regrese je log odds rovno \(\boldsymbol{\beta}'\mathbf{x}\). V teorii řízení kreditních rizik se tato hodnota někdy nazývá skóre.
  • Odds ratio (podíl šancí, podíl rizik) udává skutečně podíl šancí výskytu (rizika výskytu) pro dvě různé hodnoty nezávisle proměnných.
  • Log odds ratio je přirozený logaritmus odds ratio.

Související články

Reference

  • Agresti, Alan, Categorical Data Analysis, 2nd ed., New York: Wiley-Interscience, 2002, ISBN 0-471-36093-7.
  • Hosmer, David W. and Stanley Lemeshow, Applied Logistic Regression, 2nd ed., New York; Chichester, Wiley, 2000, ISBN 0-471-35632-8.

Externí odkazy