V krizi smisla tiči misel






         

12.02.2012

Kratka interaktivna delavnica ekonometrije: preverjanje hipotez in statistične porazdelitve

Zapisano pod: Bloomingtonski zapisi, Ekonomija — andee - 12.02.2012

Tako, ponovno smo »skupaj«. Kot obljubljeno bomo danes nekaj povedali o še eni osnovni statistični temi, ki jo bomo »krvavo« potrebovali v nadaljevanju teh zapisov: preverjanju hipotez. Ker predvidevam, da je med vami nekaj takšnih, ki želite več slišati o osnovah in nekaj takšnih, ki se ob marsičem povedanem krepko dolgočasite, bomo skušali zadovoljiti obojim. V prvem delu bomo tako pogledali nekaj osnovnih dejstev o normalni porazdelitvi, ki je najpogosteje uporabljena porazdelitev pri osnovnem preverjanju hipotez, torej takšnem, ki nas bo zanimalo vsaj v začetku te delavnice. Za tiste, ki vas tema zanima bolj, bomo čisto v kratkem povedali nekaj dejstev o drugih vrstah porazdelitev, še vedno na normalno porazdelitev vezanih hi-kvadrat, F ter Student-t porazdelitvah, pogosto uporabljanih binomski, Bernoullijevi, negativni binomski in Poissonovi porazdelitvi, ter tudi malce manj običajnih Pareto, beta, gama in Dirichlet porazdelitvah, ki se občasno tudi pojavljajo v statističnih in predvsem ekonometričnih problemih.

V drugem delu zapisa (verjetno jutri) bo govora o tistem, kar nas najbolj zanima, torej preverjanju hipotez. Ker izhajamo iz normalne porazdelitve, bomo prikazali predvsem najbolj običajen (eno in dvostranski) t-test, omenili bomo tudi F-test in hi-kvadrat test. Kot že obljubljeno prejšnjič, pa bomo nekaj malega spregovorili tudi o »sveti trojici« testov, ki se najpogosteje uporabljajo v ekonometriji, to so Wald, LM (Lagrange Multiplier) in LR (Likelihood Ratio) test.

Začnimo torej. Normalna porazdelitev je tista porazdelitev, ki jo v matematičnih, statističnih in ekonometričnih nalogah najpogosteje srečamo. Več razlogov za to je, na prvem mestu velja omeniti njeno relativno enostavnost pri uporabi v matematični analizi, njeno podvrženost centralnemu limitnemu izreku, ki pravi, da je pod določenimi (relativno pogosto izpolnjenimi) pogoji vsota vrednosti katerekoli slučajne spremenljivke porazdeljena normalno, ter dejstvu, da kar veliko pojavov, ki jih srečamo v naravi in družbi dovolj natančno sledi obliki normalne porazdelitve. Normalno porazdelitev v matematičnem smislu dobimo, če v eksponentu eksponentne funkcije uporabimo kvadratno polinomsko obliko. Gre torej za funkcijo osnovne oblike e^(ax^2+bx+c), z ustrezno prirejenimi koeficienti seveda.

Kot vsako statistično porazdelitev tudi normalno praviloma opisujemo s srednjo vrednostjo in varianco (glej zapis preteklega tedna). V praksi pa najpogosteje uporabljamo t.i. standardno normalno porazdelitev, kjer sta srednja vrednost in varianca vnaprej določeni: srednja vrednost, torej pričakovana vrednost oz. povprečje je enako 0, varianca pa je enaka 1. Izkaže se, da je s takšno porazdelitvijo zelo enostavno računati in da je marsikatero porazdelitev, predvsem pa vse tiste normalne oblike možno hitro preslikati v standardno normalno porazdelitev. V primeru, da imamo opravka s katerokoli normalno porazdelitvijo, ki ima npr. srednjo vrednost μ in varianco σ2, dobimo iz nje standardno normalno porazdelitev tako, da od vrednosti spremenljivke odštejemo μ in rezultat delimo s σ. V osnovni statistiki je podoben trik uporabljen zelo velikokrat.

Vrednosti normalne porazdelitve so ponavadi zapisane v t.i. z-tabeli, ki jo lahko vidite spodaj, kjer so v levem stolpcu in zgornji vrstici vrednosti standardizirane normalne spremenljivke (torej Z), v sami tabeli pa so vrednosti verjetnosti, da bo slučajna spremenljivka, ki jo opazujemo, zavzela vrednost, manjšo od Z, torej manjšo od pripadajoče vrednosti v levem stolpcu, z dodatno decimalko iz zgornje vrstice. Če torej vzamemo vrednost 0 (skrajno levo 0 in zgoraj 0), vidimo, da v tabeli stoji vrednost 0.5. To je povsem logično, saj vemo, da je standardizirana normalna porazdelitev simetrična s srednjo vrednostjo 0, torej je leži polovico na levo stran od ničle in polovico na desno stran od ničle. Skupna vrednost ploščine pod krivuljo je enaka 1 (kar sledi iz definicije verjetnostne gostote, vendar tudi o tem kdaj drugič), na vsako stran je enaka množina vrednosti, torej na vsaki strani leži točno ena polovica, oziroma 0.5, kar je vrednost v tabeli. Bolj kot gremo navzdol in desno, večje so vrednosti, ker je pač verjetnost, da Z zavzame vrednost npr. manjšo od 2.75 pač večja, kot da zavzame vrednost manjšo od 1. Preprosto iz tega razloga, ker je druga verjetnost že vsebovana v prvi – vedno, ko je spremenljivka manjša od 1, je s tem manjša tudi od 2.75.

Zgoraj: Tabela vrednosti standardne normalne porazdelitve

Poglejmo še vrednosti v tabeli: verjetnost, da je vrednost spremenljivke manjša od 2.75 dobimo tako, da se pomaknemo v levem stolpcu na vrednost 2.7 (skoraj čisto spodaj), vrednost v zgornjem stolpcu pa mora biti enaka 0.05 (ker hočemo vrednost za 2.7+0.05=2.75). Verjetnost je torej enaka 0.9970, kar pomeni, da je kar 99.7% verjetnosti, da bo spremenljivka imela vrednost manjšo od 2.7. Verjetnost, da bo imela spremenljivka vrednost manjšo od 1 najdemo po enakem ključu: v levem stolpcu se pomaknemo na številko 1.0 (začetek tretje kolone), v zgornjem pa ostanemo na začetku, torej pri vrednosti 0.00 (saj hočemo vrednost za 1.0+0.00=1.00). Pravilna vrednost, prebrana iz tabele, je torej 0.8413, torej je 84,13% verjetnosti, da bo spremenljivka imela vrednost, manjšo od 1. Tako nekako funkcionira ta tabela, pa tudi podobne tabele za druge porazdelitve. Tabela nam neštetokrat pride prav pri preverjanju najbolj osnovnih statističnih hipotez, kar bomo pokazali v zaključku zapisa.

Normalno porazdelitev lepo opiše tudi oblika krivulje, ki je značilno zvonasta in simetrična, kjer so velike vrednosti spremenljivke skoncentrirane v sredini porazdelitve, »osamelci«, torej izstopajoče vrednosti pa v repih. Značilno je, da se skorajda celotna porazdelitev (99%) nahaja v razponu plus minus treh standardnih odklonov spremenljivke. Za normalno porazdelitev je tudi značilno, da ima opredeljena tudi koeficienta sploščenosti in asimetrije, torej tretji in četrti središčni moment (glej pretekli zapis). Prvi ima vrednost 0, drugi pa 3. To dejstvo uporablja t.i. Jarque-Bera test, ki je eden najpogostejših načinov, kako preverjamo normalno porazdelitev neke spremenljivke. Vendar to presega naše namene. Spodaj prilagam značilno sliko zvonaste oblike normalne porazdelitve:

 

Zgoraj: Geometrijska oblika normalne porazdelitve

Naj povemo nekaj več še o drugih porazdelitvah:

Studentova t porazdelitev – to porazdelitev pogosto uporabljamo, ko imamo opravka s premajhnimi vzorci oz. prevelikih vplivom »osamelcev«. Pri tem najpogosteje velja pravilo, da je mejna velikost vzorca enaka 30 – če je vzorec enak ali večji, ponavadi uporabljamo normalno porazdelitev, če je manjši pa Studentova t porazdelitev. Za to porazdelitev je značilno, da ima večji delež v »repih«, zato se bolje prilega porazdelitvam, ki imajo večjo težo v »osamelcih«. Pri osnovnem računanju s Studentovo t porazdelitvijo je glavna razlika do normalne v tem, da vrednosti standardnih napak (pri izračunu npr. z-vrednosti) delimo s korenom velikosti vzorca. S tem dobimo vrednosti, ki jih lahko primerjamo s standardno normalno porazdelitvijo, s katero znamo računati. Spodaj je tudi slika te nekoliko bolj »špičaste« (večja in ožja koncentracija okrog povprečne vrednosti ter daljši repi, torej večja odstopanja v skrajnosti) porazdelitve.

 

Zgoraj: Geometrijska oblika Studentove-t porazdelitve

Hi-kvadrat porazdelitev – je še ena od porazdelitev, ki je tesno vezana na normalno porazdelitev. V splošnem velja, da je vsota n neodvisnih standardnih normalnih spremenljivk porazdeljena kot hi-kvadrat porazdelitev z n stopnjami prostosti (stopnje prostosti označujejo prostor, ki ga ocenjevanje nekega modela ali spremenljivke dopušča, praviloma velja, da je večje število stopenj prostosti tudi bolj zaželeno; kako izračunamo stopnje prostosti pri neki porazdelitvi je ponavadi jasno in preprosto določeno oz. povedano, ponavadi pa so stopnje prostosti odvisne predvsem od tega, koliko informacij porabimo pri ocenjevanju porazdelitve, zato več kot nam ostane »informacij« »na zalogi«, večje so stopnje prostosti). Hi-kvadrat porazdelitev je uporabna pri vseh problemih, ki vključujejo ocenjevanje variance normalne spremenljivke, zelo pogosto pa hodi z roko v roki s F-porazdelitvijo, ki jo predstavljamo kot naslednjo.

Spodaj prilagam sliko hi-kvadrat porazdelitve, ki ima manj značilno obliko, kot predhodni dve. Prilagam tudi tabelo hi-kvadrat vrednosti, kjer igrata ponovno ključno vlogo levi stolpec in zgornja vrstica: v levem stolpcu so vrednosti stopinj prostosti, v zgornji vrstici pa so vrednosti zaupanja, ki jih želimo doseči. Vendar je te vrednosti potrebno odšteti od 1 – govorijo namreč o velikosti območja, ki je desno od kritične vrednosti, kot bomo videli v nadaljevanju pa ponavadi želimo, da je desno od kritične vrednosti čim manj vrednosti, temu območju namreč rečemo kritično območje in predstavlja območje, ki presega mejno vrednost verjetnosti, da zavrnemo pravilno hipotezo. V kolikor naša vrednost pade v to območje, lahko rečemo, da ne moremo več govoriti o pravilni hipotezi, torej lahko hipotezo mirno zavrnemo. V primeru naše tabele, denimo, da želimo veljavnost hipoteze oceniti z vsaj 95% gotovostjo. Izbrali bomo torej vrednost 1-0.95=0.05, gledali bomo torej vrednosti v stolpcu pod številko 0.05 (torej četrtem od desne). V kolikor bo torej naša ocenjena vrednost hi-kvadrat statistike pri npr. 23 stopnjah prostosti presegala 35.172 (vrednost v tabeli, kjer je levi stolpec enak 23, zgornja vrstica pa enaka 0.05), bomo lahko hipotezo zavrnili z 95% gotovostjo. Vendar se k temu povrnemo, ko bomo govorili o preverjanju hipotez.

Zgoraj: Geometrijska oblika hi-kvadrat porazdelitve

Zgoraj: Tabela vrednosti hi-kvadrat porazdelitve

F-porazdelitev – še ena porazdelitev, ki jo pogosto najdete v tabelah vseh statističnih in ekonometričnih programov. Podobno kot Studentova-t in hi-kvadrat je tudi F porazdelitev vezana na normalno porazdelitev, dobimo jo kot razmerje dveh med seboj neodvisnih hi-kvadrat spremenljivk. Podobno kot hi-kvadrat porazdelitev se tudi F-porazdelitev zelo pogosto uporablja pri analizi variance, na njeni osnovi je izveden tudi t.i. F-test, kjer primerjamo vsote kvadratov ocenjenih vrednosti in ostankov neke regresije (o tem več, ko pridemo do regresij). Ker gre pri F-porazdelitvi ponavadi za razmerje dveh spremenljivk, pri njej nastopata dve vrednosti stopenj prostosti, ena za spremenljivko v števcu in ena za spremenljivko v imenovalcu.

Osnovna oblika F-porazdelitve je na sliki spodaj, še nižje najdete tudi tabelo F vrednosti. Pri slednji nastopi problem, saj imamo tri kriterije za tabelo (in torej tri dimenzije): stopnje prostosti spremenljivke v števcu, stopnje prostosti spremenljivke v imenovalcu, ter stopnjo gotovosti. Zato je teh tabel ponavadi več, po ena za vsako želeno stopnjo gotovosti. Spodnja je za 95% stopnjo gotovosti (številka 0.05, ki se pojavlja, je t.i. stopnja značilnosti, ki je nič drugega kot 1-(stopnja gotovosti), torej 1-0.95=0.05).

Zgoraj: Geometrijska oblika F - porazdelitve

 

Zgoraj: Tabela vrednosti F - porazdelitve za stopnjo značilnosti 0.05

Povejmo nekaj hitrega še o drugih statističnih porazdelitvah:

Binomska porazdelitev – o njej govorimo, kadar je slučajna spremenljivka rezultat poskusa, kjer sta rezultata lahko samo dva: A ali B, da ali ne, pismo ali grb torej. Ocenjujemo torej verjetnost, da se je v n poskusih dogodek A zgodil točno k-krat. Ni pa nujno, da je verjetnost obeh dogodkov enaka, torej enaka ½, kot je to primer pri metanju kovanca. Važno je le, da sta vrednosti le dve, torej je v primeru, da je verjetnost odgovora »da« enaka 0.3, verjetnost odgovora »ne« enaka 1-0.3=0.7. V tem primeru gre torej za diskretno porazdelitev (t.j. porazdelitev, ki lahko zavzame števno mnogo vrednosti), ki se z večanjem števila poskusov bliža normalni porazdelitvi, vendar je od nje različna. To se bolj vidi na sliki, ki jo prilagam spodaj. Drugačen kot pri normalni spremenljivki je tudi izračun srednje vrednosti kot variance, ki je rezultat dveh precej preprostih formul, ki jih najdete tukaj (poglavje Mean and Variance).

 

Zgoraj: Geometrijska oblika binomske porazdelitve

Bernoullijeva porazdelitev – je še bolj preprosta od binomske. Pri njej gre za slučajno spremenljivko, ki je rezultat le enega poskusa. Pričakovana vrednost je torej enaka kar verjetnosti, da se zgodi dogodek A (in ne dogodek B, možna sta ponovno le ta dva dogodka), varianca pa je enaka produktu verjetnosti obeh dogodkov. Da malo prekinem tole morda monotono podajanje, nekaj o uporabnosti: tako binomska kot Bernoullijeva porazdelitev sta še kako uporabni v ekonometriji, predvsem pri analizi modelov diskretne izbire, torej logit, probit in tobit modelov. O pomembnosti tovrstnih analiz naj govori dejstvo, da je za rezultate na tem področju Nobela prejel Daniel McFadden v letu 2000. Kot me je pravilno opozoril komentator Mare, bi lahko tovrstne modele relativno preprosto uporabili pri naši večkrat omenjani analizi dejavnikov, da ima neka država samostojno kulturno ministrstvo.

Negativna binomska porazdelitev – je podobna binomski, le da sedaj ocenjujemo verjetnost, da se bo dogodek A v n-tem poskusu zgodil točno k-tič. Čeprav na prvi pogled zveni podobno ali celo enako (kar pa ni…) binomski, gre za nekaj bistvenih razlik. Predvsem gre za različno dojemanje časovnega dejavnika, kar povzroči tudi razlike pri izračunih pričakovane vrednosti in variance. Tudi negativna binomska porazdelitev je v uporabi na področju mikroekonometrije, kar kaže več nedavnih prispevkov s tega področja.

 

Zgoraj: Geometrijska oblika negativne binomske porazdelitve

Poissonova porazdelitev – še zadnja, ki jo bomo posebej omenili. Pri njej gre za izračun verjetnosti, da se v nekem fiksnem intervalu zgodi točno k dogodkov, če je znano povprečje, kolikokrat se dogodek v tem času dogodi in so dogodki v času med seboj neodvisni. Matematične oblike Poissonove porazdelitve so ponovno nekoliko bolj kompleksne kot pri binomskih, značilno za porazdelitev je predvsem, da sta tako srednja vrednost kot varianca enaki, torej npr. nekemu parametru λ, ki nastopa tudi v formuli porazdelitve. Poissonova porazdelitev je v uporabi, ko moramo računati npr. povprečno število klicev na neko telefonsko centralo, povprečno število uporab električnih števcev, skratka skorajda kjerkoli, kjer igra pomembno vlogo časovni dejavnik. Izkaže se tudi, da pod določenimi pogoji Poissonova porazdelitev lahko nadomesti binomsko, kar je lahko koristno, saj je pri velikih vzorcih računanje z njo precej lažje kot z binomsko (kljub težji začetni formuli).

Zgoraj: Geometrijska oblika Poissonove porazdelitve

Naj bo tu dovolj o porazdelitvah. Omenimo morda le še nekatere težje, ki se pojavljajo v »višji« ekonometriji: Paretova, ki jo je Arthur De Vany  uporabil pri razlagi ekonomike filmske industrije, o čemer sem pisal na tem blogu, Beta porazdelitev, Gama porazdelitev in Dirichletova porazdelitev. Več o vseh lahko preberete na povezavah, pa potem morda rečemo kako morebitno besedo tudi na to temo.

Ker je zmanjkalo časa in ker ste verjetno tudi vi že utrujeni, predlagam, da pustimo preverjanje hipotez, torej neposredno uporabo vsega povedanega (predvsem o normalni porazdelitvi) za naslednji zapis. Potrudil se bom, da bo pripravljen čim prej, morda že jutri. Lep pozdrav.

  • Share/Bookmark


3 komentarjev »

  1.   Anja — 26.01.2015 @ 18:08

    Lep pozdrav,
    sem študentka na Turistici in imam v učnem programu tudi metodologijo in statistiko. Zanima pa me nekaj stvari, ki jih v svoji literaturi ne najdem… Če bi mi lahko odgovoro poslali na mail bi vam bila zelo hvaležna. Lepo pozdravljeni,

    1. Kako najpogosteje preverimo porazdelitev spremenljivk??
    2. Kako interpretiramo eksponentne uteži v logistični regresiji?
    3. Kaj je klasifikacijska tabela v CHAID analizi?
    4. Kako interpretiramo klasifikacijsko tabela v logistični regresiji??
    5. Razlika med napako 1. in napako 2. stopnje?
    6. Kako interpretiramo regresijske koeficiente v primeru linearne regresije?
    7. Kaj nam pove index v tabeli s pričakovanimi dobički za skupine v CHAID analizi?

    Zelo, zelo vesela bom že z kratkimi, bistvenimi odgovori. Hvala!

  2.   andee — 31.01.2015 @ 19:23 andee

    @Anja: odgovorjeno na mail.

  3.   Maruša — 8.02.2015 @ 22:58

    Pozdravljeni,

    prosila bi, če lahko tudi meni posredujete odgovore na vprašanja iz zgornjega komentarja.

    Najlepša hvala.

    LP,
    Maruša

RSS vir za komentarje na objavo. Trackback URI

Komentiraj

Komentiranje iz tujine je omogočeno zgolj prijavljenim uporabnikom !

Blog V krizi smisla tiči misel | Zagotavlja SiOL | O Sistemu |