V krizi smisla tiči misel






         

26.02.2012

Kratka interaktivna delavnica ekonometrije: o korelaciji in (linearni) regresiji

Zapisano pod: Bloomingtonski zapisi, Ekonomija — andee - 26.02.2012

Danes se končno podajamo na pot »v središče problema« – govorili bomo o osnovah ekonometričnega modeliranja prek regresijskih modelov. Najprej velja nekaj besed o razliki med dvema morda malce sorodnima pojmoma, ki pa nosita čisto drugačne interpretacije: korelacijah in regresijah.

O korelaciji govorimo, ko ugotavljamo povezanost dveh spremenljivk – ali se torej dve spremenljivki gibljeta v isto smer, nasprotno smer, ali pa med njunim gibanjem ni povezave. V prvem primeru govorimo o pozitivni korelaciji, v drugem o negativni korelaciji, in v tretjem o tem, da med spremenljivkama ni posebne korelacije. Prisotnost korelacija ponavadi ugotavljamo s korelacijskimi koeficienti, najbolj znana sta Pearsonov in Spearmanov. Pri ugotavljanju korelacije igra pomembno vlogo vrsta spremenljivk (o tem smo govorili v našem prvem zapisu): v primeru, da imamo opravka z nominalnimi spremenljivkami, torej takšnimi, kjer so opredeljene le vrednosti spremenljivke (npr. spol), brez posebnih razmerij med njimi, uporabljamo kontingenčne tabele, kjer so vpisane frekvence, torej pogostosti posameznih vrednosti spremenljivke (torej npr. koliko je v vzorcu žensk in koliko moških). Za razmerje med takšnimi spremenljivkami pogosto uporabljamo hi-kvadrat statistiko, o kateri smo nekaj povedali prejšnjič. Povedali smo, da jo uporabljamo, kadar primerjamo povezanost oz. neodvisnost dveh spremenljivk, kar je prav to, kar nas v tem primeru zanima. Primerjalna hi-kvadrat statistika se v tem primeru porazdeljuje kot hi-kvadrat porazdelitev z (s-1)×(v-1) stopnjami prostosti, kjer je s število stolpcev kontingenčne tabele in v število vrstic le-te.

V primeru, da imamo opravka z ordinalnimi spremenljivkami (npr. uvrstitve nogometnih ekip) uporabljamo t.i. Spearmanov korelacijski koeficient, ki ga izračunamo po naslednjem postopku: najprej uredimo obe spremenljivki v vrstni red – enota A ima npr. rang A1 pri prvi spremenljivki in rang A2 pri drugi, enota B rang B1 pri prvi in B2 pri drugi in tako do konca. Ko tako uredimo tabelo, za vsako enoto izračunamo razlike med rangoma – za enoto A torej A1-A2, za enoto B B1-B2 itd. Tem razlikam recimo d. Vse d-je kvadriramo in seštejemo in vsoti recimo Σd2. Formula za izračun Spearmanovega koeficienta korelacije je zdaj: 1 minus (6×Σd2 deljeno z produktom n×(n2-1), kjer je n število vseh enot).

Preveč abstraktno zveni, vem, nekaterim (morda večini) verjetno zveni obupno zamorjeno, nekaterim pa tudi neznansko dolgočasno in enostavno, ker so to še vedno čiste osnove. Zato naredimo kratek, aktualen primer. Danes je Robert Kranjec postal svetovni prvak v smučarskih poletih (Congratulations!!!). Skušajmo ugotoviti, ali so rezultati današnje tekme odraz dejanskega stanja v letošnji lestvici svetovnega pokala smučarskih poletov. Ali je bilo torej tole danes nekaj posebnega in bi morda lahko celo govorili, da so razplet krojile razmere (npr. odpoved nekaterih serij), ali pa so rezultati dokaj dober odraz stanja v svetovnem pokalu in trenutnega razmerja moči med tekmovalci. Kar bomo naredili, je, da bomo za vsakega od prve štirideseterice na današnji tekmi pogledali njegovo trenutno uvrstitev v svetovnem pokalu v poletih in zapisali ustrezne range ob imenih tekmovalcev. Ker bomo upoštevali le tekmovalce, ki so bili danes med prvih štirideset, bomo tudi uvrstitve v svetovnem pokalu jemali le glede na omenjeno štirideseterico: Richard Freitag je v svetovnem pokalu na šestnajstem mestu, vendar našega junaka Prevca ter Norvežanov Skletta in Evensena, ki so pred njim, danes ni bilo med štirideseterico, zato bomo npr. Freitagu pripisali rang 13 (16 minus 3). Sicer pa gre lepo po vrsti: Robert Kranjec je bil danes prvi, torej ima prvi rang enak 1, v svetovnem pokalu pa je drugi, torej ima rang 2. Rune Velta je bil danes drugi, torej ima prvi rang enak 2, v svetovnem pokalu pa je na enajstem mestu, in ker je vseh prvih deset tekmovalcev uvrščenih med današnjo štirideseterico, ima Velta drugi rang enak 11. In tako naprej – za vajo lahko napravite ta preizkus. Podatkovne baze najdete na http://www.fis-ski.com/uk/604/610.html?sector=JP&raceid=3489 (današnji rezultati) in http://www.fis-ski.com/uk/disciplines/skijumping/cupstandings.html?&discipline=ALL&discipline=4H&discipline=SF (stanje v svetovnem pokalu v smučarskih poletih).

Ko torej napravimo omenjeni postopek na naši podatkovni bazi in izračunamo ustrezni Spearmanov koeficient, dobimo vrednost 0,806. Velja omeniti, da se koeficienti korelacije po svoji naravi gibljejo med -1 in 1, vrednosti bližje 0 pomenijo manjšo, bližje 1 (ali -1) pa večjo oz. močnejšo pozitivno (ali negativno) korelacijo. Naša vrednost torej kaže na relativno močno pozitivno korelacijo med obema spremenljivkama, kar kaže, da so današnji rezultati precej dober odraz moči v letošnjem letu in se nihče (npr. Avstrijci :) ) ne more kaj prida pritoževati nad »vetrom«, »smolo«, »žirijo« ali čem podobnim…

Toliko o tem. Če so spremenljivke intervalne ali razmernostne vrste (takšne so tudi najbolj pogoste), so seveda možnosti precej širše. Ponavadi v tem primeru ugotavljamo t.i. Pearsonov koeficient korelacije. Ne bomo se posebej spuščali v izračun slednjega, saj ga lahko dobite v vsakem statističnem paketu. Tudi prvo verzijo naše nedavne ocene korelacije med državami s samostojnim ministrstvom za kulturo in javnimi izdatki za kulturo smo opravili prek Pearsonovega koeficienta.

In zdaj naposled – naše veličanstvo regresija. Pri njej gre podobno kot pri korelacijah za ugotavljanje povezave med spremenljivkami: dvema ali večimi. Vendar pa za razliko od korelacije, kjer ne vemo, katera spremenljivka vpliva na katero, na kakšen način, pa tudi ne točne vrednosti tega vpliva, lahko vse to v primeru regresije izračunamo. Zato predstavlja regresija najbolj temeljno orodje ekonometrije in tudi velikega dela znanosti nasploh, saj nam nudi najboljši vpogled v razmerja med posameznimi spremenljivkami.

Regresij obstaja seveda tisoče vrst. Zlasti v zadnjih štiridesetih letih je postala ekonometrija, ki temelji na regresijah, osnovni gradnik ekonomije in žal v veliko primerih prispevki na področju ekonomije pomenijo le še poglobljeno ekonometrično analizo nekih precej preprostih ekonomskih modelov. Vedno večji poudarek je torej na ekonometriji in vedno manjši na ekonomski teoriji. Tudi v kulturni ekonomiki je žal vedno bolj tako.

Danes pa bomo pričeli z obravnavo linearne regresije. Kot že omenjeno, pri regresijah ugotavljamo vzročno in številsko povezavo med npr. dvema spremenljivkama. Zaradi tega ponavadi to zvezo zapišemo v obliki enačbe – odvisna spremenljivka (recimo ji y) je enaka neki funkciji neodvisne (ali neodvisnih) spremenljivk. Takšne enačbe so lahko zelo zapleten in vsebujejo vse od enojnih in dvojnih integralov (Riemann-Stieltjesovega, Laplaceovega, Lebesgueovega, …), diferencialnih enačb, vektorskih polj, včasih ne gre le za eno ali dve, marveč marsikdaj tudi za neskončno mnogo enačb (npr. pri instrumentalnih spremenljivkah in posplošeni metodi momentov). Zato je primerno začeti na začetku, z najbolj enostavno možnostjo – ko sta spremenljivki dve, in ko je zveza med njima linearna: y je enako neki a plus b krat x plus e. Torej: y=a+bx+e. Vrednost e je pri tem slučajna napaka pri ocenjevanju modela. Če izvzamemo slučajno napako, dobro vidimo, da gre pri enačbi za premico (y=a+bx), ki seka y os v točki (0,a) in ima smerni koeficient enak b. Ker ponavadi poznamo vse opazovane vrednosti x in y, nas zanima samo dvoje: oceniti koeficienta a in b ter to napraviti na tak način, da bo ocenjena napaka e čim manjša. Napravimo zdaj nekaj osnovnih predpostavk, v ekonometriji jim rečemo predpostavke Gauss-Markova, in so osnovno izhodišče, na katerem bomo gradili tudi vse nadaljnje regresijske modele in izpeljanke:

1) Linearnost modela: o tem smo že govorili in pomeni to, da je zveza med odvisno in neodvisnimi spremenljivkami linearna, bodisi v izvornem modelu bodisi po ustrezni transformaciji neodvisnih spremenljivk. Pri tem je potrebno biti zelo pozoren: tudi model y=b×cosx+3 je linearen – če namesto x uvedemo novo spremenljivko z=cosx, lahko model zapišemo kot y=bz+3, in postane zelo preprost linearen model. To dejstvo zelo poveča uporabnost prepostavke, saj je zelo veliko modelov torej takšnih, da so lahko s primerno transformacijo linearni v neodvisnih spremenljivkah (primer takšnega, ki pa to ne more biti, je npr. y=(x↑b)+3, kjer je b parameter, ki ga ocenjujemo in x↑b pomeni x na potenco b – takšnega modela ni možno obravnavati kot linearnega)

2) Neodvisnost med ocenjevalnimi spremenljivkami: ta predpostavka pravi, da med neodvisnimi spremenljivkami na desni strani enačbe ne more biti popolne linearne odvisnosti, da torej ene ne moremo izraziti kot kombinacijo drugih. Več o tem v nadaljevanju.

3) Eksogenost neodvisnih spremenljivk: z drugimi besedami ta težek izraz pravi, da so slučajne napake nekorelirane z neodvisnimi spremenljivkami, da torej ni »notranje«, »endogene« povezanosti med napako in spremenljivko, da bi bila ena lahko izražena kot funkcija druge. Kar meri ena, druga pač ne meri, preprosteje rečeno.

4) Homoskedastičnost in odsotnost avtokorelacije pri slučajnih napakah: spet nekaj »težkih« besed. V resnici gre samo za to, da imajo slučajne napake konstantno, »homoskedastično«, enotno varianco, torej razpršenost (o pojmu variance oz. disperzije smo govorili že prvič), da se torej ta ne spreminja med opazovanji, ter za to, da slučajne napake niso med seboj odvisne – da bi bila na primer slučajna napaka opazovanja št. 5 kakorkoli odvisna od slučajne napake pri opazovanju št. 1. Takšni odvisnosti pravimo avtokorelacija, zato v tem primeru pravimo, da zahtevamo odsotnost avtokorelacije pri slučajnih napakah.

5) Nestohastičnost neodvisnih spremenljivk: neodvisne spremenljivke so podane z opazovanji in niso nadalje neka funkcija slučajnih spremenljivk in opazovanj. Preprosteje povedano, njihove vrednosti so dane od zunaj in se ne spreminjajo.

6) Slučajne napake so normalno porazdeljene. Tukaj ni kaj posebnega za dodati. O normalni porazdelitvi smo govorili v drugem zapisu.

Zakaj so vse te predpostavke tako pomembne? Predstavljajo zelo ozko ogrodje, v okviru katerega je linearna regresija ustrezen model, s katerim lahko opišemo pojav, ki ga preučujemo. V nadaljevanju dela se bo izkazalo, da so zgornje predpostavke zelo velikokrat kršene v dejanskem svetu, zato je model linearne regresije le zelo grobo orodje za ocenjevanje in zahteva številne prilagoditve in dopolnitve. Prav zato pa je ekonometrija tako zanimiva in (morda žal..) tako obsežna in kompleksna, da bi čim bolje opisala svet, ki ga živimo.

Več o vsem pa naslednjič, ko bomo nadaljevali z linearno regresijo, tudi z zanimivimi primeri, ki jih bom skušal izbrskati do tedaj.

  • Share/Bookmark


4 komentarjev »

  1.   Brigita — 24.10.2012 @ 11:07

    Imam samo nominalne in ordinalne spremenljivke. Katere metode naj uporabim s SPSS-om za primerjavo povprečij, dokazilo da je ena spremenljivka boljša in da je ena spremenljivka določene vrednosti. Za odvisnost med njimi sem uporabila neparametrični Spearmanov test, kaj pa ostalo?

  2.   andee — 24.10.2012 @ 22:28 andee

    Brigita,
    Najprej, o uporabi SPSS v tem primeru najdeš več zapisanega na:
    1) Nominalne spremenljivke: http://academic.udayton.edu/gregelvers/psy216/SPSS/nominaldata.htm
    2) Ordinalne spremenljivke:
    http://academic.udayton.edu/gregelvers/psy216/spss/ordinaldata.htm

    Sam menim, da v primeru nominalnih spremenljivk lahko uporabiš kontingenčne tabele oz. t.i. korespondenčno analizo. Gradivo lahko vzameš pri predmetu Statistika 2 na EF, sam ti na mejl pošiljam besedilo Jožeta Rovana. Lahko uporabiš tudi primerjavo deležev, kar najbolje ustreza tvojemu problemu primerjanja povprečij in drugega. Primerjaš torej domnevo o populacijskem deležu ali razliki v populacijskih deležih. Več najdeš v gradivu, ki se glede tega uporablja na FDV, ki ti ga prav tako pošiljam na mejl.

    Glede ordinalnih spremenljivk lahko poleg Spearmanovega testa uporabiš enake metode, torej predvsem analizo deležev, in na podlagi tega oblikuješ primerne hipoteze (npr. delež vseh vrednosti večjih od tretje je enak 0.59 ali večji/manjši/različen od 0.59). V uporabi je tudi hi kvadrat test (pri analizi kontingenčnih tabel) pa tudi t-test, več lahko prebereš v zgornjih povezavah in v priponkah v mejlu.

    Upam, da bo to vsaj zaenkrat zadoščalo, morda ti odgovori še kdo drug tule gor na blogu.

  3.   Brigita — 25.10.2012 @ 11:57

    Tudi sama sem razmišljala o korespondenčni analizi, ki bi bila vsekakor primerna, če bi imela dovolj enot v vzorcu. Moj vzorec ima le 59 enot in zato sem to idejo opustila. :(

  4.   andee — 25.10.2012 @ 17:30 andee

    Zdravo,
    poskusi uporabiti Fisherjev test, ki je izpeljanka hi-kvadrat testa (in je tudi v SPSS vključen v hi-kvadrat). Žal drugače verjetno v SPSS ne bo šlo, delovalo pa bo le, če imaš le dve vrednosti za vsako spremenljivko. V nasprotnem sicer lahko napraviš test, vendar ne v običajnem SPSS, sodeč po literaturi potrebuješ SPSS Exact test modul. Več o tem na http://www.ats.ucla.edu/stat/SPSS/whatstat/whatstat.htm. Fisherjev test najdeš tudi (žal ponovno le za 2×2 tabele) na naslovu http://www.quantpsy.org/fisher/fisher.htm. Obstajajo tudi variante za večrazsežno tabelo (2×3, 2×5), najdeš jih na internetu, če malo pogooglaš.

    Podrobnejšo razlago izračuna testa najdeš na http://mathworld.wolfram.com/FishersExactTest.html (pa tudi na Wikipediji), čeprav je morda nekoliko bolj računsko dolgotrajna. Upam, da bo to kaj pomagalo, kot rečeno nisem ravno nek ekspert za korespondenčno analizo :)

RSS vir za komentarje na objavo. Trackback URI

Komentiraj

Komentiranje iz tujine je omogočeno zgolj prijavljenim uporabnikom !

Blog V krizi smisla tiči misel | Zagotavlja SiOL | O Sistemu |