V krizi smisla tiči misel






         

30.12.2012

Delavnica ekonometrije – posplošena metoda najmanjših kvadratov in nekatere izpeljanke

Zapisano pod: Ekonometrija, Ekonomija — andee - 30.12.2012

Nadaljujmo torej tam, kjer smo marca nehali, pri linearni regresiji in metodi najmanjših kvadratov (OLS). Kot smo povedali, je slednja NENALICE (BLUE), torej nepristranska najbolj učinkovita linearna cenilka (Best Linear Unbiased Estimator). Kaj to pomeni? Da je nepristranska, da je torej njena pričakovana vrednost enaka pravi vrednosti. Da je najbolj učinkovita, da je torej njena varianca (kvadrat povprečnega odstopanja od srednje vrednosti) najmanjša možna med vsemi linearnimi cenilkami. Da je linearna, torej v prvi potenci pri vrednosti odvisne spremenljivke (omenili smo že, da je običajna normalna oz. Gaussova formula za izračun te cenilke linearna v y). Ter da je navsezadnje »cenilka«, torej ocena prave vrednosti.

Pri tem velja omeniti še eno lastnost – doslednost. Doslednost je lastnost, ki postane zelo pomembna pri asimptotskem, torej mejnem obnašanju cenilk (ki je ena osrednjih tem sodobne ekonometrije). Doslednost pomeni, da se pri ponavljanju izračuna vrednost spremenljivke vedno bolj bliža pravi vrednosti spremenljivke z gotovostjo oz. z verjetnostjo 1.

Kje torej zdaj pride »v igro« naša zgodba o posplošeni metodi najmanjših kvadratov (GLS)? V zadnjem marčevskem prispevku smo govorili o treh najpogostejših problemih linearne regresije: multikolinearnosti, heteroskedastičnosti in avtokorelaciji. Pri bolj zapletenih ekonometričnih problemih imamo pogosto opravka predvsem s slednjima.

Tudi metoda GLS je prav odgovor na ta dva problema, predvsem kadar imamo opravka z linearno regresijo. Kot smo v začetku leta že omenili, pri tej predpostavljamo, da se ostanki porazdeljujejo enakomerno, »homoskedastično«. Slika takšnih ostankov je spodaj.

V kolikor je torej ta predpostavka izpolnjena, lahko uporabljamo običajni OLS. Kaj pa če so ostanki takšni, kot na spodnji sliki?

V tem primeru govorimo o »heteroskedastičnosti«. V matematičnem jeziku bi dejali, da varianca ostankov ni več konstantna, temveč se spreminja. Še drugače povedano, variančno kovariančna matrika ni več multiplikator enotske, nima torej enakih elementov (varianc) na diagonali, pač pa se ti elementi spreminjajo. V tem primeru izračuni linearne regresije postanejo nekoliko bolj zapleteni in moramo vanje vključevati to variančno kovariančno matriko. Recimo ji kar »Sigma« zaradi lažjega pisanja.

Prvo vprašanje, ki se postavlja, je kako se v takšnih situacijah obnese naša prvotna, OLS cenilka. Predvidevamo da nekaj z njo ne bo več v redu, sicer bi bila razprava skorajda brez pomena.

Izkaže se, da cenilka večinoma ostane nepristranska, ostane tudi dosledna, vendar pa ni več učinkovita. Kje je glavni razlog za skrb iz tega spoznanja? Preprosto v tem, da se spremeni porazdelitev cenilke in s tem tudi veljavnost in izračuni vseh statističnih testov. Dovolj razloga za skrb torej, ter za razmislek o drugačnih, prilagojenih cenilkah.

Obstajata v grobem dve smeri reševanja tega problema. Kot smo že prej omenili, imamo pri neenotski Sigma matriki lahko opravka bodisi s heteroskedastičnostjo, avtokorelacijo ali celo obojim. V prvem primeru, ko torej (avto)korelacije med slučajnimi napakami ni, so vsi elementi matrike Sigma, ki so izven diagonal (torej kovariance) enaki nič. V tem primeru lahko uporabljamo t.i. tehtano metodo najmanjših kvadratov (weighted least squares, WLS). Naš izračun, ki predvsem zahteva invertiranje Sigma matrike, je v tem primeru precej preprost, saj je inverzna vrednost diagonalne matrike ponovno diagonalna matrika z inverznimi vrednostmi diagonalnih elementov osnovne matrike na novih diagonalah. V praksi torej to pomeni, da bo dovolj, če bomo opazovanja, ki imajo nizko varianco, »obtežili« močneje kot tista, ki imajo večjo varianco. Dovolj bo torej preprost postopek uteževanja.

Drug, bolj zapleten primer nastane, ko imamo matriko Sigma, ki vsebuje tudi neničelne elemente izven diagonal, ko imamo torej opravka z avtokorelacijo oz. korelacijo med slučajnimi napakami. V tem primeru govorimo o »pravi« GLS metodi. Osnovna formula izračuna sicer ostane enaka, to je tako imenovana Aitkenova cenilka – njena osnovna struktura je podobna Gaussovi formuli za običajno OLS, le da je v sredini obeh členov še inverz matrike Sigma. Zaradi takšne specifične oblike je Aitkenova cenilka postala osnovo za gradnjo t.i. sendvič cenilk (Sandwich Estimator).

Dajmo se še malo poigrati z matematičnim opisom, da bo morda bolj jasno, za kaj pri celi zadevi gre. Vemo, da je variančno-kovariančna matrika vedno simetrična in pozitivno definitna, v jeziku matrične teorije bi temu preprosteje dejali, da je večja od nič, pozitivna torej. Vsako takšno matriko lahko zapišemo kot produkt dveh skoraj identičnih matrik – spet podobno kot pri številih, ko lahko vsako pozitivno število zapišemo kot kvadrat nekega drugega števila. Recimo tema dvema matrikama, na kateri smo razstavili našo matriko Sigma, P in P’ (takšni razstavitvi pravimo tudi Cholesky razstavitev).

In zdaj končno. Izkaže se, da lahko prvotno regresijsko enačbo, torej npr. y=beta*x+e, preprosto pomnožimo z matriko P in na takšni spremenjeni enačbi, torej Py=P*beta*x+Pe sedaj napravimo običajno regresijo. Tara… Zgodbo smo na precej preprost način torej prevedli v osnovno zgodbo, ki jo obravnava vsak učbenik statistike, izračun linearne regresije torej.

Zaplete se še pri eni zadevi: velikokrat varianc nimamo podanih. V tem primeru uporabljamo t.i. »izvedljivo« posplošeno metodo najmanjših kvadratov (Feasible GLS oz. FGLS). Slednja ponavadi temelji na tem, da najprej ocenimo Sigma matriko iz običajne linearne regresije in v nadaljevanju uporabljamo to matriko namesto (nedosegljive) prave Sigma GLS matrike. Obstajajo tudi drugi načini ocene Sigma matrike, ki jo lahko nadalje vstavljamo v izračun (F)GLS cenilke. Metoda FGLS je zelo pogosto uporabljena v ekonometrični praksi, občasno uporabljamo tudi metodo ponavljajoče uteženih najmanjših kvadratov (iteratively reweighted least squares), ki počiva na podobnih osnovah.

Toliko, upam, da bo to dovolj v ponazoritev metode. Zaradi enostavnosti te metode niso prav pogosto predmet bolj teoretsko obarvanih ekonometričnih raziskovanj, vsaj kolikor imam sam vpogled, razen v kolikor se ne kombinirajo z drugimi metodami kot so time series, panel data in druge. Z metodami posplošenih najmanjših kvadratov se je med bolj znanimi teoretiki veliko raziskovalno ukvarjal Takeshi Amemiya. Morda me še kdo dopolni glede tega, morda pa tudi še sam priložim še kako dodatno študijo.

Še nekaj v zaključek. Verjamem, da se bo mnogim tistim, ki berejo predvsem bloge o zmenkih in izletih, kuhanju hrane, skorumpiranosti politikov in kar je še tega bolj profanih tem (ki pa jim nikakor ne želim zmanjševati pomena in jih iskreno rečeno nekatere z zanimanjem prebiram tudi sam!!), nadaljevanje te delavnice zdelo bizarno in tudi jaz sam nekoliko »utežen«. Naj povem, da sem ob pričetku pisanja te delavnice v začetku leta resnično tipal v prazno in nisem vedel, ali bo odziv zelo dober, dober ali morda tudi porazen, da zadeva torej prav nikogar ne bo zadevala in zanimala. Priznam, da sem pričakoval slednje. Vendar se je v tem času nabralo kar nekaj, da ne rečem precej odzivov na ta pisanja, kar nekaj ljudi, ki so jih teme (predvsem študijsko) zadevale. Temu je torej delavnica tudi namenjena: polju, kjer bodo na internetu zapisane neke informacije o osnovah, pa upam tudi bolj zahtevnih metodah ekonometrije in s tem predvsem vir informacij vsem tistim, ki jih bo ta tema iz kakršnega koli vidika zanimala v bodoče. Žal je v Sloveniji precej premalo poudarka na matematičnih in bolj metodoloških vidikih v ekonomiji, o tem sem tu že pisal. Naivno torej upam, da bo vendarle s tem narejenega kaj koristnega – poleg zabave ob pisanju in prebiranju literature je to tudi osnovni motiv, ki ga imam sam pri tem pisanju. Se torej upam spet beremo kmalu.

  • Share/Bookmark


Brez komentarjev »

Še brez komentarjev.

RSS vir za komentarje na objavo. Trackback URI

Komentiraj

Komentiranje iz tujine je omogočeno zgolj prijavljenim uporabnikom !

Blog V krizi smisla tiči misel | Zagotavlja SiOL | O Sistemu |