V krizi smisla tiči misel






         

4.03.2012

Kratka interaktivna delavnica ekonometrije: Metoda najmanjših kvadratov

Zapisano pod: Bloomingtonski zapisi, Ekonomija — andee - 4.03.2012

Danes torej nekaj več o linearni regresiji, ob koncu tudi s primerom, ki bo tudi tokrat s področja športa. Spomnimo se, kaj smo o linearni regresiji povedali prejšnjič: v kolikor spremenljivke, ki jih opazujemo, zadoščajo naslednjim šestim pogojem, je na mestu uporaba običajne linearne regresije:

1) Linearnost modela
2) Neodvisnost med ocenjevalnimi spremenljivkami
3) Eksogenost neodvisnih spremenljivk
4) Homoskedastičnost in odsotnost avtokorelacije pri slučajnih napakah
5) Nestohastičnost neodvisnih spremenljivk
6) Normalna porazdelitev slučajnih napak (s pričakovano, srednjo vrednostjo napake enako 0)

METODA NAJMANJŠIH KVADRATOV

Povedali smo že, da nas pri analizi regresije vodi osnovni cilj čim natančneje oceniti parametre v enačbi ob čim manjši slučajni napaki. Spomnimo se tudi naše osnovne enačbe: y=a+bx+e, kjer sta a in b parametra, ki ju ocenjujemo, e pa slučajna napaka. Izkaže se, da bo do tu naprej včasih priročneje računati le z enim parametrom, torej bi bilo lažje zapisati y=x’b+e. Zakaj gre? Najprej lahko parameter a zapišemo kot a×1, in se obnašamo, kot da je spremenljivka, ki jo ocenjujemo z njim, vedno enaka 1, pomnoženo z parametrom a, ki postane torej del (prvi element) vektorja parametrov b. Naša matrika (več o matrikah tule) x’ pa je enaka matriki, ki jo dobimo tako, da vse spremenljivke, ki jih opazujemo, pri čemer je prva enaka 1 (da vključimo konstanto), druge pa gredo v normalnem vrstnem redu, zapišemo eno ob drugo. Enačba je torej v vektorski oz. matrični obliki, kjer je x’ enaka matriki spremenljivk x, obrnjeni v nasprotno smer, torej njene elemente pišemo namesto od leve proti desni od zgoraj navzdol. Samo tako se enačba izide. Če imamo torej tri prave spremenljivke, namesto enačbe y=a+bx+cz+dw+e pišemo y=x’b+e, kjer je x’ enak vektorju (1,x,z,w) obrnjenemu od zgoraj navzdol, vektor b pa je enak (a,b,c,d). Če pomnožite oba vektorja, boste dobili zapisano isto izhodiščno enačbo.

Odslej bomo torej našo osnovno enačbo pogosto pisali v vektorski oz. matrični obliki y=x’b+e. Če je vseh opazovanj npr. nek i, s tem dobimo i enačb zapisanih z ustreznimi indeksi: y(i)=x(i)’b+e(i), kjer y(i) označuje i-to opazovanje spremenljivke y.

Slučajna napaka je torej vektorsko enaka e=y-x’b. Kakšno enačbo bomo torej uporabili, da zapišemo naš pogoj za čim manjšo skupno standardno napako? Osnovni in velik problem je, da je po definiciji srednja vrednost slučajne napake enaka 0 (v povprečju naj ocene ne bi odstopale o pravih vrednosti). Če bi torej skušali minimizirati vsoto vseh slučajnih napak, ne bi imeli prav nobenega dela – vsota vseh slučajnih napak je vedno enaka 0! Srednjo vrednost napake namreč izračunamo kot vsoto vseh napak, deljeno s številom opazovanj. Ker je torej srednja vrednost enaka 0, mora biti tudi vsota vseh napak enaka 0. Tega pa nima smisla minimizirati, saj je vedno že svoj minimum in maksimum, vedno je namreč vsota enaka, konstantna – enaka je 0.

Zato sta v uporabi ponavadi dve možnosti: prva in manj pogosta je, da vzamemo absolutne vrednosti napak in minimiziramo njihovo vsoto. Druga, ki je najpogosteje (skoraj vedno) v uporabi, pa je t.i. metoda najmanjših kvadratov (least squares method). Pri njej minimiziramo skupno vsoto kvadratov slučajnih napak. Izkaže se, da je računanje s to metodo precej lažje, predvsem zaradi tega, ker se kvadratna funkcija »lepše obnaša« kot absolutna vrednost, lažje jo je npr. odvajati, kar pride v tem primeru precej prav.

Če torej zapišemo našo enačbo (žal odslej naprej ne bo šlo več brez enačb, ki pa jih bom vseeno skušal zminimizirati na najnujnejše): skušamo minimizirati vsoto kvadratov slučajnih napak, torej: min Σ(e(i)^2)=min Σ((y(i)-x’(i)b)^2). Vemo, da je potrebni pogoj za minimum neke funkcije, da ima prvi odvod enak nič. Če torej odvajamo našo funkcijo po b (ker je to naš parameter, glede na katerega želimo minimizirati funkcijo), dobimo -2Σx(i)(y(i)-x’(i)b)=0. To lahko preuredimo kot 2Σx(i)y(i)=2Σx(i)x’(i)b, ali še drugače Σx(i)y(i)=(Σx(i)x’(i))b. Vektor b lahko torej izrazimo kot b=(Σx(i)x’(i))^(-1)×Σx(i)y(i).

Tej enačbi pravimo tudi normalna enačba, prvi pa jo je opisal Karl Friedrich Gauss okrog leta 1794 (zato ji včasih pravijo tudi Gaussova normalna enačba). V matrični obliki je videti nekoliko lepše: b=(X’X))^(-1)×(X’y).

Izkaže se, da je normalna enačba zelo priročen način za izračun ocenjenega koeficienta b (ki hkrati, zaradi načina, kako smo prišli do enačbe, tudi minimizira vsoto kvadratov slučajnih napak). Vse, kar potrebujemo, je da vrednosti opazovanih spremenljivk zapišemo v obliki matrike x, matriko obrnemo (včasih temu rečemo tudi transponiranje), da dobimo x’, nakar pomnožimo x’ in x. Produktu obeh matrik, torej matriki x’x poiščemo inverzno vrednost (tudi to je ena osnovnih operacij dela z matrikami, kako se to naredi in v katerih primerih to sploh gre, najdete npr. tukaj), ter jo naposled pomnožimo s produktom x’y. Zgodba je zaključena, dobili smo tisto, kar smo želeli: vektor ocenjenih parametrov b, ki hkrati minimizira slučajne napake.

Morda smo šli malo preveč naprej, ko smo uporabili matrično obliko enačbe. V takšni obliki je pač precej elegantneje pisati in reševati ekonometrične enačbe. V našem primeru enostavne linearne regresije z le dvema spremenljivkama x in y, pa lahko enačbe za parametra a in b zapišemo tudi brez vektorjev in matrik. Parameter b je enak kovarianci med x in y, deljeni z varianco spremenljivke x. Pri tem kovarianco spremenljivk x in y dobimo tako, da najprej izračunamo srednje vrednosti obeh spremenljivk. Nato izračunamo odklone posameznih opazovanj od srednjih vrednosti – če je npr. povprečna vrednost x enaka 4, prvo opazovanje pa je enako 4.2, je odklon enak 0.2; če je povprečna vrednost y enaka 3, prvo opazovanje y pa 2.4, je odklon enak -0.6. Ko tako dobimo odklone pri vseh opazovanjih, pomnožimo med seboj vse odklone po opazovanjih: odklon x pri prvem opazovanju pomnožimo z odklonom y pri istem opazovanju, enako naredimo pri drugem, tretjem, itd. opazovanju. Vse te zmnožke nato seštejemo in vsoto delimo s številom opazovanj, zmanjšanem za 1. Rezultat je naša kovarianca… Varianco spremenljivke x dobimo po enakem postopku, le da namesto odklonov spremenljivke y uporabimo še enkrat spremenljivko x. Dejansko torej kvadriramo odklone po posameznih opazovanjih, jih seštejemo in delimo s številom opazovanj, zmanjšanem za 1. Rezultat je varianca spremenljivke x. Če sedaj delimo kovarianco obeh spremenljivk z varianco prve, torej x, dobimo naš koeficient b. Koeficient a dobimo tako, da izračunamo povprečni vrednosti x in y, ter nato od povprečne vrednosti y odštejemo naš mukotrpno izračunani koeficient b pomnožen s povprečno vrednostjo x. Trarara (ojoj, končno)… Oba koeficienta sta pred nami.

Kot vidite, je zelo veliko računanja na ta način, pa še opravka imamo le z dvema spremenljivkama. Pri več spremenljivkah zapletenost izračuna naglo raste. Zato smo uporabili vektorsko oz. matrično obliko, ker je v takšni obliki izračun bistveno bolj preprost in eleganten. Če kdo ne ve veliko o matrikah naj pove, in bom predlagal kak nov tekst ali zelo na hitro povedal nekaj osnov računanja z matrikami, ki bo še zelo prav prišlo. Skoraj celotna sodobna ekonometrija je seveda zapisana v matričnih oblikah, verjemite mi. Ponavadi pa je to res tisto, kar večini študentov povzroča največ preglavic na začetku, tudi pri mojih kolegih na doktorskem študiju v Ljubljani je bilo tako.

BLUE/NENALICE LASTNOSTI CENILK

Še dve stvari, pa zaključimo za danes. Najprej, morda le že kdo slišal za izraz BLUE (v slovenščino ga pri nas nekoliko nerodno prevajajo z NENALICE). BLUE pomeni kratico za Best Linear Unbiased Estimator oz. nepristranska najbolj učinkovita linearna cenilka (ne-na-li-ce). V kratkem gre torej za cenilko (oceno parametra), ki je:

1) Nepristranska: njena pričakovana vrednost je enaka pravi vrednosti parametra. Z drugimi besedami to pomeni, da bo v povprečju ocenjena vrednost parametra vedno enaka pravi vrednosti. Ta lastnost je ključna – v primeru, da neka cenilka ni nepristranska, pomeni, da bo izračun dajal napačne vrednosti in takšna cenilka ni preveč uporabna.
2) Najbolj učinkovita: varianca, torej razpršenost ocen okrog pravih vrednosti bo pri dani cenilki najmanjša med vsemi možnimi. Ta lastnost sicer ni nujna, je pa vsekakor izjemno zaželena.
3) Linearna: njena oblika je linearna. Tu ni kaj posebnega dodati. V ekonometriji imamo pogosto opravka tudi s cenilkami največjega verjetja (maximum likelihood estimator), slednje so primer nelinearnih cenilk.
4) Cenilka: tudi tu ni kaj dodati – gre za oceno, s katero ocenjujemo nek parameter.
5) Še eno lastnost velja omeniti, ki ni vključena v BLUE – doslednost (angl. consistency). Ta lastnost je zelo podobna nepristranskosti, vendar ni ista. Gre preprosto za to, da nek parameter ob neskončnem ponavljanju ocenjevanja vedno bolj verjetno postaja enak pravi vrednosti parametra. V ekonometriji pogosto srečamo cenilke, ki niso nepristranske, so pa včasih dosledne in dovoljujejo vsaj delno delo z njimi.

Kaj reči ob teh BLUE opredelitvah in zakaj smo jih omenili? Izkaže se, da lahko hitro pokažemo, da je cenilka, ki smo jo dobili z našo metodo najmanjših kvadratov, opisano zgoraj, BLUE cenilka. Odlično! S tem postopkom lahko torej mirno izračunavamo koeficiente v naših linearnih regresijskih enačbah, pod predpogojem seveda, ki je zelo pomemben, da je izpolnjenih vseh šest začetnih pogojev. Naslednjič bomo pričeli z razmišljanji, kaj se zgodi, če kateri od njih ni izpolnjen.

KAJ VPLIVA NA VREDNOST NBA MOŠTEV? KRATKA ANALIZA S POMOČJO LINEARNE REGRESIJE

Da bo zgodba malce bolj pestra, pa dodajam še kratek primer, ki pokaže, kako lahko uporabimo linearno regresijo v okviru katerega od statističnih računalniških paketov. Sam doma uporabljam paket Gretl, ki ga lahko brezplačno naložite z interneta na tem naslovu: http://gretl.sourceforge.net/.

Kaj bomo torej ugotavljali? Vzel sem primer tridesetih moštev košarkarske lige NBA, ker so podatki zanje zelo hitro dostopni prek interneta. Skušal sem preveriti, kaj nam uporaba linearne regresije pove o dejavnikih, ki vplivajo na (finančno) vrednost neke ekipe, torej npr. Chicago Bulls ali Boston Celtics. Podatke o vrednosti ekipe sem ugotavljal glede na meritve spletne strani Forbes. S te spletne strani sem vzel tudi nekatere druge uporabne podatke, kot so plače igralcev (kar sem vzel za približek kakovosti moštva), velikost mesta, s katerega prihaja ekipa, ter prihodke moštva. Poleg tega se mi je zdelo smiselno med dejavnike, ki vplivajo na finančno vrednost ekipe (preverjal sem podatke za leto 2010), vključiti tudi uspeh ekipe v prvenstvu (v ta namen sem vzel količnik zmag v rednem delu sezone) ter tradicijo ekipe (v ta namen sem uporabil dve spremenljivki – število doslej osvojenih naslovov lige NBA (ali ABA, SBA, torej predhodnic lige NBA), ter število let od ustanovitve ekipe – nastarejša, Philadelphia 76ers obstaja od leta 1939, najmlajša, Charlotte Bobcats pa od leta 2004). Obe zadnji spremenljivki sem vzel iz podatkov Wikipedije.

S temi šestimi spremenljivkami, torej: uspehom ekipe v rednem delu sezone (merjenim v količniku zmag, torej med 0 in 1), izdatki za plače igralcev (merjenimi v milijonih dolarjev), skupnimi prihodki moštva (merjenimi v milijonih dolarjev), velikostjo mesta, od koder ekipa prihaja (merjeno v številu prebivalcev), številom doslej osvojenih naslovov, ter leti od ustanovitve ekipe, sem ocenjeval finančno vrednost moštva. Naša linearna regresija bi bila torej v tem primeru videti takole: vrednost moštva=a+b×uspeh ekipe+c×izdatki za plače+d×prihodki+f×velikost mesta+gךtevilo naslovov+h×leta od ustanovitve+e.

Rezultati iz paketa Gretl so sledeči:

Model 2: OLS, using observations 1-30
Dependent variable: value

coefficient std. error t-ratio p-value
—————————————————————–
const -32,8333 43,7599 -0,7503 0,4607
uspeh 117,591 30,2900 3,882 0,0008 ***
player_expenses 0,793885 0,639858 1,241 0,2272
metro_area_popu 4,86073e-06 1,04545e-06 4,649 0,0001 ***
revenues 2,15450 0,190065 11,34 6,83e-011 ***
wonNBA 1,09739 1,39402 0,7872 0,4392
age -0,403273 0,298956 -1,349 0,1905

Mean dependent var 368,7667 S.D. dependent var 99,81973
Sum squared resid 12029,45 S.E. of regression 22,86962
R-squared 0,958369 Adjusted R-squared 0,947509
F(6, 23) 88,24589 P-value(F) 1,04e-14
Log-likelihood -132,4769 Akaike criterion 278,9538
Schwarz criterion 288,7622 Hannan-Quinn 282,0916

Excluding the constant, p-value was highest for variable 6 (wonNBA)
—————————————————————–

Rezultati kažejo, da model pojasni okrog 96% skupne variance (to nam pove vrednost R-squared, o kateri bomo tudi nekaj več povedali prihodnjič), torej pojasni kar 96% celotnih odstopanj navzgor in navzdol. To pomeni, da je model glede tega relativno dober, med spremenljivkami pa vrednost ekipe najmočneje določajo:
- uspeh v rednem delu sezone (en odstotek boljši uspeh poveča vrednost ekipe za milijon dolarjev)
- velikost mesta (vsaj dodaten milijon prebivalcev poveča vrednost za 4,8 milijona dolarjev) ter
- celotni prihodki ekipe (vsaj dodaten milijon prihodkov poveča vrednost ekipe za 2,15 milijona dolarjev)

To lahko preberemo iz p-vrednosti v zadnji koloni, o tem smo govorili pri preverjanju hipotez – tisti parametri, katerih p-vrednost je manjša od 0,05 (to pa so samo zgornji trije) so statistično značilno različni od nič pri stopnji gotovosti 95%, torej jih lahko vključimo v model, drugi za to ne pridejo v poštev.

Iz vrednosti posameznih koeficientov, lahko preberemo tudi t.i. mejne učinke, torej za koliko sprememba neke neodvisne spremenljivke za eno enoto poveča vrednost odvisne spremenljivke – npr. koeficient pri revenues, ki je 2,15450, nam pove, da en milijon dodatnih revenues poveča vrednost ekipe za 2,15450 milijona, glede na uporabljene enote. Vrednost F statistike je močno značilna (spet pogledamo pripadajočo vrednost p, ki je enaka 1,04e-14, torej je izjemno majhna), kar pomeni, da lahko zavrnemo ničelno hipotezo o tem, da so vsi koeficienti enaki nič, kar ponovno priča o topogledno primernem modelu.

Za vse tiste, ki se ob tem dolgočasite, pa samo vprašanje: kako to, da na vrednost ekipe ne vplivata tradicija in kakovost moštva? Ali smo storili kaj narobe in kakšni so predlogi za spremembe? Naj dam namig – morda ena od predpostavk linearne regresije ni izpolnjena. Več pa naslednjič.

  • Share/Bookmark


Brez komentarjev »

Še brez komentarjev.

RSS vir za komentarje na objavo. Trackback URI

Komentiraj

Komentiranje iz tujine je omogočeno zgolj prijavljenim uporabnikom !

Blog V krizi smisla tiči misel | Zagotavlja SiOL | O Sistemu |