V krizi smisla tiči misel






         

5.02.2012

Kratka interaktivna delavnica ekonometrije: Nekaj osnovnih statističnih pojmov

Zapisano pod: Bloomingtonski zapisi, Ekonomija, Kulturna ekonomika — andee - 5.02.2012

Pričenjamo torej z obljubljeno kratko delavnico ekonometrije. Ker se bom morda moral tudi sam sproti poglabljati v nekatere metode in pojme, naj mi bo oproščena kakšna manjša napaka, bom pa seveda kot vedno vesel konstruktivnih komentarjev in opozoril.

V prvem delu najprej poglejmo nekaj osnovnih statističnih pojmov, brez katerih ne moremo nadaljevati dela. Pojme bom razložil tudi zaradi tega, da se bomo lahko sem vračali kadarkoli, ko se bo kak pojem ponovil (kar se bo verjetno zgodilo kar velikokrat).

Pojme podajam po točkah in v upam smiselnem in logičnem vrstnem redu. Pri opisu sem si delno pomagal iz gradiv za predmet Statistika na Fakulteti za družbene vede ter Statistika 1 in 2 na Ekonomski fakulteti. Naj poudarim tudi, da pojme obravnavam zelo na kratko, ker je celotne zgodbe zelo veliko in so tole spodaj res čiste osnove, vsem tistim, ki vas zanima več, prilagam nekaj osnovnih povezav.

 1)      Statistična enota – osnovni element oz. gradnik statističnega preučevanja. V primeru, ki smo ga preučevali v enem predhodnih zapisov, torej npr. dejavniki javne porabe za kulturne dejavnosti, je enota posamezna država, saj nas zanimajo vrednosti te spremenljivke po posameznih državah (in ne npr. na ravni celotne EU ali posameznih gospodinjstev). Ker so nas v tem primeru zanimale predvsem države EU, je bila torej enota posamezna država članica EU (npr. Belgija, Finska, Slovenija).

2)      Populacija – je množica vseh preučevanih elementov oz. enot. Če torej preučujemo kaj vpliva na javno porabo za kulturne dejavnosti, so populacija vse države. V primeru, da nas zanima samo javna poraba za kulturo v EU, je populacija seveda sestavljena samo iz 27 držav EU.

3)      Vzorec -  vsakič, ko napravimo selekcijo izmed enot v populaciji, temu rečemo, da vzamemo v ozir nek določen vzorec v populaciji. V obravnavanem primeru bi lahko tako naključno izbrali 15 držav iz celotne populacije (npr. izmed vseh 27 držav EU). Na podlagi lastnosti vzorca ponavadi s pomočjo statističnih metod sklepamo o lastnostih populacije. Včasih se zgodi, da nas zanima tudi več vzorcev, torej delamo ponavljanja izbiranja vzorcev. V statistični praksi se vzorci najpogosteje izbirajo naključno, možni pa so tudi drugi postopki vzorčenja (o njih ne bi, ker za nas vsaj zaenkrat niso relevantni).

4)      Spremenljivka – neka osnovna lastnost enot, torej ponovno v istem že navedenem primeru npr. ali ima država samostojno ministrstvo, kakšen je BDP države, kakšen je BDP na prebivalca, kakšna je javna poraba za kulturo itd. Ponavadi ločimo odvisne in neodvisne spremenljivke, pri čemer iz lastnosti slednjih sklepamo na lastnosti prvih (zato prvim rečemo odvisne). V primeru, da iz BDP države, povprečne starosti, ali ima država samostojno ministrstvo ali ne, idr. želimo sklepati o velikosti javne porabe za kulturo, je slednje odvisna spremenljivka, vse ostalo navedeno pa so neodvisne spremenljivke. Najpogosteje imamo opravka z eno odvisno ter eno ali več neodvisnimi spremenljivkami.

5)      Parameter – medtem, ko spremenljivko ponavadi opazujemo in je njena vrednost pri izračunu podana, moramo vrednosti parametrov izračunati iz ocenjevanih enačb in modelov. Gre torej za dodatne vrednosti, ki jih moramo izračunati oz. oceniti, da lahko nadaljujemo ocenjevanje modela. Pogosto gre pri tem za koeficiente in vrednosti v regresijskih enačbah.

6)      Vrste spremenljivk – spremenljivke ločimo

1) glede na tip izražanja vrednosti:
a) opisne in
b) številske spremenljivke, slednje delimo na diskretne (torej takšne, ki jih lahko preštejemo), ter zvezne (torej takšne, ki lahko zavzamejo katerokoli vrednost znotraj nekega intervala)

2) glede na tip merjenja:
a) nominalne, ki jih lahko le razlikujemo med seboj (npr. oseba je moškega ali ženskega spola);
b) ordinalne, ki jih lahko uredimo od največje do najmanjše vrednosti ali obratno (primer: odgovori na vprašanje »ali se strinjate z ukrepom nove vlade: 1) zelo ne strinjam, 2) ne strinjam; 3) niti eno niti drugo, 4) strinjam; 5) zelo strinjam; očitno je, da te odgovore lahko rangiramo na lestvici od 1 do 5)
c) intervalne, kjer lahko povemo, za koliko vrednosti spremenljivke se neka enota loči od druge (primer: temperatura po stopinjah Celzija)
d) razmernostne, kjer lahko povemo tudi kolikokrat večja je ena enota od druge (primer: starost, temperatura po stopinjah Kelvina)

Pri delitvi glede na tip merjenja seveda takoj opazimo, da gre delitev v smeri večje zahtevnosti. Tako so ponavadi ordinalne spremenljivke tudi nominalne, razmernostne tudi intervalne in ordinalne in tako naprej. V obratni smeri seveda to ne velja, kar je očitno. Potrebno je opozoriti še na razliko med intervalnimi in razmernostnimi spremenljivkami, ki se bo komu zdela »umetna« in nerazumljiva. Gre zgolj za to, da so razmernostne spremenljivke praviloma naravne oz. absolutne spremenljivke in niso odvisne od dogovorov glede njihove velikosti oz. lege (leta tečejo ne glede na to, kaj si mi o njih mislimo), medtem ko so intervalne spremenljivke določene z nekim dogovorom (npr. kje je »absolutna« ničla – zato je temperatura po stopinjah Kelvina absolutna/razmernostna, temperatura po stopinjah Celzija pa intervalna spremenljivka). Vendar drži, da je prav tu meja včasih prepustna in stvar razprave.

7)      Verjetnost – je mera, s katero ocenjujemo relativno pogostost nekega slučajnega dogodka. Verjetnost se vedno nahaja v intervalu med 0 in 1, pri čemer je verjetnost gotovega dogodka (dogodka, ki se bo čisto zagotovo dogodil) enaka 1, verjetnost nemogočega dogodka pa je enaka 0.

8)      Slučajna spremenljivka – je spremenljivka, katere vrednosti so rezultat ponavljanja slučajnega poskusa, torej poskusa, pri katerem ne moremo vnaprej z vso gotovostjo vedeti, kakšen bo rezultat. Najbolj običajen primer slučajne spremenljivke je metanje kovanca, kjer se tako pismo kot grb zgodita z enako verjetnostjo, torej ½. Spremenljivke, ki niso slučajne, so tiste, katerih vrednost je vnaprej določena, torej ni odvisna od opazovanja oz. poskusa.

9)      Porazdelitev – o njej govorimo pri slučajnih spremenljivkah. Pove nam, kako je verjetnost porazdeljena po zalogi vrednosti spremenljivke, pove nam torej, kakšne so verjetnosti, da spremenljivka zavzame določeno vrednost. Porazdelitev je ponavadi zapisana s porazdelitveno funkcijo (pri zveznih spremenljivkah) ali verjetnostno shemo (pri diskretnih spremenljivkah). Prva podaja funkcijsko enačbo porazdelitve in njene gostote, druga pa samo zapiše posamezne vrednosti spremenljivke ter verjetnosti, da se katera od njih dejansko dogodi.

10)   Pričakovana vrednost – če nek poskus ponavljamo dolgo časa, se frekvence (pogostosti) dogodkov ustalijo pri neki vrednosti. Če torej mečemo kovanec znova in znova, bodo frekvence za pismo in grb vedno bližje ½. Pričakovana vrednost pa pravimo tistemu številu, kjer se ustali vrednost slučajne spremenljivke. Če ima torej met pisma vrednost 1 in met grba 0, potem je pričakovana vrednost enaka 0.5 (oz. ½), toliko bomo torej v povprečju dobili pri ponavljanjih poskusa v vsakem poskusu, če nam vsak met pisma prinese 1 evro in vsak med grba 0 evrov. Lahko bi torej tudi dejali, da je pričakovana vrednost najverjetnejša vrednost slučajne spremenljivke v nekem poskusu.

11)   Moment – je mera, s katero opisujemo obliko neke skupine točk oz. njihove porazdelitve v prostoru. Poznamo središčne momente, ki opisujejo obliko porazdelitve v njenem odstopanju od pričakovane vrednosti (imajo torej »središče«, ki je pričakovana vrednost), ter nesrediščne momente, ki opisujejo porazdelitev nasploh, torej brez katerekoli fiksne (središčne) točke. Momente ponavadi urejamo glede na njihov red: moment prvega reda je pričakovana vrednost (oz. aritmetična sredina, glej naprej); moment drugega reda je varianca (glej naprej); moment tretjega reda je koeficient asimetrije (skewness), moment četrtega reda je koeficient sploščenosti (kurtosis). Drugih momentov na tem mestu ne bomo omenjali. Najpogosteje se uporabljata prva dva, torej aritmetična sredina in varianca.

12)   Aritmetična sredina – je čisto preprosto povprečje vrednosti neke spremenljivke, torej vsota vseh realiziranih vrednosti, deljena s številom vrednosti. Hitro lahko pokažemo, da je v kolikor ponavljamo poskuse do neskončnosti, aritmetična sredina enaka pričakovani vrednosti spremenljivke. V statistiki temu dejstvu pravijo tudi zakon velikih števil (Law of Large Numbers), ki je eno pomembnejših statističnih spoznanj, ki ga uporablja ekonometrija. Drugo podobno in pomembno spoznanje je centralni limitni izrek (Central Limit Theorem). V statistiki poznamo tudi pojma geometrične in harmonične sredine, predvsem pri izračunavanju indeksov, vendar nam na tem mestu to ne bo pomembno.

13)   Varianca – lahko jo opišemo na več načinov. Najprej, je enaka drugemu središčnemu momentu, v skladu s prej povedanim. Pove nam, kakšna je pričakovana vrednost kvadrata odklonov od pričakovane vrednosti spremenljivke (bodite pozorni, da smo tu uporabili pričakovano vrednost dvakrat, prvič (od zadaj) pri izračunu aritmetične sredine, torej pričakovane vrednosti spremenljivke, ter drugič pri izračunu pričakovane vrednosti (torej ponovno aritmetične sredine), vendar tokrat drugačne spremenljivke – kvadrata odklonov od prvotne aritmetične sredine). Varianca je torej mera za razpršenost neke spremenljivke, podobno kot standardni odklon, ki ga predstavljamo v naslednji točki.

14)   Standardni odklon – ker smo veliko povedali že pri varianci, naj bo tu dovolj, da povemo, da gre za koren iz variance (ali drugače rečeno, varianca je kvadrat standardnega odklona). Standardni odklon je mera za odklon vrednosti slučajne spremenljivke od aritmetične sredine. Večji kot je standardni odklon (in večja kot je varianca) bolj razpršene so vrednosti neke spremenljivke.

15)   Mediana – aritmetična sredina nam pove, kakšna je pričakovana vrednost neke spremenljivke. V nasprotju se tem pa nam mediana pove, katera vrednost leži natančno na polovici, torej v sredini vseh vrednosti. Če imamo torej npr. rezultate poskusa takšne: (1,1,2,3,8), je aritmetična sredina enaka 3 (15/5), mediana pa je enaka 2 (saj dve leži na sredini, torej na tretjem mestu med petimi vrednostmi).

16)   Modus – je še tretja mera za »sredinsko« vrednost neke spremenljivke. Modus nam pove, katera vrednost se v rezultatih pojavlja najpogosteje. V zgornjem primeru se najpogosteje (dvakrat) pojavlja vrednost 1, torej je modus te porazdelitve enak 1.

17)   Kvantili – govorjenje o sredinskih vrednostih zaključimo z malce bolj splošnim pojmom, s kvantili. Z njimi izračunamo, kje v porazdelitvi se nahaja posamezna enota v primerjavi z drugimi enotami in njihovimi vrednostmi. Izračun kvantilov je ponavadi malce bolj kompleksen, čeprav še vedno precej preprost. Zelo pogosto so v uporabi 0.5 kvantil, ki je pravzaprav kar enak mediani, saj označuje vrednost, ki je na 50% celotne porazdelitve, torej na sredini razpredelnice. Pogosto uporabljamo tudi kvartile (ki razdelijo porazdelitev v četrtine, poznamo torej 0.25, 0.50 in 0.75 kvartil), decile (ki razdelijo porazdelitev v desetine, torej na 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8 in 0.9 decil) ter centile (ki razdelijo porazdelitev v stotine). V ekonometriji je precej pogosto orodje v zadnjem času t.i. kvantilna regresija, ki jo zanimajo vrednosti parametrov v odvisnosti od lege v porazdelitvi (torej npr. vrednost regresijskega koeficienta v prvem kvartilu).

Toliko, naj bo dovolj za danes. Upam, da je bilo zanimivo, ne preveč težko in pusto, pa tudi z nekaj morda zanimivimi informacijami za tiste, ki to snov že obvladate. Sprejemam seveda feedback, kaj je bilo povedanega v redu in kaj bi lahko bilo bolje oz. drugače. Vsaj zaenkrat se striktno izogibam enačbam, morda se k temu še vrnemo (ker verjetno brez tega ne bo šlo). Naslednjič pa bomo malce podrobneje govorili o preverjanju hipotez (za tiste, ki že malo bolje obvladate, bom nekaj uvodnega povedal tudi o Wald, LR in LM testih, da ne bo preveč dolgčas) in normalni porazdelitvi, torej še o nekaj osnovnih statističnih orodjih, o katerih mora biti govora, preden se podamo zares naprej v »pravo« ekonometrijo. Lep pozdrav.

  • Share/Bookmark


5 komentarjev »

  1.   nevenka — 5.02.2012 @ 08:45 nevenka

    27 držav je pravzaprav majhen vzorec in petnajst je še manjši.
    Misliš, da se iz tega lahko sklepa na zakonitost?
    Predvsem zaradi pojava skrajnih vrednosti, ki lahko kvarijo izračunavanje aritmetičnih sredin, razlike med državami so zelo velike.
    Zakaj ti izbira geometrijske sredine ni boljša, predvsem, če bi računal z deleži in razmerji,(npr.: dohodek na prebivalca se mi že zdi taka vrednost)?
    Veš, že kar dolgo je, kar sem se ukvarjala s statistiko, pa sem že malo pozabila – v moji praksi so dela vse bolj vse bolj “fahidiotska”, to je preveč specializirana in na koncu izgubiš strokovno širino in tudi sposobno razmišljanja se poleni.

  2.   Brigita — 5.02.2012 @ 14:56

    Veselim se vaših nadaljnjih člankov s področja ekonometrije. V bližnji prihodnosti me namreč čaka izpit iz tega predmeta in kakršnekoli razlage mi zelo ustrezajo.
    Zavidam vam in vsem tistim, ki obvladujejo znanje ekonometrije, meni namreč povzroča kar velike preglavice.

  3.   andee — 5.02.2012 @ 19:43 andee

    @Brigita:
    hvala, upam, da se torej beremo. Če bo karkoli, kar bom sam znal razložiti, kar napiši.

    @Nevenka:
    razmišljaš v zelo pravo smer. V primeru premajhnega vzorca so seveda problemi s predpostavljeno porazdelitvijo, nikjer ne piše, da je ta normalna (z normalno porazdeljenimi “osamelci” oz. odstopanji), in da torej lahko opravljamo večino testov, ki so pisani za normalno porazdelitev. V primeru “kulturnega ministrstva” je res vzorec majhen, navadno teorija govori, da je meja, ko lahko še predpostavimo normalno porazdelitev, trideset. Glede tega primera je problem predvsem v tem, ker nismo vzeli vzorec, pač pa populacijo (torej vse obstoječe države v EU, z izjemo Luksemburga in Cipra, ki nimata profila v Kompendiju kulturnih politik), zato ne moremo povečati natančnosti ocen z večanjem vzorca. Pri izračunu biserialne korelacije, ki sem jo naredil v dodatku k tistemu zapisu, naj to tudi ne bi bilo problematično, vsaj tako tukaj: http://www.apexdissertations.com/articles/point-biserial_correlation.html. Sem pa po pregledu literature napravil še nekaj, čemur se pravi Fisherjeva transformacija, in pomeni prenos izračuna koeficienta korelacije v direktno računanje s standardno normalno porazdelitvijo (torej s takoimenovanimi z-vrednostmi). S tem torej našo porazdelitev “pretvorimo” v ustrezno normalno porazdelitev, s katero znamo računati. Izračun Fisherjeve transformacije sem napravil sledeč temule tekstu: http://www.miislita.com/information-retrieval-tutorial/a-tutorial-on-correlation-coefficients.pdf. Rezultati se niso kaj dosti spremenili: Fisherjev koeficient za hipotezo 1 je 0.1468465 (biserialni je bil 0.14580), za hipotezo 2 pa -0.1524604 (prej je bil -0.15129). Pri 90% stopnji gotovosti (kar je res še minimalna dopustna meja) sta intervala zaupanja (-0.1889377, 0.4826307) za hipotezo 1 in (-0.4882446, 0.1833238) za hipotezo 2. Ničelne hipoteze o nekorelaciji torej ponovno ne moremo zavrniti. V nobenem primeru torej ne dobimo primerne velikosti korelacije, da bi lahko trdili, da je katerakoli od obeh trditev točna.

    Glede geometrijske in aritmetične sredine pa mislim, da malo streljaš mimo. Pri računanju z deleži (npr. v dveh skupinah) je sicer potrebno spremeniti nekatere izračune, vendar pričakovano vrednost še vedno najbolje aproksimira aritmetična sredina, morda dopolnjena s kakim drugačnim koeficientom. Nikakor pa ne moremo za to uporabiti geometrične sredine, ki pride v poštev predvsem, ko imamo opravka s produkti in ne vsotami. Če bi torej želeli izračunati sredino (povprečno vrednost enote) produkta desetih enot, bi morali koreniti z deset. Vendar pa imamo vsaj pri spremenljivkah, ki so blizu normalni porazdelitvi opravka zgolj s povprečnimi vrednostmi v smislu aritmetične sredine. Sam priznam, da razen uporabe pri izračunu povprečnih indeksov še nisem zasledil kake posebne uporabnosti geometrične in harmonične sredine v (vsaj osnovnih) ekonometričnih postopkih. V načelu bi dejal, da lahko morda to pride prav pri izračunu funkcije največjega verjetja, vendar k temu še pridemo.

  4.   nevenka — 6.02.2012 @ 06:38 nevenka

    Oh, saj ne streljam, samo sprašujem. Nekje sem prebrala, da se geometrijsko sredino uporablja takrat, ko gre za velike razlike med vrednostmi npr., če je največja vsaj trikrat večja od najmanjše, poleg tega, kar si omenil. Sama sem jo pri študiju res uporabljala samo pri indeksih, v praksi pa v kvečjem ponderirano aritmetično sredino (WACC) sedaj sem sto let stran od statistike, pa te neumno vprašanje ne sme jeziti. Če človek, npr. dvajset let in več nima opravka s tem, res pozabi. Mi je pa vseno zanimivo brati, kar pišeš, čeprav vsega ne razumem, ker presega moje znanje.

  5.   andee — 6.02.2012 @ 16:02 andee

    @Nevenka:
    ni nobenega problema. Glede geometrične sredine imaš morda delno prav, vendar bomo sami vsaj zaenkrat govorili o podatkih, ki sledijo normalni porazdelitvi, tako da velja centralni limitni izrek in aritmetična sredina dobro aproksimira pričakovano vrednost spremenljivke. Druge primere porazdelitev bomo zaenkrat zgolj nakazali, vendar se bom potrudil v naslednjem zapisu spregovoriti tudi o tem in tudi o tem, v katerih primerih je morda smiselna uporaba geometrične sredine.

RSS vir za komentarje na objavo. Trackback URI

Komentiraj

Komentiranje iz tujine je omogočeno zgolj prijavljenim uporabnikom !

Blog V krizi smisla tiči misel | Zagotavlja SiOL | O Sistemu |