V krizi smisla tiči misel






         

31.08.2014

Indeks stanja na področju kulture za 33 evropskih držav (v letu 2009)

Prispevek na zgornjo temo, ki sem ga obljubljal že dlje časa, bo v prvi končni obliki predstavljen na bližajočih se konferencah raziskovalcev kulturne politike ICCPR v nemškem Hildesheimu in na 14. konferenci združenja EBES v španski Barceloni.

V nastajajočem prispevku, ki smo ga s soavtorjema Miroslavom Verbičem in Vesno Čopič naslovili »Index construction and multivariate analysis in high-dimensional settings: application to a cultural policy index« smo na podatkih »knjižice« Cultural Statistics Pocketbook 2011 (ki uporablja podatke za leto 2009) in drugih podatkov Eurostata konstruirali indeks, ki smo mu prvotno dejali indeks kulturne politike, morda pa bi ga bilo primerneje imenovati indeks stanja na področju kulture (torej dejansko Cultural Index).

Metodološki postopek izračuna indeksa je bil precej statistično kompleksen. Glavni problem, s katerim smo se srečali, je visokodimenzionalna narava izračuna indeksa, saj smo uporabili nabor 236 skupnih spremenljivk za 33 evropskih držav (28 držav EU ter Islandija, Norveška, Švica, Turčija in Makedonija). Visokodimenzionalnost v statistiki označuje situacije, ko imamo opravka s precej več spremenljivkami kot opazovanji in ponavadi terja statistične korekcije za pravilne izračune parametrov in statistik. Po domače povedano: predstavljajte si opravljati faktorsko analizo, ki ponavadi zahteva razmerje med spremenljivkami in opazovanji vsaj 1:10, s skoraj obratnim razmerjem, torej malo manj kot 10:1… Logična posledica je na eni strani pristranost v parametrih in na drugi strani neobstoj osnovnih statistik, kot je pri faktorski analizi Kaiser-Meyer-Olkinova statistika in druge.

Ob tem gre dodati, da se s tovrstnimi situacijami srečujete pri izračunih različnih indeksov na katerem koli področju družbe (npr. kmetijstva, zdravstva, “aktivnega staranja”, itd.), ko imate podatke za vrsto spremenljivk na ravni npr. 28-tih EU držav, torej imate ponovno opravka s precej več spremenljivkami kot opazovanji. V tem verjetno leži precejšnja uporabnost spoznanj članka tudi za druga področja ekonomije in družbe.

Literatura je sicer glede reševanja tega problema še precej skopa (visokodimenzionalna statistika je predmet intenzivnejših analiz šele v zadnjem desetletju), osnovni nasvet pa je uporaba bootstrapa pri izračunu parametrov in statistik. Ker ta pojem uporabljam zadnje čase kar pogosto: bootstrap je simulacijska metoda, ki je v zadnjih desetletjih postala temeljna metoda korigiranja pristranosti v izračunih, ki so posledica problemov z vzorcem in netočnih (ali celo neobstoječih) standardnih napak. Avtor metode je ameriški statistik Bradley Efron, po besedah mojih preteklih bloomingtonskih predavateljev (in tudi po mojem prepričanju) bi si Efron za to že zdavnaj zaslužil Nobelovo nagrado, vendar je podobno kot še nekateri (npr. Art Owen za metodo empiričnega verjetja; Rob Tibshirani za cenilko LASSO) ne bo prejel, ker ni ekonomist oz. ni prav blizu krogom, ki to nagrado podeljujejo.

Naših 236 spremenljivk je bilo sestavljenih iz 12 sklopov:
1) Splošni razvoj: BDP, raven tveganja revščine, raven poseljenosti države, raven izobraženosti v dveh osnovnih starostnih skupinah, delež delovno aktivnih prebivalcev, raven zaposlenosti, raven dolgoročne brezposelnosti;
2) Kulturna dediščina: število objektov kulturne dediščine, uvrščenih v listo UNESCO-ve dediščine, v neki državi;
3) Izobraževanje v kulturi: delež študentov umetnosti, humanistike, novinarstva in arhitekture (ločeno za vsa štiri področja); raven znanja tujih jezikov; delež študentov, ki gredo v tuje države; delež tujih študentov v domači državi;
4) Zaposlovanje v kulturi: delež zaposlenih v različnih panogah kulture;
5) Deleži kulturniških poklicev v skupni populaciji;
6) Deleži različnih skupin prebivalstva v kulturi: ženske, zaposleni za polovični čas, samozaposleni, visoko izobraženi, itd.;
7) Kulturne industrije: različni podatki o dodani vrednosti, prihodkih, zaposlenih itd. v podjetjih v kulturi;
8 ) Zunanja trgovina: številni podatki o ravni menjave različnih kulturnih dobrin (kultura skupno, umetnost, antikvitete, CDji, DVDji, časopisi, knjige) neke države s tujino;
9) Participacija in obisk kulturnih dogodkov: različni podatki o obiskovanju in sodelovanju v kulturnih dogodkih;
10) Internetne navade: vrsta podatkov o uporabi interneta, povezani s kulturo;
11) Zasebni izdatki za kulturo: vrsta podatkov o različnih oblikah zasebnih izdatkov za kulturo;
12) Javno financiranje kulture: podatki o višini skupnega proračuna (na splošni, državni in lokalni ravni) ter o višini proračuna za kulturo (ponovno na splošni, državni in lokalni ravni).

Naš metodološki postopek je bil torej sestavljen iz več stopenj:

1) Najprej smo se morali soočiti s tem, da veliko podatkov kulturne statistike pri več državah manjka. Resda (z izjemo podatkov o javnem financiranju) ne gre za manjkanja več kot npr. 20% vrednosti posamezne spremenljivke, vseeno pa je bil to resen začetni problem. Uporabili smo multiplo imputacijo po metodi »z uporabo pogojev« (angl. Fully Conditional Specification Method oz. FCS metoda, avtorjev van Buurena, Branda, Groothuis-Oudshoorna in Rubina, ki je zelo pogosto uporabljena metoda multiple imputacije v zadnjem času in je podrobneje opisana tule; metodo podpira tudi statistični paket Stata v modulu MICE oz. v ukazu mi impute chained). Pri metodi se manjkajoče spremenljivke po iteracijskem postopku sproti dopolnjujejo in hkratno tudi vplivajo na vrednosti druga druge. Na tak način lahko upoštevamo njihove vzajemne povezave, ker je npr. lokalno financiranje kulture odvisno tudi celotne ravni javnega financiranja kulture, BDP, stopnje zaposlenosti v kulturi itd., kljub temu, da so slednje spremenljivke prav tako nepopolne oz. imajo manjkajoče vrednosti. Pri vseh spremenljivkah smo kot določilne dejavnike vključevali dejavnike splošnega razvoja (BDP, raven revščine, raven izobraženosti, gostoto poselitve, zaposlitvene spremenljivke, itd.), ker pa je metoda FCS občutljiva na vrstni red spremenljivk, smo pri imputacijah na prvo mesto vedno postavljali kulturne dejavnike (raven zaposlenosti v kulturi, raven izobraževanja v kulturi, število objektov kulturne dediščine, itd.).

2) V drugi fazi smo vse podatke standardizirali z uporabo Statinega ukaza egen std, s čimer so bili vsi podatki merjeni po isti merski lestvici in pripravljeni za uporabo.

3) Nato smo pognali osnovno faktorsko analizo z uporabo vseh 236 spremenljivk in ocenili število faktorjev glede na velikost lastnih vrednosti in scree prikaz, v našem primeru je bilo jasno videti, da število faktorjev ne presega osem, najverjetneje pa zadoščajo štirje glavni faktorji.

4) Z uporabo prirejene bootstrapske rutine, ki sem jo zapisal tukaj, smo najprej ocenili faktorske uteži skupnega modela za osem faktorjev. Rezultati so prikazani v spodnji tabeli, zapisani so samo koeficienti oz. uteži, ki so bile značilne vsaj pri statistični stopnji značilnosti 0.10. Na tej osnovi smo poimenovali faktorje, vidno je bilo tudi, da so smiselno zastopani le trije faktorji. Faktorje, ki predstavljajo glavne dimenzije preučevanega pojava, torej sistemskega stanja na področju kulture smo poimenovali takole – prvi faktor: »splošni poslovni vidiki kulture« (zaposlenost v kulturi, zunanja trgovina s poudarkom za izvozu, kulturne industrije, zasebni izdatki za kulturo; grobi podatki o javnem financiranju kulture); drugi faktor: »participacija v kulturi« (deleži različnih skupin v kulturi in delež kulturniških poklicev v skupni populaciji; participacija in obiskovanje kulture; internetne navade; nekateri zasebni izdatki za kulturo); tretji faktor: »domača in javna vlaganja v kulturo« (BDP na prebivalca; javni izdatki za kulturo na prebivalca; nekateri dejavniki zunanje trgovine, predvsem uvoz kulturnih dobrin; internetne navade, bolj striktno povezane s kulturno vsebino; nekateri zasebni izdatki za kulturo).

5) S ponovno uporabo podobne bootstrapske rutine smo ocenili tudi regresijske koeficiente (scores) za izračun omenjenih faktorjev in jih nato tudi dejansko izračunali. Iz tako izračunanih faktorjev, ki so seveda po definiciji standardizirane normalne spremenljivke, smo izračunali indeks(e) tako, da smo vrednosti, ki se nahaja 3 standardne odklone nad povprečjem (ki je seveda v tem primeru enako nič, torej je ta vrednost enaka 3) pripisali vrednost 100, vrednosti 3 standardne odklone pod povprečjem (oz. -3) pa pripisali vrednost 0. Ostale vrednosti vseh treh indeksov smo razmernostno izračunali na tako zamejeni lestvici. Rezultati izračunanih indeksov so spodaj.

Vrednosti prvega indeksa vsaj v grobem ustrezajo pričakovanjem: daleč najvišji indeks ima Velika Britanija, kar gre lahko na račun njihove jezikovne hegemonije in s tem presežkov v zunanji trgovini s kulturnimi izdelki. Druga na lestvici je Francija, ki je tam tudi zaradi zelo dobre vrednosti zunanje trgovine z umetniškimi izdelki (arts&antiques), kjer sta z Veliko Britanijo daleč spredaj. Prednjačijo še tri države jezikovno dominantnih prostorov: Nemčija, Španija in Italija. Hrvaška s svojim visokim mestom preseneča, morda je to posledica imputiranja, ker so bile pri njej vse vrednosti zunanje trgovine v osnovi manjkajoče. Večino zadnjih mest zasedejo manjše države, med njimi pričakovano najdemo tudi Slovenijo, ki ima tudi po izsledkih domačih študij probleme z menjavo kulturnih dobrin s tujino.

Vrednosti drugega indeksa potrdijo, da je »nordijski kulturni model«, o katerem piše denimo Peter Duelund, tisti, ki najmočneje stavi na participacijo v kulturi. Na prvih mestih po vrednostih tega indeksa se tako nahajajo prav vse skandinavske države ter države baltskega kroga. Na zadnjih mestih so države jugovzhodne ter vzhodne Evrope. Slovenijo najdemo glede tega na repu zgornje polovice lestvice.

Vrednosti tretjega indeksa, da so pričakovano na vrhu države z najvišjim BDP, prednjači Luksemburg, ki tudi sicer daleč prednjači pri ravni javnih izdatkov za kulturo, kar je verjetno tudi posledica njegove majhnosti. Med prvo peterico najdemo še Avstrijo, Irsko, Norveško in Belgijo. Slovenija se sicer po ravni javnih izdatkov uvrsti v zgornji del lestvice, vendar jo nižje uvrščajo vrednosti drugih spremenljivk, predvsem pri uvozu kulturnih dobrin, kjer prav tako nismo dobro uvrščeni.

6) Naslednji metodološki korak, o katerem ne bom posebej poročal tukaj, je predstavljala teoretska potrditev modela oz. t.i. potrjevalna faktorska analiza (z uporabo Cronbahove alfe in testiranja prileganja modelov s pomočjo običajnih statistik, ki se uporabljajo pri analizi modelov strukturnih enačb). Rezultati so potrdili, da je najbolj sprejemljiv model s tremi faktorji, ki so podindeksi za latentno opazovan konstrukt stanja na področju kulture.

7) Zadnji, morda najbolj zanimiv metodološki korak je predstavljala clustering analiza oz. analiza skupinjenja. Napravili smo osnovno analizo po hierarhični metodi z dopolnitvijo nehierarhične metode K-means. Analizo smo napravili po vrednostih treh faktorjev in po uvrstitvah na pripadajočih treh lestvicah. Vrednosti statistik (statistika Calinski-Harabasz in razmerje Duda-Hart) so pokazale na šest grobih skupin držav. Spodnji dendrogram pokaže potek združevanja in skupine držav po hiearhični metodi za vrednosti faktorjev.

Opazne so naslednje skupine držav:
1) Velike zahodne države: Velika Britanija, Francija in Nemčija;
2) Model manjših, participativnih držav: Litva, Latvija, Estonija, Slovenija, Nizozemska, Švica;
3) Nordijski model: Norveška, Islandija, Švedska, Finska in Danska;
4) Manjše, liberalne države: Luksemburg, Avstrija, Irska;
5) Vzhodno-evropski model: Madžarska, Češka, Poljska, Slovaška, Bolgarija, z dodatkom Portugalske;
6) Južno in jugovzhodno evropski model: Makedonija, Turčija, Romunija, Hrvaška, Italija, Španija, Malta, Grčija, Ciper, z dodatkom Belgije.

Uporaba K-means metode je edine spremembe povzročila v premešanju zadnjih dveh skupin, izmed katerih se je oblikovala skupina jugovzhodnih držav: Grčija, Turčija, Romunija in Makedonija. Vse preostale države (Madžarska, Češka, Poljska, Slovaška, Bolgarija, Hrvaška, Portugalska, Italija, Španija, Ciper, Malta in Belgija) so uvrščene skupaj, z izjemo Belgije, ki pa izpade že pri naslednji analizi, bi jih lahko poimenovali države Vzhodne Evrope in Mediterana.

V spodnjem grafu pa je prikazano še skupinjenje po rangih, torej uvrstitvah na lestvicah. Iz njega je prav tako vidnih šest osnovnih skupin držav:
1) Baltsko-srednjeevropski model: Litva, Latvija, Estonija, Slovenija in Madžarska;
2) Mediteransko-jugovzhodno evropski model: Hrvaška, Italija, Turčija, Makedonija, Romunija, Malta in Grčija;
3) Vzhodno-evropski model: Poljska, Češka, Portugalska, Slovaška in Bolgarija;
4) Model majhnih, liberalnih držav: Luksemburg, Ciper in Irska, v nekaterih modeliranjih k temu modelu gravitira tudi Slovenija;
5) Nordijski model: Islandija, Finska, Norveška, Švedska, Danska, z dodatkom Švice;
6) Zahodni model: Nizozemska, Belgija, Velika Britanija, Francija, Španija, Nemčija in Avstrija.

Tako, to je bilo storjenega doslej. Kaj so glavne ugotovitve, kje glavne omejitve analize in kje bo pot nadaljnjega dela?

Vse skupaj bi sam strnil v sledeče štiri točke, glede na glavne ugotovitve:

1) Izmed zbranih spremenljivk na področju stanja kulture, katerih evidenco vodi Eurostat, smo uspeli prepoznati tri glavne dimenzije, ki smo jih poimenovali: a) »splošni poslovni vidiki kulture« (zaposlenost v kulturi; zunanja trgovina s poudarkom za izvozu; kulturne industrije; zasebni izdatki za kulturo; grobi podatki o javnem financiranju kulture); b) »participacija v kulturi« (participacija in obiskovanje kulture; internetne navade; deleži različnih skupin v kulturi in delež kulturniških poklicev v skupni populaciji; nekateri zasebni izdatki za kulturo); c) »domača in javna vlaganja v kulturo« (BDP na prebivalca; javni izdatki za kulturo na prebivalca; uvoz kulturnih dobrin na prebivalca; internetne navade, bolj striktno povezane s kulturno vsebino; nekateri zasebni izdatki za kulturo). Vsaki dimenziji smo izračunali pripadajoči indeks in razložili položaje držav na lestvicah. Tukaj seveda ostaja še nekaj nejasnosti, ki jih bo odpravila nadaljnja analiza pred objavo.

2) Analiza skupinjenja je razbrala šest osnovnih skupin držav:
- Baltsko-srednjeevropski model: Litva, Latvija, Estonija, Slovenija in Madžarska;
- Mediteransko-jugovzhodno evropski model: Hrvaška, Italija, Turčija, Makedonija, Romunija, Malta in Grčija (v nekaterih modeliranjih se kaže obstoj ločenega jugovzhodnega modela s štirimi članicami: Turčijo, Grčijo, Makedonijo in Romunijo);
- Vzhodno-evropski model: Poljska, Češka, Slovaška, Bolgarija, s Portugalsko nekje med tem in predhodnim modelom;
- Model majhnih, liberalneje usmerjenih in kulturi relativno naklonjenih držav: Luksemburg, Ciper in Irska, v nekaterih modeliranjih (ki jih tu nismo prikazali) k temu modelu gravitira tudi Slovenija;
- Nordijski model: Islandija, Finska, Norveška, Švedska, Danska, v nekaterih modeliranjih z dodatkom Švice;
- Zahodni model: Nizozemska, Belgija, Velika Britanija, Francija, Španija, Nemčija in Avstrija.
V grobem pa grafi potrdijo tudi tezo, postavljeno v prispevku Čopič, Inkei, Kangas in Srakar (2013), da lahko evropske države glede na empirične podatke stanja v kulturi ločimo v dve večji skupini: Zahodno-Evropske; in Vzhodno-Evropske in Mediteranske države. Te ugotovitve predstavljajo pomemben korak v empirični analizi kulturne politike in pri analizi in razlikovanju modelov kulturne politike in terjajo nadaljnjo obravnavo in analizo (nekaj je bo dopolnjene pred objavo oz. predstavitvami člankov). Med drugim ponujajo tudi osnovo za izračun »razdalj« med državami glede posameznih elementov stanja v kulturi, kar bi bila dobra tema za enega (ali več) nadaljnjih prispevkov oz. za nadaljnjo smer raziskovanja.

3) Nujni napotek za področje kulturne statistike, ki sledi iz naše analize: v sedanjem času je prisotnega bistveno preveč ukvarjanja z izborom in merjenjem samih indikatorjev, lahko bi celo dejali, da je celotno sedanje področje kulturne statistike usmerjeno zgolj v to tematiko. Naša analiza oz. kar bo iz nje še nastalo, je pokazala, da je v tem trenutku na voljo že dovolj statističnih indikatorjev, da pa v veliki meri primanjkuje resnejših analiz oz. uporab podatkov. Nasvet področju kulturne statistike na ravni EU torej je, da se veliko močneje usmerja v uporabo podatkov, saj bo šele slednje pokazalo, kaj je možno storiti s sedanjimi podatki in nakazalo tudi, kje so resnično nujni koraki pri nadgradnji sedanjega sistema kulturne statistike na ravni EU. Veliko več samega »mesa« torej in veliko manj ukvarjanja zgolj s prenovo okostja, ki ga je sedaj preprosto preveč in postaja bolj samo sebi namen, kar je pokazalo tudi zimsko srečanje avtorjev Kompendija evropskih kulturnih politik in trendov, kjer je skupina za kulturno statistiko ostajala zgolj pri ugotovitvah, da je vsa kulturna statistika zanič, da so podatki manjkajoči in napačni itd. Naša analiza torej jasno pokaže, da mora kulturna statistika nujno preiti k spodbujanju uporabe in (zaradi mene tudi kritične) analize sedanjih podatkov in manj energije usmerjati zgolj v razmišljanja o boljšem ogrodju podatkov.

4) Zadnjič, in morda najpomembneje: metodološka zgradba naše analize je pokazala tudi pot, po kateri je mogoča uporaba visokodimenzionalnih baz podatkov pri izgradnji tovrstnih indeksov na vseh področjih gospodarstva, javnega sektorja in družbe nasploh. Ker se tovrstni problemi lahko hitro pojavijo, kar smo omenjali že v začetku zapisa, ima lahko naša analiza širše aplikacije in s tem resnično precejšnjo uporabnost.

  • Share/Bookmark

22.08.2014

Stata rutina – bootstrapiranje elementov faktorske analize

Ena prvih resnejših lastnih Stata rutin, s katero dobite bootstrapirane parametre (uteži) in statistike (delež pojasnjene variance) faktorske analize (osnova za programček je bila tale spletna stran, kjer pa program ne dela).

Ker, kolikor vem, Stata ne dovoljuje bootstrapiranja vektorjev in matrik, vam spodnja rutina pride prav tudi kadarkoli potrebujete bootstrapirati posamezne koeficiente v matrikah ali vektorjih pri katerikoli statistični ali ekonometrični analizi. Ker še nisem prav hud ekspert za programiranje v Stati, so še mnogi elementi “very lame”, gre za faktorsko analizo 73 spremenljivk po metodi principal components factors, iz katerih izločimo tri osnovne faktorje in delež pojasnjene variance (slednjega Stata ne shranjuje direktno, zato je posebej izračunan kot povprečje komunalitet). Faktorji so bili rotirani po metodi varimax s Kaiserjevo normalizacijo.

Ker je šlo v osnovi za visokodimenzionalno podatkovno bazo, smo rezultate faktorske analize morali bootstrapirati, da smo dobili konsistentne ocene parametrov v analizi (glej npr. Song & Hart 2010).

// main program begins ——————————————-
// first, get the observed point estimates:
factor std_enav1 std_enav2 std_enav3 std_enav8 std_enav11 std_enav13 std_dvev2 std_triv1 std_triv2 ///
std_triv3 std_triv4 std_triv5 std_triv6 std_triv7 std_stiriv1 std_stiriv3 std_stiriv5 ///
std_stiriv7 std_stiriv9 std_stiriv11 std_petv2 std_sestv2 std_sestv5 std_sestv8 std_sestv11 ///
std_sestv17 std_sedemv3 std_sedemv5 std_sedemv7 std_devetv1 std_devetv4 std_devetv5 ///
std_devetv6 std_devetv7 std_desetv1 std_desetv2 std_desetv3 std_desetv4 std_desetv5 ///
std_desetv6 std_desetv7 std_desetv8 std_desetv9 std_desetv10 std_desetv11 std_desetv12 ///
std_desetv13 std_desetv14 std_desetv15 std_desetv16 std_desetv17 std_desetv18 std_enajstv3 ///
std_enajstv5 std_enajstv7 std_enajstv9 std_enajstv11 std_enajstv13 std_enajstv15 ///
std_enajstv17 std_enajstv19 std_enajstv21 std_enajstv23 std_enajstv25 std_enajstv27 ///
std_enajstv29 std_enajstv31 std_gengovpc std_centgovpc std_locgovpc std_gencultpc ///
std_centcultpc std_loccultpc, pcf factors(3) // here there are 3 factors and 73 variables
rotate, horst varimax
matrix obsload=e(r_L)
matrix obspsi=e(Psi)
forvalues i=1/3 {
matrix obsload`i’=obsload[1..73,`i'] // break the loadings matrix up
}
scalar obsexp=(obspsi[1,1]+obspsi[1,2]+obspsi[1,3]+obspsi[1,4]+obspsi[1,5]+obspsi[1,6]+obspsi[1,7] ///
+obspsi[1,8]+obspsi[1,9]+obspsi[1,10]+obspsi[1,11]+obspsi[1,12]+obspsi[1,13]+obspsi[1,14] ///
+obspsi[1,15]+obspsi[1,16]+obspsi[1,17]+obspsi[1,18]+obspsi[1,19]+obspsi[1,20]+obspsi[1,21] ///
+obspsi[1,22]+obspsi[1,23]+obspsi[1,24]+obspsi[1,25]+obspsi[1,26]+obspsi[1,27]+obspsi[1,28] ///
+obspsi[1,29]+obspsi[1,30]+obspsi[1,31]+obspsi[1,32]+obspsi[1,33]+obspsi[1,34]+obspsi[1,35] ///
+obspsi[1,36]+obspsi[1,37]+obspsi[1,38]+obspsi[1,39]+obspsi[1,40]+obspsi[1,41]+obspsi[1,42] ///
+obspsi[1,43]+obspsi[1,44]+obspsi[1,45]+obspsi[1,46]+obspsi[1,47]+obspsi[1,48]+obspsi[1,49] ///
+obspsi[1,50]+obspsi[1,51]+obspsi[1,52]+obspsi[1,53]+obspsi[1,54]+obspsi[1,55]+obspsi[1,56] ///
+obspsi[1,57]+obspsi[1,58]+obspsi[1,59]+obspsi[1,60]+obspsi[1,61]+obspsi[1,62]+obspsi[1,63] ///
+obspsi[1,64]+obspsi[1,65]+obspsi[1,66]+obspsi[1,67]+obspsi[1,68]+obspsi[1,69]+obspsi[1,70] ///
+obspsi[1,71]+obspsi[1,72]+obspsi[1,73])/73 // calculating the observed explained variance statistic
matrix obs=(obsload1 \ obsload2 \ obsload3 \ obsexp) // put it back together
matrix obst=obs’
// then carry on with the program…
// first part ends ——————————————–

// and here comes the program…
capture: program drop myboot
program define myboot, rclass
preserve
bsample
factor std_enav1 std_enav2 std_enav3 std_enav8 std_enav11 std_enav13 std_dvev2 std_triv1 std_triv2 ///
std_triv3 std_triv4 std_triv5 std_triv6 std_triv7 std_stiriv1 std_stiriv3 std_stiriv5 ///
std_stiriv7 std_stiriv9 std_stiriv11 std_petv2 std_sestv2 std_sestv5 std_sestv8 std_sestv11 ///
std_sestv17 std_sedemv3 std_sedemv5 std_sedemv7 std_devetv1 std_devetv4 std_devetv5 ///
std_devetv6 std_devetv7 std_desetv1 std_desetv2 std_desetv3 std_desetv4 std_desetv5 ///
std_desetv6 std_desetv7 std_desetv8 std_desetv9 std_desetv10 std_desetv11 std_desetv12 ///
std_desetv13 std_desetv14 std_desetv15 std_desetv16 std_desetv17 std_desetv18 std_enajstv3 ///
std_enajstv5 std_enajstv7 std_enajstv9 std_enajstv11 std_enajstv13 std_enajstv15 ///
std_enajstv17 std_enajstv19 std_enajstv21 std_enajstv23 std_enajstv25 std_enajstv27 ///
std_enajstv29 std_enajstv31 std_gengovpc std_centgovpc std_locgovpc std_gencultpc ///
std_centcultpc std_loccultpc, pcf factors(3)
rotate, horst varimax
matrix bootload=e(r_L)
matrix psi=e(Psi)
forvalues i=1/73 {
scalar bootloada`i’=bootload[`i',1]
scalar bootloadb`i’=bootload[`i',2]
scalar bootloadc`i’=bootload[`i',3]
}
scalar bootexp=(psi[1,1]+psi[1,2]+psi[1,3]+psi[1,4]+psi[1,5]+psi[1,6]+psi[1,7]+psi[1,8]+psi[1,9] ///
+psi[1,10]+psi[1,11]+psi[1,12]+psi[1,13]+psi[1,14]+psi[1,15]+psi[1,16]+psi[1,17] ///
+psi[1,18]+psi[1,19]+psi[1,20]+psi[1,21]+psi[1,22]+psi[1,23]+psi[1,24]+psi[1,25] ///
+psi[1,26]+psi[1,27]+psi[1,28]+psi[1,29]+psi[1,30]+psi[1,31]+psi[1,32]+psi[1,33] ///
+psi[1,34]+psi[1,35]+psi[1,36]+psi[1,37]+psi[1,38]+psi[1,39]+psi[1,40]+psi[1,41] ///
+psi[1,42]+psi[1,43]+psi[1,44]+psi[1,45]+psi[1,46]+psi[1,47]+psi[1,48]+psi[1,49] ///
+psi[1,50]+psi[1,51]+psi[1,52]+psi[1,53]+psi[1,54]+psi[1,55]+psi[1,56]+psi[1,57] ///
+psi[1,58]+psi[1,59]+psi[1,60]+psi[1,61]+psi[1,62]+psi[1,63]+psi[1,64]+psi[1,65] ///
+psi[1,66]+psi[1,67]+psi[1,68]+psi[1,69]+psi[1,70]+psi[1,71]+psi[1,72]+psi[1,73])/73
restore
end

// now you use -simulate- to run the -myboot- program, creating one resample each time.
simulate load1a=bootloada1 load2a=bootloada2 load3a=bootloada3 load4a=bootloada4 load5a=bootloada5 ///
load6a=bootloada6 load7a=bootloada7 load8a=bootloada8 load9a=bootloada9 load10a=bootloada10 ///
load11a=bootloada11 load12a=bootloada12 load13a=bootloada13 load14a=bootloada14 ///
load15a=bootloada15 load16a=bootloada16 load17a=bootloada17 load18a=bootloada18 ///
load19a=bootloada19 load20a=bootloada20 load21a=bootloada21 load22a=bootloada22 ///
load23a=bootloada23 load24a=bootloada24 load25a=bootloada25 load26a=bootloada26 ///
load27a=bootloada27 load28a=bootloada28 load29a=bootloada29 load30a=bootloada30 ///
load31a=bootloada31 load32a=bootloada32 load33a=bootloada33 load34a=bootloada34 ///
load35a=bootloada35 load36a=bootloada36 load37a=bootloada37 load38a=bootloada38 ///
load39a=bootloada39 load40a=bootloada40 load41a=bootloada41 load42a=bootloada42 ///
load43a=bootloada43 load44a=bootloada44 load45a=bootloada45 load46a=bootloada46 ///
load47a=bootloada47 load48a=bootloada48 load49a=bootloada49 load50a=bootloada50 ///
load51a=bootloada51 load52a=bootloada52 load53a=bootloada53 load54a=bootloada54 ///
load55a=bootloada55 load56a=bootloada56 load57a=bootloada57 load58a=bootloada58 ///
load59a=bootloada59 load60a=bootloada60 load61a=bootloada61 load62a=bootloada62 ///
load63a=bootloada63 load64a=bootloada64 load65a=bootloada65 load66a=bootloada66 ///
load67a=bootloada67 load68a=bootloada68 load69a=bootloada69 load70a=bootloada70 ///
load71a=bootloada71 load72a=bootloada72 load73a=bootloada73 ///
load1b=bootloadb1 load2b=bootloadb2 load3b=bootloadb3 load4b=bootloadb4 load5b=bootloadb5 ///
load6b=bootloadb6 load7b=bootloadb7 load8b=bootloadb8 load9b=bootloadb9 load10b=bootloadb10 ///
load11b=bootloadb11 load12b=bootloadb12 load13b=bootloadb13 load14b=bootloadb14 ///
load15b=bootloadb15 load16b=bootloadb16 load17b=bootloadb17 load18b=bootloadb18 ///
load19b=bootloadb19 load20b=bootloadb20 load21b=bootloadb21 load22b=bootloadb22 ///
load23b=bootloadb23 load24b=bootloadb24 load25b=bootloadb25 load26b=bootloadb26 ///
load27b=bootloadb27 load28b=bootloadb28 load29b=bootloadb29 load30b=bootloadb30 ///
load31b=bootloadb31 load32b=bootloadb32 load33b=bootloadb33 load34b=bootloadb34 ///
load35b=bootloadb35 load36b=bootloadb36 load37b=bootloadb37 load38b=bootloadb38 ///
load39b=bootloadb39 load40b=bootloadb40 load41b=bootloadb41 load42b=bootloadb42 ///
load43b=bootloadb43 load44b=bootloadb44 load45b=bootloadb45 load46b=bootloadb46 ///
load47b=bootloadb47 load48b=bootloadb48 load49b=bootloadb49 load50b=bootloadb50 ///
load51b=bootloadb51 load52b=bootloadb52 load53b=bootloadb53 load54b=bootloadb54 ///
load55b=bootloadb55 load56b=bootloadb56 load57b=bootloadb57 load58b=bootloadb58 ///
load59b=bootloadb59 load60b=bootloadb60 load61b=bootloadb61 load62b=bootloadb62 ///
load63b=bootloadb63 load64b=bootloadb64 load65b=bootloadb65 load66b=bootloadb66 ///
load67b=bootloadb67 load68b=bootloadb68 load69b=bootloadb69 load70b=bootloadb70 ///
load71b=bootloadb71 load72b=bootloadb72 load73b=bootloadb73 ///
load1c=bootloadc1 load2c=bootloadc2 load3c=bootloadc3 load4c=bootloadc4 load5c=bootloadc5 ///
load6c=bootloadc6 load7c=bootloadc7 load8c=bootloadc8 load9c=bootloadc9 load10c=bootloadc10 ///
load11c=bootloadc11 load12c=bootloadc12 load13c=bootloadc13 load14c=bootloadc14 ///
load15c=bootloadc15 load16c=bootloadc16 load17c=bootloadc17 load18c=bootloadc18 ///
load19c=bootloadc19 load20c=bootloadc20 load21c=bootloadc21 load22c=bootloadc22 ///
load23c=bootloadc23 load24c=bootloadc24 load25c=bootloadc25 load26c=bootloadc26 ///
load27c=bootloadc27 load28c=bootloadc28 load29c=bootloadc29 load30c=bootloadc30 ///
load31c=bootloadc31 load32c=bootloadc32 load33c=bootloadc33 load34c=bootloadc34 ///
load35c=bootloadc35 load36c=bootloadc36 load37c=bootloadc37 load38c=bootloadc38 ///
load39c=bootloadc39 load40c=bootloadc40 load41c=bootloadc41 load42c=bootloadc42 ///
load43c=bootloadc43 load44c=bootloadc44 load45c=bootloadc45 load46c=bootloadc46 ///
load47c=bootloadc47 load48c=bootloadc48 load49c=bootloadc49 load50c=bootloadc50 ///
load51c=bootloadc51 load52c=bootloadc52 load53c=bootloadc53 load54c=bootloadc54 ///
load55c=bootloadc55 load56c=bootloadc56 load57c=bootloadc57 load58c=bootloadc58 ///
load59c=bootloadc59 load60c=bootloadc60 load61c=bootloadc61 load62c=bootloadc62 ///
load63c=bootloadc63 load64c=bootloadc64 load65c=bootloadc65 load66c=bootloadc66 ///
load67c=bootloadc67 load68c=bootloadc68 load69c=bootloadc69 load70c=bootloadc70 ///
load71c=bootloadc71 load72c=bootloadc72 load73c=bootloadc73 ///
explained=bootexp, reps(1000) seed(1234) saving(myboot_loadings.dta, replace): myboot
bstat, stat(obst) n(33) // put the original number of observations into n()
estat bootstrap, all
// main program ends

  • Share/Bookmark

17.08.2014

Še nekaj kratkih

Na hitro:

1) Obsežnejši zapiski princetonskih predavanj o visokodimenzionalni statistiki prof. Ramona van Handela so dostopni tukaj.

2) Mnogi ste se že srečali s programiranjem v prosto dostopnem statističnem paketu R, ki je verjetno ena boljših stvari, ki se je statistikom in ekonometrikom zgodila v zadnjem desetletju in pol. Ker je paket precej svojsko napisan, prav pride vedeti, kako in s katerimi ukazi lahko v njem navigiramo. Več o tem najdete v temle prispevku.

3) Primer uporabe multivariatne analize (metode glavnih komponent in skupinjenja) v R na primeru letalstva pa najdete tukaj.

  • Share/Bookmark

O rudarjenju podatkov

Še ena na temo statistike v visokodimenzionalnih okoljih, dober članek na Vox.Eu Jennifer L. Castle in ekonometrične legende Davida F. Hendryja.

Kratek izsek:
“While ‘fool’s gold’ (iron pyrites) can be found by mining, most mining is a productive activity. Similarly, when properly conducted, so-called ‘data mining’ is no exception –despite many claims to the contrary. Early criticisms, such as the review of Tinbergen (1940) by Friedman (1940) for selecting his equations “because they yield high coefficients of correlation”, and by Lovell (1983) and Denton (1985) of data mining based on choosing ‘best fitting’ regressions, were clearly correct. It is also possible to undertake what Gilbert (1986) called ‘strong data mining’, whereby an investigator tries hundreds of empirical estimations, and reports the one she or he ‘prefers’ – even when such results are contradicted by others that were found. As Leamer (1983) expressed the matter: “The econometric art as it is practiced at the computer terminal involves fitting many, perhaps thousands, of statistical models. One or several that the researcher finds pleasing are selected for reporting purposes”. That an activity can be done badly does not entail that all approaches are bad, as stressed by Hoover and Perez (1999), Campos and Ericsson (1999), and Spanos (2000) – driving with your eyes closed is a bad idea, but most car journeys are safe.”

  • Share/Bookmark

10.08.2014

Ekonometrične novosti – cemmap maj-julij 2014

Pozdravljeni,
v zadnjih mesecih sem nekoliko zanemarjal redne aktivnosti na tem blogu, zato tule nadaljujem s pregledom tega, kar je bilo novega na področju ekonometrije v zadnjih mesecih. V tem zapisu je govora o novostih na spletnem mestu cemmap, enemu osrednjih evropskih prostorov raziskovanja in uporabe naprednih ekonometričnih metod:

Soren Blomquist, Anil Kumar, Che-Yuan Liang, Whitney Newey: Individual Heterogeneity, Nonlinear Budget Sets, and Taxable Income. Pomemben doprinos empiričnemu raziskovanju na polju izračuna elastičnosti, članek k temu doprinaša izračun, ki upošteva heterogenost preferenc, nelinearnosti in napake v merjenju. Članku je dodana aplikacija na podatke za Švedsko in izračun dohodkovne in davčne elastičnosti. Opozarjam še na soavtorja članka Whitneyja Neweyja, ki je eden legendarnih ekonometrikov, njegov prispevek z Danielom McFaddnom iz Handbook of Econometrics iz leta 1994 je še danes na programu večine kurzov napredne ekonometrije.

Federico Bugni, Ivan Canay and Xiaoxia Shi: Inference for functions of partially identified parameters in moment inequality models. Avtorji predstavljajo nov test, ki na osnovi simulacijske metode bootstrap pomaga pri testiranju hipotez, ko so v igri parametri, ki niso popolno identificirani in so vezani na neenakosti momentov (klasičen primer delne identificiranosti, angl. partial identification).

Fabian Dunker, Stefan Hoderlein and Hiroaki Kaido: Nonparametric identification of endogenous and heterogeneous aggregate demand models: complements, bundles and the market level. Še en paper na temo identificiranosti parametrov, tokrat v primeru funkcij povpraševanja (po vzoru že omenjanega modela Berry, Levinsohn & Pakes). Članek predstavlja ogrodje, pod katerim lahko na neparametričen način identificiramo nekatere glavne modele povpraševanja v industrial organisation literaturi.

Pedro Carneiro, Emanuela Galasso and Rita Ginja: Tackling social exclusion: evidence from Chile. Zelo »applied« usmerjen članek, ki uporablja ogrodje regresijskih diskontinuitetnih (prekinjenih) pristopov (angl. regression discontinuity design) pri študiju učinkov čilenskega programa na področju preprečevanja socialne izključenosti. Opozarjam na zelo pomembno temo, ki bi jo morali večkrat uporabljati tudi v slovenski praksi: študij učinkov posameznih političnih ukrepov na osnovi treatment effects analize.

Victor Chernozhukov, Wooyoung Kim, Sokbae Lee and Adam Rosen: Implementing intersection bounds in Stata. Za tiste, ki programirajo v Stati zelo dobrodošel prispevek, ki predstavlja nove rutine, ki omogočajo izračun delno identificiranih parametrov, posebej v primerih, ko imate znano zelo široko zgornjo in spodnjo mejo parametra, potrebujete pa natančnejše intervale zaupanja, točkovno oceno ali testiranje hipotez o parametru ali na njegovi osnovi.

Sokbae Lee, Myung Hwan Seo and Youngki Shin: The lasso for high-dimensional regression with a possible change-point. Modeli visokodimenzionalnih podatkov postajajo vse bolj pomembni v sodobni ekonometriji (v zadnjem prispevku o kulturnopolitičnem indeksu jih uporabljam tudi sam). Članek prinaša konstrukcijo LASSO cenilke (ene najpogostejših v tovrstnih situacijah) v primeru, ko je v eni od spremenljivk prisoten strukturni prelom.

Le-Yu Chen, Sokbae Lee and Myung Jae Sung: Maximum score estimation with nonparametrically generated regressors. Cenilka maksimalnega zadetka (maximum score estimator) je polparametrična cenilka, ki jo je uvedel legendarni ekonometrik in statistik Charles Manski v prispevku iz leta 1975. Avtorji članka raziskujejo izračun takšne cenilke v dvostopenjskem modelu, ki dovoljuje tudi neparametrično ocenjene parametre.

Daniel Ackerberg, Xiaohong Chen and Jinyong Hahn: Asymptotic efficiency of semiparametric two-step GMM. Avtorji preučujejo asimptotske lastnosti dvostopenjske in optimalno utežene GMM cenilke, kjer del izračunov (prva stopnja) temelji na neparametričnih ocenah parametrov, in pokažejo, da takšna cenilka dosega semiparametrično mejo učinkovitosti.

Seok Young Hong, Oliver Linton and Hui Jun Zhang: Multivariate variance ratio statistics. Članek se podaja na področje izračuna razmerij varianc, ki je pomembno v sodobni finančni ekonometriji, predvsem pri preverjanju Famove hipoteze učinkovitih trgov. Medtem, ko so dosedanji izračuni večinoma temeljili na univariatnih statistikah, je v članku predstavljenih več tovrstnih multivariatnih cenilk, njihove asimptotske lastnosti in doseg na populaciji.

Gabriella Conti, Sylvia Frühwirth-Schnatter, James Heckman and Rémi Piatek: Bayesian exploratory factor analysis. Članek, ki je verjetno kar precejšen prispevek k literaturi o »odkrivalni« (exploratory) faktorski analizi. Članek na osnovi bayesijanskega pristopa predstavi nov način izračuna vseh pomembnih parametrov faktorske analize (uteži, lastne vrednosti, itd.), kjer se vsi parametri izračunavajo hkratno in se opazovanj, ki so pomembna za več faktorjev ne zanemarja pri izračunih (problem običajne odkrivalne faktorske analize). Velja seveda tudi omeniti nobelovca Jamesa Heckmana kot soavtorja tega prispevka.

Markus Frölich and Martin Huber: Direct and indirect treatment effects: causal chains and mediation analysis with instrumental variables. Še en prispevek s področja metod ocenjevanja učinkov ukrepov oz. tretmaja. Glavni prispevek članka je v neparametrični metodi ocenjevanja neposrednih in posrednih učinkov tretmaja s pomočjo instrumentalnih spremenljivk. V članku je tudi aplikacija metodoloških ugotovitev na učinke izobraževanja na zdravje (nekaj, o čemer govori tudi vrsta prispevkov SHARE, kjer delujem tudi sam), ter učinkov enega od ameriških programov spodbujanja zaposlovanja Job Corps.

Iván Fernández-Val and Martin Weidner: Individual and time effects in nonlinear panel models with large N, T. Na tem blogu smo že nekajkrat omenjali probleme postranskih parametrov (angl. incidental parameters). Problemi nastopijo predvsem v modelih panelnih podatkov. Članek predstavlja korekcijske metode v primeru nelinearnih modelov stalnih učinkov (fixed effects), ki vključujejo tako enotske kot časovne stalne učinke. Metode v članku so uporabne za številne modele omejenih odvisnih spremenljivk, kot so probit, logit, tobit in modeli na osnovi Poissonove porazdelitve.

  • Share/Bookmark

Blog V krizi smisla tiči misel | Zagotavlja SiOL | O Sistemu |