Izlases dizaina optimizācija (kopsavilkums)

LATVIJAS UNIVERSITĀTE Mārtiņš Liberts IZLASES DIZAINA OPTIMIZĀCIJA PROMOCIJAS DARBA KOPSAVILKUMS Doktora grāda iegūšanai matemātikas nozarē Apakšnozare: varbūtību teorija un matemātiskā statistika Rīga, 2013

LATVIJAS UNIVERSITĀTE FIZIKAS UN MATEMĀTIKAS FAKULTĀTE Mārtiņš Liberts IZLASES DIZAINA OPTIMIZĀCIJA PROMOCIJAS DARBA KOPSAVILKUMS Doktora grāda iegūšanai matemātikas nozarē Apakšnozare: varbūtību teorija un matemātiskā statistika Rīga, 2013

Promocijas darbs izstrādāts Latvijas Universitātes Fizikas un matemātikas fakultātes Matemātikas nodaļas Matemātiskās analīzes katedrā laika posmā no 2007. gada līdz 2013. gadam. Šis darbs izstrādāts ar Eiropas Sociālā fonda atbalstu projektā «Atbalsts doktora studijām Latvijas Universitātē 2». Darbs sastāv no ievada, četrām nodaļām, nobeiguma, pateicībām, literatūras saraksta, pielikuma. Darba forma: disertācija matemātikas nozarē, varbūtību teorijas un matemātiskās statistikas apakšnozarē. Darba zinātniskais vadītājs: Dr. habil. math., profesors Aleksandrs Šostaks. Darba zinātniskais konsultants: Dr. math. Jānis Lapiņš. Darba recenzenti: 1) Jānis Valeinis, Dr. math., docents, Latvijas Universitāte; 2) Jānis Vucāns, Dr. math., profesors, Ventspils augstskola; 3) Imbi Traat, Dr. phys.-math., vecākā lektore, Tartu Universitāte. Promocijas darba aizstāvēšana notiks 2013. gada 10. maijā plkst. 16.00 Latvijas Universitātes matemātikas nozares promocijas padomes atklātā sēdē Latvijas Universitātes Fizikas un matemātikas fakultātē, Rīgā, Zeļļu ielā 8, 233. telpā. Ar promocijas darbu un tā kopsavilkumu var iepazīties Latvijas Universitātes Bibliotēkas daudznozaru bibliotēkā: datorika, juridiskā zinātne, teoloģija (Rīga, Raiņa bulvāris 19, 2. stāvs, 203. telpa). LU matemātikas zinātņu nozares promocijas padomes priekšsēdētājs /Andris Buiķis/ promocijas padomes sekretārs /Jānis Cepītis/ Latvijas Universitāte, 2013 ISBN 978-9984-45-697-3 Mārtiņš Liberts, 2013

Anotācija Izlases apsekojumu mērķis ir iegūt pietiekami augstas precizitātes populācijas parametru novērtējumus ar iespējami mazām izmaksām. Izlases dizaina izvēle parasti ir sarežģīts uzdevums, jo sagaidāmā novērtējumu precizitāte un sagaidāmās datu vākšanas izmaksas nav zināmas. Analītiskas metodes bieži nav iespējams izmantot izlases dizaina sarežģītības vai datu vākšanas procesa sarežģītības dēļ. Promocijas darba mērķis ir izstrādāt matemātisku aparātu, kas ļauj salīdzināt interesējošus izlases dizainus pēc sagaidāmās novērtējumu precizitātes un datu vākšanas izmaksām. Izstrādātais aparāts izmanto mākslīgu populācijas datu ģenerēšanu, izlases apsekojumu metodoloģiju, apsekojuma izmaksu modelēšanu, Monte Karlo simulāciju eksperimentus un citas metodes. Aparāts ir pielietots Latvijas Darbaspēka apsekojuma izmaksu efektivitātes analīzei. Atslēgvārdi: apsekojumu izmaksu novērtējums; izlases apsekojumu metodoloģija; izmaksu efektivitāte; novērtētāju dispersija; simulāciju eksperiments. Matemātikas disciplīnu klasifikācija (2010): 62D05.

Saturs Vispārīgais darba raksturojums 5 1. Promocijas darba izklāsts 9 1.1. Mērķa populācija un populācijas parametri......... 9 1.1.1. Mērķa populācijas teorētiskais modelis...... 11 1.1.2. Populācijas parametri................ 12 1.2. Divpakāpju izlases dizaina pārstrāde............ 13 1.3. Mākslīgas populācijas datu ģenerēšana........... 14 1.3.1. Statiskā populācija................. 15 1.3.2. Dinamiskā populācija................ 16 1.4. Aparāta izstrāde un pielietojums.............. 17 1.4.1. Izlases dizainu izvēle................ 19 1.4.2. Izmaksu funkcija.................. 19 1.4.3. Apsekojuma budžets................ 20 1.4.4. Alternatīvo izlases dizainu parametri........ 20 1.4.5. Populācijas parametri un dispersijas novērtējumi. 21 1.4.6. Efektīvākā dizaina noteikšana........... 21 1.5. Galvenie pētījuma rezultāti................. 22 1.6. Diskusijas un interpretācijas................ 24 2. Secinājumi un priekšlikumi 24 Pateicības 25 Literatūras avoti 26

Vispārīgais darba raksturojums Izvēlētās tēmas aktualitāte un pētījuma novitāte Promocijas darba ideja ir radusies praktiskas problemātikas ietekmē. Valsts statistikas iestāde (VSI) ļoti bieži ir galvenais oficiālās statistikas nodrošinātājs valstī. Parasti oficiālā statistika tiek nodrošināta ar izlases apsekojumu palīdzību. Sabiedrība jeb nodokļu maksātāji ir nozīmīgākie oficiālās statistikas patērētāji. Šobrīd valdības tēriņiem ļoti nepieciešama īpašība ir izmaksu efektivitāte. Vai VSI veiktie izlases apsekojumi ir efektīvi izmaksu ziņā? tas ir jautājums, kurš ir jāuzdod un uz kuru ir jāatbild. Diemžēl uzdotajam jautājumam nav vienkāršas atbildes. Izlases apsekojumus var veikt ar daudz dažādiem izlases dizainiem. Vienkāršākie izlases dizaini ne vienmēr nodrošina mazākās datu vākšanas izmaksas. Tāpēc teorijā bieži tiek apskatīti un praksē tiek lietoti sarežģītāki izlases dizaini, kas ļauj nepieciešamo statistiku iegūt ar mazākām izmaksām, nodrošinot vēlamo statistikas precizitāti. Kāda ir sagaidāmā populācijas parametru novērtējumu precizitāte? Kādas ir sagaidāmās apsekojuma izmaksas? Kādu izlases dizainu izmantot apsekojuma veikšanai, lai minimizētu izlases kļūdas pie fiksētām apsekojuma izmaksām? šādi un līdzīgi jautājumi parasti tiek uzdoti izlases apsekojuma plānošanas fāzē. Statistiķis atbildes uz minētajiem jautājumiem parasti sniedz, balstoties uz vispārīgām zināšanām un vēsturisko pieredzi. Precīzas atbildes netiek sniegtas, jo tās parasti nevar iegūt ar analītisku metožu palīdzību. Pētījumi par sakarībām starp apsekojumā sasniedzamo precizitāti un izmaksām literatūrā ir apskatīti pēdējo 70 gadu laikā. Tomēr jāatzīst, ka tēmai veltīto literatūras avotu skaits nav liels. Autori ir apskatījuši problemātiku no dažādiem aspektiem, bet joprojām tematikai ir novērojams fundamentālu pamatu trūkums. Mahalanobis (1940) un Jessen (1942) ir vieni no pirmajiem autoriem, kas ir veltījuši publikācijas minētajai tematikai. Grāmatas Hansen, Hurwitz un Madow (1953) un Kish (1965) dod ievērojamu ieguldījumu tematikas attīstībā. Nozīmīgu grāmatu minētajai tēmai ir veltījis Groves (1989), ierosinot izlases dizainu analīzei izmantot 5

simulāciju eksperimentu metodes izmaksu un precizitātes funkciju sarežģītības dēļ. Izlases apsekojuma operāciju pētīšana ir jauns statistikas zinātņu nozares virziens. Pētījumi šajā jomā ir uzsākti pavisam nesen (Chen, 2008; Cox, 2012). Pēdējā laikā ASV ir organizēti vairāki semināri, kas veltīti izlases apsekojumu izmaksu novērtēšanai un simulācijas modeļiem kā piemēram, Survey Cost Workshop (2006) un Workshop on Microsimulation Models for Surveys (2011). Var izdarīt šādus secinājumus. Kopumā apsekojumu, kas tiek veiktas ar tiešo interviju palīdzību, izmaksas pieaug. Tam ir vairāki iemesli, bet viens no svarīgākajiem ir neatbildētības straujais kāpums pēdējo 10 gadu laikā. Šodienas apstākļos ir jāmaksā daudz augstāka cena un jāpieliek daudz lielākas pūles, lai izlases apsekojumos sasniegtu līdzvērtīgu precizitātes līmeni, kāds tas bija laikā, kad neatbildētība nebija tik izplatīta problēma. Tai pat laikā valsts statistikas iestādes nevar atļauties palielināt apsekojumu budžetu, jo kopumā valdības izdevumi tiek samazināti. Izmaksu efektivitātes paaugstināšana ir iespējams vienīgais veids, kā saglabāt augstu statistikas precizitātes līmeni nemainīga vai samazināta finansējuma situācijā. Agrāk šāda problemātika augsta neatbildētība stingi ierobežota vai samazināta budžeta apstākļos nebija bieži sastopama izlases apsekojumu organizācijā, tāpēc izlases apsekojumu izmaksu efektivitāte nav pietiekami plaši pētīta tematika. Simulāciju eksperimenti kļūst par aizvien nozīmīgāku metodi izlases apsekojumu plānošanas procesā. Metodes izplatīšanās ir saistīta ar mūsdienās pieejamo lēto datoru jaudu, kas nebija pieejama agrāk. Šodien pat parasts galddators vai klēpjdators var tikt izmantots liela mēroga simulācijas eksperimentu veikšanai. Šis ir vēl viens aspekts, kas ļauj attīstīties izlases apsekojuma operāciju pētīšanas tematikai. Promocijas darba mērķi un uzdevumi Promocijas darba mērķis ir izstrādāt matemātisku aparātu (framework), kas dod iespēju salīdzināt interesējošus izlases dizainus pēc to izmaksu efektivitātes. Tas nozīmē ar matemātiski pamatotu metožu palīdzību noteikt izlases dizainu, kas spēj nodrošināt kopumā augstāko novēr- 6

tējumu precizitāti ar nosacījumu, ka netiek pārsniegtas iepriekš fiksētas apsekojuma izmaksas. Lai sasniegtu darba mērķi tika izvirzīti šādi uzdevumi: 1. veikt pirmās pakāpes izlases vienību (teritoriju) rāmja sakārtošanu; 2. izstrādāt Latvijas Darbaspēka apsekojumam (LDA) piemērotu izlases dizainu; 3. izveidot mākslīgas populācijas datus, kas pēc savām statistiskajām īpašībām ir atbilstoši LDA mērķa populācijai, tā, lai tie būtu izmantojami izlases dizaina simulāciju eksperimentos; 4. izmantojot izstrādāto aparātu, salīdzināt LDA izlases dizainu ar diviem alternatīviem izlases dizainiem pēc izmaksu efektivitātes; 5. sagatavot rekomendācijas par LDA izlases dizaina izvēli attiecībā pret izmaksu efektivitāti. Pētāmie jautājumi Darba pirmajā nodaļā tiek pētīta izlases dizaina izstrādes problemātika, kas saistās ar apsekojuma mērķu apzināšanu, populācijas datu izpēti, izlases rāmja sagatavošanu, izlases dizaina izstrādi un tā ieviešanu praksē. Darba otrajā nodaļā tiek pētīti mākslīgu populācijas datu ģenerēšanas jautājumi, kas saistās ar populācijas teorētiskā modeļa izstrādi, modeļa parametru novērtēšanu, modeļa pielietošanu praktiskai datu ģenerēšanai un iegūto datu atbilstības analīzi izvirzītajam mērķim. Darba trešajā nodaļā tiek pētīti populācijas parametru izlases veidā iegūtu novērtējumu precizitātes aspekti, izlases apsekojumu izmaksu novērtēšanas jautājumi, kā arī simulācijas eksperimentu pielietošanas aspekti izlases apsekojumu gadījumā. Darba ceturtajā nodaļā tiek pētīti izstrādātā aparāta praktiskās realizācijas jautājumi, kas saistās ar vairāku izlases dizainu izmaksu efektivitātes salīdzinājumu un efektīvākā izlases dizaina noteikšanu. Metožu raksturojums Promocijas darbā tiek lietotas vairākas matemātiskās metodes. Izlases apsekojumu teorijas metodes tiek lietotas, lai veiktu izlases rāmja atjaunošanu, izstrādātu Latvijas Darbaspēka apsekojuma izlases dizainu, 7

konstruētu populācijas parametru novērtētājus un iegūtu novērtējumu dispersijas aprēķināšanas formulas. Gadījuma imputācijas metode tiek lietota, lai veiktu reģistra datu savienošanu ar apsekojuma datiem. Markova ķēdes modelis tiek izmantots, lai ģenerētu laikā mainīgas populācijas datus. Izlases apsekojuma datu apstrādes statistiskās metodes tiek pielietotas, lai ar izlases apsekojuma datu palīdzību novērtētu stāvokļu pārejas varbūtību matricas, kas tiek izmantotas Markova ķēdes modeļos. Darbā tiek lietota izlases apsekojumu lauka darbu izmaksu modelēšana. Intervētāju veicamā ceļa garums tiek novērtēts ar komivojažiera uzdevumu risināšanas algoritmu. Plaši tiek lietotas Monte Karlo simulācijas eksperimentu metodes, lai novērtētu dažādu izlases dizainu sagaidāmās lauka darbu izmaksas, kā arī, lai novērtētu populācijas parametru precizitāti divpakāpju izlases dizaina gadījumā. Matemātiskās statistikas metodes tiek izmantotas, lai apstrādātu Monte Karlo simulācijas eksperimentu rezultātus. Hipotēžu pārbaude tiek lietota, lai salīdzinātu dažādiem izlases dizainiem atbilstošo novērtējumu dispersijas. Rezultātu aprobācija Promocijas darba rezultāti ir publiskoti trīs zinātniskās publikācijās (Liberts, 2010a, 2010b, 2013a). Pēdējā minētā publikācija šobrīd ir iesniegta publicēšanai žurnālā Statistics in Transition new series. Darba rezultāti ir prezentēti septiņās zinātniskās konferencēs, no kurām četrās darba rezultāti ir publicētu konferences tēžu veidā: Latvijas Universitātes 66. konference, Rīga, 2008, Latvijas Universitātes 68. konference, Rīga, 2010, 8. Latvijas Matemātikas konference, Valmiera, 2010, tēzes Selfrotating sampling design, 10th International Vilnius Conference on Probability Theory and Mathematical Statistics, Viļņa, 2010, tēzes Self-rotating sampling design, Third Baltic-Nordic Conference in Survey Statistics, Norrfällsviken, 2011, tēzes Simulation study of sampling design in Labour Force Survey, 8

24th Nordic Conference in Mathematical Statistics, Ūmeo, 2012, tēzes Survey design analysis regarding cost efficiency, Latvijas Universitātes 71. konference, Rīga, 2013. Darba autors promocijas darba rezultātus ir prezentējis trīs starptautiskos semināros, no kuriem divos darba rezultāti ir publicētu semināra tēžu veidā: Workshop on Labour Force Survey Methodology, Parīze, 2010, BNU Workshop on Survey Sampling Theory and Methodology, Viļņa, 2010, tēzes Weighting and estimation in household surveys with rotating panel, Workshop of Baltic-Nordic-Ukrainian Network on Survey Statistics, Valmiera, 2012, tēzes The simulation study of survey cost and precision. Darba rezultāti ir prezentēti arī trīs universitāšu semināros: Weekly seminar, Institute of Mathematical Statistics, Tartu, 2010, Joint statistical seminar at Umeå University, Ūmeo, 2011, Zinātniskais seminārs matemātiskajā statistikā, Latvijas Universitāte, Rīga, 2012. Promocijas darbs sastāv no anotācijas angļu un latviešu valodās, apzīmējumu saraksta, ievada, publikāciju saraksta, prezentāciju saraksta, četrām nodaļām, rezultātu apkopojuma, pateicībām, literatūras avotu saraksta un pielikuma. Promocijas darba pirmā nodaļa ir veltīta divpakāpju izlases dizaina pārstrādei, otrā nodaļa mākslīgās populācijas datu ģenerēšanai, trešā nodaļa izlases dizainu izmaksu efektivitātes novērtēšanas aparāta izstrādei, ceturtā nodaļa izlases dizaina izmaksu efektivitātes novērtēšanas aparāta pielietojumam LDA gadījumā. Promocijas darba apjoms bez pielikuma ir 85 lapas puses, pielikuma apjoms ir 25 lapas puses. Promocijas darbs ir angļu valodā. 1. Promocijas darba izklāsts 1.1. Mērķa populācija un populācijas parametri Latvijas Darbaspēka apsekojuma (LDA) mērķa populācija ir Latvijas pastāvīgie iedzīvotāji, kas pārskata periodā ir privātu mājsaimniecību 9

locekļi. Galvenais populācijas izpētes domēns ir iedzīvotāji darbspējas vecumā (15 74 gadi). Autors darbā lieto LR Centrālās statistikas pārvaldes mājokļa un mājsaimniecības definīcijas 1 : Mājoklis ir pastāvīgai dzīvošanai paredzēta viena vai vairākas dzīvojamās istabas (dzīvojamā māja, dzīvoklis daudzdzīvokļu mājā, istaba komunālajā dzīvoklī u.c.). Mājoklim parasti ir noteikta adrese. Privātā mājsaimniecība (turpmāk mājsaimniecība ) ir vairākas personas, kuras dzīvo vienā mājoklī un kopīgi sedz mājsaimniecības izdevumus, vai viena persona, kura saimnieko atsevišķi. Darbā ir izdarīts pieņēmums, ka katrā mājoklī dzīvo ne vairāk kā viena mājsaimniecība. Pētāmā populācija ir laikā mainīga, piemēram persona var darbu iegūt un zaudēt jebkurā laika momentā. Lai arī LDA mērķa populācija ir nepārtraukti mainīga, tā tiek novērota ar periodiskumu viena nedēļa. Nedēļas izvēle kā apsekojuma periodiskums ir racionāls kompromiss starp apsekojuma precizitāti un tā praktisko realizāciju. Nedēļa ir septiņu dienu periods, kas sākas ar pirmdienu un beidzas ar svētdienu. Lai mazinātu mērījuma kļūdu ietekmi uz apsekojuma rezultātiem, informācija par personām tiek vākta par situāciju, kāda tā bija izvēlētās pārskata nedēļas svētdienā. Svētdiena ir nedēļas diena, kurā visretāk mainās personu ekonomiskās aktivitātes statuss. Darbaspēka apsekojums tiek veikts 33 valstīs 2 pēc harmonizētas metodoloģijas (European Commission, 2012a, 2012b). Harmonizēta apsekojuma metodoloģija ļauj iegūt nodarbinātības statistiku, kas ir salīdzināma starp visām 33 minētajām valstīm. Ceturksnis pēc harmonizētās Darbaspēka apsekojuma metodoloģijas tiek definēts kā periods, kas atbilst 13 secīgām nedēļām. Tiek pieņemts, ka gada laikā ir 52 nedēļas un gads sadalās četros 13 nedēļu periodos jeb ceturkšņos. Nedēļas piederība gadam tiek noteikta pēc attiecīgās nedēļas ceturtdienas datuma, piemēram, 2013. gada pirmā nedēļa ir nedēļa, kas sākas ar 2012. gada 31. decembri, jo šīs nedēļas 1 http://www.csb.gov.lv/ 2 Minētās 33 valstis ir 27 Eiropas Savienības valstis, bijusī Dienvidslāvijas Republika Maķedonija, Horvātija, Islande, Norvēģija, Šveice un Turcija. 10

ceturtdiena (3. janvāris) ir pirmā 2013. gada ceturtdiena. Promocijas darbā tiek apskatīti Darbaspēka apsekojuma ceturkšņa parametru novērtējumi. 1.1.1. Mērķa populācijas teorētiskais modelis Apzīmēsim patvaļīgu personu ar v i. Visu personu galīgu kopu apzīmēsim ar V. Kopas V apjomu apzīmēsim ar M. Personas kopā V ir sakārtotas noteiktā secībā un numurētas no 1 līdz M, attiecīgi V = {v 1, v 2,..., v i,..., v M }. Pieņemsim, ka kopas V sastāvs laikā ir nemainīgs katrā laika momentā kopa V sastāv no vienām un tām pašām personām. Pieņemsim, ka katrai populācijas V personai v i ir piesaistīta vērtība y i, un y i vērtības laikā var mainīties. Pieņemsim, ka populācijas V visas personas tiek novērotas katru nedēļu. Personas v i novērojumu nedēļā w apzīmēsim ar u i,w. Katram novērojumam u i,w ir piesaistīta vērtība y i,w. Definēsim nedēļas w summāro vērtību kā Y w = M y i,w. i=1 Apzīmēsim nedēļas w novērojumu kopu ar U w. Kopas U w apjoms ir vienāds ar kopas V apjomu un ir vienāds ar M, attiecīgi U w = {u 1,w, u 2,w,..., u i,w,..., u M,w }. Pieņemsim, ka kopas V visas personas tiek novērotas W secīgas nedēļas. Definēsim visu novērojumu kopu U kā katras nedēļas novērojumu kopu apvienojumu: U = W w=1 U w. Kopas U apjomu apzīmēsim ar N = MW. Definēsim W nedēļu summāro vērtību kā Y = W Y w = w=1 W w=1 i=1 M y i,w. Kopas U piemērs ir dots 1. tabulā. Tabulas M rindas raksturo personas, tabulas W kolonas raksturo novērojumu nedēļas un tabulas šūnas raksturo personu novērojumus. Tabulas dimensija ir M W. 11

1. tabula. Kopas U piemērs i w = 1 w = 2 w = 3 w = 4 w = 5 w = W 1 u 1,1 u 1,2 u 1,3 u 1,4 u 1,5 u 1,W 2 u 2,1 u 2,2 u 2,3 u 2,4 u 2,5 u 2,W 3 u 3,1 u 3,2 u 3,3 u 3,4 u 3,5 u 3,W M u M,1 u M,2 u M,3 u M,4 u M,5 u M,W 1.1.2. Populācijas parametri Darbā tiek apskatīti divu tipu populācijas parametri nedēļas summāro vērtību vidējais un divu summāro vērtību attiecība. Nedēļas summāro vērtību vidējais ceturksnim jeb 13 secīgām nedēļām ir definēts ar Y q = 1 13 13 w=1 Y w = 1 13 13 M w=1 i=1 y i,w = 1 13 Y, un divu summāro vērtība attiecība ceturksnim ir definēta ar R q = Y 13 q w=1 = Y 13 M w w=1 i=1 Z 13 q w=1 Z = y i,w 13 M w w=1 i=1 z = Y i,w Z. Lai aprēķinātu Y q un R q vērtības ir jānovēro visa kopa U, bet tas nav racionāli. Alternatīva ir Y q un R q vērtības novērtēt, izmantojot varbūtisku novērojumu izlasi. Novērtējumus parametriem Y q un R q var konstruēt, izmantojot π novērtētāju (Särndal, Swensson un Wretman, 1992, p.42, 176), un izteikt kā Ŷ q = 1 13 ˆR q = (i,w) s y i,w π i,w, y i,w (i,w) s π i,w z i,w, (i,w) s π i,w kur s ir varbūtiska kopas U novērojumu izlase, s U, y i,w un z i,w ir novērojumam u i,w piesaistītas vērtības, un π i,w ir novērojuma u i,w izlasē iekļaušanas varbūtība. 12

Piemēram, definēsim y i,w kā bināru mainīgo: { 1, ja persona vi nedēļā w ir nodarbināta persona, y i,w = 0, ja persona v i nedēļā w nav nodarbināta persona. Šajā gadījumā Y w ir nedēļas w nodarbināto personu skaits, Y q ir vidējais nedēļas nodarbināto skaits 13 nedēļās un Ŷq ir vidējā nedēļas nodarbināto skaita izlases novērtējums. Teorētiskais populācijas modelis darbā ir izmantots, lai aprakstītu LDA mērķa populāciju un pētāmos populācijas rādītājus. Līdzīgā veidā aprakstīto teorētisko populācijas modeli var izmantot, pētot mājsaimniecību populāciju. Tādā gadījumā ar v i apzīmē patvaļīgu mājsaimniecību, un ar V apzīmē mājsaimniecību kopu. 1.2. Divpakāpju izlases dizaina pārstrāde Promocijas darba izstrādes laikā, 2009. gadā autors veica Latvijas Darbaspēka apsekojuma (LDA) pirmās pakāpes izlases dizaina pārstrādi. LDA regulāri veic LR Centrālā statistikas pārvalde. Pārstrādātais izlases dizains tika ieviests praksē sākot ar 2010. gadu un tiek lietots jau ceturto gadu. Pētnieciskais darbs tika sākts ar LDA organizācijas analīzi. Analīzes rezultātā tika pieņemts lēmums veikt pirmās pakāpes izlases vienību (teritoriju) rāmja sakārtošanu. Sekojošas darbības tika veiktas uzdevuma izpildei. Visiem populācijas rāmja mājokļiem tika piekārtots atbilstošs teritorijas kods. Teritorijas tika pārveidotas, ja to lielums (pēc mājokļu skaita) nebija atbilstošs apsekojuma veikšanai. Pēc teritoriju rāmja sakārtošanas tika uzsākts darbs pie LDA teritoriju izlases dizaina pārstrādes un jaunas teritoriju izlases izveides. Rezultējošais izlases dizains ir varbūtisks divpakāpju izlases dizains. Pirmās pakāpes izlases vienības ir teritorijas. Teritorijas izlasē tiek iekļautas ar stratificētas sistemātiskas izlases dizainu, kur teritoriju izlasē iekļaušanas varbūtības ir proporcionālas teritoriju lielumam (pēc mājokļu skaita). Teritoriju stratifikācija ir veikta pēc to urbanizācijas pakāpes. Ir definētas četras stratas: Rīga, pārējās astoņas republikas pilsētas, novadu pilsētas un novadu pagasti (lauku teritorijas). Katras stratas ietvaros sistemātiskā izlase tiek veidota ar gadījuma starta punktu. 13

Otrās pakāpes izlases vienības ir mājokļi. Stratu ietvaros katrā izlasē iekļautajā teritorijā ar vienkāršu gadījuma izlasi tiek atlasīts vienāds mājokļu skaits. Visas izlasē iekļautam mājoklim piederīgas personas ir izlases vienības. Rezultātā izlasē iekļaušanas varbūtības stratu ietvaros visiem mājokļiem ir pozitīvas un vienādas. Pozitīvas izlasē iekļaušanas varbūtības nodrošina asimptotiski nenovirzītu populācijas parametru novērtējumu iegūšanas iespējas. Izstrādātajam izlases dizainam piemīt sekojošas īpašības. Izlases dizains nodrošina iespēju veikt rotējošā paneļa apsekojumus, kas ir viena no svarīgākajām LDA īpašībām. LDA ir rotējošā paneļa apsekojums ar rotācijas shēmu 2-(2)-2 (European Commission, 2012b, 7.lpp). Dizains ir ērti lietojams praksē. Teritoriju izlase ir sagatavota vairākiem gadiem. Tas nodrošina iespēju laicīgi plānot intervētāju darba apjomu un slodzi. Izlases lietošanas laikā nav nepieciešams veikt izlases korekcijas. Dizains ir piemērots dispersijas novērtēšanas metožu pielietošanai, kas balstītas uz izlases dalīšanu apakšizlasēs, piemēram, atkarīgo gadījuma apakšgrupu vai džeknaifa (Jackknife) metodes (Wolter, 2007). Pēc izlases dizaina pārstrādes tika izveidota jauna teritoriju izlase. Izveidotā teritoriju izlase ir vienlaicīgi izmantojama vairākiem apsekojumiem. Dizainā ir iestrādāta izlašu koordinācija trīs nepārtrauktajiem apsekojumiem: LDA, Mājsaimniecību budžetu apsekojumam (MBA), Iedzīvotāju apsekojumam par atpūtas un darījumu braucieniem (IAB). Izlašu koordinācija nodrošina mazākas kopīgās trīs apsekojumu intervēšanas izmaksas, salīdzinot ar nekoordinētu izlašu dizainu. Izveidotā teritoriju izlase ir lietojama arī vienreizējo izlases apsekojumu veikšanai, piemēram, darba autors šo izlasi izmantoja Eiropas Veselības un sociālās iekļaušanas apsekojuma (VSI) izlases veidošanai 2012. gadā. Teritoriju izlase ir izmantojama gan mājokļu izlašu veidošanai (LDA, MBA, IAB), gan personu izlašu veidošanai (VSI). 1.3. Mākslīgas populācijas datu ģenerēšana Izlases dizainu Monte Karlo simulācijas eksperimentu veikšanai ir nepieciešami dati, kas raksturo apsekojuma pētāmo populāciju personu līmenī. Tāpēc tika izvirzīts uzdevums izveidot mākslīgas populācijas datus, 14

kas pēc savām statistiskajām īpašībām makro līmenī būtu līdzīgi ar Latvijas darbspējas vecuma iedzīvotāju populācijas datiem. Mākslīgas populācijas dati tika izveidoti kā divi faili, no kuriem viens reprezentē statisku populāciju (atbilstošu personu kopai V kādā konkrētā laika momentā) un otrs fails reprezentē dinamisku populāciju (atbilstošu novērojumu kopai U). 1.3.1. Statiskā populācija Statiskās populācijas veidošanai tika izmantoti Statistiskā mājokļu reģistra (SMR) dati un LDA dati. SMR ir statistiskais reģistrs, kuru uztur LR Centrālā statistikas pārvalde. SMR dati nodrošina populācijas rāmi personu sarakstu ar demogrāfisko un personas dzīves vietas informāciju. Personu rāmī ir 1 705 048 personas darbspējas vecumā. LDA dati izlases veidā nodrošina informāciju par personu ekonomisko aktivitāti un tās izmaiņām laikā. Dati no abiem avotiem tika savienoti ar gadījuma imputācijas palīdzību, kur datu saņēmēji (recipients) ir reģistra datu vienības un datu donori (donors) ir izlases apsekojuma datu vienības. Kā imputācijas metode tika lietota gadījuma imputācija klasēs (United Nations, 2010). Imputācijas klases abos datu masīvos ir veidotas pēc vienādas specifikācijas, izmantojot demogrāfisko un ģeogrāfisko informāciju. Imputācija katrā klasē c tiek veikta neatkarīgi no pārējām klasēm. Ar varbūtību 1 D donors c d k D c tiek savienots ar saņēmēju r i R c, ja D c 10, kur D c ir D c donoru kopa klasē c, R c saņēmēju kopa klasē c, D c ir donoru skaits klasē c. Donors d k D c var tikt savienots ar vairākiem R c kopas saņēmējiem. Imputācija klasē c netiek veikta, ja 0 D c < 10 (imputācija tiks veiktā vienā no nākamajām imputācijas pakāpēm). Ja saņēmējs r i tiek savienots ar donoru d k, tad saņēmējam r i tiek piešķirta informācija par ekonomisko aktivitāti no donora d k. Imputācija tiek veikta septiņās pakāpēs, kur pirmajās piecās pakāpēs imputācijas vienība ir mājsaimniecība un pēdējās divās pakāpēs imputācijas vienība ir persona. Mājsaimniecību lietošana kā imputācijas vienības ļauj sasniegt mājsaimniecību demogrāfiskās un ekonomiskās struktūras atbilstību mākslīgās populācijas un apsekojuma datos. Imputācijas klašu specifikācijas ir hierarhiskas pirmajās piecās pakāpēs. Pirmajā pakāpē tiek 15

lietota visaugstāk detalizētā specifikācija, un pārējo pakāpju specifikācijas tiek veidotas, apvienojot iepriekšējās pakāpes specifikācijas klases tādā veidā klasifikācijas detalizācija samazinās ar katru pakāpi. Pirmajās piecās pakāpēs ekonomiskās aktivitātes statusu izdevās imputēt 82,2% reģistra personu. Imputāciju visām personām šādā veidā neizdevās veikt, jo eksistē tādas mājsaimniecību klases, kuru pārstāvji apsekojuma datos nav novēroti vai tie apsekojuma datos ir novēroti pārāk maz gadījumos (mazāk kā 10). Ekonomiskās aktivitātes statuss atlikušajām personām tiek imputēts pēdējās divās pakāpēs, izmantojot līdzīgu tehniku ar izņēmumu, ka imputācijas vienības ir personas un imputācijas klasēm tiek lietota cita specifikācija. Imputācijas klašu specifikācija tiek veidota, izmantojot to pašu informāciju kā pirmajās piecās imputācijas pakāpēs. Klašu specifikācijas ir hierarhiskas arī pēdējās divās pakāpēs. Rezultātā visām populācijas rāmja personām ir piekārtots ekonomisko aktivitāti raksturojošs rādītājs. Var apgalvot, ka iegūtie mākslīgās populācijas dati katrai personai individuāli neatbilst īstās populācijas datiem tomēr gadījuma imputācijas lietojums un datu dalījums klasēs (dažādos ģeogrāfiskos dalījumos, dzimuma un vecuma grupās) ļauj iegūt mākslīgas populācijas datus, kas pēc interesējošo rādītāju sadalījuma makro līmenī ir līdzīgi īstās populācijas datiem. Rezultātā ir iegūta statiskas mākslīgās populācijas dati par 1 705 048 personām, kas makro līmenī labi raksturo LDA pētāmo populāciju kādā konkrētā laika momentā. 1.3.2. Dinamiskā populācija No statiskās populācijas datiem tālāk ir izveidoti dinamiskas populācijas dati, kas raksturo populāciju ar laikā mainīgiem rādītājiem, kuru fiksācijas periods ir viena nedēļa. Dinamiskās populācijas dati ir izveidoti rādītājam personas ekonomiskās aktivitātes statuss, kas ir galvenais LDA pētāmais rādītājs. Ekonomiskās aktivitātes statuss ir rādītājs ar trīs iespējamām vērtībām katrai personai: 1 nodarbinātais, 2 darba meklētājs, 3 ekonomiski neaktīva persona. 16

Dinamiskās populācijas dati ir izveidoti, pieņemot, ka personu ekonomiskās aktivitātes izmaiņas laikā ir aprakstāmas ar galīgu nehomogēnu Markova ķēdi (Carkova, 2001). Nehomogēna Markova ķēde ir izvēlēta, jo ekonomiskās aktivitātes izmaiņām piemīt sezonalitāte. Markova ķēdei ir trīs stāvokļi atbilstoši personu ekonomiskās aktivitātes statusa vērtībām, un Markova ķēdes soļi raksturo nedēļas. Gadā ir četri sezonālie ceturkšņi, un katram sezonālajam ceturksnim ir noteikta Markova ķēdes stāvokļu pārejas varbūtību matrica. Ceturkšņu stāvokļu pārejas varbūtību matricas ir noteiktas atbilstoši LDA konstatētajām personu ekonomiskās aktivitātes izmaiņām pēctecīgiem ceturkšņiem. Katram ceturksnim ir aprēķināta atbilstošā nedēļas stāvokļu pārejas varbūtību matrica pie pieņēmuma, ka ceturkšņa ietvaros visu 13 nedēļu stāvokļu pārejas varbūtību matricas ir vienādas. Katrai statiskās populācijas personai Markova ķēdes sākotnējais stāvoklis ir noteikts vienāds ar attiecīgās personas ekonomiskās aktivitātes statusu statiskās populācijas datos. Katrā nākamajā solī Markova ķēdes stāvoklis ir ģenerēts, izmantojot vienu no četrām aprēķinātajām nedēļas stāvokļu pārejas varbūtību matricām. Nedēļas stāvokļu pārejas varbūtību matrica ir izvēlēta atbilstoši soļa kārtas numuram. Rezultātā ir ģenerēti mākslīgas dinamiskas populācijas dati vairākām nedēļām, kas raksturo populācijas rādītāju izmaiņas laikā ar novērošanas periodiskumu nedēļa. 1.4. Aparāta izstrāde un pielietojums Apzīmēsim patvaļīgu populācijas parametru ar θ. Varbūtiska izlase s p ir ģenerēta ar izlases dizainu p (s). Izlases dizainam p (s) atbilstošs parametra θ novērtētājs ir ˆθ p, un novērtētāja ˆθ p dispersiju apzīmēsim ar Var p (ˆθp ). Izmaksu funkciju apzīmēsim ar c (s p ). Izlases s p lauka darbu izmaksas ir aprēķināmas ar izmaksu funkcijas palīdzību, c p = c (s p ). Izmaksu funkcijas rezultāts c p ir gadījuma lielums, jo izlase s p ir gadījuma izlase. Izmaksu c p sagaidāmo vērtību apzīmēsim ar E (c p ) = C p. Definēsim divu izlases dizainu salīdzinājumu pēc izmaksu efektivitātes: 17

1. definīcija. Parametra θ novērtēšanai ar fiksētām apsekojuma izmaksām γ izlases dizains p (s) ) ir izmaksu ziņā efektīvāks ) par izlases dizainu q (s), Cp Cq ja Var p (ˆθp γ < Var q (ˆθq γ. Parametru γ 1. definīcijā var aizstāt ar vektoru γ, lai fiksētu apsekojuma izmaksu sadalījumu domēnos. Šādā gadījumā sagaidāmās apsekojuma izmaksas arī ir jāizsaka vektora C p formā, kur vektors C p raksturo sagaidāmo apsekojuma izmaksu sadalījumu domēnos. Apsekojuma budžeta fiksēšana vektora veidā ir noderīga, ja apsekojuma organizācijā svarīgs ir ne tikai kopīgo apsekojuma izmaksu ierobežojums, bet arī izmaksu ierobežojums domēnos. Kā piemēru var minēt situāciju, kad statistikas institūtam katrā reģionā (domēnā) ir pastāvīgs intervētāju dienests. Tas nozīmē, ka katrā reģionā ir pieejams ierobežots cilvēkresursu apjoms, kas ir izsakāms kā γ. Turpmāk darbā izmantosim 1. definīciju, lai salīdzinātu dažādus izlases dizainus pēc to izmaksu efektivitātes. Izlases dizainu efektivitātes analīzes aparāta pielietojums sastāv no sekojošiem etapiem: izlases dizainu izvēle izmaksu efektivitātes analīzei, izmaksu funkcijas c (s) definēšana, apsekojuma budžeta noteikšana, izlases dizaina parametru noteikšana visiem izvēlētajiem dizainiem tā, lai to sagaidāmās izmaksas būtu līdzvērtīgas noteiktajam apsekojuma budžetam, populācijas parametru atlase izmaksu efektivitātes analīzei, dispersijas aprēķināšana atlasīto parametru novērtējumiem, izmaksu ziņā efektīvākā dizaina noteikšana atbilstoši 1. definīcijai. Izlases dizainu efektivitātes analīzes aparāta izveides gaitā ir izstrādāts procedūru komplekts, kas ļauj realizēt izlases dizainu Monte Karlo simulācijas eksperimentus. Procedūras ir izstrādātas R statistisko aprēķinu brīvpieejas vidē (R Core Team, 2013). Papildus sarežģītību procedūru izstrādei radīja fakts, ka datu apstrāde ir jāveic liela apjoma datiem. Visas procedūras, kas ir nepieciešamas Monte Karlo simulāciju veikšanai ir publiskotas promocijas darba pielikumā un internetā (Liberts, 2013b). 18

1.4.1. Izlases dizainu izvēle Kā alternatīvas divpakāpju izlases dizainam tika izvēlēti divi izlases dizaini modificēta stratificētā vienkāršā gadījuma personu izlase un modificēta stratificētā vienkāršā gadījuma mājokļu izlase. Abi izlases dizaini ir modificēti tā, lai tie atbilstu LDA prasībai par vienmērīgu izlases izvietojumu starp nedēļām un lai viena un tā pati izlases vienība netiktu apsekota vairāk kā vienu reizi ceturksnī. Promocijas darba gaitā ir izstrādāta alternatīvajiem izlases dizainiem atbilstoša dispersijas aprēķināšanas formula novērtējumam Ŷq un tuvināta dispersijas aprēķināšanas formula novērtējumam ˆR q. Izlases dizainu izvēle ir pamatojama ar to, ka no vienas puses tie ir vieni no vienkāršākajiem izlases dizainiem, kas nodrošina salīdzinoši vienkāršāku (analītiskā formā izsakāmu) populācijas parametru un to precizitātes novērtēšanu. Vienlaikus šiem dizainiem ir būtiski mazāks klastera efekts, kā rezultātā līdzvērtīgas precizitātes populācijas parametru novērtējumus ir iespējams iegūt ar mazāku izlases apjomu. Mazāks klastera efekts ļauj cerēt, ka alternatīvie izlases dizaini var būt efektīvāki par LDA šobrīd izmantoto izlases dizainu. 1.4.2. Izmaksu funkcija Apsekojuma lauka darbu izmaksu funkcija sastāv no divām komponentēm: ceļa izdevumi un intervēšanas izmaksas. Izmaksu funkciju konstruē ar sekojošiem pieņēmumiem: visas intervijas notiek ar tiešajām intervijām, intervētāji pārvietojas ar vieglo automašīnu, apsekojumā piedalās visas izlases vienības, intervētājs viņam piešķirtās vienas nedēļas izlases vienības apciemo vienā reizē pa iespējami īsāko maršrutu. Ceļa izdevumus novērtē ar funkciju c 1 (s) = dk f C f k d, kur d ir kopīgais ceļa garums, kuru veic intervētāji, lai apsekotu visas izlases vienības, K f ir vidējais degvielas patēriņš, C f ir vidējās degvielas izmaksas un k d ir koriģējošais koeficients, kuru nosaka statistiķis. Pieņemsim, ka apsekojuma organizatoram ir pieejami G intervētāji. Visas populācijas vienības ir sadalītas aptuveni vienlīdzīgi starp G intervē- 19

tājiem. Nedēļas w izlasi sadala starp G intervētājiem atbilstoši populācijas vienību un intervētāju piekārtojumam populācijā. Visām izlases vienībām un visām intervētāju dzīvesvietām ir zināmas ģeogrāfiskās koordinātas. Īsāko ceļa garumu, kas savieno intervētāja g dzīvesvietu un intervētājam g piešķirtās nedēļas w izlases vienības, aprēķina, risinot komivojažiera uzdevumu ar tuvākās ievietošanas algoritma (nearest insertation algorithm) palīdzību (Rosenkrantz, Stearns un Lewis, 1977), un apzīmē ar d g,w. Kopīgo intervētāju ceļa garumu aprēķina kā d = G W g=1 w=1 d g,w. Konstantes K f, C f un k d nosaka atbilstoši pieejamajai informācijai. Intervēšanas izdevumus novērtē ar funkciju c 2 (s) = ac a +bc b, kur a ir personu skaits izlasē, b ir mājsaimniecību skaits izlasē, C a ir vienas personas intervēšanas maksa un C b ir vienas mājsaimniecības intervēšanas maksa. 1.4.3. Apsekojuma budžets Apsekojuma budžeta izvietojums γ ir noteikts atbilstošs LDA viena ceturkšņa lauka darbu izmaksām, kas sadalītas trīs izmaksu domēnos: Rīga, Lielpilsētas, Mazpilsētas un lauku teritorijas. Apsekojuma budžeta izvietojums γ ir novērtēts ar Monte Karlo simulācijas palīdzību, veicot 6000 iterācijas. Katrā iterācijā tiek aprēķināts intervētāju veicamais ceļa garums, personu skaits izlasē un mājsaimniecību skaits izlasē katrā domēnā. Izmantojot simulācijas eksperimenta rezultātus un izmaksu funkciju, var aprēķināt katras simulētās izlases izmaksas. Rezultātā var iegūt pietiekami precīzu sagaidāmo apsekojuma izmaksu novērtējumu katrā domēnā. 1.4.4. Alternatīvo izlases dizainu parametri Alternatīvajiem izlases dizainiem definē trīs stratas atbilstoši divpakāpju izlases dizaina izmaksu domēniem: Rīga, Lielpilsētas, Mazpilsētas un lauku teritorijas. Rezultātā abiem izlases dizainiem ir trīs dizaina parametri izlases lielums trīs stratās. Uzdevums ir noteikt trīs stratu izlases lielumu tā, lai sagaidāmās katras stratas apsekojuma izmaksas aptuveni sakristu ar divpakāpju izlases dizaina izmaksām trīs izmaksu domēnos. Uzdevumu atrisina, izmantojot Monte Karlo simulācijas un lineārās regresijas modelēšanu. 20

1.4.5. Populācijas parametri un dispersijas novērtējumi Izmaksu efektivitātes analīzei ir izvēlēti seši populācijas parametri: vidējais nedēļas nodarbināto personu skaits, vidējais nedēļas darba meklētāju skaits, vidējais nedēļas ekonomiski neaktīvo personu skaits, aktivitātes līmenis (nodarbināto personu un darba meklētāju skaits pret darbspējas vecuma personu skaitu), nodarbinātības līmenis (nodarbināto personu skaits pret darbspējas vecuma personu skaitu), bezdarba līmenis (darba meklētāju skaits pret nodarbināto personu un darba meklētāju skaitu). Parametrus novērtē gan populācijai kopā, gan sekojošiem populācijas domēniem: ģeogrāfiskie domēni (4) Rīga, lielpilsētas (neskaitot Rīgu), mazpilsētas, lauki; vecuma grupa (2) personas vecumā 15 24 un 25 74 gadi; ģeogrāfiskie domēni (4) vecuma grupas (2). Rezultātā izmaksu efektivitātes analīzei ir izvēlēti 90 populācijas parametri, no kuriem 45 ir nedēļas summāro vērtību vidējie un 45 ir divu summāro vērtību attiecības. Alternatīvo izlases dizainu gadījumā parametru novērtējumu dispersiju aprēķina ar tiešajām formulām, bet divpakāpju izlases gadījumā parametru novērtējumiem dispersiju novērtē ar Monte Karlo simulācijas eksperimentu palīdzību. 1.4.6. Efektīvākā dizaina noteikšana Alternatīvo izlases dizainu gadījumā 90 parametru novērtējumiem ir aprēķināta precīzā sagaidāmā dispersijas vērtība, bet divpakāpju izlases dizaina gadījumā 90 parametru novērtējumiem ir aprēķināts dispersijas novērtējums, kuram piemīt simulācijas kļūda. Alternatīvo izlases dizainu gadījumā novērtējumu dispersijas var salīdzināt tiešā veidā. Salīdzinot dispersiju alternatīvajam dizainam ar dispersijas novērtējumu divpakāpju izlases dizainam, izmanto hipotēžu pārbaudi. 21

1.5. Galvenie pētījuma rezultāti Promocijas darba mērķis bija izstrādāt matemātisku aparātu (framework), kas dod iespēju salīdzināt interesējošus izlases dizainus pēc to izmaksu efektivitātes. Darba mērķis ir sasniegts, sekmīgi atrisinot vairākus izvirzītos uzdevumus. Darbs tika sākts ar Latvijas Darbaspēka apsekojuma (LDA) izlases dizaina pārstrādi. Tālāk tika izveidoti mākslīgas populācijas dati, kas pēc savām statistiskajām īpašībām ir atbilstoši LDA mērķa populācijai. Visbeidzot tika izstrādāts izlases dizainu izmaksu efektivitātes analīzes aparāts. Izstrādātais aparāts tika pielietots, lai salīdzinātu LDA izlases dizainu ar diviem alternatīviem izlases dizainiem pēc to izmaksu efektivitātes un sagatavotu rekomendācijas par LDA izlases dizaina izvēli attiecībā pret izmaksu efektivitāti. Promocijas darba mērķa sasniegšana ir sekmējusi sekojošu rezultātu iegūšanu: 1. Ir sakārtots pirmās pakāpes izlases vienību (teritoriju) populācijas rāmis, kas tiek izmantots vairākiem LR Centrālās statistikas pārvaldes apsekojumiem. Sakārtotajam rāmim ir būtiski samazinātas rāmja populācijas noklājuma kļūdas. 2. Ir pārstrādāts izlases dizains, kas kopš 2010. gada sekmīgi tiek lietots trīs LR Centrālās statistikas pārvaldes apsekojumiem Latvijas Darbaspēka apsekojumam, Mājsaimniecību budžetu apsekojumam un Iedzīvotāju apsekojumam par atpūtas un darījumu braucieniem. 3. Ir izstrādāta mākslīgas populācijas datu ģenerēšanas metodoloģija. Izstrādātā metodoloģija ļauj ģenerēt mākslīgas personu līmeņa populācijas datus, kas pēc apjoma un statistiskajām īpašībām makro līmenī ir atbilstoši īstajai populācijai. 4. Izmantojot izstrādāto mākslīgas populācijas datu ģenerēšanas metodoloģiju un pieejamos reģistra un LDA datus, ir izveidoti divi mākslīgas populācijas datu masīvi, no kuriem viens datu masīvs raksturo statisku noteiktā laika momentā fiksētu populāciju un otrs datu masīvs raksturo dinamisku laikā mainīgu populāciju. Statiskās populācijas datu masīvs pēc savām statistiskajām īpašībām ir līdzvērtīgs LDA pētāmās populācijas datiem noteiktā laika momentā. Rādītāju izmaiņas dinamiskās populācijas datu masīvā ir līdzvērtīgas LDA novērotajām populācijas izmaiņām. Iegūtie dati darbā plaši tiek izmantoti Monte Karlo simulācijas eksperimentu veikšanai. 22

5. Ir izstrādāts modificēts stratificētas vienkāršās gadījuma izlases dizains, kas nodrošina vienmērīgu izlases izvietojumu sadalījumā pa nedēļām. Izlases dizains nepieļauj vienas personas (citos gadījumos mājsaimniecības) iekļaušanu izlasē vairāk kā vienu reizi noteiktā laika periodā. Darbā ir izvesta dispersijas formula populācijas summārās vērtības π-novērtētājam un tuvināta dispersijas formula divu summāro vērtību attiecības novērtētājam. Izstrādātais izlases dizains darbā tiek lietots kā alternatīva LDA divpakāpju izlases dizainam. 6. Ir izstrādāts izlases dizainu efektivitātes analīzes aparāts. Aparāts izmanto gan analītiskas metodes, gan Monte Karlo simulāciju metodes. Izstrādātais aparāts ļauj salīdzinoši īsā laikā un ar salīdzinoši mazām izmaksām iegūt informāciju par dažādu izlases dizainu īpašībām, piemēram, sagaidāmajām lauka darbu izmaksām un sagaidāmo novērtējumu precizitāti. Iegūtā informācija ir ļoti nozīmīga izlases dizaina plānošanas un lēmumu pieņemšanas procesos. Aparāta priekšrocība ir tā, ka tas ļauj iegūt rezultātus, balstoties uz statistikas iestādei pieejamajiem datiem (administratīvajiem datiem, tautas skaitīšanas datiem vai apsekojumu datiem) un simulācijas eksperimentu rezultātiem nav nepieciešams veikt papildus datu vākšanu no respondentiem. 7. Aparāta praktiskai realizācijai ir izstrādāts procedūru komplekts R vidē. Procedūru komplekts sastāv no R funkciju definīcijām, kas ļauj veikt dažādu izlases dizainu Monte Karlo simulāciju eksperimentus. Procedūru komplekts ir modulārs to ir iespējams papildināt ar papildus procedūrām. Izstrādātajām simulācijas eksperimentu procedūrām nepastāv ierobežojumi attiecībā uz pētāmo izlases dizainu izvēli vienīgā prasība ir par to, lai pētāmā izlases dizaina mehānisms būtu aprakstām kā R funkcija. 8. Izstrādātais aparāts ir pielietots trīs izlases dizainu izmaksu efektivitātes novērtēšanai. Ir izpētītas izvēlēto izlases dizainu statistiskās īpašības un ir doti priekšlikumi par izmaksu ziņā efektīvāko izlases dizainu LDA gadījumā. 9. Izmantojot izstrādāto aparātu, ir pierādīts, ka divpakāpju izlases dizains nodrošina kopumā augstāko novērtējumu precizitāti vienlīdzīga apsekojuma budžeta gadījumā. 23

1.6. Diskusijas un interpretācijas Izlases dizainu efektivitātes analīzes rezultāti ir apkopoti promocijas darba 4.10. 4.13. tabulās. Rezultāti parāda to, ka divpakāpju izlases dizains 77 populācijas parametriem no 90 (ar drošības līmeni 0,99) nodrošina mazāku sagaidāmo parametra novērtējuma dispersiju, salīdzinot ar alternatīvajiem izlases dizainiem. Modificēta stratificētā vienkāršā gadījuma personu izlase nodrošina mazāku parametru novērtējuma dispersiju trīs parametriem, un modificēta stratificētā vienkāršā gadījuma mājokļu izlase desmit populācijas parametriem ir atzīta kā efektīvākā izmaksu ziņā. Jāņem vērā, ka izmaksu efektivitātes analīze ir veikta no konservatīvas pozīcijas attiecībā pret divpakāpju izlases dizainu. Piecos no desmit gadījumiem, kad modificētais stratificētas vienkāršās gadījuma mājokļu izlases dizains ir atzīts par efektīvāko, hipotēžu pārbaudes p-vērtība ir intervālā (0,01; 0,10). Tas nozīmē, ka šajos piecos gadījumos nevar droši apgalvot, ka divpakāpju izlases dizains ir neefektīvāks par alternatīvo izlases dizainu. Divpakāpju izlases dizains pat konservatīvas pozīcijas gadījumā parāda ievērojami labākas izmaksu efektivitātes īpašības. Autors rekomendē arī turpmāk Latvijas Darbaspēka apsekojuma gadījumā izmantot līdz šim izmantoto divpakāpju izlases dizainu. Izlases dizaina maiņa uz kādu no vienkāršākiem izlases dizainiem diezgan droši radīs apsekojuma izmaksu pieaugumu (saglabājot tagadējo precizitātes līmeni nemainīgu) vai precizitātes kritumu apsekojumā iegūstamajiem populācijas parametru novērtējumiem (saglabājot tagadējās apsekojuma izmaksas nemainīgas). 2. Secinājumi un priekšlikumi Promocijas darba rezultātiem ir plašas praktisko pielietojumu iespējas. Sakārtotais teritoriju (pirmās pakāpes izlases vienību) rāmis ļauj iegūt precīzākus novērtējumus ne tikai Latvijas Darbaspēka apsekojumā, bet arī citos LR Centrālās statistikas pārvaldes veiktajos mājsaimniecību un personu apsekojumos, kuros izlase tiek veidota no sakārtotā teritoriju rāmja. Izveidotā teritoriju izlase ir ērti lietojama vairākiem apsekojumiem, kas ļauj ietaupīt resursus gan izlases izveides posmā, gan apsekojuma lauka darbu posmā. 24

Darbā izstrādātais izlases dizainu analīzes matemātiskais aparāts ir pielietojams ne tikai Latvijas Darbaspēka apsekojuma izlases dizaina analīzei, bet arī citu LR Centrālās statistikas pārvaldes veikto apsekojumu analīzei. Aparātu var lietot gan regulāro apsekojumu izvērtēšanai, gan jaunu mājsaimniecību vai personu izlases apsekojumu plānošanai. Izstrādātais aparāts ir elastīgs attiecībā pret pētāmajiem izlases dizainiem. Aparāts ir pielāgojams dažādām praktiskajām situācijām, kā piemēram, apsekojuma izmaksu novērtēšanu var papildināt ar apsekojumam svarīgu papildus procesu modelēšanu. Aparātu var pielietot gan valsts iestādes, gan privātie uzņēmēji, kas nodarbojas ar izlases apsekojumu plānošanu un veikšanu. Pētījumu var turpināt, papildinot izlases dizainu analīzi ar neatbildētības modelēšanu. Lai to paveiktu, izstrādātais R procedūru komplekts ir jāpapildina ar procedūrām, kas definē papildus funkcijas. Šajā gadījumā būs nepieciešama funkcija, kas izlases datos simulē izlases elementu neatbildētības procesu, un funkcija populācijas parametru novērtēšanai neatbildētības gadījumā. Neatbildētības procesu modelēšanai vēl būtu jāpilnveido apsekojuma izmaksu novērtēšanas funkcija, ņemot vērā plānoto intervētāju rīcību neatbildētības gadījumos. Pateicības Visdziļāko pateicību izsaku promocijas darba zinātniskajam konsultantam Jānim Lapiņam par doktora studiju laikā saņemtajiem padomiem un ieteikumiem. Esmu daudz mācījies no Jāņa daudzo diskusiju laikā. Izsaku vislielāko pateicību arī promocijas darba zinātniskajam vadītājam Aleksandram Šostakam par saņemto atbalstu un padomiem mācību laikā. Izsaku pateicību LR Centrālās statistikas pārvaldes kolēģiem īpaši Aijai Žīgurei un Ievai Ainārei par saņemto atbalstu doktora studiju laikā. Esmu ļoti pateicīgs Gunnar Kulldorff un Imbi Traat par mācību vizītēm Ūmeo un Tartu Universitātēs. Izsaku pateicību Rebecca Gillard par sniegto palīdzību promocijas darba angļu valodas uzlabošanai. Esmu pateicīgs Stack Exchange komūnai par zināšanām, kuras esmu ieguvis forumos Stack Overflow 1, Cross 1 http://stackoverflow.com/ 25

Validated 1, TeX LaTeX Stack Exchange 2 un English Language & Usage Stack Exchange 3. Īpaši esmu pateicīgs par ātrajām un noderīgajām atbildēm, kuras saņēmu, publicējot jautājumus minētajos forumos. Promocijas darbu izstrādāju ar Eiropas Sociālā fonda atbalstu projektā «Atbalsts doktora studijām Latvijas Universitātē 2». Izsaku pateicību arī Linda Peetre piemiņas fondam par 2011. gadā piešķirto stipendiju. Visbeidzot izsaku īpašu pateicību ģimenei īpaši Ingai par pacietību, izpratni un saņemto atbalstu promocijas darba sagatavošanas posmā. Literatūras avoti Carkova, V. (2001). Markova ķēdes (Mācību līdzeklis). Rīga: Latvijas Universitāte. Chen, B.-C. (2008). Stochastic simulation of field operations in surveys (pētnieciskais ziņojums). Washington: U. S. Census Bureau. Pieejams: https://www.census.gov/srd/www/byyear.html Cox, L. (2012). The case for simulation models of federal surveys. Research conference papers of federal committee on statistical methodology research conference 2012. Washington. Pieejams: http:// www.fcsm.gov/events/papers2012.html European Commission. (2012a). Labour force survey in the EU, candidate and EFTA countries Main characteristics of national surveys, 2011 (tehniskais ziņojums). Luxembourg: Eurostat. Pieejams: http:// epp.eurostat.ec.europa.eu/ European Commission. (2012b). Quality report of the European Union Labour Force Survey 2010 (tehniskais ziņojums). Luxembourg: Eurostat. Pieejams: http://epp.eurostat.ec.europa.eu/ Groves, R. M. (1989). Survey errors and survey costs. New Jersey: Wiley. Hansen, M. H., Hurwitz, W. N. un Madow, W. G. (1953). Sample survey methods and theory (sēj. I). New-York: Wiley. 1 http://stats.stackexchange.com/ 2 http://tex.stackexchange.com/ 3 http://english.stackexchange.com/ 26

Jessen, R. J. (1942). Statistical investigation of a sample survey for obtaining farm facts (Research Bulletin Nr. 304). Iowa State College of Agriculture and Mechanic Arts. Kish, L. (1965). Survey sampling. New-York: John Wiley & Sons. Liberts, M. (2010a). The redesign of Latvian Labour Force Survey. M. Carlson, H. Nyquist un M. Villani (red.), Official statistics methodology and applications in honour of Daniel Thorburn (lpp. 193 203). Stockholm, Sweden: Stockholm University. Pieejams: http://officialstatistics.wordpress.com/ Liberts, M. (2010b). The weighting in household sample surveys. O. Krastiņš un I. Vanags (red.), The results of statistical scientific research 2010 (lpp. 168 174). Riga: Central Statistical Bureau of Latvia. Pieejams: http://home.lu.lv/~pm90015/work/phd/pub/ 10Papers/Liberts_2010_Weighting.pdf Liberts, M. (2013a). The cost efficiency of sampling designs. Manuskripts iesniegts publicēšanai žurnālā Statistics in Transition new series. Liberts, M. (2013b). Survey-design-simulation [Datorprogramma]. Publicēts internetā. Pieejams: https://github.com/djhurio/survey -Design-Simulation Mahalanobis, P. C. (1940). A sample survey of the acreage under jute in Bengal. Sankhyā: The Indian Journal of Statistics, 4(4), 511 530. R Core Team. (2013). R: A language and environment for statistical computing [Datorprogrammatūra]. Vienna, Austria. Pieejams: http://www.r-project.org Rosenkrantz, D., Stearns, R. un Lewis, P., II. (1977). An analysis of several heuristics for the traveling salesman problem. SIAM Journal on Computing, 6(3), 563 581. Särndal, C.-E., Swensson, B. un Wretman, J. (1992). Model assisted survey sampling. New-York: Springer. United Nations. (2010). Handbook on population and housing census editing: Revision 1. New York: United Nations. Wolter, K. M. (2007). Introduction to variance estimation. New-York: Springer. 27