9 • Rīgas satiksmes (RS) informācija.
- dati par personalizēto viedkaršu jeb e-talonu lietotājiem, kas veikuši kartes reģistrāciju periodā no iepriekšējā kalendārā gada 1. augusta līdz kārtējā gada 31. janvārim;
- dati par personalizēto viedkaršu jeb e-talonu lietotājiem, kas veikuši kartes reģistrāciju periodā no kārtējā kalendārā gada 1. februāra līdz kārtējā gada 31. jūlijam. • Uzturlīdzekļu garantijas fonda (UFG) informācija.
- informācija par personām, kuras ir iesniegušas iesniegumu Uzturlīdzekļu garantiju fondam par uzturlīdzekļu izmaksu un kurām izmaksāti uzturlīdzekļi no Uzturlīdzekļu garantiju fonda iepriekšējā kalendārā gadā. • Lauku atbalsta dienesta (LAD) informācija.
- informācija par personām, kas integrētās administrācijas un kontroles sistēmas (IAKS) ES Tiešo maksājumu datubāzē reģistrētas, kā lauku platību atbalsta maksājumu saņēmējas;
- informācija par personām, kas ir mājlopu turētājas. • Informācija no sociālo pakalpojumu administrēšanas lietojumprogrammas (SOPA).
- dati no Sociālās palīdzības administrēšanas informācijas sistēmas (SOPA) par personām, kurām pašvaldības iepriekšējā gadā izmaksājušas sociālo pabalstu vai sniegusi sociālo pakalpojumu. • Informācija no Pārtikas un veterinārā dienesta (PVD).
- dati no Pārtikas un veterinārā dienesta (PVD) par personām, kuras PVD bija reģistrējušās kā tiešsaistes platformu pārtikas piegādes kurjeri.
3.3.
CSP izveidotās datubāzes
Iedzīvotāju skaita novērtējumā izmanto arī vairākas CSP izveidotās datubāzes, kas nepieciešamas
gan personu atlasei, gan arī, lai kopsavilkumu dati būtu savstarpēji saskaņoti.
•
Precizētas iedzīvotāju datnes izveidei nepieciešamie dati:
✓
dzimušo personu datubāze,
✓
mirušo personu datubāze,
✓
laulāto personu datubāze,
✓
institucionālo mājokļu datubāze,
•
Dzīvesvietas noteikšanai nepieciešamie dati – Valsts zemes dienesta Valsts adrešu
reģistra informācijas sistēmas (VARIS) adresācijas objekta koda (turpmāk – adresācijas
objekta kods) – ATVK pārejas tabula.
Dzimušo datubāzē papildus CARIS datiem iekļauj:
•
ārzemēs dzimušus bērnus, kuru mātēm dzīvesvieta deklarēta Latvijā iepriekšējā gadā
(sākumā vai beigās) un kuri pēc iedzīvotāju skaita novērtēšanas metodes iekļauti Latvijas
patstāvīgo iedzīvotāju skaitā);
•
Latvijā dzimušus ārzemnieku bērnus, kuri dzimšanas apliecību ir saņēmuši nevis PMLP,
bet vecāku pilsonības valsts konsulārajā dienestā, tāpēc nav CARIS datos, bet pēc
iedzīvotāju skaita novērtēšanas metodes iekļauti Latvijas patstāvīgo iedzīvotāju skaitā.
10
Mirušo datubāzes pamatā ir CARIS dati. Personu pārlūkā precizē ziņas par personām, kuras nav
CARIS datubāzē, bet varētu būt mirušas.
Ja persona:
•
ir Latvijas pilsonis vai nepilsonis;
•
iepriekšējā gada sākumā bija iekļauta PMLP Fizisko personu reģistrā;
•
šā gada sākumā vairs nav iekļauta PMLP Fizisko personu reģistrā,
tad pārbauda, vai šī persona nav mirusi, īslaicīgi uzturoties ārzemēs.
Ja tiek konstatēts, ka persona iekļaujama mirušo datubāzē, precizē arī tās miršanas datumu.
Laulāto personu datubāzi izmanto, lai personām, kuras laulājušās vai šķīrušās gada beigās vai
laulājušās vai šķīrušās ārzemēs, piekārtotu korektu ģimenes stāvokļa statusu (kodu).
Institucionālo mājokļu datubāzei ir divas daļas:
•
personas, kuras noteikti jāiekļauj novērtējumā – bēgļi, cietumnieki, sociālās aprūpes
klienti (apmēram 17 tūkstoši personu);
•
personas, kuras dzīvo institucionālajā mājoklī, bet atkarībā no aktivitātēm var nebūt
novērtējumā – dienesta viesnīcās, klosteros, nakts un sociālajās patversmēs dzīvojošie
(apmēram 10 tūkstoši personu).
Katrai no šīm daļām atbilst savi adresācijas objekta kodi, kas savstarpēji nepārklājas.
Adresācijas objekta koda - ATVK pārejas tabulu izmanto reģistrētās dzīvesvietas noteikšanā.
Pēc Valsts zemes dienesta informācijas tabulu aktualizē, iekļaujot ziņas par katra mājokļa dzīvokļa
un mājas adresācijas objekta kodu, ATVK kodu, maiņas iemeslu (robežu maiņa, kļūdas labojums
reģistrā), un pazīmi, ka tas ir institucionālais mājoklis.
Datubāzes adresācijas objekta kodu precizēšanai
Personām var piešķirt tikai tādu reģistrētās dzīvesvietas adresācijas objekta kodu, kas atbilstoši
Valsts zemes dienesta informācijai atbilst reālai dzīvesvietai. Tomēr, salīdzinot PMLP Fizisko
personu reģistrā norādītos adresācijas objekta kodus ar adrešu reģistrā norādītajiem kodiem, ir
atrastas personas, kuras:
•
deklarētas dzīvoklī, bet faktiski dzīvo mājā, jo šī māja nav sadalīta dzīvokļos;
•
deklarētas mājā, bet faktiski dzīvo dzīvoklī, jo šajā mājā ir vairāki dzīvokļi;
•
kā dzīvesvietas adresācijas objekta kods norādīts ciema kods.
Lai koriģētu šīs neprecizitātes un nomainītu adresācijas objekta kodu uz visticamāko personas
dzīvesvietas kodu, sagatavo:
•
šādu personu un mājokļu datubāzes;
•
datubāzi ar mājokļu platībām.
11
3.4.
CSP veikti personu izlases apsekojumi
Sagatavotā iedzīvotāju skaita novērtējuma precizitātes izvērtēšanai izmantoti vairāku CSP veikto
izlases apsekojumu dati, kuros respondentiem ir personas kodi:
•
Darbaspēka apsekojums, sākot ar 2011. gadu (DSA);
•
apsekojums „Statistika par ienākumiem un dzīves apstākļiem”, sākot ar 2011. gadu
(SILC);
•
Eiropas Veselības un sociālās iekļaušanas apsekojums par 2012. gada 1. septembri
(EHSIS);
•
Eiropas Iedzīvotāju veselības apsekojums 2014. gada beigās – 2015. gada sākumā un
2019. gada beigās – 2020. gada sākumā (EIVA);
•
Datoru un interneta lietošanas apsekojums (IKT) 2017.–2020., 2021. gadā;
•
Pieaugušo izglītības apsekojums (PIA) 2016. un 2022. gadā;
•
Latvijas iedzīvotāju mobilitāte (MOBA) 2017. gadā;
•
Ārējās migrācijas apsekojums (ĀMA) 2017. un 2018. gadā;
•
Zinātņu doktoru tālākās karjeras apsekojums (ZD) 2019. gada beigās;
•
Ar dzimumu saistīts vardarbības apsekojums (VA) 2021. gadā.
Gatavojoties 2021. gada tautas skaitīšanai, 2015. gadā CSP veica tautas mikroskaitīšanu (TMS).
TMS dati tika izmantoti, lai novērtētu kopīgo starptautiskās imigrācijas apjomu Latvijā 2015. gada
laikā un lai vērtētu iedzīvotāju statistikas precizitāti.
2017.–2018. gadā Ārējās migrācijas apsekojums veikts 20 000 Latvijas mājsaimniecību, aptaujājot
iedzīvotājus divas reizes (2017. gada un 2018. nogalē), lai noskaidrotu, kurš dzīvoja šajās
mājsaimniecībās 2016., 2017. un 2018. gadā. Katrā apsekojuma reizē atbildes saņemtas no vairāk
nekā 35 tūkstošiem personu.
4. Modeļi un pieņēmumi
4.1.
SoL-logit modelis
Latvijas pastāvīgo iedzīvotāju skaita un starptautiskās ilgtermiņa migrācijas novērtēšanas
metodoloģija ir balstīta uz integrētiem administratīvo reģistru datiem un matemātiskā
modeļa izmantošanu. Par matemātisko modeli ir izvēlēts SoL-logit modelis, kas ir
neuzraudzīto mašīnmācīšanās modeļu klasei piederošs modelis, t.i., modeļa apmācīšanai
12 netiek izmantoti marķēti vēsturiskie dati par personas statusu būt Latvijas pastāvīgam iedzīvotājam gada sākumā. Modelis balstīts uz pieņēmumu, ka populāciju veido divas savstarpēji neatkarīgas, atšķirīgas iedzīvotāju grupas vai klasteri (rezidenti, kas ir/nav pastāvīgi Latvijas iedzīvotāji), kurām raksturīgi atšķirīgi uzvedības modeļi – aktivitāte administratīvajos reģistros, kas novērota iepriekšējā gada laikā. Šie uzvedības modeļi reģistros iepriekšējā gada laikā tiek aprakstīti, izmantojot dzīvības pazīmju (sign of life) faktorus 𝑦 jeb lielumus, kas modelī reprezentē to, vai personai ir tikusi reģistrēta aktivitā te konkrētajā reģistrā iepriekšējā gada laikā (piemēram, persona saņēmusi valsts apmaksātu veselības pakalpojumu, persona saņēmusi sociālo pabalstu utt.) vai arī uz personu ir attiecināms konkrēts statuss attiecīgajā reģistrā (piemēram, persona ir Latvijas valsts rezidents Fizisko personu reģistrā, persona ir reģistrēta, kā skolnieks vispārizglītojošā mācību iestādē, vai persona ir students utt.), un šis statuss tiek fiksēts uz konkrētu datumu atkarībā no administratīvā reģistra. Modelī papildu dzīvības pazīmju faktoriem iekļauti arī neatkarīgie skaidrojošie mainīgie 𝑥, lai modelētu personas varbūtību piederēt grupai 𝑧. SoL-logit modeļa pilnās varbūtības funkciju apraksta vienādojums (1) 𝑃(𝑦, 𝑧|𝑥; 𝜃, 𝛽) = 𝑃(𝑦|𝑧; 𝜃)𝑃(𝑧|𝑥; 𝛽), 𝑘𝑢𝑟 (1) • 𝑦 – gadījuma lielumu vektors, kas satur informāciju par personas dzīvības pazīmēm dažādos reģistros, 𝑦𝑖𝑗 ∈ ℕ (lielākai daļai no dzīvības pazīmju faktoriem tas ir binārs lielums jeb 𝑦𝑖𝑗 ∈ {0, 1}, kur 1 – reprezentē personas i aktivitāti j-tajā reģistrā, 0 – pretēji); • z - gadījuma lielums, kas apraksta personas statusu būt pastāvīgam iedzīvotājam, 𝑧𝑖 ∈ {0,1}, kur 1 – reprezentē personai i būt Latvijas pastāvīgam iedzīvotājam gada sākumā, 0 – pretēji); • x - vektors, kas satur personas i dažādu kovariātu jeb neatkarīgo mainīgo regresoru informāciju, 𝑥𝑖𝑘 ∈ {0,1}, kur 1 – reprezentē to vai personas i piemīt regresora k vērtība, 0 – pretēji; • θ, β – modeļa parametru vektori. SoL-logit modeļa parametru θ, β novērtēšanai izmantota maksimālās ticamības novērtēšanas (maximum likelihood estimation jeb MLE) pieeja – SoL-logit modeļa ticamības funkcijas (2) vērtība tiek maksimizēta (globāli), lai iegūtu parametru θ, β MLE novērtējumum us θMLE, βMLE.
𝐿(θ, β|𝑦, 𝑥) = ∏ ∑ ( 𝑒𝛽0+∑ 𝛽𝑘𝑥𝑖𝑘 𝑛 𝑘=1 1 + 𝑒𝛽0+∑ 𝛽𝑘𝑥𝑖𝑘𝑛 𝑘=1 ) 𝑧 ( 1 1 + 𝑒𝛽0+∑ 𝛽𝑘𝑥𝑖𝑘𝑛 𝑘=1 ) (1−𝑧) ∏ ∏ 𝜃𝑗,𝑟𝑗|𝑧 𝐼(𝑦𝑖𝑗=𝑟𝑗) 𝑅𝑗 𝑟𝑗=0 𝐽 𝑗=1 1 𝑧=0 𝑁 𝑖=1 (2) 13 Ticamības funkcijā (2) 𝐽ir dzīvības pazīmju faktoru skaits, 𝑅𝑗 j-tā dzīvības pazīmes faktora vērtību skaits (lielākai daļai dzīvības pazīmju faktoru 𝑅𝑗 = 1 jeb tas ir binārs lielums, kur 1 – reprezentē personas aktivitāti reģistrā, 0 – pretēji), 𝐼(𝑦𝑖𝑗 = 𝑟𝑗) ir indikatora funkcija, kuras vērtība ir 1, ja i-tās personas vērtība j-tam dzīvības pazīmes faktoram sakrīt ar 𝑟𝑗, pretējā gadījumā – 0. 𝐼(𝑦𝑖𝑗 = 𝑟𝑗) = {1, 𝑦𝑖𝑗 = 𝑟𝑗 0, 𝑦𝑖𝑗 ≠ 𝑟𝑗
Lai vienkāršotu modeļa struktūru un novērtēšanu, modelī izdarīts pieņēmums par neatkarīgām dzīvības pazīmēm, t.i., 𝑃(𝑦𝑖|𝑧𝑖; 𝜃) = ∏ ∏ 𝜃𝑗,𝑟𝑗|𝑧 𝐼(𝑦𝑖𝑗=𝑟𝑗) 𝑅𝑗 𝑟𝑗=0 . 𝐽 𝑗=1 (3) Modelis novērtēts atsevišķi 22 grupās, kas veidotas no dzimuma un vecuma grupu kombinācijām (skat . 1. un 2. tabulu ). Šāds dalījums nepieciešams, jo, pirmkārt, ne visi administratīvie reģistri ir attiecināmi uz visām personām populācijā – personas aktivitāti reģistrā ietekmē administratīvā reģistra uzdevumi, funkcijas, kā arī personas raksturojošās īpašības (vecums, dzimums, dzīvesvieta u.c.). Piemēram, Valsts ieņēmuma dienesta informācija par darba ņēmējiem nav attiecināma uz personām, kuras jaunākas par 15 gadiem, vai Izglītības ministrijas dati par skol ēniem vispārējās izglītības programmās nebūs attiecināmi uz personām, kas vecākas par 19 gadiem, jo personu īpatsvars ar aktivitāti reģistrā attiecīgajās vecuma grupās nav vai ir pārāk m azs (skat. Error! Reference source not found.. un Error! Reference source not found.. attēlu).
-
attēls. Personu īpatsvars IZM datos pa vecuma grupām 2024. gadā, %
-
attēls. Personu īpatsvars VID datos pa vecuma grupām 2024. gadā, % 14 Otrkārt, šāda modeļa novērtēšana atsevišķi grupās, kas veidotas no dzimuma un vecuma grupām, ļauj netieši kontrolēt heterogenitāti nosacītajām varbūtībām θ𝑗,𝑟𝑗|𝑧, ja modelī netiek izmantoti papildu parametri (regresori) nosacīto varbūtību θ𝑗,𝑟𝑗|𝑧 modelēšanai. Piemēram, valsts apmaksātus ambulatoriskos pakalpojums vai VSAA izmaksātus sociālos pabalstus un pensijas sievietes saņem biežāk kā vīrieši (3. un 4. attēls).
-
attēls. Personu īpatsvars, kuras saņēmušas valsts apmaksātus ambulatoros pakalpojumus pa vecuma grupām 2024. gadā, %
-
attēls. Personu īpatsvars, kuras saņēmušas VSAA izmaksātus sociālos pabalstus vai pensijas pa vecuma grupām 2024. gadā, %
15 Modeļa parametri ir novērtēti, maksimizējot maksimālās ticamības funkcijas (2) vērtību, izmantojot ticamības maksimizācijas ( Expectation-maximization) jeb EM -algoritmu.2. Lai izvairītos no maksimālās ticamības funkcijas lokāliem atrisinājumiem, EM -algoritmam pielietotas 20 neatkarīgas replikācijas, algoritmam nepieciešamās parametru sākuma vērtības ģenerējot pēc vienmērīgā sadalījuma likuma. Varbūtības personai piederēt g rupai 𝑧 ∈ {0, 1} tiek aprēķinātas, izmantojot Beiesa likumu (4).
𝑃(𝑧𝑖|𝑦𝑖, 𝑥𝑖; θ𝑀𝐿𝐸, β𝑀𝐿𝐸) = 𝑃(𝑦|𝑧; θMLE)𝑃(𝑧|𝑥; βMLE) 𝑃(𝑦|𝑥; θMLE, βMLE) =
( 𝑒𝛽0+∑ 𝛽𝑘𝑥𝑖𝑘 𝑛 𝑘=1 1 + 𝑒𝛽0+∑ 𝛽𝑘𝑥𝑖𝑘𝑛 𝑘=1 ) 𝑧 ( 1 1 + 𝑒𝛽0+∑ 𝛽𝑘𝑥𝑖𝑘𝑛 𝑘=1 ) (1−𝑧) ∏ ∏ 𝜃𝑗,𝑟𝑗|𝑧 𝐼(𝑦𝑖𝑗=𝑟𝑗)𝑅𝑗 𝑟𝑗=0 𝐽 𝑗=1 ∑ ( 𝑒𝛽0+∑ 𝛽𝑘𝑥𝑖𝑘𝑛 𝑘=1 1 + 𝑒𝛽0+∑ 𝛽𝑘𝑥𝑖𝑘𝑛 𝑘=1 ) 𝑧 ( 1 1 + 𝑒𝛽0+∑ 𝛽𝑘𝑥𝑖𝑘𝑛 𝑘=1 ) (1−𝑧) ∏ ∏ 𝜃𝑗,𝑟𝑗|𝑧 𝐼(𝑦𝑖𝑗=𝑟𝑗)𝑅𝑗 𝑟𝑗=0 𝐽 𝑗=1 1 𝑧=0 (4)
Persona klasificēta tajā grupā 𝑧 ∈ {0,1}, kurai personas varbūtība (4) ir vislielākā. SoL-logit modeļa nosaukums izvēlēts tā, lai tas reprezentētu modeļa struktūru jeb modelī ietilpstošās daļas, respektīvi dzīvības pazīmju jeb sol daļu un loģistiskās regresijas jeb logit funkcijas daļu. 4.2. Modeļa izvēles kritēriji Tā kā SoL-logit modelis ir neuzraudzīto mašīnmācīšanās metožu klases modelis, tad modeļa apmācīšanai netiek izmantoti marķētu apmācības, validācijas vai testa datu kopas. Modeļa klasifikatora precizitāti nevar izmērīt ar tradicionālām metodēm, kādas parasti tiek lietotas uzraudzīto mašīnmācīšanā s metožu klases modeļu gadījumā (piemēram, precizitātes (precision un accuracy), jūtīguma (recall) vai specifiskuma ( specificity) metrikas, kas tiek aprēķinātas, izmantojot sajaukuma (confusion) matricu3. Tāpēc labākais SoL-logit modelis jeb to, kādus dzīvības pazīmes faktorus un skaidrojošos mainīgos iekļaut modelī katrā dzimuma un vecuma grupā , izvēlēts, vadoties pēc Akaikes (AIC) vai Beiesa informācijas kritērijiem
2 Dempster, A.P.; Laird, N.M.; Rubin, D.B. (1977). "Maximum Likelihood from Incomplete Data via the EM
Algorithm". Journal of the Royal Statistical Society, Series B. 39 (1): 1 –38. doi:10.1111/j.2517 -
6161.1977.tb01600.x. JSTOR 2984875. MR 0501537
3 G. James, D. Witten, T. Hastie, and R. Tibshirani, An Introduction to Statistical Learning: With Applications
in R, 2nd ed. New York, NY: Springer, 2023.
16
𝐴𝐼𝐶 = 2𝑘 − 2𝑙𝑛(𝐿̂), (5)
𝐵𝐼𝐶 = 𝑘𝑙𝑛(𝑛) − 2𝑙𝑛(𝐿̂), kur (6)
k – parametru skaits modelī, 𝐿̂ – ticamības funkcijas maksimālā vērtība , n – datu punktu
apjoms. Jo mazāka AIC vai BIC vērtība, jo modelis relatīvi labāks par citu, kam metrikas
vērtība ir lielāka.
Modelī iekļautie dzīvības pazīmes faktori un skaidrojošie mainīgie doti tālāk (skat. 1. un 2.
tabulu), to skaidrojums dots pielikumā.
Šāds modeļa izvēles princips gan negarantē to, ka modelis klasificē labi, tāpēc labākā modeļa
izvēlē papildus kvalitatīvi izvērtētas modeļa parametru θ𝑗,𝑟𝑗|𝑧 vērtības, kā arī modeļa
atbilstība izvērtēta, salīdzinot SoL-logit modeļa rezultātus ar iedzīvotāju statistikas
rezultātiem, kas iegūti ar loģistiskās regresijas modeli4 (skat. pielikumā).
4 J. Vaļkovksa, M. Liberts, A. Jurševskis, J.Jukāms, A. Ceriņa, K. Lece, B. Zukula un citi, Iedzīvotāju statistikas sagatavošanas metode, Rīga, 2023. 17
- tabula. SoL-logit modelī iekļautie dzīvības pazīmju faktori atkarībā no dzimuma un vecuma grupas (+ iekļauts, - nav iekļauts) Dzīvības pazīme aris_sol