Bakalaureuseto%CC%88o%CC%88%20Mai%20Britt%20Meriloo.pdf

Type: Document | Status: ready

Joonis 6: Wilhelm Lexise väljapakutud diagramm rahvastikustatistika kirjeldamiseks. Allikas: Lexis (1875), lk 159. Digiteerinud SUB Göttingen. 15

  1. aastal esitas oma arenduse Lexise diagrammist Roland Pressat. Tänapäe- val on Pressat’i edasiarendus kõige sagedamini kasutusel olev Lexise diagrammi edasiarendus. Pressat’i esitatud diagramm on ristkülikukujuline. Kalendriaeg (pe- riood) on paigutatud horisontaalteljele nagu Beckeri versioonis. Vanust tähistab sarnaselt Lexise väljapakutud versioonile vertikaaltelg. Elujooned ja kohordid tõu- sevad 45−kraadise nurga all. Pressat’i versioon oli eelnevatest praktilisem: elujoon ei vastanud täpsele numbrilisele elueale. Fookus oli suunatud sündmuste kulgemise- le aja jooksul, mis hõlbustas rahvastikuprotsesside arengu visualiseerimist ajas. (Vandeschrick, 1992) 2.2 Lexise diagramm tänapäeval Roland Pressat’i populariseeritud modernses Lexise diagrammis (Joonis 7) tähistab horisontaaltelg kalendriaega ja vertikaaltelg vanust. Nende abil moodustub kahe- mõõtmeline koordinaadistik, kus igale punktile vastab vanus konkreetsel ajahetkel. Iga indiviid esitub 45–kraadise joonena, mida kutsutakse ka elujooneks (ingl li- feline). Elujoone pikkuse defineerib aeg uuringusse sisenemise ja sellest väljumise vahel. Diagrammi (joonis 7) abil saab eristada ajaintervalle, mis kulgevad vertikaal- selt, vanuserühmi, mis kujutuvad horisontaalselt, ja sünnikohorte, mis kujutuvad diagonaalse n-ö ribana. Joonisel 7 on violetsega tähistatud vanuserühm 60 −65 eluaastat, vertikaalne oranž n-ö riba kujutab ajaperioodi 2010 −2015 ja roheline 1950−1955. aasta sünnikohorti. Tumelillad jooned on elujooned, mille lõppu tähis- tab punkt. Joonise 7 kood (lisa 1) on koostatud loengukonspekti Statistical Analysis in the Lexis Diagram: Age-Period-Cohort models (Carstensen ja Gelnarova, 2009) alapeatüki 2.1 „Danish primeministers” põhjal. 16

Joonis 7: Tänapäevane kahemõõtmeline Lexise diagramm. 17

3 Suremusriski hindamine Lexise diagrammi abil Lexise diagrammi abil saab jälgida indiviidide elujooni ajas ja siduda rahvastiku- protsessid vanuse, perioodi ja kohordiga. Kahemõõtmelisel koordinaadistikul on fikseeritud nii uuringusse sisenemise aeg (näiteks sünd või diagnoosi saamine) kui ka sündmuse toimumise aeg. See võimaldab jälgimida indiviide aja jooksul ja hin- nata sündmuse toimumise tõenäosust ajas elulemusanalüüsi abil. 3.1 Elulemusanalüüsi põhimõisted Järgnev alapeatükk on koostatud raamatuSurvival Analysis: A Self-Learning Text (Kleinbaum ja Klein, 2012) 1. peatüki „Introduction to Survival Analysis” põhjal. Olgu T juhuslik suurus, mis tähistab aega sündmuse toimumiseni. Juhusliku suu- ruse T jaotusfunktsioon F (t) avaldub kui F (t) =P (T ≤ t). Elulemusfunktsioon S(t), mis näitab tõenäosust elada üle ajahetkt, avaldub kui S(t) =P (T > t) = 1− F (t). Riskifunktsioon tähistab sündmuse toimumise riski ajahetkes t. Riskifunktsioon λ(t) avaldub järgmiselt λ(t) = lim h→0 P (t ≤ T < t+ h | T ≥ t) h = lim h→0 P (t ≤ T < t+ h) P (T > t) · 1 h . Tõenäosus, et sündmus satub ajavahemikku[t, t+ h), avaldub jaotusfunktsiooni kaudu F (t + h) − F (t), seega riskifunktsioon esitub kujul: λ(t) = lim h→0 F (t + h) − F (t) h · 1 S(t) = f (t) · 1 S(t) = f (t) S(t) , 18 kus f(t) on juhusliku suuruse T tihedusfunktsioon. Teoreetiline riskimäär ehk ris- kifunktsioon on seega defineeritud kui λ(t) = lim h→0 P(sündmus toimus ajahetkel (t, t + h) | elus riskiajal t) h . 3.2 Statistiline mudel riskile Järgnev alapeatükk on koostatud raamatu Epidemiology with R (Carstensen, 2021) peatüki 2.2 „Mortality Rate” ja alapeatüki 5.2.2 „Likelihood For A Rate” põhjal. Jälgimisuuringutes vaadeldakse indiviide teatud sündmuse toimumiseni. Eesmärk on hinnata elulemusmäära riskiajas y: aeg, mille jooksul indiviid on olnud sünd- musele eksponeeritud: y = tx −ts, kus ts tähistab uuringusse sisenemise aega ja tx uuringust väljumise aega. Jälgimi- suuringu kestus y on jaotatud N intervalli (jälgimisaega), iga intervall on pikkusega: h := y N . Arvestades, et h →0, on igas intervallis riskimäär konstantne: λ = const. Kasutades riskifunktsiooni λ(t), avaldub tõenäosus, et sündmus toimub ajahetkel [t, t + h) kujul: P(sündmus toimus vahemikus [t, t + h)) ≈λh ⇒P(sündmust ei toimunud vahemikus [t, t + h)) ≈1 −λh. Sündmuse toimumine ühes ajaintervallis on kirjeldatav Bernoulli jaotusega juhus- liku suuruse abil. Sündmuse toimumine i-ndas intervallis eeldab, et eelnevas in- tervallis sündmust ei toimunud ehk di−1 = 0. Seega avaldub indiviidi riskimäär 19

ajahetkeni tx tinglikult sõltuvate tõenäosuste korrutisena: P(d hetkel tx| sisenemine ts) = P(elada üle [ts, t1]|elus ajal ts) × P(elada üle [t1, t2]|elus ajal t1) × · · · × P(d ajal tx|elus ajal tn). Tõenäosus elada üle riskiaeg y avaldub seega järgmiselt: P(T > y) = P(elada üle y) = (1 −λh)N = (1 −λh) y h . Kui h →0, siis lim h→0 h (1 + (−λh)) 1 −λh i−λy = e−λy = S(y). Ühe inimese tõepära üle kõikide ajaintervallide avaldub nende korrutisega, seega logaritmiline tõepärafunktsioon avaldub kui ℓ(λ) = d log(λ) −λy. Olgu n indiviidide arv jälgimisuuringus, siis kogu logaritmiline tõepärafunktsioon avaldub ℓ(λ) = −λ n X i=1 yi + n X i=1 di log(λ) + n X i=1 di log(yi), kus yi on vaatluse pikkus di sündmuse toimumise indikaator i-ndas intervallis. Avaldise viimane liige di log(yi) ei sõltu parameetrist λ ning ei mõjuta tõepära hinnangut. Kui viimane liige eemaldada, siis allesjääv funktsioon on proportsionaalne Poissoni jaotuse logaritmilise tõepärafunktsiooniga. Seega saab vaatlusi käsitleda kui Poisso- ni jaotusega juhuslikke suurusi keskmisega λyi. Osutub, et risk on proportsionaalne Poissoni jaotusega parameetriga λyi. 20

Sündmuste intensiivsust ajaühikus kirjeldab suremusmäär. Suremusmäära hinnang ˆλ leitakse suurima tõepära meetodil. Olgu ℓ(λ) = d log(λ) −λy, siis ˆλ leitakse järgmiselt: ∂ℓ(λ) ∂λ = − n X i=1 yi + 1 λ n X i=1 di = 0. Seega ˆλ = n X i=1 di n X i=1 yi . 3.3 Vanus-periood-kohort mudel Vanus-periood-kohort (Age-Period-Cohort ehk APC) mudel eristab vanuse (ingl age), ajaperioodi (ingl period) ja kohordi (ingl cohort) mõjusid. Nende tegurite abil saab analüüsida rahvastikusündmuste muutumist ajas. Kõige sagedamini kasutakse APC mudelit suremusmäära hindamiseks. Metoodika on rakendatav ka teistele rahvastikusündmustele, mille toimumisel väljub indiviid uuringust (pole enam riski all). Mudeli abil saab näiteks hinnata aega abiellumisest esimese lapse sünnini või HIVi diagnoosi saamisest AIDSini (Carstensen ja Gelnarova, 2009). Vanuse efektid ehk mõjud viitavad vananemisprotsessiga kaasnevatele muutustele: elu vältel toimuvad füsioloogilised arengud ja sotsiaalse rolli muutumine. Ootuspä- raselt on vanurite suremus võrreldes teiste eagruppidega suurem. Perioodi efektid hõlmavad kindla perioodi ajaloolisi ja ühiskondlikke faktoreid, mis mõjutavad kõiki vanusegruppe, kuid erineval määral. Perioodi mõju illustreerib meditsiini arenguga toimunud oodatava eluea kasv: kui 1933. aastal oli meeste oodatav eluiga 51 elu- aastat, siis 2023. aastal sündinud Eesti meeste oodatav eluiga on 74,5 (Tiit, 2018; 21

Statistikaamet, 2024). Kohordi efektid on erinevused samal ajaperioodil sündinud vanusegruppide vahel, kes kogevad demograafilisi sündmusi samas ajaperioodis. Kohordi efekti esindav näide on ema keskmine vanus esiklapse sündimisel. Järgnev metoodika on kirjeldatud loengukonspekti Age-Period-Cohort models: Sta- tistical inference in the Lexis diagram (Carstensen ja Keiding, 2005) 3. peatüki „Classical approach to age-period-cohort modelling” põhjal. APC mudel sobitatakse rakendustes Poissoni regressioonmudelile. See võimaldab hinnata, kuidas muutub suremus riskiajas vanuse, kalendriaja ja sünnikohordi lõi- kes. Logaritmitud risk avaldub vanuse, perioodi ja kohordi mõjude summana. Ris- kimäär esitub kujul log(λ) = αa + βp + γc, kus λ on vanusegrupi a riskimäär ajaperioodil p. αa on vanusegrupist tulenev suhteline logaritmiline risk. βp on ajaperioodist tulenev suhteline logaritmiline risk. γc on sünnikohortidega seotud suhteline logaritmiline risk, kus c = p −a. Vanuse, perioodi ja kohordi näitajad on lineaarselt sõltuvad: kohort = periood − vanus. Kuna kaks tegurit määravad kolmanda, ei saa nende efekte ilma täienda- vate eeldusteta eraldiseisvalt hinnata. Seega saab APC mudelit parametriseerida lõpmata paljudel viisidel. Sõltuvuse elimineerimiseks kasutatakse teatavaid piiran- guid. Efektide hindamiseks saab sobitada eraldi vanus-periood (ingl age-period, AP) ja vanus-kohort (ingl age-cohort, AC) mudelid ja võrrelda, kumma mõju on tugevam ja milline mudel on parim. Mudelite headust mõõdab Akaike informatsiooonikriteerium (AIC). Statistik on defineeritud järgmiselt AIC = 2k −ln(L(ˆθ)), 22

kus k tähistab mudeli parameetrite arvu ning L(ˆθ) maksimaalset tõepärafunktsioo- ni. See näitab, kui hästi sobitud mudel andmetele, võttes arvesse tema parameetrite arvu ja täpsust. Mida madalam on mudelile vastav AIC statistiku väärtus, seda paremini sobitud mudel andmetega. (Pihlak et al., 2018) Võimalike lahenduste hulka kuulub ka astmeline mudeldamine: esmalt sobitatak- se näiteks vanus-kohort mudel ja seejärel hinnatakse uus mudel esimese mudeli jääkidele, kus argumenttunnuseks on periood. Seega avaldub mudel kujul log(λa,p) = ˆαa + ˆγc + βc, kus ˆαa on vanuse mõju. ˆγc on kohordi mõju βp ajaperioodi nn jääkmõju - ajaperioodi efekt, mida ei selgita vanuse ja kohordi efektid. Kaheastmelise mudeli puhul saab hinnata vaid seda osa perioodimõjust, mida AC mudel ei kirjelda. 23

4 Analüüs testandmetega Järgnevas peatükis rakendatakse APC mudelit, et demonstreerida, kuidas vanus, periood ja kohort suremust mõjutavad. Analüüs tehti 10 000 Tartu Ülikooli Eesti geenivaramuga alates aastast 2003 liitunud indiviidi modifitseeritud andmete põh- jal. Andmestikus on inimesed, kes olid liitudes vanuses 50 −69. Analüüs viidi läbi rakendustarkvaras R Epi paketi abil. Kood (lisa 1) on koostatud raamatu Epidemiology with R (Carstensen, 2021) alapeatüki 5.3 „Representation of follow-up data” ja loengukonspekti Age-Period-Cohort models (Carstensen ja Gelnarova, 2009) 2. peatüki „Practical exercises” põhjal. Mudelite võrdlemiseks kasutati Akaike informatsioonikriteeriumit ja hii-ruut testi. Otsuste tegemiseks kasutati olulisusenivood α = 0, 05. Jälgimisuuringu andmed käsitleti Lexise objekti abil. Andmestikus on iga indiviidi kohta teada tema sünniaeg (tunnus synnikpv), uuringusse sisenemise aeg (tunnus liitkpv) ja uuringust lahkumise aeg (tunnus vkpv). Nende vahe moodustab elujoo- ne, mis lõppeb kas surmaga või uuringu lõpuga. Tunnus surnud ∈{0,1} indikeerib suremise toimumist: see on 0, kui indiviid ei surnud ja 1 kui suri. Uuritav tun- nus on surmade arv D. Funktsioon „Lexis” võimaldab jälgida indiviide erinevate ajaskaalade lõikes. Joonis 8 kujutab uuringualuste elujooni ehk Lexise diagrammi soo alusel. Andmed jaotati jälgimisperioodi ja vanuse järgi 5-aastastesse intervallidesse, mille põhjal koostati mudelid. 24

Joonis 8: Testandmestiku Lexise diagramm. Helelillad jooned tähistavad naist, tumelillad meest. Poissoni regressioonmudeli abil uuriti suremust eraldi naiste ja meeste seas (tabel 1). Selgus, et meeste suremusrisk one0,935 ≈ 2,55 korda kõrgem kui naistel (95% usaldusintervall: 2,35 − 2,76). Tabel 1: Suremus soo järgi. Sugu Surmade arv (D) Person-years (Y) Määr M 1239 43366,61 28,57 N 1130 100774,44 11,21 Kokku 2369 144141,06 16,44 25 Lisaks soole hinnati ka kolme demograafilise näitaja mõju suremusele. Esmalt koostati kolme mõjuri uurimiseks neli graafikut. Graafikud visualiseerivad sure- muskordaja muutust vanuse-, perioodi- ja kohordigrupiti. Joonis 9: Suremuskordajad aja- perioodi- ja kohortide lõikes aastatel 2023- 2025 (100 000 person-years kohta). Joonise 4 ülemisel vasakpoolsel graafikul esitatakse suremuskordajad vanusegrupi- ti kalendriaja lõikes. Iga joon tähistab ühte 5-aastast perioodi. Graafikult selgub ootuspäraselt, et suremuskordaja suureneb vanusega. Järgmisel, 4. joonise ülemisel parempoolsel graafikul on kujutatud suremuskorda- jad vanuserühmades olenevalt sünnikohordist. Iga joon vastab konkreetsele sünni- kohordi grupile. Joonise abil saab analüüsida suremust erinevate sünnikohortide 26

lõikes. Selgub, et varasemate sünnikohortide suremus on kõrgem, mis viitab kohor- di mõjule suremusele. Samuti on joonisel näha eakate suremuse tõusu2020ndatel aastatel, mis osutab COVID-19 pandeemia mõjule. Joonise 4 alumise rea vasakpoolsel graafikul on suremuskordajad kalendriaja lõi- kes vanusegruppide kaupa. Iga kõver kujutab konkreetset vanusegruppi ja näitab suremuse muutust ajas. Suremuskordaja kalendriaja lõikes vanuserühmade kaupa on kujutatud joonise 4 alumisel parempoolsel graafikul. Iga kõver kujutab ühte vanusegruppi ja jälgib su- remuskordaja muutust sünnikohortide lõikes. Suremuse uurimiseks koostati Poissoni regressioonmudel, eeldusel, et suremusmäär on igas 5-aastases intervallis konstantne. Esialgu sobitati log-lineaarne mudel, mis hindas vanuse (αa) mõju suremusele. Mu- delis on baasgrupiks 50 − 54-aastaste vanuserühm. Mudel kinnitab, et suremus kasvas vanusega märgatavalt. Näiteks70 − 74-aastaste suhteline suremusrisk on e1.701 ≈ 5,570 korda kõrgem, kui50 − 54-aastastel (95% usaldusintervall: 3,7 − 8,1). Mitte ühegi vanuserühma suhteliste riskisuhete95% usaldusintervallid ei sisalda- nud arvu 1 (tabel 2), seega saab suhtelisi riske lugeda statistiliselt erinevateks. Tabel 2: Vanuserühmade suhtelised suremusriskid50 − 54-aastaste suhtes. V anuserühm e ˆβ 95% Usaldusintervall 55–59 2,24 (1,50; 3,33) 60–64 2,97 (2,02; 4,37) 65–69 4,44 (3,03; 6,48) 70–74 5,57 (3,81; 8,15) 75–79 8,21 (5,60; 12,04) 80–84 15,17 (10,28; 22,39) 85–89 26,12 (16,45; 41,48) 90–94 113,07 (27,18; 478,84) Järgmiseks lisati mudelisse kalendriaeg (periood,βa). Mudelis hinnati suhtelisi su- remusriske perioodi2020−2024 suhtes. Mudel vähendas AIC statistikut23079 ühi- 27 kult 23058 ehk 21 ühiku võrra. Perioodi efektide hinnangud AP mudelis näitasid, et kolmel eelneval 5-aastasel perioodil suremusrisk statistiliselt ei erinenud: kõigi kolme suhteliste riskide usaldusintervallid sisaldasid väärtust1 (vt tabel 3). Samas peegeldab mudel, et tõenäosus surra ajaperioodil (2000 − 2004) on baasperioodiga võrreldes (1 − 0.27) · 100 = 73%väiksem (95% usaldusintervall: 39% − 88%). Tabel 3: Vanuse ja ajaperioodi suhtelised suremusriskid võrreldes vanuserüh- maga 50–54 ja perioodiga 2020–2024. Rühm ˆβ e ˆβ 95% Usaldusintervall Vanus 55–59 0,773 2,17 (1,45; 3,23) Vanus 60–64 1,070 2,92 (1,98; 4,30) Vanus 65–69 1,475 4,37 (2,97; 6,43) Vanus 70–74 1,701 5,48 (3,72; 8,07) Vanus 75–79 2,102 8,18 (5,51; 12,14) Vanus 80–84 2,718 15,15 (10,11; 22,69) Vanus 85–89 3,259 26,03 (16,15; 41,95) Vanus 90–94 4,732 113,56 (26,92; 479,12) Periood 2000–2004 -1,293 0,27 (0,12; 0,61) Periood 2005–2009 0,082 1,08 (0,91; 1,29) Periood 2010–2014 0,059 1,06 (0,94; 1,20) Periood 2015–2019 -0,016 0,98 (0,89; 1,09) Üks võimalik põhjendus antud perioodi märgatavalt madalale suhtelisele suremus- riskile on andmestiku eripära. Andmestikus on geenivaramuga alates 2003. aastast liitunud 50 − 69-aastased indiviidid. Seega on perioodil2000 − 2004 kirjeid vähem (tabel 4) ja suremus sel ajaperioodil peegeldab indiviidide surma kohe peale liitu- mist. Võib eeldada, et geenivaramuga liitusid esmalt tervemad (ja noored) indivii- did ja seletada suremuse kasvu selles kontekstis. Kokkuvõttes ei peegelda tulemused tugevat perioodi efekti. Veel väiksema AIC väärtuse andis vanus-kohort mudel (23058 ühikut). Kohortide mõjude hindamisel selgus, et võrreldes baaskohordiga1930 − 1934 oli hilisemates sünnikohortides hinnatud argumendid negatiivsed ja suremusrisk järk-järgult ma- dalam (tabel 5). Näiteks, kui võrrelda samas vanusegrupis indiviide, on kohordi 1960 − 1964 risk surra 1 0,35 ≈ 2,857 korda väiksem kui perioodil1930 − 1934 sün- 28 Tabel 4: Geenivaramuga liitunud inimeste arv periooditi. Periood Sisenenute arv Periood 2000–2004 1968 Periood 2005–2009 7819 Periood 2010–2014 9806 Periood 2015–2019 9211 Periood 2020–2024 8469 dinud inimese risk (95% usaldusintervall: 1,63 − 8,19). Seega on kohort tugevalt suremusega seotud ka vanusest sõltumata. Tabel 5: Vanuse ja sünnikohortide suhtelised suremusriskid võrreldes vanu- serühmaga 50 − 54 ja kohordiga 1930 − 1934. Rühm ˆβ e ˆβ 95% Usaldusintervall Vanus 55–59 0,7341 2,09 (1,45; 3,23) Vanus 60–64 0,9446 2,57 (1,98; 4,30) Vanus 65–69 1,2691 3,56 (2,97; 6,43) Vanus 70–74 1,4279 4,17 (3,72; 8,07) Vanus 75–79 1,7799 5,93 (5,51; 12,14) Vanus 80–84 2,4248 11,30 (10,11; 22,69) Vanus 85–89 2,9653 19,41 (16,15; 41,95) Vanus 90–94 4,2096 67,40 (26,92; 479,12) Kohort 1935–1939 –0,3418 0,71 (0,53; 0,89) Kohort 1940–1944 –0,1584 0,85 (0,72; 1,09) Kohort 1945–1949 –0,2090 0,81 (0,66; 1,20) Kohort 1950–1954 –0,4237 0,66 (0,49; 0,86) Kohort 1955–1959 –0,5397 0,58 (0,39; 0,78) Kohort 1960–1964 –1,0626 0,35 (0,13; 0,78) 29 Kolme mudeli võrdlus hii-ruut testi abil näitas, et nii perioodi kui ka kohordi mõju lisamine parandas mudeli sobivust (tabelist 6 olulisustõenäosused vastavalt 0,0007 ja 0,0013). Tabel 6: Mudelite võrdlus. Mudel Resid. df Resid. dev AIC Pr(>Chi) Vanus (A) 66040 18323 23079 – Vanus-periood (AP) 66036 18303 23067 19,37, p = 0,00066 Vanus-kohort (AC) 66034 18290 23058 13,28, p = 0,00131 Selleks, et selgitada välja, kumb teguritest kirjeldab suremus paremini, võrreldi AP ja AC mudeleid omavahel hii-ruut testiga. Tulemus (χ2 = 13, 28, df = 2, p = 0, 0013) näitas, et võrreldes vanus-periood mudeliga kirjeldab vanus-kohort mudel suremuse varieeruvusest suurema osa ehk kohordi lisamine mudelisse annab paremaid tulemusi. Viimasena sobitati perioodi mudel P, mis hinnati AC mudeli jääkidele. Mudel hindab ajaperioodi mõju suremusriskile. Tulemused (tabel 7) peegeldavad tuge- vat perioodi efekti: hinnatud argumendid on kõrged ja suurenevad ajas. Kuna võib eeldada, et geenivaramuga liitunud indiviidid olid tavapopulatsioonist tervemad, siis mida kauem oli liitumisest möödas, seda suuremaks läks suremus. Kirjeldatu taustal ei ole siiski täielikult selge, kuidas tulemusi seletada või kas tulenevad vaid andmete eripärast. Tabel 7: Perioodimudeli hinnangud Rühm ˆβ e ˆβ 95% Usaldusintervall Periood 2005–2009 1,9123 6,77 (3,00; 15,25) Periood 2010–2014 2,5108 12,31 (5,51; 27,50) Periood 2015–2019 2,7753 16,04 (7,19; 35,80) Periood 2020–2024 3,0408 20,92 (9,38; 46,67) Kokkuvõttes näitas analüüs, et TÜ Eesti geenivaramu andmebaasi põhjal loodud sünteetilisel andmestikul mõjutavad suremust peamiselt vanus ja kohort, tugevaim 30