Kolmandas stsenaariumis eeldame, et osa inimesi on jälgimiseelsed, osa jälgimisaegsed juhud, kuid analüüsi läbi viies me neil juhtudel vahet ei tee. Selle stsenaariumi puhul on analoogi liselt teise stsenaariumiga alles jäetud vaid need inimesed, kes elasid vähemalt liitumiseni, ja arvesse on võetud katkestusaega. Enam aga indiviide liitumisaja järgi kaheks ei jagata. Andme tele hinnatakse logistiline mudel ja täiend-log-log mudel, kus uuritavaks tunnuseks on haiguse olemasolu kirjeldav binaarne tunnus ja kovariaatidena on mudelis genotüüp ja inimese sünni aeg. 3.3 Tulemused Enne simulatsiooniuuringu tulemuste kirjeldamist tuletame meelde, et nagu on kirjeldatud pea tükis 3.1, on andmete genereerimise aluseks riskimäärade suhe (HR). Samal ajal kasutatakse andmete analüüsimiseks ka logistilist regressiooni, mis hindab šansside suhet (OR) – see on riskimäärade suhtest erinev näitaja. Šansside suhe kirjeldab riskifaktori mõju haigestumise šan sile, riskimäärade suhe aga võtab arvesse riskifaktori mõju ka haigestumise ajale. Seega tuleb meeles pidada, et oodatavalt on logistilist regressiooni kasutades leitud hinnangud erinevad te gelikust efektisuurusest, kuid see ei tähenda, et need hinnangud on klassikalises mõttes nihkega. Joonisel 6 on kujutatud simulatsioonide tulemusel leitud hinnangute nihked kõigi kolme stse naariumi korral. 42 e hi N Stsenaarium = 1 Stsenaarium = 2 Stsenaarium = 3 0,04 M A F 0,02

0 , 0 5 0,00 -0,02

0,04 M A F 0,02

0 , 5 0,00 -0,02 -0,1 0,0 0,1 -0,1 0,0 0,1 -0,1 0,0 0,1 log(Õige HR) Cox MR Logit Cloglog Meta (Cox + logit) Meta (MR + logit) Meta (Cox + cloglog) Meta (MR + cloglog) Joonis 6. Simulatsiooniuuringus leitud hinnangute nihked kõigi kolme stsenaariumi, baas levimuse p = 0,2, harvema alleeli sageduste MAF ∈{0,05; 0,5} ja riskimäärade suhete HR ∈ {0,9; 0,95; 1; 1,05; 1,1; 1,2} korral. Logit - logistiline mudel, cloglog - täiend-log-log mudel, MR

martingaalijääkide mudel Oodatavalt olid tulemused parimad esimeses stsenaariumis hinnatud Coxi mudeli korral: õi get efektisuurust hinnatakse nihketa iga HR korral, see on nii ka ülejäänud vaadeldud baas levimuste ja harvema alleeli sageduste puhul. Huvi pakub aga teise ja kolmanda stsenaariumi tulemuste omavaheline võrdlus. Kolmanda stsenaariumi puhul näeme, et täiend-log-log mudel hindab väga hästi õiget efektisuurust ehk riskimäärade suhet kõigi parameetrite kombinatsioo nide korral. Oodatavalt on logistilise regressiooni hinnangud simuleerimise aluseks olevatest riskimäärade

suhetest seda erinevamad, mida erinevam on vastav riskimäärade suhte logaritm nullist: kui õige riskimäärade suhe on 1, siis on hinnang nihketa, kui õige riskimäärade suhe on väiksem kui 1, siis on efektisuurus alahinnatud ja kui õige riskimäärade suhe on suurem kui 1, on efektisuurus ülehinnatud. Teise stsenaariumi puhul on olulised just metahinnangud (joonisel sinistes toonides), ülejäänud 43 hinnangud on lihtsalt vahesammud metahinnangute arvutamiseks. Paneme tähele, et teise stse naariumi puhul on ka Coxi (ja martingaalijääkide) mudeli hinnangud nihkega. Kui tegelik efektisuurus on ühest väiksem, on tegemist väikese ülehinnanguga, kui tegelik efekt on ühest suurem, on tegemist alahinnanguga. Metahinnangute puhul näeme analoogiliselt kolmanda stse naariumiga, et logistilisel regressioonil põhinevad metahinnangud alahindavad ühest väiksema efektisuuruse puhul õiget efekti ja ühest suurema efektisuuruse puhul ülehindavad õiget efekti. Täiend-log-log regressioonil põhinevate metahinnangute puhul on see seos vastupidine. Jooniselt näeme ka, et erinevate MAF-ide puhul käituvad erinevate meetodite hinnangud sar naselt, vaid martingaalijääkide hinnangu nihet mõjutab MAF oluliselt: suurema MAF-i korral on martingaalijääkide kaudu leidud hinnangud väga sarnased Coxi mudeli hinnangutega. Seda sama näeme tegelikult ka kõigi teiste uuritud levimuste ja vaadeldud riskimäärade suhete kor ral: suure MAF-i korral lähendab martingaalijääkide meetod väga hästi Coxi võrdeliste riskide mudelit. Joonisel 7 on kujutatud martingaalijääkide meetodi hinnangud esimese stsenaariumi korral. Baaslevimus = 0,01 Baaslevimus = 0,2 e h i N 0,075 0,050

0,025 0,000 -0,1 0,0 0,1 0,2 0,3 0,4 -0,1 0,0 0,1 0,2 0,3 0,4 log(Õige HR) MAF 0,1 0,2 0,3 0,4 0,5 Joonis 7. Simulatsiooniuuringus leitud martingaalijääkide meetodi hinnangute nihked esimese stsenaa riumi, baaslevimuste p ∈{0,01; 0,2}, harvema alleeli sageduste MAF ∈{0,05; 0,1; 0,2; 0,3; 0,4; 0,5} ja riskimäärade suhete HR ∈ {0,9; 0,95; 1; 1,05; 1,1; 1,2; 1,5} korral. 44 Samasugust seost näeme ka teise stsenaariumi puhul: suurema MAF-i korral on martingaali jääkide hinnangud lähedased Coxi mudeli hinnangutele kõigi vaadeldud baaslevimuste väär tuste korral, ja sama kehtib ka vastavate metahinnangute korral. Samal ajal on ühelähedaste efektisuuruste puhul (mis on ülegenoomsetes seoseuuringutes tavapärased (Zemunik ja Borask, 2011; Scott et al., 2017)) martingaalijääkide meetodi hinnangute erinevus Coxi mudelite hin nangutest väike ka madalate MAF-ide puhul. Kuna aga martingaalijääkide hinnangute uurimine ei ole selle töö peamine eesmärk, siis edaspidi keskendume Coxi mudeli hinnangutele ja nende kaudu arvutatud metahinnangutele. Joonisel 8 on kujutatud, kuidas sõltuvad erinevate meetodite hinnangute nihe ja võimsus baas levimusest ning riskimäärade suhtest. Baaslevimus = 0,05 Baaslevimus = 0,1 Baaslevimus = 0,2 e hi N s u s m iõ V 0,02 0,01 0,00 -0,01

-0,1 0,0 0,1 -0,1 0,0 0,1 -0,1 0,0 0,1 log(Õige HR) Baaslevimus = 0,05 Baaslevimus = 0,1 Baaslevimus = 0,2 1,00 0,75 0,50 0,25 -0,1 0,0 0,1 -0,1 0,0 0,1 -0,1 0,0 0,1 0,00 log(Õige HR) Stsenaarium 1 Cox Stsenaarium 2 Meta (Cox + logit) Meta (Cox + cloglog) Stsenaarium 3 Logit Cloglog Joonis 8. Simulatsiooniuuringus leitud hinnangute nihked ja võimsused harvema alleeli sageduse MAF = 0,1, baaslevimuste p ∈{0,05; 0,1; 0,2} ja riskimäärade suhete HR ∈{0,9; 0,95; 1; 1,05; 1,1; 1,2} korral. Logit - logistiline mudel, cloglog - täiend-log-log mudel Jooniselt näeme, et üldiselt käituvad erinevate meetodite hinnangud kõigi vaadeldud levimuste 45 puhul sarnaselt. Esimese stsenaariumi Coxi mudel annab kõigi levimuste puhul nihketa hinnan gu ja suurima võimsuse. Huvipakkuvatest meetoditest on ka teise stsenaariumi täiend-log-log mudeli hinnangud kõigi baaslevimuste puhul nihketa. Oodatult on võimsus iga meetodi puhul seda suurem, mida suurem on baaslevimus. Näeme ka, et võimsuse poolest on huvipakkuvad meetodid väga sarnased: teise stsenaariumi meta-analüüsi meetodite võimsus on küll iga levi muse puhul teistest madalam, kuid see erinevus on väike. Kui õige riskimäärade suhe on 1, siis annavad kõik uuritud meetodid nihketa hinnangu ja empiiriline I liiki vea tõenäosus on ligikaudu 0,05. Iga levimuse puhul näeme oodatult ka seda, et logistilisel regressioonil põhinevad meetodid (teise stsenaariumi Meta (Cox + logit) ja kol manda stsenaariumi Logit) ala- või ülehindavad õiget riskimäärade suhet vastavalt sellele, kas õige HR on väiksem või suurem ühest, ning erinevus õigest riskimäärade suhtest on seda suu rem, mida suurem on baaslevimus.

Tabelis 2 on ka simulatsiooniuuringu numbrilised tulemused kõigi stsenaariumite, baaslevimuse p = 0,2 ja harvema alleeli sageduse MAF = 0,05 korral. Taas näeme, et esimese stsenaariumi puhul on hinnangud oodatult nihketa, vähima RMSE-ga ja suurima võimsusega. Huvipakkuvatest meetoditest annab iga näitaja puhul parimaid tulemusi aga kolmas stsenaarium ja täiend-log-log mudel. Riskimäärade suhte HR = 1 korral on kõigi meetodite hinnangud nihketa, sarnase RMSE-ga ning I liiki viga on 0,05 lähedal. Ühelähedaste riskimäärade suhete puhul on nihked iga meetodi puhul väikesed. Oodatavalt näeme, et mida erinevam on riskimäärade suhe ühest, seda suurem on logistilist regressiooni kasutavate mee todite hinnangute nihe võrreldes ülejäänud meetoditega. Võimsuse poolest on kõik meetodid sarnased, siiski on kolmanda stsenaariumi täiend-log-log mudeli võimsus kõikide riskimäärade suhete korral teiste huvipakkuvate mudelite võimsusest veidi suurem. 46 Tabel 2. Simulatsioonide tulemused: keskmine parameetri hinnang, hinnang nihkele, RMSE-le ja võim susele, baaslevimuse p = 0,2 ja harvema alleeli sageduse MAF = 0,05 korral Õige HR (log(Õige HR)) 0,9 (−0,1054) 1 (0) 1,05 (0,0488) 1,1 (0,0953) 2 (0,6931) Stsenaarium Mudel E[ ˆ β ˆ] Nihe RMSE Võimsus

1 Cox −0,106 0,000 0,024 0,997 Meta (Cox + cloglog) −0,103 0,002 0,026 0,982 2 Meta (Cox + logit) −0,109 −0,004 0,028 0,982 Cloglog −0,105 0,000 0,026 0,986 3Logit −0,116 −0,011 0,031 0,986 1 Cox 0,000 0,000 0,023 0,052 Meta (Cox + cloglog) 0,000 0,000 0,025 0,044 2 Meta (Cox + logit) 0,000 0,000 0,027 0,048 Cloglog 0,000 0,000 0,025 0,053 3Logit 0,000 0,000 0,028 0,053 1 Cox 0,048 0,000 0,022 0,586 Meta (Cox + cloglog) 0,048 −0,001 0,025 0,503 2 Meta (Cox + logit) 0,051 0,002 0,026 0,494 Cloglog 0,048 −0,001 0,025 0,527 3Logit 0,054 0,005 0,028 0,523 1 Cox 0,095 0,000 0,022 0,986 Meta (Cox + cloglog) 0,093 −0,002 0,024 0,967 2 Meta (Cox + logit) 0,099 0,003 0,026 0,966 Cloglog 0,094 −0,001 0,024 0,975 3Logit 0,106 0,010 0,029 0,975 1 Cox 0,693 0,000 0,017 1,000 Meta (Cox + cloglog) 0,675 −0,018 0,026 1,000 2 Meta (Cox + logit) 0,722 0,029 0,036 1,000 Cloglog 0,688 −0,005 0,020 1,000 3Logit 0,808 0,115 0,117 1,000 Logit - logistiline mudel, cloglog - täiend-log-log mudel, RMSE - ruutjuur keskmisest ruutveast Eelnevat kokku võttes näeme, et keerulisem meetod – jälgimiseelsete ja jälgimisaegsete juhtude eraldi analüüsimine ning seejärel saadud hinnangute kombineerimine – ei ole parem lihtsast meetodist, kus kõiki juhtusid analüüsitakse koos binaarse mudeliga. Binaarsete mudelite vahel valides võiks eelistada täiend-log-log regressiooni: selle kaudu saame hinnata efektisuurused, mis on interpreteeritavad samamoodi nagu Coxi mudeli efektid ehk riskimäärade suhted. 47 4 Geenivaramu andmete analüüs T2D näitel Selles peatükis rakendame uuritud meetodeid TÜ EGV geenidoonorite andmetel, et uurida seoseid teist tüüpi diabeedi ja geenivariantide vahel. Esmalt anname ülevaate analüüsis kasutatavatest geenivaramu andmetest ja seejärel kirjeldame analüüsi läbiviimist ning tulemusi.

4.1 Andmete kirjeldus Diagnooside andmed TÜ EGV geenidoonorite diagnooside andmestik on kokku pandud info põhjal, mis on pärit erinevatest meditsiiniallikatest – Eesti Haigekassast, Tartu Ülikooli Kliinikumist, Põhja-Eesti Regionaalhaiglast, E-tervise andmetest ja surma- ning vähiregistrist – ja geenidoonorite enda täidetud küsimustikest. Geenidoonorite viimased diagnooside andmed meditsiiniallikatest on pärit 2019. aasta detsembrist. Diagnooside defineerimiseks kasutatakse ICD-10 koode. ICD-10 (The International Classification of Diseases, Tenth Revision) on rahvusvahelise haiguste klassifikatsiooni küm nes versioon, tänu millele on võimalik koondada rahvusvahelist statistikat haiguste ja surma põhjuste kohta. Kõikidel haigustel on oma ICD-10 kood, mis koosneb ühest tähest ja kahest numbrist, millele võib järgneda ka täpsustav arv. Arstid märgivad patsiendi andmed ja talle määratud ICD-10 koodid elektroonilistesse andmebaasidesse, mis on omakorda ühendatud ka geenivaramu andmetega. Nii on iga geenidoonori puhul kättesaadav kogu tema haiguste aja lugu ICD-10 koodidena, mis sobivad erinevate fenotüüpide defineerimiseks geneetiliste seose uuringute tarvis. Selles töös rakendame vaadeldud meetodeid, uurimaks geenivariantide seoseid teist tüüpi dia beediga (T2D, type 2 diabetes). Esimest ja teist tüüpi diabeedi tähisteks ICD-10 süsteemis on vastavalt E10 ja E11. Diabeet on energiaainevahetuse häire, mille korral ei tooda kõhunääre piisavalt insuliini, insu liini toime on nõrgenenud või selle eritumine puudulik. Insuliin on eluks hädavajalik hormoon, 48 mida toodetakse kõhunäärmes ning mis aitab keharakkudel omastada veresuhkrut. Häiritud energiaainevahetus väljendub vere suurenenud glükoosisisaldusena.

Esimest tüüpi diabeeti põh justab kõhunäärmes insuliini tootvate rakkude beetarakkude hävitamine inimese enda immuun süsteemi poolt ja see haigus algab tavaliselt, aga mitte alati, lapseeas või noorena. Teist tüüpi diabeeti põhjustab kõhunäärme suutmatus toota piisavalt insuliini või insuliini toime nõrgene mine ehk insuliinresistentsus ja see haigus algab pigem täiskasvanueas. Diabeet ei ole ravitav, kuid seda on võimalik kontrolli all hoida tervisliku eluviisi ja ravimite abil. (Leik, 2016) Kõigist diabeedi juhtudest moodustab teist tüüpi diabeet 90-95%. Peamisteks teist tüüpi diabeeti haigestumise riskiteguriteks on vanus, ülekaalulisus või rasvumine, tasakaalustamata toitumine ja vähene liikumine. (American Diabetes Association, 2021) On teada, et teist tüüpi diabeet on päriliku eelsoodumusega, kuid pärilikkuse hinnangud variee ruvad erinevate uuringute kohaselt 25-80% (Prasad ja Groop, 2015). Seega ei ole geneetika roll teist tüüpi diabeedi riskifaktorina siiani hästi teada ja selle uurimine pakub praegusel personaal meditsiini arendamise ajastul väga suurt huvi (Chung et al., 2020). Eestis on teist tüüpi diabeedi levimuseks hinnatud 7-9%, samal ajal on teada, et see haigus on aladiagnoositud (Ambos et al., 2016). Teist tüüpi diabeet ei ole kiire suremusega, mistõttu ei tohiks jälgimiseelsed ning jälgimisaegsed juhud üksteisest oluliselt erineda. Analüüsi tegemiseks märgiti juhtudeks kõik sellised geenidoonorid, kellel oli teist tüüpi dia beet diagnoositud vähemalt ühel korral, välja arvatud need, kellel oli diagnoositud ka esimest tüüpi diabeet. Kontrollideks valiti geenidoonorid, kellel ei olnud ühtegi esimest ega teist tüüpi diabeedi diagnoosi. Genotüübiandmed Uuritavateks geenivariantideks on valitud sellised SNP-d, mille kohta on teada, et need on seotud teist tüüpi diabeediga. Täpsemalt valiti analüüsimiseks kaheksa

Page 5 of 8