Magistrit%C3%B6%C3%B6%20Tuuli%20J%C3%BCrgenson.pdf.pdf - Page 1

Tartu Ülikool Loodus- ja täppisteaduste valdkond Matemaatika ja statistika instituut Tuuli Jürgenson Retrospektiivsete ja prospektiivsete andmete kombineerimine ülegenoomsetes seoseuuringutes Matemaatika ja statistika õppekava Matemaatilise statistika eriala Magistritöö (30 EAP) Juhendajad: Anastassia Kolde, MSc Prof. Krista Fischer, PhD Prof. Reedik Mägi, PhD Tartu 2021 Retrospektiivsete ja prospektiivsete andmete

kombineerimine ülegenoomsetes seoseuuringutes Magistritöö Tuuli Jürgenson Lühikokkuvõte: Magistritöö eesmärk on leida jälgimiseelsete (retrospektiivsete) ja jälgimis aegsete (prospektiivsete) haigusjuhtude analüüsimiseks sobiv meetod, mis oleks rakendatav suuremahulistes geneetilistes seoseuuringutes. Jälgimiseelseteks juhtudeks nimetatakse neid inimesi, kes on uuritava haiguse saanud enne uuringuga liitumist, jälgimisaegseteks juhtudeks aga neid, kes esimest korda haigestuvad uuritavasse haigusesse pärast uuringuga liitumist. Huvi pakub see, kas jälgimiseelseid ja jälgimisaegseid haigusjuhtusid on parem analüüsida eraldi, kasutades vastavalt kas binaarse uuritava tunnuse mudelit või Coxi võrdeliste riskide mudelit, ning leitud hinnangud seejärel kombineerida, või analüüsida neid andmeid koos, tegemata vahet jälgimiseelsetel ja jälgimisaegsetel juhtudel. Töö teoreetilises osas antakse ülevaade kasutatavatest meetoditest: elukestusanalüüsiks mõeldud Coxi võrdeliste riskide mudelist ning kahest binaarse tunnuse modelleerimise meetodist: logistilisest ja täiend-log-log regressioonist. Meetodite võrdlemiseks viiakse läbi simulatsiooniuuring, mille tarvis kirjeldatakse esmalt, kuidas simuleerida Weibulli jaotusega võrdeliste riskide mudelile vastavaid elukestusandmeid. Simulatsioonide põhjal on erinevaid haigusjuhtusid kõige parem analüüsida koos, kasutades selleks täiend-log-log mudelit. Võrreldud meetodeid rakendatakse Tartu Ülikooli Eesti Geenivaramu andmestikul, uurimaks teist tüüpi diabeedi ja geenivariantide vahelisi seoseid. CERCS teaduseriala: P160 Statistika, operatsioonanalüüs, programmeerimine, finants- ja kindlustusmatemaatika Märksõnad: geneetilised assotsiatsiooniuuringud, elukestusanalüüs, metaanalüüs, regressioon analüüs, simulatsioon

2 Combining retrospective and prospective data for genome-wide association studies Master’s thesis Tuuli Jürgenson Abstract: The aim of this master’s thesis is to find a method for combined analysis of prevalent (retrospective) and incident (prospective) cases that could be used when conducting genome wide association studies. We define prevalent cases as individuals who have the disease of interest before being recruited into a study, and incident cases as individuals who develop the disease only after study recruitment. We are interested in whether it is better to analyse prevalent and incident cases separately, using either a binary response model or a Cox proportional hazards model respectively, and then combine the results using meta-analysis, or to analyse these data together without making any distinction between prevalent and incident cases. The theoretical part of the thesis gives an overview of the methods used, namely Cox proportional hazards model and two binary regression models, logistic and complementary log-log regression. To compare different methods a simulation study is conducted, before which the thesis shows how to simulate survival data from Weibull proportional hazards model. Based on the results of the simulations, the best method is to analyse prevalent and incident cases together using a complementary log-log model. Lastly, a practical analysis is carried out to study associations between type 2 diabetes and genetic variants using data from Estonian Genome Centre at the University of Tartu. CERCS research specialisation: P160 Statistics, operation research, programming, actuarial mathematics

Keywords: genetic association studies, survival analysis, meta-analysis, regression analysis, simulation 3 Sisukord Kasutatud lühendid 5 Sissejuhatus 6 1 Ülegenoomne seoseuuring 8 1.1 Geneetilised variandid ja seoseuuringud . . . . . . . . . . . . . . . . . . . . . 8 1.2 Retrospektiivsed ja prospektiivsed andmed . . . . . . . . . . . . . . . . . . . . 9 2 Analüüsimetoodika 13 2.1 Elukestusanalüüs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.2 Võrdeliste riskide mudel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2.2.1 Coxi võrdeliste riskide mudel . . . . . . . . . . . . . . . . . . . . . . 18 2.2.2 Weibulli jaotusega võrdeliste riskide mudel . . . . . . . . . . . . . . . 23 2.3 Binaarse tunnuse modelleerimine . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.3.1 Logistiline mudel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.3.2 Täiend-log-log mudel . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 2.4 Meta-analüüs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 3 Simulatsiooniuuring 35 3.1 Haigestumisandmete simuleerimine . . . . . . . . . . . . . . . . . . . . . . . 35 3.2 Simulatsiooniplaan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 3.3 Tulemused . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 4 Geenivaramu andmete analüüs T2D näitel 48 4.1 Andmete kirjeldus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 4.2 Tulemused . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 5 Arutelu 56 Kokkuvõte 58 Viited 60 Lisad 66

4 Kasutatud lühendid cloglog täiend-log-log (complementary log-log) DNA desoksüribonukleiinhape (deoxyribonucleic acid) EHR elektroonilised terviseandmed (electronic health records) GWAS ülegenoomne seoseanalüüs (genome-wide association study) HR riskimäärade suhe (hazard ratio) ICD rahvusvaheline haiguste klassifikatsioon (The International Classification of Diseases) MAF harvema alleeli sagedus (minor allele frequency) MR martingaalijäägid (martingale residuals) OR šansside suhe (odds ratio) RMSE ruutjuur keskmisest ruutveast (root mean square error) SNP üksiknukleotiidne polümorfism (single nucleotide polymorphism) T2D teist tüüpi diabeet (type 2 diabetes) TÜ EGV Tartu Ülikooli Eesti Geenivaramu

5 Sissejuhatus Magistritöö eesmärk on välja selgitada, kuidas kõige efektiivsemalt analüüsida seoseid (geneetilise) riskiteguri ja haiguse vahel, kui osal uuritavatest on vastav haigus diagnoositud enne uuringuga liitumist ja osal uuritavatest pärast liitumist. Töö on motiveeritud Tartu Ülikooli Eesti Geenivaramus (TÜ EGV, edaspidi ka geenivaramu) tehtavatest uuringutest. Geeni varamuga liitunud inimeste geeniandmed on seotud nende terviseandmetega – teada on geeni doonorite diagnoosid nii geenivaramuga liitumisele eelnenud kui järgnenud ajast. Jälgimis eelseteks juhtudeks (prevalent cases) nimetame neid geenidoonoreid, kes on meile huvipakkuva haiguse saanud enne geenivaramuga liitumist. Jälgimisaegseteks juhtudeks (incident cases) aga neid geenidoonoreid, kes on haigestunud pärast geenivaramuga liitumist. Et jälgimisaegsete haigusjuhtude puhul on teada ka diagnoosi saamise aeg, siis rakendatakse nende juhtude analüüsimisel enamasti Coxi võrdeliste riskide mudelit. Jälgimiseelsete juhtude puhul kasutatakse tavaliselt binaarse tunnuse analüüsimiseks mõeldud meetodeid, näiteks logis tilist regressiooni. Töö eesmärk on leida lihtne meetod, mille abil saab neid haigusjuhtusid ana lüüsida koos ja mis oleks kasutatav ka suurte ülegenoomsete uuringute puhul, kus huvi pakuvad seosed haiguse ja miljonite geenivariantide vahel.

Magistritöös võrreldakse erinevaid meetodeid jälgimiseelsete ja jälgimisaegsete haigusjuhtude ning geenivariantide vaheliste seoste analüüsimiseks: logistilist ja täiend-log-log mudelit binaar sele tunnusele ning Coxi regressiooni elukestusandmetele. Töös uuritakse, kas jälgimiseelseid ja jälgimisaegseid juhtusid on parem analüüsida eraldi, kasutades vastavalt binaarsete tunnus te analüüsimiseks mõeldud mudelit ja Coxi mudelit, ning saadud hinnangud seejärel meta analüüsi kasutades kombineerida, või analüüsida kõiki haigusjuhtusid koos, tegemata vahet, kas haigus saadi enne või pärast geenivaramuga liitumist. Meetodite võrdlemiseks viiakse läbi simulatsiooniuuring; enne seda kirjeldatakse algoritmi so bivate elukestusandmete genereerimiseks. Uuritud meetodeid rakendatakse geenivaramu and metel, selleks et analüüsida seoseid geenivariantide ja teist tüüpi diabeedi vahel. 6 Töö esimeses peatükis antakse lühiülevaade statistilise geneetika põhimõistest ning jälgimis eelsete ja jälgimisaegsete juhtude analüüsi eripäradest. Teises peatükis kirjeldatakse kasuta tavaid analüüsimeetodeid. Põhjalikumalt tutvustatakse elukestusanalüüsi ja selle tegemiseks rakendatavaid Coxi ning Weibulli jaotusega võrdeliste riskide mudeleid. Samuti kirjutatakse kahest binaarsete tunnuste uurimise meetodist: logistilisest ja täiend-log-log regressioonist. Kolmandas peatükis kirjeldatakse, kuidas simuleerida võrdeliste riskide mudelile vastavaid haigestumisandmeid Weibulli jaotusest, tutvustatakse simulatsiooniplaani ja simulatsiooni uuringust saadud tulemusi. Neljandas peatükis antakse ülevaade geenivaramu andmetest ja nende põhjal tehtud analüüsi tulemustest. Andmete simuleerimiseks ja analüüsimiseks kasutati statistikatarkvara R 3.6.1 (R Core Team, 2019) ning kõik arvutused tehti Tartu Ülikooli teadusarvutuste keskuse arvutusklastris (Teadus arvutuste keskus, www.hpc.ut.ee).

7 1 Ülegenoomne seoseuuring 1.1 Geneetilised variandid ja seoseuuringud Kõik rakud sisaldavad geneetilist materjali, millest valdav osa asub raku tuumas ja on organi seerunud kromosoomidesse, mille moodustavad üks katkematu DNA-kaksikahel ja sellega seo tud valgud. DNA on polümeer, mis kannab rakkudes edasi pärilikku informatsiooni ja koosneb kahest omavahel ühendatud nukleotiidide ahelast. Täielikku DNA järjestust nimetatakse genoo miks. Inimeste genoom on diploidne, mis tähendab, et iga kromosoom esineb kahes koopias. Neid DNA osi, mis erinevate inimeste vahel varieeruvad, nimetatakse geneetilisteks variantideks. Üksiknukleotiidsed polümorfismid (SNP, single nucleotide

polymorphism) on DNA järjestuse variatsioonid, mis on tekkinud ühe nukleotiidi asendumisel teisega. SNP-d on kõige sagedasemateks variantideks inimese genoomis. SNP-del on enamasti kaks alleeli ehk kaks erinevat võimalust, millised neljast nukleotiidist DNA-ahelas sellel kohal paikneda saavad. SNP esinemissagedust kirjeldatakse harvema alleeli sageduse (MAF, minor allele frequency) kaudu. MAF on konkreetse SNP vähem esineva alleeli suhteline sagedus sellesama SNP kõigi ülejäänud alleelide suhtes populatsioonis. Selleks, et välja selgitada, millised geneetilised variandid on seotud mingi huvipakkuva tun nuse või haigusega, viiakse läbi geneetilisi seoseuuringuid. Enamasti jagatakse geneetilise seoseuuringu tegemiseks geenidoonorid huvipakkuva haiguse põhjal juhtudeks ja kontrollideks. Kõige enam uuritavateks geenivariantideks ongi just SNP-d. Huvi pakub see, kas geneetilise variandi üks alleelidest esineb juhtude seas sagedamini kui kontrollide seas, sest see viitab selle variandi seosele vastava fenotüübiga. Enamasti SNP-d ise haigusi ei põhjusta, vaid annavad pigem aimu, millised kromosoomid või genoomipiirkonnad võivad uuritava haigusega seotud olla. Uuringuid, kus huvi pakuvad väga paljud geenivariandid üle kogu genoomi, nimetatakse ülegenoomseteks seoseuuringuteks (GWAS, genome-wide association study). Tavaliselt eeldatakse geneetiliste seoseuuringute tegemisel, et SNP mõju on aditiivne (Hayes, 2013). See tähendab, et kui SNP-l on kaks alleeli A ja B ning kolm võimalikku genotüüpi 8 AA, AB ja BB, siis harilikult on SNP kodeeritud arvudega 0, 1, 2, mis tähistavad efektialleeli, näiteks alleeli B sagedust. Seega vastavad arvud 0, 1 ja 2 genotüüpidele AA, AB ja BB. Geenidoonori genotüübi määramiseks kasutatakse kindlaid genotüpiseerimiskiipe, mille abil määratakse vaid väike osa inimese genoomis asuvatest SNP-dest. Ülejäänud SNP-d määratakse imputeerimise abil – kasutatakse referentsgenoomi ja

teadmist, et kromosoomil lähestikku paik nevad SNP-d on omavahel korreleeritud. TÜ EGV imputeerimiseks kasutatav referentspaneel on koostatud rohkem kui 2000 geenidoonori põhjal, kellele on tehtud täisgenoomi sekvenee rimine ehk on teada kogu nende DNA järjestus. Imputeerimise abil ei saa alati kindlalt öelda, milline genotüüp indiviidil on. Seega tavaliselt väljastavad imputeerimisprogrammid igale indi viidile iga imputeeritud SNP kohta alleelidoosi – see on reaalarv 0 ja 2 vahel, mis kirjeldab eeldatavat efektialleeli sagedust. Kui uuritavaks tunnuseks on haiguse olemasolu, siis kasutatakse geneetilistes seoseuuringutes tavaliselt logistilist regressiooni, uuritav tunnus võib olla ka pidev (näiteks inimese pikkus või vererõhk), sel juhul kasutatakse lineaarset regressiooni. Geneetilisi seoseuuringuid saab raken dada ka elukestusandmetele, sel juhul on enamasti kasutusel Coxi võrdeliste riskide mudel. 1.2 Retrospektiivsed ja prospektiivsed andmed Tavalised epidemioloogilised uuringud saab jagada retrospektiivseteks ja prospektiivseteks ole nevalt sellest, millal andmeid koguma hakatakse. Retrospektiivsete ehk tagasivaatavate uurin gute korral kasutatakse andmeid nende sündmuste kohta, mis on toimunud enne uuringu algust. Prospektiivsete ehk ettesuunatud uuringute korral hakatakse andmeid koguma nende sündmuste kohta, mis toimuvad pärast uuringu algust. Suurte biopankade andmed on tihti seotud elektrooniliste terviseandmetega (EHR, electronic health records). Ka TÜ EGV geenidoonorite geeniandmetega on ühendatud terviseandmed erinevatest meditsiiniallikatest nagu Haigekassa, Tartu Ülikooli Kliinikum, Põhja-Eesti Regionaalhaigla, E-tervis ning surma- ja vähiregister. Seega saab ka biopankade andmed jagada retrospektiivseteks ja prospektiivseteks olenevalt sellest, kas inimene sai huvipakkuva haiguse 9

enne või pärast geenidoonoriks hakkamist. Sellisel juhul loetakse uuringu alguseks iga indiviidi puhul tema geenivaramuga liitumise kuupäeva. Retrospektiivsete ehk jälgimiseelsete juhtude uurimisel tuleb arvestada sellega, et mõne haiguse puhul mõjutab haigestumine uuringusse kaasamise tõenäosust. Kui mingil haigusel on kiire ja kõrge suremus, siis on vähe tõenäoline, et selle haiguse saanud inimene liitub geenivaramuga. Samuti võib haigestumine tunduvalt halvendada inimese elukvaliteeti, mistõttu ta ei pruugi olla motiveeritud geenivaramuga liituma. Sellise haigusega inimesed, kes siiski geenivaramuga liituvad, võivad seega olla eriline alam rühm, kes kõnealuse haiguse kergelt läbi põdesid. Kui nüüd analüüsida neid inimesi ja leida seos mõne geenivariandi ja vastava haiguse vahel, võib see geenivariant olla hoopis kaitsva mõjuga ning olla seotud selle haiguse kerge läbipõdemisega. Geenivariante, mis suurendavad nii haiges tumise riski kui selle haigusega seotud letaalsust, on aga sellisel juhul keeruline tuvastada, ja nende efekti haigusele on oht alahinnata. Seda probleemi kirjeldatakse ka mõistega ellujääjate efekt (survival bias) või prevalence-incidence bias. (Oleckno, 2008) Teine jälgimiseelsete juhtude eripära on see, et nende puhul ei ole sageli teada diagnoosi saa mise aeg. Infot geenidoonorite varasemate haiguste kohta saadakse tihti nende enda täidetud küsimustikest ja kui inimene ise haigestumise kuupäeva ei mäleta, siis märgitakse see andmes tikku lihtsalt kui enne liitumist saadud haigus. See on ka üks põhjuseid, miks ei saa jälgimis eelsete haigusjuhtude analüüsimiseks kasutada elukestusanalüüsi meetodeid. Jälgimisaegsete juhtude puhul selliseid probleeme ei esine, nende analüüsimisel on korralikult esindatud ka fataalse ja raske haiguskuluga haiged. Samuti on jälgimisaegsete juhtude puhul alati teada ka diagnoosi saamise kuupäev ja seega on nende uurimisel standardiks elukestus analüüsi meetodite rakendamine. Kui kaasata analüüsi ainult jälgimisaegsed juhud, võib aga oluliselt väheneda analüüsi võimsus, eriti just haruldaste haiguste korral, mille puhul on juhtu de arv niigi väike ja

jälgimiseelsete juhtude väljajätmine ei ole soovitav. Seega on kogu infot efektiivselt kasutav analüüs ikkagi selline, kuhu on kaasatud nii jälgimiseelsed kui jälgimis aegsed andmed. 10 Prospektiivsetes ehk edasivaatavates epidemioloogistes uuringutes on kestusandmete analüü simiseks tavapärane kasutada Coxi võrdeliste riskide mudelit. Coxi mudeli hindamine on aga tunduvalt arvutusmahukam kui binaarsete tunnuste analüüsimiseks mõeldud mudelite kasutami ne. Seega on suuremahuliste genotüüp-fenotüüp seoseuuringute (näiteks ülegenoomsete seose uuringute) puhul siiani kasutatud peamiselt logistilist regressiooni, seda ka selliste andmete puhul, kus tegelikult oleks võimalik rakendada Coxi mudelit. Paljudes GWAS-i läbiviimiseks kasutatavates populaarsetes tarkvarapakettides nagu PLINK (Purcell et al., 2007), BOLT-LMM (Loh et al., 2015), SAIGE (Zhou et al., 2018) ja REGENIE (Mbatchou et al., 2020), ei ole Coxi mudelit üldse implementeeritud. Arvutusmahu vähendamiseks Coxi võrdeliste riskide mudeli kasutamisel GWAS-i läbi viimiseks on välja pakutud ja kasutusele võetud erinevaid meetodeid, nagu näiteks kahe astmeline meetod, kus esmalt tehakse ülegenoomne analüüs logistilise regressiooniga, filtreeri takse välja need SNP-d, mille p-väärtus on väiksem mingist kindlaksmääratud piirist, ning hin natakse siis Coxi mudelid ainult nendele SNP-dele (Staley et al., 2017), või martingaalijääkide kasutamine Coxi mudeli lähendamiseks (Joshi et al., 2016; Pilling et al., 2017; Timmers et al., 2020). Martingaalijääkide meetodit tutvustatakse ja katsetatakse ka selles töös. Jälgimiseelsete juhtude eraldi analüüsimisel on tavapärane kasutada logistilist regressiooni, kus sõltuvaks tunnuseks on binaarne tunnus, mis vastab haiguse esinemisele. Logistilist ja Coxi regressiooni on palju uuritud ja omavahel võrreldud selliste uuringutüüpide puhul nagu läbi lõikeline uuring (van der Net et al., 2008), kohortuuring (Callas et al., 1998), sobitatud juht kontrolluuring (Leffondré et al., 2003) ja juht-kohortuuring (Staley et al., 2017). Logistilise regressiooniga hinnatakse

Page 1 of 8