Magistrit%C3%B6%C3%B6%20Tuuli%20J%C3%BCrgenson.pdf.pdf - Page 6

vähima p-väärtusega tulemust viimasest suurest transetnilisest teist tüüpi diabeedi meta-analüüsist (Mahajan et al., 2020). Iga geenidoonori puhul on teada nendele SNP-dele vastavad genotüübid ehk alleeli 49 doosid (arvud 0 ja 2 vahel, mis kirjeldavad vastava SNP eeldatavat efektialleeli sagedust). Geenidoonorite genotüübiandmetele on TÜ EGV bioinformaatika tuumiklaboris eelnevalt teh tud kvaliteedikontroll programmiga Plink 1.9 (Purcell et al., 2007). Selle käigus jäeti alles need indiviidid, kelle puhul geneetiline sugu vastas geenidoonori ankeedis olevale soole, geno tüüp oli määratud vähemalt 98% genotüpiseerimise kiibi peal olevatest positsioonidest ning heterosügootsete genotüüpide osakaal vastas ligikaudu kogu andmestiku keskmisele ehk jäi vahemikku keskmine + − 3 standardhälvet. Sama programmiga on tehtud ka sugulusanalüüs. Nimelt on geenivaramu andmetest enne ana lüüsi välja jäetud need geenidoonorid, kes on omavahel kuni teise astme sugulased (esimese ast me sugulased on omavahel vanemad ja lapsed, teise astme sugulased aga vanavanemad ja lapse lapsed ning õed ja vennad). Selleks leitakse iga kahe indiviidi kohta nende ühispõlvnemise hin nang, mis näitab, kui kaugel (geneetilises mõttes) on nende viimane ühine esivanem. Seda hin nangut arvestades luuakse nimekiri indiviididest, kes tuleb andmestikust välja jätta. Sugulaste väljajätmine on optimeeritud teist tüüpi diabeedi juhtude suhtes ehk eelistatult jäetakse andmes tikku alles see geenidoonor, kellel on teist tüüpi diabeedi diagnoos. Programmi Plink 2.0 (Chang et al., 2015) abil on genotüübiandmetega tehtud ka peakomponent analüüs. Leitud peakomponendid lisatakse populatsiooni struktureerituse arvesse võtmiseks regressioonimudelitesse kovariaatidena. Kirjeldav analüüs

Ilma sugulasteta TÜ EGV andmestikus on info 96 917 geenidoonori kohta, kellest 65% on naised ja 35% mehed. Nende vanus geenivaramuga liitumise ajal on olnud vahemikus 18-103 aastat, kusjuures keskmine liitumisvanus on 45 aastat. Teist tüüpi diabeedi juhtude suhtes optimeeritud sugulasteta andmestikus on 11 239 teist tüüpi diabeedi diagnoosiga geenidoonorit, mis on 11,6% kogu andmestikust (esialgses sugulastega andmestikus on juhtude osakaaluks 12108/183058 ≈6%). Keskmiseks haigestumise vanuseks on 58 (standardhälbega 13) aastat. Teist tüüpi diabeedi juhtudest 7736 on jälgimiseelsed ja 3503 50 jälgimisaegsed. Geenidoonorite andmete analüüs on läbi viidud analoogiliselt nii simulatsiooniuuringu teise kui kolmanda stsenaariumiga. Iga doonori puhul on teada kuupäev, mil ta geenidoonoriks hakkas. Analoogiliselt simulatsiooniuuringu teises stsenaariumis tehtuga jagatakse ka geenidoonorite andmed kaheks. Esimesse andmestikku jäävad jälgimiseelsed juhud (ehk need juhud, kelle vanus haigestumise ajal ei ole suurem kui liitumisvanus) ja juhuslikult valitud kontrollid, kusjuures iga juhu kohta valitakse andmestikku neli kontrolli. Kokku jäi esimesse andmestikku 38 680 geenidoonorit. Kõik ülejäänud 58 237 geenidoonorit ehk jälgimisaegsed juhud ja allesjäänud kontrollid moo dustavad teise andmestiku. Geenidoonorite vaatlusajaks märgitakse juhtudel esimene kuupäev, mil neil oli diagnoositud teist tüüpi diabeet, kontrollidel kas surmakuupäev või katkestusaeg 31.12.2019 vastavalt sellele, kas doonor oli surnud enne katkestusaega või mitte. Katkestus ajaks on valitud kuupäev 31.12.2019, sest sellest päevast pärinevad viimased diagnoosiandmed Haigekassast. Esimesele andmestikule hinnatakse nii logistiline kui täiend-log-log mudel, kus uuritavaks tun nuseks on teist tüüpi diabeedi diagnoosi olemasolu ja seletavaks tunnuseks SNP. Kovariaatidena lisatakse mudelisse ka liitumisvanus, sugu ja viis

esimest peakomponenti. Teisele andmestikule hinnatakse Coxi võrdeliste riskide mudel ja martingaalijääkide mudel, ajaskaalana kasutatakse aega alates liitumisest ja kovariaatidena lisatakse mudelisse SNP, liitumisvanus, sugu ja viis esimest peakomponenti. Kolmandale stsenaariumile vastava analüüsi puhul uuritakse jälgimiseelseid ja jälgimisaegseid haigusjuhtusid koos. Igale geenidoonorile määratakse binaarne haigestumise tunnus, mille väär tuseks on 1 või 0 vastavalt sellele, kas tegemist on teist tüüpi diabeedi juhu või kontrolliga. Andmetele hinnatakse nii logistiline kui täiend-log-log mudel, kus seletavateks tunnusteks on SNP, sugu, sünniaasta ja viis esimest peakomponenti. 51 4.2 Tulemused Tabelis 3 on esitatud info analüüsis kasutatud SNP-de kohta. Tabel 3. Info analüüsis kasutatud SNP-de kohta SNP nimi Kromosoom Efekti alleel Teine alleel MAF Üleeuroopalise meta-analüüsi βˆTransetnilise meta-analüüsi p rs7633675 3 G T 0,320 0,109 5,8·10−131 rs9348441 6 A T 0,308 0,137 6,2·10−235 rs13266634 8 T C 0,339 −0,108 3,2·10−115 rs10811661 9 C T 0,138 −0,177 1,1·10−201 rs10882101 10 C T 0,416 −0,110 1,8·10−125 rs7903146 10 T C 0,219 0,298 ≈0 rs2237897 11 T C 0,044 −0,192 5,5·10−233 rs55872725 16 T C 0,453 0,122 4,7·10−128 MAF - harvema alleeli sagedus geenivaramu kohordis Näeme, et enamiku SNP-de puhul on harvema alleeli sagedus MAF (mis on samal ajal ka efektialleeli sagedus) kõrge. Tabelis on iga SNP puhul välja toodud ka üleeuroopalise meta analüüsi hinnangud, mis on pärit samast teist tüüpi diabeedi transetnilisest meta-uuringust.

Joonisel 9 on kujutatud teisele stsenaariumile vastava analüüsi tulemused. Nende tulemuste puhul jagati andmestik esmalt kaheks – ühes on jälgimiseelsed juhud ja juhuslikult valitud ter ved kontrollid, teises jälgimisaegsed juhud ja ülejäänud terved kontrollid. Esimesele andmes tikule on hinnatud logistiline ja täiend-log-log mudel. Teisele andmestikule on hinnatud Coxi võrdeliste riskide mudel, mida on lähendatud ka martingaalijääkide meetodiga. Coxi mudeli te puhul oli iga SNP korral võrdeliste riskide eeldus Schoenfeldi jääkide testi põhjal täidetud. Meta-analüüsi hinnangud on saadud esimese ja teise andmestiku hinnangute kombineerimisel. Esmalt märgime, et Coxi mudeli ja martingaalijääkide mudeli hinnangud on kõigi kaheksa SNP korral väga sarnased. See on kooskõlas simulatsioonide tulemustega: ühelähedaste efekti suuruste ja pigem suurte MAF-ide puhul sobib martingaalijääkide meetod Coxi mudeli lähen damiseks hästi. Sedasama seost näeme ka vastavate metahinnangute puhul (Meta (MR + logit) ja Meta(MR + cloglog)), kuid lihtsuse huvides ei ole neid joonisele märgitud. Kuna martingaali jääkide meetodi uurimine ei ole selle töö põhieesmärk, siis edaspidi keskendume Coxi mudeli 52 rs7633675(G) rs9348441(A) rs13266634(T) rs10811661(C) rs10882101(C) rs7903146(T) rs2237897(T) rs55872725(T) -0,3 -0,2 -0,1 0 0,1 0,2 0,3 β ^ (95%-UI) Logit Cloglog Cox MR Meta (Cox + logit) Meta (Cox + cloglog)

Joonis 9. T2D seosed kaheksa valitud SNP-ga (hinnang koos 95%-usaldusintervalliga) teise stsenaariumi puhul. Logit- ja cloglog-lingiga mudelid on hinnatud jälgimiseelsete juhtude andmetelt, Coxi mudel ja martingaalijääkide mudel on hinnatud jälgimisaegsete juhtude andmetelt. SNP nime järel on märgitud efektialleel. Logit - logistiline mudel, cloglog - täiend-log-log mudel, MR - martingaalijääkide mudel ja binaarsete mudelite võrdlemisele. Oodatult näeme, et logistilise regressiooni hinnangud on absoluutväärtuselt suuremad nii täiend log-log mudeli hinnangutest kui Coxi mudeli hinnangutest. Nagu nägime ka teoreetiliselt ja simulatsiooniuuringu tulemusena, on täiend-log-log mudeli hinnangud Coxi mudeli hinnangu tega sarnasemad kui logistilise mudeli hinnangud. Samasugune seos kehtib ka vastavate meta hinnangute (Meta (Cox + logit) ja Meta (Cox + cloglog)) puhul. Joonisel 10 on kujutatud lõplikud analüüsitulemused: metahinnangud teisest stsenaariumist ja kolmandale stsenaariumile vastavad binaarsete mudelite hinnangud. 53 rs7633675(G) rs9348441(A) rs13266634(T) rs10811661(C) rs10882101(C) rs7903146(T) rs2237897(T) rs55872725(T)

-0,3 -0,2 -0,1 0 0,1 0,2 0,3 Logit Cloglog Meta (Cox + logit) Meta (Cox + cloglog) Üleeuroopaline meta-analüüs β ^ (95%-UI) Joonis 10. T2D seosed kaheksa valitud SNP-ga (hinnang koos 95%-usaldusintervalliga). Logit- ja cloglog-lingiga mudelid on hinnatud kõikidelt andmetelt, metahinnangute puhul on kombineeritud jälgimiseelsete juhtude analüüsi tulemused jälgimisaegsete juhtude analüüsi tulemustega. SNP nime järel on märgitud efektialleel. Logit - logistiline mudel, cloglog - täiend-log-log mudel Täpsemalt on iga SNP puhul kujutatud nelja erineva meetodi hinnang ja vastav 95%- usaldusintervall. Võrdluseks on esitatud ka transetnilise meta-analüüsi Euroopa-põhised efekti suuruste hinnangud koos 95%-usaldusintervalliga. Et selles metauuringus on analüüside läbi viimisel kasutatud logistilist regressiooni, on vastavateks efektisuurusteks logaritmitud šansside suhted (log(OR)). Seega annavad need hinnangud aimu meie efektisuuruste ja -suundade õig susest, kuid ei sobi selleks, et hinnata erinevate mudelite hinnangute headust: on oodatav, et enamiku SNP-de puhul on üleeuroopalise meta-analüüsi hinnangutele kõige lähemal just logis tilise mudeli hinnangud. Hinnangute suurused on kõigi SNP-de ja kõigi meetodite puhul sarnased ja efektisuuru sed on ühe lähedal – minimaalne exp(β ˆ ) on 0,79 ja maksimaalne exp(β ˆ) on 1,30. Kõige suuremat erinevust hinnangute suuruse vahel näeme rs2237897 puhul: Logit hinnangu ja 54 Meta (Cox + cloglog) hinnangu vahe on −0,039. Ka p-väärtuste poolest on hinnangud sarna sed: kuigi logistilist regressiooni kasutavate meetodite hinnangute standardvead olid iga SNP puhul suuremad kui vastavad täiend-log-log regressiooni kasutavad meetodid, kompenseerisid seda logistilise mudeli absoluutväärtuselt suuremad hinnangud. Seega on p-väärtused pea iga SNP puhul kõige väiksemad just Logit meetodi puhul, kuid erinevused Cloglog meetodiga on väikesed (suurim Logit ja

Cloglog meetodi p-väärtuste vahe on rs10882101 korral ja see on umbes 3,51 · 10−6). Seega ei näe me, et hinnangute meta-analüüsimine annaks eelise lihtsa binaarse mudeli kasuta mise ees. Arvestada tuleb ka sellega, et ainult logistilise või täiend-log-log mudeli kasutamine on arvutuslikult palju kiirem (ainult kaheksa SNP seoseid uurides see muidugi välja tule) ja ka andmete ettevalmistamine on oluliselt lihtsam: vaja on teada vaid seda, kas inimesel oli haigus diagnoositud, ning ei ole vaja arvestada haigestumis- ja liitumiskuupäevade andmetega, leid maks haigestumise vanust ning eraldamaks jälgimisaegseid ning jälgimiseelseid haigusjuhtusid erinevatesse andmestikesse. Meta-analüüsi meetod on seega oluliselt töömahukam, hõlmates endas juhtude eristamist, erinevate mudelite hindamist ja seejärel hinnangute kombineerimist. Kõike seda silmas pidades võib öelda, et jälgimiseelseid ja jälgimisaegseid juhtusid võiks ana lüüsida koos, kasutades selleks binaarset mudelit. 55 5 Arutelu Selles töös nägime nii simulatsiooniuuringus kui geenivaramu andmete

analüüsimisel, et Coxi võrdeliste riskide mudeli rakendamine ei pruugi alati anda olulist eelist lihtsa binaarse mudeli kasutamise ees. See teadmine teeb retrospektiivsete ja prospektiivsete andmete kombineerimise lihtsaks, sest mõlemat tüüpi andmeid on võimalik analüüsida koos. Näitasime, et kui hinna tud parameetrit soovitakse tõlgendada kui logaritmilist riskimäärade suhet (see tähendab, nii nagu Coxi mudeli parameetrit), siis tuleks traditsioonilise logistilise seosefunktsiooni asemel kasutada täiend-log-log seosefunktsiooni. Suurte metauuringute puhul on erinevatel osalevatel kohortidel analüüside läbiviimiseks erine vad võimalused. Seetõttu võidakse ühtsuse mõttes iga kohordi puhul analüüs läbi viia mõne lihtsa meetodiga, näiteks logistilist regressiooni kasutades, olgugi et osal kohortidest võivad olla olemas nii andmed kui tarkvara Coxi võrdeliste riskide mudeli rakendamiseks. Teine või malus, mida kasutatakse, on mudelite hindamine vastavalt iga kohordi võimalustele – kui on võimalik, kasutatakse Coxi mudelit, kuid kui on olemas vaid binaarsed haigestumise andmed, hinnatakse logistiline mudel – ja siis meta-analüüsitakse kokku nende erinevate mudelite hin nangud: riskimäärade suhted ja šansside suhted. Sellises olukorras tuleb hästi välja täiend-log log mudeli kasutamise eelis: kui binaarse tunnuse analüüs teha täiend-log-log mudeli kaudu, on hinnangud interpreteeritavad samamoodi nagu Coxi mudeli hinnangud, ning nende hinnangute meta-analüüsimine on õigustatud. Coxi mudeli paremus võib välja tulla näiteks siis, kui haigestumise vanusest sõltuvus on keeru line. Selles töös kasutasime haigestumisandmete genereerimiseks Weibulli jaotust, mille korral on haigestumise ja vanuse vaheline seos lihtne, ja see võib olla põhjuseks, miks töötas väga hästi ka binaarne täiend-log-log mudel, kus vanuse arvesse võtmiseks oli lihtsalt sünniaasta kovariaadina mudelisse lisatud. Samal ajal ei ole selge, kuidas on kõige õigem binaarse mudeli hindamisel vanust arvesse võtta. Ainult jälgimiseelsete juhtude analüüsimisel on loomulikuks valikuks lisada kovariaadina mudelisse geenivaramuga liitumise vanus – juhtude puhul teame, et selleks vanuseks olid nad juba haigestunud, kontrollide puhul teame, et selles

vanuses nad 56 veel haiged ei olnud. Kui aga analüüsida jälgimiseelseid ja -aegseid haigusjuhtusid koos, siis pole liitumisvanus enam informatiivne. Selles töös on sel juhul mudelisse lisatud inimese sünni aeg: see on üksüheselt seotud inimese vanusega analüüsi tegemise hetkel, mis juhtude puhul on vanus, enne mida nad olid haigestunud, ja kontrollide puhul vanus, enne mida nad ei olnud haigestunud. Selle lähenemise puhul ei arvestata aga sellega, et kõik geenidoonorid ei ole ana lüüsi tegemise ajaks enam elus, ja samuti ei pruugi see juhtude puhul olla väga hästi seotud haigestumise vanusega, sest mõni juhtudest võis haigeks jääda vahetult enne analüüsi tegemist, mõni aga aastakümneid enne seda. Edaspidi võiks uurida, kas mõni muu meetod vanuse ar vesse võtmiseks on sobivam, näiteks kasutades kontrollide puhul vanust analüüsi tegemise või surma ajal, jälgimiseelsete juhtude puhul liitumisvanust ja jälgimisaegsete juhtude puhul vanust haigestumise ajal. Selles töös tehtud simulatsiooniuuringu puhul ei ole arvestatud sellega, et mõni geenivariant võib jälgimiseelsete juhtude puhul mõjutada lisaks haigestumisele ka nende geenivaramuga lii tumise tõenäosust. Samas on tähtis teadvustada, et jälgimiseelsete juhtude hulka saavad sattuda ainult need inimesed, kes pärast mingi diagnoosi saamist olid piisavalt terved, et geenivaramuga liituda, kuid jälgimisaegsete juhtude seas näeme me kõikide erinevate raskusastmetega haiges tunuid. Seetõttu on jälgimiseelsete juhtude analüüsil üle esindatud madala haigusjärgse sure musega juhud ja nii võib näiteks madala suremusega seotud geenivariant näida olevat seotud suurema haigestumisriskiga. Seega on nii hinnangute kombineerimine kui ka jälgimiseelsete ja jälgimisaegsete juhtude koos analüüsimine õige ainult siis, kui ei ole alust arvata, et mingi SNP mõjutab lisaks haigestumisele ka näiteks haiguse kulgu või suremust. Vastasel juhul võib see meetod eelmainitud põhjuste tõttu anda nihkega hinnanguid. Kui uurida geenivariantide seosed mingi haigusega, millel on teadaolevalt näiteks kiire suremus,

Page 6 of 8