suse määr väiksem kui lävendi meetodi korral. Närvivõrgu tulemusest on näha, et testandmetel on tulemus parem kui valideerimisandmete korral. Tabelist 10 on näha, et tasakaalustatud andmed ning kaalutud vaatlused annavad hospitaliseeritute mudeldamisele juurde, kuid mitte märkimisväärselt. Seetõttu ei saa väita, et tasakaalustatud andmed või kaalutud vaatlused aitaksid paremini hos- pitaliseerituid eristada. Parima mudeli valimisel tuleb arvestada, et kokkuvõttes annavad kõik mudelid umbes sama tulemuse, seetõttu on mõistlik jääda ülesande baasmudeli ehk logistilise regressioon mudeli juurde. Eelnevat arvesse võttes vali- takse parimaks mudeliks baasmudel ehk logistiline regressioon lävendi meetodiga. 3.4 Tulemused uutel andmetel Järgmisena treenitakse valitud parim mudel tervel andmestikul, mis oli analüüsiks kasutada. Seejärel võetakse riskipatsientide 2020. aasta raviarvete andmed ja hos- pitaliseerimised aastast 2021 ning katsetatakse valitud parima mudeli võimekust uutel andmetel. Uute andmete korral on teada, et aastad 2020 ja 2021 võivad olla mõjutatud COVID-19 levikust. Tabel 11: Tulemused uutel andmetel Prognoos 0 1 T egelik 0 11 801 67 991 79 792 1 664 12 773 13 437 12 465 80 764 93 229 Tabelis 11 on kirjeldatud tulemused uute andmete korral. Valepositiivsuse mää- raks saadakse 0,8521 ning valenegatiivsuse määraks saadakse 0,0494. Tulemus on ligikaudu sama, mida nähti testandmete korral. Aasta 2020 andmete korral on valepositiivsuse määr isegi veidi madalam kui testandmete puhul. Tulemus annab lootust, et mudelit saab kasutada hilisemate aastate andmete korral. Lisaks võib järeldada, et COVID-19 levik ei oma mudeli võimekusele negatiivset mõju. 48 Lõpliku mudeli tulemustest uute andmete korral on näha, et perearstide jälgimise alla peaks minema 80 764 patsienti ehk 86,6% riskipatsientidest. Samal ajal väik- semat tähelepanu vajab 12 465 patsienti ehk 13,4% riskipatsientidest, kellest 5,3% vajab hospitaliseerimist järgmisel aastal. Tulemustest selgub, et mudeliga patsiente klassifitseerides saadakse võrdlemisi väike kokkuhoid töömahus. Seetõttu tuleb val- minud mudelit kasutada pigem patsientide järjestamiseks riskiskoori alusel. Lisaks tuleb praeguste andmete juures leppida tähelepanuta jäävate haiglaravile sattuja- tega. 49
Kokkuvõte Magistritöö eesmärk oli leida parim mudel hospitaliseerimiste prognoosimiseks. Es- malt tehti ülevaade masinõppe ning tuntumate klassifitseerimismeetodite teoori- ast. Klassifitseerijatest tutvustati lähemalt üldistatud lineaarseid mudeleid logit- ja täiend-log-log seosefunktsiooniga, otsustusmetsa ning närvivõrke. Lisaks tut- vustati, mida peab jälgima mudeldades tasakaalustamata andmeid. Töö teises osas kirjeldati valimi moodustamise protsessi ning riskipatsiendi täpsemat definitsioo- ni. Veel tutvustati analüüsiks kasutatud andmestikku ning tehti ülevaade andmete töötlusest. Seejärel tehti kokkuvõte andmestikku sattunud riskipatsientidest. Praktilises osas katsetati erinevaid meetodeid hospitaliseerimiste prognoosimiseks. Vaatluse alla võeti eelnevalt tutvustatud klassifitseerimismeetodid: logistiline reg- ressioon, täiend-log-log mudel, otsustusmets ning närvivõrk. Klassifitseerimise pu- hul tuli arvestada, et hospitaliseeritud riskipatsiendi valesti kategoriseerimine on kallim viga kui mittehospitaliseeritu valesti kategoriseerimine. Lähtuvalt sellest fik- seeriti enne mudeldamist, et otsitud mudel peab andma valenegatiivsuse määra alla 0,05 ning valepositiivsuse määra samal ajal võimalikult väikese. Teooria osas toodi tasakaalustamata andmete mudeldamiseks välja kaks meetodit: lävendi ja va- likumeetod. Mõlema meetodi puhul katsetati logistilist regressiooni, täiend-log-log ning otsustusmetsa mudeleid. Lävendi meetodi korral vaadeldi veel lisaks logisti- list regressiooni vähendatud tunnustega ja närvivõrke. Mudelite hüperparameetrid ja sobivad lävendid valiti valideerimisandmestikku kasutades ning seejärel hinnati mudelite võimekust testandmetel. Tulemustest selgus, et kõik katsetatud mudelid ja meetodid andsid valepositiivsuse määra ligikaudu 0,86, kui valenegatiivsuse määr jääb alla 0,05. Kuna kõik tulemu- sed on ligikaudu võrdsed, siis antud probleemi korral ei saa väita, et valikumeeto- did tasakaalustamata andmete mudeldamisele midagi juurde annaks. Mudeldamise baasmeetodiks oli logistiline regressioon lävendi meetodiga. Baasmeetodi tulemust 50
ei suudetud katsetatud mudelitega märkimisväärselt parandada ning seetõttu valiti logistiline regressioon parimaks mudeliks. Parim mudel treeniti tervel kasutuses olnud andmestikul ning seejärel leiti tema tulemus 2020. aasta andmetel. Uutel andmetel selgus, et valitud mudel saab 2021. aasta hospitaliseerimiste prognoosimisega sama hästi hakkama kui aastate 2018– 2019 andmetel. Aasta 2021 tulemustest selgub, et perearstide tähelepanu vajab 86,6% riskipatsientidest. Mudeli poolt mittehospitaliseerituteks prognoositutest va- jab hospitaliseerimist 5,3%. Tulemustest selgus, et mudelit on olulisem kasutada patsientide järjestamiseks. Valitud mudel võib tulevikus olla töövahend perearstide- le, et leida patsiendid, kelle perearstlik jälgimine võib ära hoida tervise halvenemise haiglaravi vajaduseni. Antud töö käigus vaadeldi vaid osa võimalikest mudelitest. Samuti katsetati kuni 3 peidetud kihiga närvivõrke. Edasi võiks uurida veel teisi võimalikke kuni 3 peidetud kihiga ning samuti ka sügavamaid närvivõrke. Lisaks võiks uurida klasside kaalu- mise mõju üldistatud lineaarsetele mudelitele ja närvivõrkudele. Autor leiab, et proovida võiks muuta ka andmestikku, näiteks lisada uusi kirjeldavaid tunnuseid. Lisaks võiks andmeid vaadelda aegreana. 51
Kasutatud materjalid Abadi, Martín, Ashish Agarwal, Paul Barham, Eugene Brevdo, Zhifeng Chen, Craig Citro, Greg S. Corrado, Andy Davis, Jeffrey Dean, Matthieu De- vin, Sanjay Ghemawat, Ian Goodfellow, Andrew Harp, Geoffrey Irving, Michael Isard, Yangqing Jia, Rafal Jozefowicz, Lukasz Kaiser, Manjunath Kudlur, Josh Levenberg, Dandelion Mané, Rajat Monga, Sherry Moore, Derek Murray, Chris Olah, Mike Schuster, Jonathon Shlens, Benoit Stei- ner, Ilya Sutskever, Kunal Talwar, Paul Tucker, Vincent Vanhoucke, Vijay Vasudevan, Fernanda Viégas, Oriol Vinyals, Pete Warden, Martin Wat- tenberg, Martin Wicke, Yuan Yu ja Xiaoqiang Zheng (2015). TensorFlow: Large-Scale Machine Learning on Heterogeneous Systems. Software avai- lable from tensorflow.org. url: https://www.tensorflow.org/. Bishop, Christopher M. (2006). Pattern Recognition and Machine Learning. Springer. Data Science Estonia (2022). Närvivõrkude ja masinõppe sõnastik. url: http: //datasci.ee/masinoppe-sonastik/ (vaadatud 14.03.2022). Dertat, Arden (2017). “Applied Deep Learning - Part 1: Artificial Neural Networks.” url: https://towardsdatascience.com/applied- deep- learning-part-1-artificial-neural-networks-d7834f67a4f6 (vaa- datud 11.05.2022). Eesti Haigekassa (2021). Raviarvete ja lepingute andmevahetusteenused. url: https://www.haigekassa.ee/sites/default/files/RRL/2021/EHK_ RTA_teenused_v4.52.pdf (vaadatud 10.05.2022). – (2022a). Eesti Haigekassa kindlustusliikide loetelu. url: https://www. haigekassa.ee/sites/default/files/kindlustusliigid.pdf (vaada- tud 10.05.2022). 52
Eesti Haigekassa (2022b). Perearsti kvaliteedisüsteem. url: https://www. haigekassa.ee/partnerile/raviasutusele/perearstile/perearsti- kvaliteedisusteem (vaadatud 09.05.2022). – (2022c). Tervishoid ja tervishoiuteenuste osutajad. url: https://www. haigekassa.ee/kontaktpunkt/arstiabi- valismaalasele- eestis/ tervishoiususteemi - korraldus - eestis / tervishoid - ja (vaadatud 10.05.2022). – (2022d). Üldarstiabi rahastamise lepingud. Pearahasiseste tegevuste koo- did. url: https://www.haigekassa.ee/partnerile/raviasutusele/ perearstile/lepingud (vaadatud 10.05.2022). Eesti Haigekassa ja Maailmapanga Grupp (2015). Ravi terviklik käsitlus ja osapoolte koostöö Eesti tervishoiusüsteemis. Kokkuvõttev aruanne. url: https://www.haigekassa.ee/sites/default/files/Maailmapanga- uuring/veeb_est_summary_report_hk_2015.pdf. Goodfellow, Ian, Yoshua Bengio ja Aaron Courville (2016). Deep Learning. http://www.deeplearningbook.org. MIT Press. Harris, Charles R., K. Jarrod Millman, Stéfan J. van der Walt, Ralf Gommers, Pauli Virtanen, David Cournapeau, Eric Wieser, Julian Taylor, Sebastian Berg, Nathaniel J. Smith, Robert Kern, Matti Picus, Stephan Hoyer, Mar- ten H. van Kerkwijk, Matthew Brett, Allan Haldane, Jaime Fernández del Río, Mark Wiebe, Pearu Peterson, Pierre Gérard-Marchant, Kevin Shep- pard, Tyler Reddy, Warren Weckesser, Hameer Abbasi, Christoph Gohlke ja Travis E. Oliphant (2020). “Array programming with NumPy”. Nature 585.7825, lk. 357–362. doi: 10.1038/s41586-020-2649-2. url: https: //doi.org/10.1038/s41586-020-2649-2. 53
Hastie, T., R. Tibshirani ja J. Friedman (2009).The Elements of Statistical Learning: Data mining, Inference, and Prediction. Second Edition. Sprin- ger. James, G., D. Witten, T. Hastie ja R. Tibshirani (2021).An Introduction to Statistical Learning with Applications in R. Second Edition. Springer. url: https://www.statlearning.com. Jong, P. de ja G. Z. Heller (2008).Generalized Linear Models for Insurance Data. Second Edition. Cambridge University Press. Keras (2022). EarlyStopping. url: https : / / www . tensorflow . org / api _ docs/python/tf/keras/callbacks/EarlyStopping(vaadatud06.04.2022). Kingma, Diederik P. ja Jimmy Lei Ba (2017). “Adam: A Method for Stochas- tic Optimization.” url: https://arxiv.org/abs/1412.6980 (vaadatud 09.05.2022). Kuhn, Max ja Davis Vaughan (2022). “Logistic regression via glmnet.”url: https : / / parsnip . tidymodels . org / reference / details _ logistic _ reg_glmnet.html (vaadatud 16.05.2022). Kuhn, Max ja Hadley Wickham (2020).Tidymodels: a collection of packages for modeling and machine learning using tidyverse principles.url: https: //www.tidymodels.org (vaadatud 06.04.2022). Ling, Charles X. ja Victor S. Sheng (2010). “Cost-Sensitive Learning”. Teoses: Encyclopedia of Machine Learning. Toim. Claude Sammut ja Geoffrey I. Webb. Boston, MA: Springer US, lk. 231–235. isbn: 978-0-387-30164-8. doi: 10.1007/978- 0- 387- 30164- 8_181. url: https://doi.org/10. 1007/978-0-387-30164-8_181. Maa-amet(2021). Geoportaal. Aadressid ja posti sihtnumbrid. url: https:// geoportaal.maaamet.ee/est/Ruumiandmed/Aadressiandmed/Aadressid- ja-posti-sihtnumbrid-p582.html (vaadatud 20.10.2021). 54 Maailmapanga Grupp (2017). Ravi juhtimine: suurenenud ravivajadusega patsientide ravi koordineerimine Eestis.Eesti ravi juhtimise pilootprojekti 2017. aasta hindamisaruanne.url: https://www.haigekassa.ee/sites/ default/files/uuringud_aruanded/ECM- Pilot%20Evaluation_est_ 2018.pdf. McKinney, Wes ja the Pandas Development Team (2022). “pandas: powerful Python data analysis toolkit”.url: https://pandas.pydata.org/docs/ pandas.pdf (vaadatud 11.04.2022). Milborrow, Stephen (2021). Plot ’rpart’ Models: An Enhanced Version of ’plot.rpart’. url: https://cran.r-project.org/web/packages/rpart. plot/rpart.plot.pdf (vaadatud 06.04.2022). Murphy, Kevin P. (2012).Machine Learning: A Probabilistic Perspective.The MIT Press. Olsen, Ludvig Renbo (2021).Creating Groups from Data.url: https:// cran . r - project . org / web / packages / groupdata2 / groupdata2 . pdf (vaadatud 05.04.2022). Probst, Philipp, Marvin Wright ja Anne-Laure Boulesteix (2019). “Hyperpa- rameters and Tuning Strategies for Random Forest.”url: https://www. researchgate . net / publication / 324438530 _ Hyperparameters _ and _ Tuning_Strategies_for_Random_Forest. Provost, Foster (2000). “Machine Learning from Imbalanced Data Sets 101.” url: https : / / www . aaai . org / Papers / Workshops / 2000 / WS - 00 - 05 / WS00-05-001.pdf. Python Software Foundation (2001-2022).Python 3.9.7. url: https://www. python.org/. 55 R Core Team (2022a).Documentation for package ’stats’. url: https:// stat.ethz.ch/R-manual/R-devel/library/stats/html/00Index.html (vaadatud 06.04.2022). – (2022b). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing. Vienna, Austria.url: https : / / www.R-project.org/ (vaadatud 06.04.2022). Ravimiamet (2022). ATC puu. url: https : / / www . ravimiregister . ee / default.aspx?pv=Loendid.ATCPuu (vaadatud 09.05.2022). Riigikantselei ja Justiitsministeerium (2022a).Riigi Teataja. Eesti Haigekas- sa tervishoiuteenuste loetelu. url: https://www.riigiteataja.ee/akt/ 102042022001 (vaadatud 09.05.2022). – (2022b).Riigi Teataja. Haiglavõrgu arengukava. url: https://www.riigiteataja. ee/akt/13353001?leiaKehtiv (vaadatud 08.02.2022). Silge, Julia, Fanny Chow, Max Kuhn ja Hadley Wickham (2021).rsample: General Resampling Infrastructure.url: https://rsample.tidymodels. org/index.html (vaadatud 05.04.2022). Statistikaamet (2022).Statistika andmebaas. LES20. Vaesuse ja materiaal- se ilmajäetuse määr elukoha järgi. url: http : / / andmebaas . stat . ee (vaadatud 08.02.2022). TervisejaHeaoluInfosüsteemideKeskus(2022). NOMESCO kirurgiliste prot- seduuride klassifikatsioon. url: http://pub.e-tervis.ee/classifications/ NCSP (vaadatud 10.05.2022). Therneau, Terry, Beth Atkinson ja Brian Ripley (2022).Recursive Partitio- ning and Regression Trees.url: https://cran.r- project.org/web/ packages/rpart/rpart.pdf (vaadatud 06.04.2022). Tiit, Ene-Margit ja Liina-Mai Tooding (2019).Statistikaleksikon. Tartu Üli- kooli Kirjastus. 56 Wickham, Hadley, Mara Averick, Jennifer Bryan, Winston Chang, Lucy D’Agostino McGowan, Romain François, Garrett Grolemund, Alex Hayes, Lionel Hen- ry, Jim Hester, Max Kuhn, Thomas Lin Pedersen, Evan Miller, Stephan Milton Bache, Kirill Müller, Jeroen Ooms, David Robinson, Dana Paige Seidel, Vitalie Spinu, Kohske Takahashi, Davis Vaughan, Claus Wilke, Ka- ra Woo ja Hiroaki Yutani (2019). “Welcome to the tidyverse”. Journal of Open Source Software 4.43, lk. 1686. doi: 10.21105/joss.01686. Wright, Marvin N., Stefan Wager ja Philipp Probst (2021). A Fast Imple- mentation of Random Forests. url: https://cran.r-project.org/web/ packages/ranger/ranger.pdf (vaadatud 06.04.2022). Šteinmiller, Jekaterina (2021). “Riskipatsiendid tuleb kaasata oma ravi kor- raldusse.” url: https://www.haigekassa.ee/uudised/riskipatsiendid- tuleb-kaasata-oma-ravi-korraldusse (vaadatud 10.05.2022). 57
Lisa 1. Kaasuvad diagnoosid. Järgnevas tabelis on välja toodud riskipatsientide valimi koostamisel ning hospi- taliseerimise riski mudelites kasutatud diagnoosid ja nende täpsed määratlused raviarvetel esitatud RHK-10 koodide kaudu. Tabel 12: Diagnoosid ja RHK-10 koodid Diagnoosi nimetus RHK-10 kood Krooniline südamepuudulikkus I11.0, I13.0, I13.2, I50.0, I50.1, I50.9 Astma J45–J46 Ärevushäire F40–F41 Peaaju transitoorse isheemia atakid ja
veresoonte haigused G45, I60–69 Puriini- ja püramidiiniainevahetuse häired või podagra E79, M10 Südame isheemiatõved I20–I25 Artroosid M15–M19 Kilpnäärme haigusseisund E01–E05, E07, E06.1, E06.2, E06.3, E06.5, E06.9 Ateroskleroos I65, I66, I70, I67.2, I73.9 Kodade virvendus ja laperdus I48 Neuropaatiad G50–G64 Aneemia D50–D53, D55, D58, D61, D63, D64, D59.0, D59.1, D59.2, D59.4, D59.5, D59.6, D59.7, D59.8, D59.9, D60.0, D60.8, D60.9 Mao- ja söögitoru haigused K21, K25.4, K25.5, K25.6, K25.7, K25.8, K25.9, K26.4– K26.9, K27.4–K27.9, K28.4– K28.9, K29.2–K29.9 Vertiigo ehk peapööritus H81-H82, R42 Vähk4 (Diagnoositud perioodil 01.01.2017– 31.06.2018.) C00–C97.99, D00–D09.99, D40–D49.99, D37–D39.99, Z51–Z51.99 4Valimi moodustamisel rohkem kui 7 teise diagnoosi arvutamisel ei arvestatud vähi- diagnoosi. 58