skoori perearstide kvaliteedi süsteemis 644 ning parim tulemus oli 772. Pooled pe- rearstid on saanud tulemuseks rohkem kui 600 ning25%-il perearstidest jääb skoor alla 184. Tabel 4: Välja kirjutatud retseptide hinnad ja omaosalus patsiendi kohta (eurodes) T unnus Hospitaliseerimine Min Mediaan Keskmine Max aastal 2019 Retseptide Hind Kokku Ei 0 252,10 403 ,79 3 000 Jah 0 339,24 527 ,07 3 000 Omaosalus Kokku Ei 0 127,43 154 ,48 700 Jah 0 163,19 189 ,95 700 Aastal 2018 on välja kirjutatud retseptide hind keskmiselt ühe patsiendi kohta 422,87 eurot ning keskmine omaosalus ühe patsiendi kohta 159,97 eurot. Tabe- list 4 on näha, et hospitaliseeritud patsientidel on retseptide hind ja omaosalus olnud kõrgemad kui mittehopsitaliseeritutel. Samuti oli hospitaliseeritutel kõrgem mediaanhind ja -omaosalus. Välja ostmata retseptide osakaal oli0,19 ning pooltel patsientidel jääb osakaal alla0,16. Riskipatsientidest 15% jätab kõik välja kirjuta- tud retseptid välja ostmata. 38 3 Analüüs Praktilise osa eesmärk on leida parim masinõppemeetod hospitaliseerimiste prog- noosimiseks. Protsessi käigus katsetatakse ja võrreldakse erinevaid meetodeid tasa- kaalustamata andmete mudeldamiseks. Parima mudeli võimekust hinnatakse aas- tate 2020–2021 andmetel. Analüüsi osas kasutatatakse rakendustarkvara R ning närvivõrkude mudeldamiseks rakendustarkvara Python. Lisaks esimeses peatükis välja toodud pakettidele kasutatakse veel rakendustarkvara R pakette tidyverse ja tidymodels ning rakendustarkvara Python korral pakette pandas (McKinney ja Pandas Development Team, 2022) ja Numpy (Harris et al., 2020). 3.1 Eeltöö Praktilise osa käigus soovitakse leida masinõppemudel, mis eelneva aasta raviar- vete andmete põhjal prognoosiks tõenäosust sattuda järgmisel aastal haiglasse. Mudeli treenimiseks jagatakse esmalt algne töödeldud andmestik treening- ja test- andmeteks. Andmete kirjelduses tuli välja, et vaadeldavad andmed on tasakaalus- tamata ehk uuritava tunnuse klassid ei ole tasakaalus. Andmete jagamisel alam- andmestikeks säilitatakse uuritava tunnuse jaotus. Treeningandmeteks võetakse algsetest andmetest 80% (78 173) ning testandmeteks jääb 20% andmetest (19 544). Andmestik jagatakse kaheks kasutades rakendustarkvara R paketti rsample funkt- siooni initial_split. Alapeatükis 1.1 toodi välja, et testandmed on ainult mudeli võimekuse hindamiseks. Seega mudeli parameetrite hindamiseks jagatakse treenin- gandmestik veel kord kaheks: treeningandmestikuks, mis koosneb 62 538 vaatlusest, ning valideerimisandmestikuks, mis koosneb 15 635 vaatlusest. Parima mudeli valimiseks tuleb leida sobilik kriteerium. Kasutatud mudelid hinda- vad vaatluse tõenäosust sattuda järgmisel aastal haiglasse. Tõenäosusi kasutatakse, et klassifitseerida patsiendid kõrge ja madala hospitaliseerimise riskiga patsienti- deks. Mudeldamiseks kasutatud andmed on tasakaalustamata, seetõttu ei ole sobi- 39
lik kasutada mudeli võimekuse hindamiseks õigsust. Lisaks on soov, et otsitav mu- del leiaks võimalikult palju hospitaliseeritud inimesi ning samal ajal suudaks neid eristada mittehospitaliseeritutest. Mõõdiku valimisel tuleb lähtuda ka asjaolust, et hospitaliseeritud inimese klassifitseerimine mittehospitaliseerituks on kallim vi- ga kui vastupidine klassifitseerimine. Vastavalt eelnevale leiti, et otsitakse mudelit lävendiga, mis annab minimaalse valepositiivsuse määra tingimusel, et valenega- tiivsuse määr on väiksem või võrdne kui 0,05: min{Valepositiivsuse määr|Valenegatiivsuse määr ≤0, 05}. (1) 3.2 Tulemused valideerimisandmetel Mudeldamisel kasutatatakse tuntuid klassifitseerijaid, mis lisaks võimaldavad hin- nata ka tõenäosust. Baasmudeliks on logistiline regressioon. Baasmudeli tulemust soovitakse paremaks saada kasutades täiend-log-log seosefunktsiooniga üldistatud lineaarset mudelit, otsustusmetsa ja kuni 3 peidetud kihiga pärilevi närvivõrke. Valideerimisandmestikku kasutatakse, et leida hüperparameetrite väärtused otsus- tusmetsa ja närvivõrkude korral. Lisaks leitakse sobivad lävendid kõikide meetodite puhul. Valideerimisandmestikku kasutatakse ka sobiva tasakaalustatud andmestiku valimiseks ning vaatluste kaalude valimisel. 3.2.1 Lävendimeetod Esmalt leitakse tulemused kasutades lävendi meetodit (vt alapeatükk 1.8.1). Mu- delid treenitakse treeningandmestikul. Sobiva lävendi leidmiseks ja mudelite hü- perparameetrite hindamiseks kasutatakse valideerimisandmestikku. Logistilise regressiooni ja täiend-log-log mudelite korral lisatakse mudelisse kõik andmestikus olevad tunnused. Antud mudelite korral valitakse valideerimis- andmestikku kasutades ainult sobiv lävend. Lisaks proovitakse logistilise regressioo- 40
ni puhul parameetrite arvu kahandada lassoregressiooni abil. Lassoregressiooni korral kasutatakse andmestikku 190 tunnusega, kus kategoorilised tunnused on ümber defineeritud binaarseteks, ning otsitakse sobiv kahandav parameeter λ (vt alapeatükk 1.3). Sobivat λ väärtust otsitakse lõigust [0,000001, 100]. Lõik jagatak- se 60 punktiks ning parim λ väärtus valitakse vastavalt mõõdikule (1). Selgub, et parima valepositiivsuse määra annab λ = 0,002453751, mille korral jääb mudelisse 46 tunnust (vt lisa 7). Otsustusmetsa korral vaadeldakse tulemust vaikeväärtustega ning seejärel vaa- deldakse, kas hüperparameetrite valimisega on võimalik tulemust paremaks muuta. Otsustusmets treenitakse rakendustarkvara R paketti ranger kasutades. Otsustus- metsa hüperparameetritest (vt alapeatükk 1.5) seadistatakse puude arv (num.trees), tunnuste arv (mtry), minimaalne lehe suurus (min.node.size) ja valimi suurus (sample.fraction). Mudeli treenimiseks kasutatakse parameetri probability puhul väärtust TRUE, et saada tõenäosushinnangud. Tabel 5: Otsustusmetsa hüperparameetrite korral katsetatud väärtused, vaikeväärtused esile tõstetud Hüperparameeter Väärtused Puude arv 500, 1 000, 2 000 Tunnuste arv 8, 10, 12, 14, 16 Minimaalne lehe suurus 10, 20, 40, 80 Valikumäär 0,7; 0,8; 0,9; 1 Tabelis 5 on kirjeldatud hüperparameetrite treenimiseks proovitud väärtused ning nendest on esile tõstetud mudeli vaikeväärtused. Treeningprotsessis vaadeldakse läbi kõik mudelid võimalike väärtuste kombinatsioonidega. Parima tulemuse annab otsustusmets parameetritega: num.trees = 500, mtry = 10, min.node.size = 40 ja sample.fraction = 0,7. Hüperparameetrite vaikeväärtustest (vt tabel 5) ja parima mudeli andnud väärtustest hakkab silma, et antud probleemi korral ei anna puude arvu suurendamine midagi juurde. Veel võib märgata, et minimaalne lehe suurus on 4 korda suurem kui vaikeväärtusega metsa puhul. Lisaks viitab suur minimaalne 41
lehe suurus sellele, et treenitud puud ei ole nii sügavad kui vaikeväärtustega metsa korral. Närvivõrkude treenimisel tuleb valida mitmeid hüperparameetrite väärtuseid. Erinevalt otsustusmetsast puuduvad närvivõrkude mudeli parameetritele vaike- väärtused. Antud töö jaoks otsustatakse seadistada peidetud kihtide arv (mudeli sügavust), peidetud kihtide suurus (mudeli laiust), regulariseerimise parameeter ja miniploki suurus. Tabel 6: Närvivõrkude hüperparameetrite katsetatud väärtused Hüperparameeter Väärtused Peidetud kihtide arv 1, 2, 3 Peidetud kihi suurus 45, 95, 190, 380 Kantregulariseerija 0,00001; 0,0001; 0,001; 0,01 Miniploki suurus 32, 64, 128, 256 Antud töö raames vaadeldakse 1 kuni 3 peidetud kihiga närvivõrke. Peidetud ki- hi suuruse leidmiseks lähtutakse tunnuste arvust. Närvivõrkude treenimisel ei saa kasutada kategoorilisi tunnuseid, seega mudel treenitakse samal andmestikul kui lassoregressioon, mis sisaldab 190 tunnust. Kantregulariseerija väärtusena prooviti nelja väärtust (vt tabel 6). Miniploki suurusena vaadeldakse teoorias välja too- dud väärtused (vt alapeatükk 1.6 ja tabel 6). Tabelis 6 on kirjeldatud võimalikud väärtused hüperparameetrite korral, kuid kõiki kombinatsioone treenimisel läbi ei proovita. Treenimist alustatakse ühe peidetud kihiga pärilevi närvivõrkudest. Mudelite tree- nimisel võetakse epohhide arvuks 100. Kantregulariseerijat kasutatakse mudelda- misel nii, et esimesele ja teisele kihile lisati võrdsed regulariseerija väärtused. Parim tulemus saavutatakse miniploki suurusega 64, peidetud kihi suurusega 380 ning kantregulariseerijaga 0,00001. Kirjeldatud ülesehitusega närvivõrk andis valeposi- tiivsuse määra 0,8631 ja valenegatiivsuse määra 0,0488. 42
Kahe kihiga närvivõrkude korral jätkatakse eelmisel juhul parimaks osutunud mu- deli treenimist. Miniploki suuruseks jääb 64, epohhide arvuks 100, esimese peidetud kihi suuruseks võetakse 380 ning esimese peidetud kihi regulariseerija väärtuseks 0,00001. Eesmärk on edasi arendada hetkel parimat tulemust. Teise peidetud kihi suuruseks katsetatakse taaskord väärtuseid tabelist 6. Teise ja kolmanda kihi re- gulariseerija väärtustena vaadeldi erinevaid kombinatsioone väärtustega tabelist 6. Selliselt tegutsedes saadakse parim tulemus mudeliga, mille teise kihi suurus on 45, teise kihi regulariseerija väärtus on 0,01 ning kolmanda kihi regulariseerija väärtus on 0,001. Kirjeldatud närvivõrk annab tulemuseks valepositiivsuse määra 0,8654 ja valenegatiivsuse määra 0, 0480. Kolme peidetud kihiga närvivõrgu puhul jätkatakse eelnevalt leitud parimat tule- must. Seekord fikseeritakse lisaks eelnevale teise kihi suurus 45 ja teise kihi regulari- seerija väärtus 0,01 ning katsetatakse erinevaid väärtuseid kolmanda kihi suuruseks ja regulariseerijaks. Lisaks vaadeldakse viimase kihi erinevaid regulariseerija väär- tuseid. Parima tulemuse annab närvivõrk peidetud kihtide suurustega: 380–45–45. Kihtidele lisatakse kantregulariseerijad: 0,00001–0,01–0,00001–0,0001. Kirjeldatud parameetritega saadakse tulemuseks valepositiivsuse määr 0, 8602 ja valenegatiiv- suse määr 0, 0484. Seega kolme peidetud kihiga närvivõrk annab veidi parema tulemuse kui vaadeldud ühe peidetud kihiga närvivõrk. Antud töö raames roh- kem kahe ja kolme peidetud kihiga närvivõrke ei uurita ning samuti ei vaadelda sügavamaid närvivõrke. Tulemustest (vt tabel 7) selgub, et kõik meetodid annavad umbes sama valepositiiv- suse määra. Kõige madalama tulemuse annab pärilevi närvivõrk 3 peidetud kihiga. Logistilise regressiooni puhul jääb silma, et tunnuste välja jätmine annab vaid veidi kehvema tulemuse kui kõikide tunnustega mudel. Otsustusmets vaikeväärtustega annab kõige kehvema tulemuse, mis jääb alla ka baasmudelile. Selgub, et otsustus- metsa puhul on oluline hüperparmeetrite seadistamine ning sellega parandatakse valepositiivsuse määra 0,01 võrra. 43
Tabel 7: Tulemused lävendi meetodiga Meetod V alepositiivsuse V alenegatiivsuse Lävend määr määr Logistiline 0,8626 0 ,0484 0 ,081regressioon Täiend-log-log 0,8624 0 ,0475 0 ,083 Logistiline 0,8669 0 ,0480 0 ,081regressioon 46 tunnusega Otsustusmets 0,8719 0 , 0496 0 ,069vaikeväärtustega Otsustusmets 0,8619 0 ,0484 0 ,075seadistatud hüperparameetritega Pärilevi 0,8602 0 ,0484 0 ,096närvivõrk 3 peidetud kihiga 3.2.2 Tasakaalustatud andmed Järgmisena vaadeldakse mudelite tulemusi tasakaalustatud andmetel. Eesmärk on näha, kas andmete tasakaalustamine üle- ja alavalikuga (vt alapeatükk 1.8.2) aitab tulemusi tasakaalustamata andmetel paremaks muuta. Andmete tasakaalustamiseks kasutatakse rakendustarkvaraR paketti groupdata2 funktsiooni balance (Olsen, 2021). Funktsioonibalance abil tekitatakse 3 andmes- tikku:
- alavalikuga andmestik,
- ülevalikuga andmestik,
- ala- ja ülevalikuga andmestik. Alavalikuga andmestiku korral jäetakse andmestikust välja enamusklassi vaatlused nii, et enamusklassi vaatluste arv oleks võrdne vähemusklassi vaatluste arvuga. Üle- valikuga tekitatud andmestiku korral paljundatakse vähemusklassi vaatluseid seni, 44 kunivähemusklassisonsamapaljuvaatluseidkuienamusklassis.Ala-jaülevalikuga andmestiku korral võetakse klasside vaatluste arvuks nende keskmine. Seejärel vä- hendatakse enamusklassi ja suurendatakse vähemusklassi vaatluste arvu, et saada tasakaalustatud andmestik. Tabel 8: Tulemused tasakaalustatud andmetega Andmed Meetod V alepositiivsuse V alenegatiivsuse Lävend määr määr 1 Logistiline 0,8621 0 ,0496 0 ,319 regressioon Täiend- 0,8664 0 ,0496 0 ,331 log-log Otsustusmets 0,8683 0 ,0488 0 ,324 2 Logistiline 0,8532 0 ,0492 0 ,322 regressioon Täiend- 0,8561 0 ,0495 0 ,334 log-log Otsustusmets 0,8663 0 ,0488 0 ,137 3 Logistiline 0,8630 0 ,0496 0 ,319 regressioon Täiend- 0,8667 0 ,0496 0 ,331 log-log Otsustusmets 0,8657 0 ,0484 0 ,196 Tasakaalustatud andmete korral vaadeldakse 3 meetodit: logistiline regressioon, täiend-log-log ja otsustusmets. Otsustusmetsa korral kasutatakse mudelit vaike- väärtustega. Mudeldamisel selgus, et lävend 0,5 ei anna piisavalt madalat valene- gatiivsuse määra. Seetõttu leiti sobiv lävend, mis annab tulemuseks valenegatiiv- suse määra väiksema kui 0,05. Tabelist 8 selgub, et parima tulemuse üldistatud lineaarsete mudelite korral annab ülevalikuga andmestik. Otsustusmetsa korral an- nab parima tulemuse ala- ja ülevalikuga andmestik. Samal ajal hakkab ka silma, et valepositiivsuse määra tulemus on umbes sama, mida nähti lävendi meetodi korral (vt tabel 7). Otsustusmetsa puhul võib näha, et tasakaalustatud andmete korral paraneb tulemus vaid veidi. Järelikult antud probleemi korral ei anna tasa- kaalustatud andmestik mudeldamisele midagi juurde. Tervel treeningandmestikul 45 treenitakse üldistatud lineaarsed mudelid ainult ülevaliku meetodil ja otsustusmets ala- ja ülevaliku meetodil. 3.2.3 Kaalutud vaatlused Vaadeldud mudelitele saab lisada vaatlustele kaale, mida kasutatakse treeningprot- sessis. Kaalude lisamise eesmärk on mudeli tähelepanu juhtida huvipakkuvale sünd- musele treenimise ajal. Antud töös katsetatakse vaid otsustusmetsale kaalude lisamist. Mudeldamisel ka- sutatakse hüperparameetrite korral vaikeväärtuseid. Mudelisse lisatakse paramee- ter case.weights ning hospitaliseeritutele katsetatakse kaalude väärtuseid 5, 10, 20, 40. Mittehospitaliseeritutele jääb kaaluks 1. Peale mudeli treenimist oli vaja leida ka sobiv lävend, et valenegatiivsuse määr oleks väiksem kui 0,05. Tabel 9: Otsustusmetsa tulemus kaalutud vaatlustega Meetod Kaal Valepositiivsuse Valenegatiivsuse Lävend määr määr Otsustusmets 5 0,8583 0,0492 0,211 Tulemusest selgub, et otsustusmetsa korral piisab hospitaliseeritutele kaaluks 5 (vt tabel 9). Taaskord saadakse valepositiivsuse määra tulemuseks ligikaudu 0,86. Kui võrrelda tulemust lävendi meetodil ja vaikeväärtustega treenitud otsustusmetsa tu- lemusega (vt tabel 7), siis on näha, et kaalude lisamine mudelisse annab veidi pare- ma tulemuse. Kaalutud vaatlustega otsustusmets edestab veel ka tasakaalustatud andmetega otsustusmetsa tulemust (vt tabel 8). 3.3 Tulemused testandmetel Järgnevalt võetakse vaatluse alla mudelid koos sobitatud hüperparameetritega, lä- vendite ja kaaludega ning treenitakse mudelid tervel treeningandmestikul. Seejärel 46
hinnatakse tulemused testandmetel. Testandmete tulemuste põhjal valitakse parim mudel hospitaliseerimise riski hindamiseks. Tabel 10: Tulemused testandmetel Meetod Lähenemine Valepositiivsuse Valenegatiivsuse määr määr Lävendi 0,8622 0,0489 meetod Lassoregressioon 0,8669 0,0450 Logistiline Tasakaalustatud 0,8577 0,0509 regressioon andmed Täiend-log-log Lävendi 0,8627 0,0496 meetod Tasakaalustatud 0,8606 0,0506 andmed Otsustusmets Lävendi 0,8676 0,0479 meetod Tasakaalustatud 0,8639 0,0456 andmed Kaalutud 0,8612 0,0463 vaatlused Närvivõrgud Lävendi 0,8587 0,0532 meetod Tabelis 10 on välja toodud kõikide katsetatud meetodite tulemused testandmetel. Logistilise regressiooni puhul selgub, et vähendatud tunnustega mudel (lassoregres- sioon) saab kehvema valepositiivsuse määra kui kõikide tunnustega mudel lävendi meetodil. Selgub, et parima tulemuse annab logistiline regressioon tasakaalustatud andmetega. Täiend-log-log mudeli korral annab tasakaalustatud andmetega mudel parima tulemuse, kuid erinevus lävendi meetodist on vaid 0,021. Otsustusmetsa korral annab parima valepositiivsuse määra kaalutud vaatlustega mudel. Tulemustest (vt tabel 10) hakkab silma, et tasakaalustatud andmetega mudelid edestavad lävendi meetodiga mudelite valepositiivsuse määrasid, kuid erinevused on väiksed. Otsustusmetsa korral on näha, et tasakaalustatud andmetega mudeli ja kaalutud vaatlustega mudelite korral on nii valepositiivsuse kui ka valenegatiiv- 47