Det skrivs och hoppas på att AI ska fixa vården. Typexempel är väl Anders Ekholms obegränsade entusiasm.
Men det är viktigt att veta är när AI baserad på learning sets är tillämpligt, och det är inte tillämpligt på det sättet inom medicin. Förklaringen till det är ganska lång, men i korthet kan man beskriva det som följer.
Säg att du vill träna ett imaging system att känna igen gafflar och stekpannor. Om du ger ditt neurala nätverk ett par tusen olika bilder på gafflar och stekpannor samtidigt som du säger vilka är vilka (“labeling”), så kan nätverket antagligen själv i efterhand skilja på gafflar och stekpannor. Men…
- vi vet inte HUR nätverket gör skillnad. Det finns ingen logik, inget resonemang att verifiera.
- vi vet inte om träningsdata var korrekta, “unbiased”. T.ex. kanske det inte alls var formen på gaffeln och stekpannan den valde som urskiljning, men att gafflar tenderar att ligga på ett bord med ljus yta, medan stekpannor står på en spis med mörk yta.
- om vi testar modellen mot t.ex. en lastbil, finns det en bra chans att modellen med bestämdhet fastställer att den är en stekpanna.
Enda sättet att förbättra modellen är att öka antalet träningsexemplar till astronomiska siffror SAMT att tillfoga alla exempel på icke-gafflar och icke-stekpannor, men det är ju som man lätt förstår inte möjligt.
Vad de flesta entusiaster (tjänstemän, “vanliga” utvecklare och andra glada amatörer) utgår ifrån är att om man inför fler variabler så blir diagnosen mer precis. Dvs i detta exempel, mer olika gafflar och fler olika stekpannor, plus vikten, storleken, färgen, temperaturen, m.m. Men det är precis tvärtom. Desto fler variabler, desto bättre blir modellen på att känna igen tränings-settet, men desto större är risken att det har lagt för stor vikt vid ovidkommande data, dvs confounders.
Det här är katastrofalt i medicinska data. För det första är tränings-setten alldeles för små i förhållande till antal variabler, dvs för få patienter med samma patologi och status i jämförelse med antal variabler. Och det blir bara värre desto mer journaldata man tillfogar. Det kan mycket väl bli så att ett till synes fungerande diagnossystem för fragil diabetes har lagt största vikten vid patientens längd eller antal utförda hörseltester (bara för att hitta på nåt). Men eftersom vi inte vet hur modellen egentligen fungerar så ser vi inte det, tills vi, långt i efterhand, märker att den gett absurda resultat.
Man måste alltså reducera antal variabler man matar in till endast de variabler som kan ha bäring på diagnosen eller utfallet. Men det betyder ju att man på förhand också måste veta vilken diagnos man har, vilket redan där tar bort ett av de stora säljargumenten för AI, nämligen att den kan ställa den diagnosen själv.
Om ni märker en viss parallell med “anekdotisk medicin” så är inte det helt en slump. Det var så vi på den “gamla goda tiden” systematiskt missledde oss själva till att ta korrelationer som bevis på kausativt samband. En på neurala nätverk baserad medicinsk AI är en anekdotisk korrelationsbaserad missförståndsmaskin på steroider.
Det finns utvecklingar som ger hopp, dock. Det första är att Google gjort någon software jag glömt namnet på som kan gå igenom modeller baklänges för att återge vilken del av input bilder som modellen ger störst vikt (för på bilder tränade AI). Där har man sett just såna konstigheter som i mitt påhittade exempel i början med gafflar och stekpannor. Att modellen alltså hängt upp sig på en ovidkommande detalj som råkar korrelera i tränings-settet. Tänk er att någon zebra kändes igen som zebra eftersom det fanns ett typiskt stängsel i bakgrunden, eller något i den stilen.
En annan utveckling som jag personligen tror mycket mer på är att använda neurala nätverk för att träna igenkänning av element, men sedan använda “inference engines”, dvs logikbaserade algoritmer för att resonera om det.
Typ: träna en AI till att känna igen hyperglycemier från utvalda termer i anamnes och ett fåtal utvalda labbvärden. Lär den känna igen ökande vikt. Lär den känna igen typ av behandling utgående från läkemedelsregister. Detta är enkla analyser som vi kanske har tillräckligt med träningsdata för. Ja, så simpla måste de vara. (I zebra exemplet skulle man ha AI som känner igen ben, svans, två ögon, avlångt huvud, ränder och sedan en “inference rule” som säger att ett avlångt huvud med två ögon, fyra ben och en svans, samt ränder sannolikt är en zebra.)
När man sen har elementen, dvs hypoglycemier, typ av behandling, viktprogression, m.m., kan man med fördel använda resonemang och riktlinjer utgående from EBM1.
Men, som sagt, att tro att man kan ösa på med journalinformation och tro att en AI kan plocka fram relevanta kriterier för bedömning är vansinne och förbannad lathet. Om du inte, typ, inkluderat elefantiasis som negativt exempel på hypoglycemi, kan din AI mycket väl förväxla dessa helt distinkta problem när det körs i kliniken. Med mycken hilaritet som följd. (Får man hoppas.)
Som extra krydda: jag tror många utvecklare förstått det här, men deras bristande insikt i hur medicinsk vetenskap fungerar, och då i synnerhet nackdelarna med anekdotisk medicin, gör att de inte ser faran. Och i de fall de ser faran så tillåts de inte protestera, eftersom deras egen management är helt inställd på att leverera det kunden önskar. Och när kunden är den typ av hyperaktiv tjänsteman vi ser “spå framtiden” i media, ja då är det nog bara att ta emot pengarna och ge dem den AI de förtjänar.
Så där är vi.
One thought on “AI…”