SMER (Statens Medicin-Etiska Råd) gav i 2020 ut en kort skrift man kallar “Kort om Artificell Intelligens i hälso- och sjukvården” som en kollega skickade mig ett utdrag av. Jag läste utdraget, dvs inte hela rapporten, och så här tänker jag om det.
Det är en intressant text. Måste medge att den i all sin variabilitet ger mig ångest. Det är både högt och lågt i den, mest lågt. Den är uppenbart skriven av en kommitté där det finns åtminstone en person som kan något om AI och fick inflika någon enstaka paragraf, medan resten är mest glada framtidsspanare med noll förståelse för problemen och möjligheterna och mycket lite vilja att låta nörden skriva för många paragrafer.
Som exempel på högt hittade jag följande (liknar mitt zebra exempel från tidigare post):
Artificiell dumhet. Under träningsfasen lär sig en algoritm att känna igen mönster i träningsdata. Vid bilddiagnostik får applikationen normalt gå igenom ett stort antal bilder för att hitta mönster som skiljer positiva från negativa svar. Men studier visar att det som en AI-algoritm ”känner igen” när den identifierar en viss typ av objekt kan vara något helt annat än det vi människor förknippar med samma objekt. Detta har visat sig kunna leda till uppseendeväckande fel, där sådant som vi skulle klassa som oidentifierbart brus uppfattas som objekt, eller där små, oväsentliga förändringar får objekt att omtolkas helt. Fel av denna typ skulle kunna få allvarliga konsekvenser i hälso- och sjukvården.
Sen finns det paragrafer som börjar bra, typ:
Ytterligare ett begrepp är augmented intelligence. Här ligger fokus på tillämpningar som stöder och förbättrar den mänskliga intellektuella förmågan, snarare än ersätter den. Människa och maskin blir ”kollegor” och arbetar sida vid sida. Stora förhoppningar finns om att AI ska leda till bättre medicinska bedömningar till lägre kostnader.
Vilket jag helt håller med om …men sen halvvägs in i paragrafen slår det slint:
Genom att AI-system bygger sina förutsägelser på stora mängder patientfall är förhoppningen att bedömningarna ska kunna bli mer träffsäkra. Omotiverade skillnader i praxis mellan enskilda vårdanställda skulle kunna reduceras liksom risken för fel som beror på kognitiva misstag (information som förbises, felslut eller bias).
Jag har väldigt svårt att tro att en och samma person skrivit dessa meningar.
Den större delen av dokumenten domineras dock av science fiction. Man blandar studier som använt helt olika metoder på helt olika problemområden och drar allt över en kam. Det är som en femåring som försöker beskriva en programmerares arbete genom att studera vilka tangenter på tangentbordet han verkar trycka på oftast.
Under “kompetensförlust” har man anat ett problem som dock är vida större än man antyder:
Kompetensförlust. Redan i dag finns mycket av det kollektiva medicinska vetandet lagrat i medicinsk litteratur, register och olika hälsodatasystem, inte hos enskilda yrkesutövare. Denna utveckling kan accelereras om AI tar över fler och fler arbetsuppgifter i vården och vi allt mer förlitar oss på dess beslut. Risken finns att AI-system tar över rollen som lagringsplats för det kollektiva medicinska kunnandet och att det sker en kompetensförlust hos personalen. Detta kan leda till patientsäkerhetsrisker om systemen skulle fallera.
Implicit säger man här att AI kommer att lära sig diagnostik och behandling men kommer inte att kunna omsätta den lärdomen i någon form som kan användas av människor, och det är ju sant. Men därmed medger man också att den kunskapen inte kommer att vara verifierbar. Det betyder också att nya rön inte längre kan publiceras. Eller för den del att det AI upptäcker inte kan föranleda nya EBM studier eller laboratorievetenskap.
Det andra är att om man baserar AI inlärning på att följa diagnostik och behandling av patienter som den i dagsläget utförs i vården så lär AI sig alltså förlegad vetenskap. Den lär sig också “vilka tangenter” läkarna trycker på, så att säga, men inte varför. Har någon någonsin försökt lära upp en student på det viset? “Shut up and Watch”, typ?
Varför “förlegad”? Jo, Wellcome gjorde en studie för många år sen där man försökte ta reda på hur fort ny EBM vetenskap faktiskt trängde ut till praktiken och avståndet i tid mellan en studie och att dess resultat var känt och tillämpat av allmänläkare visade sig vara i snitt 17 år. Så en AI som tränar sig på journaldata kommer att tränas på i snitt 17 år gammal kunskap. Plus åldern på journaldata. Eftersom vi behöver ALL journaldata vi kan få tag i (och det är fortfarande för lite) och det finns digital data (i Sverige) från kanske 30 år tillbaka, så lägg till 15 år i snitt. Dvs, AI kommer att tränas enligt “Shut up and Watch” principen på 30 år gammal kunskap. Låter inte direkt som ett framgångsrecept.
Den väldigt optimistiska kalkylen förutsätter att träningsdata finns där, men det gör den inte och det har med vårt sätt att skriva journaler att göra. För att en AI ska kunna bedöma en patient så behöver den antingen själv kunna utföra den kliniska undersökningen och själv välja vad den undersöker, eller få tillgång till en komplett klinisk undersökning. Ett exempel: när jag träffar en patient med feber och hosta lyssnar jag på lungorna, tittar i halsen, kanske kollar dunkömhet över njurarna, frågar om kisseriet, samt kastar en förstulen blick på knän och handleder för att se om det är någon uppenbar artrit. När jag då ser beslag på tonsillerna och rodnad, etc, tar en StrepA som är positiv och skriver antibiotika. Men hur dokumenterar jag det? Jo, jag dokumenterar auskultationen, febern, StrepA, kanske avsaknad av dunkömhet, men inte lederna, frånvaron av urinära symptom och att patienten inte förefaller dehydraterad. Inte heller dokumenterar jag att patienten inte haltade och inte hade någon tandabcess jag kunde se. Varför inte? För att det inte känns relevant, men det var det. Och det är det för en AI som inte kan gå tillbaka och se för sig själv.
Vi dokumenterar ju också i efterhand, efter att vi dragit våra konklusioner, så vi tenderar att enbart dokumentera det som har med konklusionen att göra. Hela journalnotatet är en efterkonstruktion och kan därför inte utgöra material till att finna en annan diagnos än den läkaren redan har ställt. Informationen finns helt enkelt inte där. Det finns inte heller tillräcklig information för en AI eller för den delen en student, att lära sig på vilken bas diagnosen ställdes, vilka differentialdiagnoser som exkluderades och på vilken bas de exkluderades. Försök införa en basutbildning av läkare som begränsas till att de endast får läsa journaler i ett par år och sen se hur bra de blir. Visst låter det spännande.
Om ni inte tror mig, försök själva. Läs ett antal gamla journalnotat och försök hitta anamnes och kliniska undersökningsfynd i texten som talar emot diagnosen som ställdes, eller som var helt ovidkommande. Självklart fanns det många sådana fynd, men de blev aldrig noterade. Och det här är materialet man vill träna framtidens AI superdoktorer på?
Å andra sidan, om man använder AI för pattern recognition i bilder, som dermatoskopi, mammografi, lungrtg, så kan det fungera utmärkt. Begränsat antal variabler och diagnoser, garanterat fullständigt och objektivt material (nåja), samt stort antal cases. Här har vi en vinnare.
Men om man inte ser skillnad mellan att klassera bildmaterial och att förstå patientfall, då är man inte i närheten av att förstå vare sig den medicinska domänen eller den tekniska. Och det visar detta dokument alla tecken på1.
Uppmuntrande är dock att i den kommitté som författade detta tveksamma epos finns det någon som vet mer och som skymtar fram mellan paragraferna. Men om jag får dra några slutsatser av mina erfarenheter av byråkratier så kommer den personen inte släppas fram och kommer antagligen inte heller vilja vara kvar särskilt länge.
Har funderat lite kring detta för läkemedelsgenomgångar. Istället för att använda riktig patientdata till att börja med så kanske man istället kunde skapa x antal fejkade patienter. Var och en med en läkemedelslista, mätvärden, labvärden, diagnoser, symtomskattning. Till varje patient gör man en egen bedömning till vad man som farmaceut skulle tagit upp med läkaren. Sedan får man komma på något klokt sätt att multiplicera patienterna med någon form av variation, så att man får tillräckligt med träningsmaterial för deep learning.