Udviklingen og evalueringen af AI-modeller i sundhedssektoren kræver en systematisk og iterativ tilgang til brugerinddragelse. I udviklingsprocessen evalueres modellerne løbende og brugerinddragelse anvendes på flere stadier.
Allerede inden modellen udvikles, kan man gennemføre fokusgruppeinterviews med relevante interessenter . Det kan være relevant at interviewe slutbrugeren, f.eks. læger; sponsor/beslutningstager, f.eks. leder af en afdeling; og endelig kan man også interviewe patienter.) Denne brugerinddragelse skal afdække behov, udfordringer, og forventninger til værktøjet.
Hos IPJ består vores udviklerteam af en tværfaglig gruppe af ingeniører, læger og forskere, således at slutbrugere (ofte læger) er aktivt involverede i designet af modellen. Dette er med til at sikre praktisk anvendelighed af modellerne.
Patienter og pårørende bør løbende inddrages for at sikre, at etiske overvejelser, såsom transparens og retfærdighed, holdes for øje i udviklingsprocessen.
I udviklingsprocessen bliver modellen evalueret på diverse performance metrikker, heriblandt ROC-AUC og F1-score.
Når en prototype af modellen er udviklet og man er tilfreds med performancemetrikkernes værdier, afprøves modellen i et kontrolleret setting for at vurdere dens værdiskabelse i klinisk praksis. Her bliver der foretaget både kvalitative og kvantitative undersøgelser, for at evaluere modellen. Kvalitative undersøgelser kan være i form af interviews med slutbrugere eller observationsstudier. Kvantitative studier, f.eks. i form af tidtagning eller eye tracking, supplerer de subjektive beretninger med objektive mål for performance og bruges til at sammenligne arbejdsprocesser med og uden brug af modellen.
Prototypen bliver da justeret i henhold til resultatet af de forskellige evalueringsmetoder. Afhængigt af hvor drastiske rettelserne er, bliver prototypen performanceevalueret på ny, indtil der er bred tilfredshed med resultatet.
Herefter er modellen klar til implementering i drift.
Efter implementeringen af modellen foretages en retrospektiv evaluering for at identificere forbedringsmuligheder samt en prospektiv evaluering for at vurdere dens langsigtede effekt.
– Optimerer modellen rent faktisk processerne i en klinisk virkelighed?
Endelig kan man fokusere på diffusion af innovation, hvor teknologien udbredes og tilpasses bredere anvendelse, så flere kan drage nytte af AI-modellen.
For at sikre at performance ikke forringes med tiden, bør man gøre sig klart, hvordan man vil kvalitetssikre og monitorere sin AI-model.