Ziel der in der Fachzeitschrift „Nature Medicine“ erschienenen Studie war zu erheben, ob menschliche Präferenzen das Potenzial haben, die auf KI basierende Entscheidungsunterstützung bei der Hautkrebsdiagnose zu verbessern, schreiben die Forscher. Als Mittel zum Zweck untersuchten sie das Verstärkungslernen (Reinforcement Learning) und integrierten darüber Auswirkungen, die Entscheidungen oder Verhalten haben, in das KI-System. Das geschah konkret über „Belohnungstabellen“, die die positiven und negativen Folgen klinischer Bewertung aus Sicht der Ärzte widerspiegelten, erläuterte Kittler gegenüber der APA.
Auf dieser Grundlage wurden Ergebnisse der KI-Diagnose nicht nur mit richtig oder falsch bewertet, sondern abhängig von den Auswirkungen der Diagnose bzw. der daraus folgenden Entscheidungen mit einer bestimmten Anzahl von Plus- oder Minuspunkten „belohnt“ bzw. „bestraft“. „So lernte die KI nicht nur bildbasierte Merkmale, sondern auch Konsequenzen von Fehldiagnosen in der Einschätzung von gutartigen und bösartigen Hauterscheinungen zu berücksichtigen“, so Kittler laut MedUni Wien-Aussendung.
Sensitivität für Melanome deutlich erhöht
Dadurch konnte die Treffsicherheit der Diagnose Hautkrebs „deutlich verbessert werden“, hieß es: Die Sensitivität für Melanome etwa wurde von 61,4 auf 79,5 Prozent und für Basalzellkarzinome von 79,4 auf 87,1 Prozent erhöht. Insgesamt steigerte sich durch den Einsatz von Reinforcement Learning die Rate der von Dermatologinnen und Dermatologen gestellten korrekten Diagnosen um zwölf Prozentpunkte (von 68 auf 79.9 Prozent), während sich die Rate der optimalen Entscheidungen für Management und Therapie der Erkrankung von 57,4 auf 65,3 Prozent erhöhte. Der Erfolg lässt sich, so die Forscher, auf die differenzierteren, „menschlicheren“ Vorschläge des KI-Systems zurückführen.
„Es gibt verschiedene Formen von Hautkrebs und verschiedene gutartige Veränderungen, die Hautkrebs imitieren können. Das macht die Entscheidungsfindung so komplex“, sagte Kittler der APA. Jede Diagnosestellung sei mit einer anderen Managemententscheidung verknüpft, mit wiederum unterschiedlichen Auswirkungen auf den Patienten. „Wir haben das komplexe Zusammenspiel der Wertigkeit eines Fehlers in die KI-Analyse mit einbezogen.“ Die KI werde normalerweise dahingehend trainiert, dass sie die Gesamtzahl der Fehler minimiert. Über das Verstärkungslernen habe man die Folgen diagnostischer Fehlentscheidungen berücksichtigt, da es für alle Handlungen Belohnungen oder Bestrafungen gibt, „je nachdem, wie groß der Fehler ist“.
Ein ähnliches methodisches Herangehen könnte, meinte Kittler, künftig vielleicht auch helfen, Therapieentscheidungen, die ebenfalls sehr komplex sind, zu verbessern. Immerhin habe auch jede Therapie in der Regel Nebenwirkungen.