soventec coffee time - Interpretierbarkeit von Künstlicher Intelligenz

(Autoren: Christina Bober, Kai Diercks)

Link: Artikel als PDF

Medizinische Prognosen mittels Künstlicher Intelligenz - Wie wichtig ist Interpretierbarkeit?

Wenn Künstliche Intelligenz bei Krankheitsprognosen beteiligt werden soll, darf die Nachvollziehbarkeit der gewonnenen Erkenntnisse nicht verloren gehen.

soventec hat in den vergangenen Jahren Kompetenzen im Bereich Neuronale Netze/Künstliche Intelligenz aufgebaut und angewendet. Dieses Wissen zentriert sich in der soventec AI Plattform AIcebird®

AIcebird® ist als modularer Baukasten zu verstehen. Anforderungen an Entwicklung und Nutzung von KI werden an den Anwendungsfall bedarfsgerecht und effizient angepasst. Ein umgesetzter Anwendungsfall liegt in der minimal-invasiven Frühdiagnostik von Krebserkrankungen. AIcebird® bietet hierfür Softwaremodule, die das System so trainieren, dass es in der Lage ist, hunderte Biomarker auf Basis von künstlicher Intelligenz so auszuwerten, dass medizinischem Personal Hinweise für eine differenzierte Krebsfrüherkennung an die Hand gegeben werden können.

Durch die Nutzung Künstlicher Intelligenz entsteht so ein Auswertesystem, das schnell Auffälligkeiten, Muster und Korrelationen entdeckt, die dem Menschen, wenn überhaupt, nur mit großem Zeitaufwand auffallen würden.



Regulatorische Betrachtung der Interpretierbarkeit von Künstlicher Intelligenz im medizinischen Umfeld

Auch wenn KI-gestützte Auswertesysteme in der Regel nicht zur Diagnose, sondern als Assistenzsystem für ausgebildetes medizinisches Personal genutzt werden, bewegen wir uns im medizinischen Bereich, der zum Schutz der Patientensicherheit reguliert wird. Ein Blick ins Medizinprodukterecht ist daher bei jeglicher Konzeption von Software, die eine Anwendung im klinischen Umfeld zum Ziel hat, essentiell.

Das Medizinprodukterecht verpflichtet die Hersteller von Medizinprodukten unter anderem dazu, die Sicherheit von Produkten zu priorisieren, State-of-the-art Technologie zu verwenden, das bestmögliche Nutzen-Risiko-Verhältnis zu erzielen und die Wiederholbarkeit der Ergebnisse zu gewährleisten.

Zwar ergibt sich hieraus keine direkte Anforderung an die Beschaffenheit von Künstlicher Intelligenz in Medizinprodukten, es lassen sich aber indirekt Forderungen ableiten

Da es im Bereich der „Interpretierbarkeit“ von Künstlicher Intelligenz mittlerweile Tools und Methoden gibt, die verhindern können, dass Modelle nicht mehr nachzuvollziehen sind, muss dem „Stand der Technik“ nach, hierauf ein Augenmerk gelegt werden. Dies führt idealerweise zu einer Verbesserung der restlichen genannten Aspekte: Sicherheit, Nutzen-Risiko-Verhältnis und Wiederholbarkeit.

Es führt aber auch dazu, dass Medizinprodukte, die die Methoden zur Erhöhung der Interpretierbarkeit von KI ignorieren, gegebenenfalls nicht dem Stand der Technik entsprechen.

Was bedeutet Interpretierbarkeit im Bereich „Künstliche Intelligenz“?

Gerade im Bereich des „Maschinellen Lernens“ lernen Computer aus Daten eigenständig Regeln. Dabei wird häufig auf „Deep Learning“ zurückgegriffen. Dies ist eine Methode des maschinellen Lernens, die künstliche neuronale Netze mit zahlreichen Zwischenschichten zwischen Eingabeschicht und Ausgabeschicht einsetzt und dadurch eine umfangreiche innere Struktur herausbildet.

Die Behauptung, dass Machine Learning "Black Box" Modelle erzeugt, die zwar wertvollen Output liefern, jedoch von Menschen überhaupt nicht mehr durchschaut werden können, stimmt allerdings nur bedingt. Der Mensch muss die Komplexität der Modelle nicht durchdringen. Aufgrund der umfangreichen inneren Struktur kann er es in vielen Fällen auch gar nicht. Die Algorithmen sind nicht nur mathematisch schwer zu durchschauen, sondern durch die hohe Dimensionalität und Abstraktion auch kaum mehr nachzuvollziehen.

Bei der Erstellung von Machine Learning Modellen kann aber durchaus auf die Erhöhung der Überprüfbarkeit und Nachvollziehbarkeit geachtet werden. Dies ist gerade in einer stark reglementierten Branche wie der Medizintechnik von großer Bedeutung.

Um die Interpretierbarkeit von Künstlicher Intelligenz zu erhöhen, kann man die „Erklärbarkeit“ und die „Transparenz“ betrachten.

Die Erklärbarkeit beschreibt den Grad, bis zu dem ein System Klarheit über die Gründe, die zu bestimmten Ergebnissen führen, verschaffen kann.

Die Transparenz beschreibt den Grad, bis zu dem ein System Informationen über sein Innenleben, also seine innere Struktur und Trainingsdaten, offenbart. Transparenz setzt im Gegensatz zur Erklärbarkeit also das „Öffnen der Blackbox“ voraus.

Welche Folgen hätte fehlende Interpretierbarkeit für den Einsatz Künstlicher Intelligenz im klinischen Umfeld?

Intransparente Modelle können dazu führen, dass falsche Rückschlüsse aus bestimmten Daten gezogen werden, dies aber beim Training der Modelle nicht auffällt. Das trainierte Modell basiert auf den Trainingsdaten. Diese können Fehler enthalten oder auch unausgewogen und einseitig gewichtet sein. So kann es bei der Anwendung der Modelle zu fehlerhaften Aussagen kommen, beispielsweise einem Hinweis auf eine falsche Krankheitsprognose.

Erkennt man jedoch, dass ein Modell aufgrund bisheriger Eingabedaten, bestimmte Informationen z.B. übermäßig gewichtet, kann diese falsche Gewichtung besser erkannt und behoben werden.

Nicht erklärbare Modelle können dazu führen, dass eine Künstliche Intelligenz, die zuverlässig wertvollen Output erzeugt, trotzdem nicht akzeptiert und benutzt wird. Liefert das Modell dem behandelnden medizinischen Personal z.B. zuverlässige Hinweise, jedoch keine Erklärung darüber, woher bestimmte Erkenntnisse kommen, so wird es voraussichtlich weder zu einer Akzeptanz des Systems noch zu einem grundsätzlichen Vertrauen in die gegebenen Hinweise kommen.

Ist die Wirkungsweise eines Modells jedoch erklärbar, kann dies die Akzeptanz steigern und außerdem den Abgleich von Hinweisen der KI mit Expertenwissen deutlich vereinfachen.


Warum nicht mit vollständig transparenten, erklärbaren Modellen arbeiten?

Je komplexer ein Modell ist, desto schwieriger ist es, seine Entscheidungen nachzuvollziehen. Ein lineares Modell bildet einfache Zusammenhänge ab und ist damit leicht zu erklären. Ein tiefes neuronales Netz (Deep Learning) kann sehr komplexe Zusammenhänge mit hoher Abstraktion modellieren, ist aber auch multidimensional aufgebaut.

Da die soventec Plattform AIcebird® z.B. eingesetzt wird, um komplexe Zusammenhänge zu erkennen, bewegen wir uns in dem Spannungsfeld von gewünschter Interpretierbarkeit und notwendiger Abstraktion, die das menschliche Gehirn gar nicht verarbeiten kann. Wir können daher nur das Ziel verfolgen, die Interpretierbarkeit mit sorgfältig ausgewählten Tools zu erhöhen, ohne den Anspruch zu haben, dass alle ablaufenden Prozesse nachvollziehbar sind.

Es gilt also, bei gegebener Komplexität die Interpretierbarkeit durch die Erhöhung von Transparenz und Erklärbarkeit zu verbessern.

Zudem gilt es, die nicht vervollständige Transparenz und Erklärbarkeit den Nutzern gegenüber zu verdeutlichen und mit ausreichender Verifizierung abzusichern. Ein Restrisiko bleibt. Dieses Restrisiko besteht aber auch bei nicht KI-basierten Prognosen in anders ausgeprägter Form.

AIcebird® basierte Systeme können ein hilfreicher Ratgeber im Sinne von Assistenzsystemen werden. Ein behandelnder Arzt wird gegebene Hinweise jedoch weiterhin mit seinem medizinischen Fachwissen bewerten und ggf. verwerfen. Auch nach herrschender rechtlicher Auffassung muss nach wie vor der Arzt die letzte Entscheidungsinstanz sein. Zukünftig könnte sich das aber ändern, so dass KI-basierte Systeme auch diagnostische und therapierelevante Entscheidungen „eigenverantwortlich“ treffen könnten.



Beispielhafte Darstellung von Methoden zur Erhöhung der Transparenz und Erklärbarkeit

Es existieren verschiedene Konzepte, um den Aufbau von neuronalen Netzen transparenter zu machen:

Bei einfachen Modellen, wie diesem, ist es noch möglich, es zu visualisieren, obgleich es schon hier unübersichtlich wird.

Sobald aber Netze mit Rückwirkmechanismen oder aber beabsichtigter zufälliger Variation von Parametern, um systeminhärente Fehler abzubilden, umgesetzt sind, ist so eine Darstellung nicht mehr hilfreich.

Zur Zeit geht man eher den Weg, das Systeminnere als gegeben hinzunehmen und den Einfluss der Eingabeparameter auf den Output zu visualisieren und zu bewerten. Solche Systeme - zwei Beispiele sind LIME (Local Interpretable Model-agnostic Explanations) und SHAP (SHapley Additive exPlanations) - visualisieren, welchen unterstützenden und auch mindernden Einfluss die Eingabeparameter haben. Hierfür gibt es Vertrauensbereiche.

In ähnlicher Weise arbeitet auch der Arzt, der anhand eines Blutbildes z.B. Rückschlüsse auf eine Diagnose zieht. Auch hier gibt es Normalbereiche und auffällige Bereiche.

Dieses Verfahren ist daher für den Menschen geeigneter, der es gewohnt ist, so zu arbeiten. Er kann die stark reduzierte, wenn auch alles beinhaltende, Komplexität kognitiv erfassen. Dies steigert das Vertrauen in eine vermeintliche „Black-box“.

Bei aller Skepsis zu KI-Anwendungen im medizinischen Umfeld, muss man immer im Hinterkopf haben: Auch ein Arzt ist nicht unfehlbar in seiner Diagnose. Auf der anderen Seite ist auch die Entscheidung eines erfahrenen Arztes, die auf seiner Erfahrung und Intuition basiert, oft nicht vollständig erklärbar und trotzdem richtig. Genauso verhält es sich mit KI-basierten Anwendungen im medizinischen Umfeld.

KI birgt großes Potential im Bereich der Diagnostik und kann Patienten frühzeitig großen Nutzen bringen. Die Entwicklung intelligenter Systeme muss dabei den Menschen im Blick behalten. Er möchte nicht nur profitieren, sondern verstehen und mit einbezogen werden.

Stellen wir uns dieser Verantwortung gemeinsam!


Sie müssen ähnliche Probleme lösen? Sprechen Sie mit uns!