DEEP TECH & MEDIZIN

Wenn medizinische KI verlässlich werden muss

Vom 107. Deutschen Röntgenkongress zum Forschungsprojekt: Was die Engineering-Entscheidungen hinter KOMPASS-RAD über die nächste Phase von KI-Systemen verraten.

von Marian Feiler · 27. Mai 2026

Künstliche Intelligenz begegnet den meisten Menschen derzeit als Komforttechnologie. Sie formuliert E-Mails, fasst Meetings zusammen, generiert Bilder oder beantwortet Fragen mit erstaunlicher Geschwindigkeit. Die Fehlertoleranz ist hoch; wenn eine Antwort nicht ganz stimmt, formuliert man den Prompt eben neu.

In der Medizin funktioniert diese Logik nicht. Dort ist eine Halluzination ein potenzielles Problem wissenschaftlicher Validität, kein kurioser Randeffekt. Vor allem dann, wenn KI aufhört, nur Informationen zu liefern, und Teil eines Ausbildungssystems wird.

An diesem Punkt begann die Entwicklung von KOMPASS-RAD — einer KI-gestützten Prüfungssimulation für die radiologische Facharztvorbereitung, entstanden im Auftrag der Deutschen Röntgengesellschaft (DRG) und wissenschaftlich begleitet durch Dr. med. Fiona Mankertz und Prof. Dr. med. Saif Afat vom Universitätsklinikum Tübingen.

Die Ausgangsfrage war dabei erstaunlich komplex: Wie simuliert man ein fachärztliches Prüfungsgespräch so, dass es fachlich belastbar, reproduzierbar und zugleich psychologisch realistisch bleibt? Eine mündliche Facharztprüfung testet nicht nur Wissen — sie testet klinisches Denken unter Druck, Struktur, Kommunikation, Priorisierung, den Umgang mit Unsicherheit. Diese Mischung macht sie schwer skalierbar und gleichzeitig interessant für KI.

Vom Proof-of-Concept zur Forschungsplattform

Beim 107. Deutschen Röntgenkongress (#RÖKO2026) in Leipzig wurde KOMPASS-RAD erstmals öffentlich vorgestellt. Teilnehmer:innen konnten radiologische Prüfungssituationen live testen — per Texteingabe oder Sprache. Die KI analysierte Antworten, erkannte fachliche Lücken und generierte unmittelbares Feedback entlang definierter Bewertungsschemata.

Für viele Besucher:innen wirkte das wie eine moderne Lernanwendung. An dieser Stelle begann aber eine viel grundsätzlichere Diskussion: Was passiert eigentlich, wenn KI-Systeme Teil wissenschaftlicher Ausbildungs- und Evaluationsprozesse werden — über das bloße Assistieren hinaus? Die Anforderungen an die gesamte technische Architektur verschieben sich dabei fundamental. Maximale Offenheit weicht der Forderung nach kontrollierbarem Verhalten.

Warum generische KI-Systeme hier an Grenzen stoßen

Der aktuelle KI-Markt wird stark von universellen Modellen geprägt: große Systeme, die möglichst viele Aufgaben gleichzeitig lösen sollen. In regulierten Umgebungen ist diese Offenheit jedoch oft ein Problem.

In medizinischen Lern- und Forschungskontexten reichen „wahrscheinlich richtige" Antworten nicht aus. Ergebnisse müssen nachvollziehbar bleiben, Bewertungsmaßstäbe reproduzierbar, Datenflüsse kontrollierbar. Viele Architekturentscheidungen bei KOMPASS-RAD entstanden deshalb weniger aus technischer Experimentierfreude als aus regulatorischer Notwendigkeit.

Die gesamte Inferenz läuft auf eigener Infrastruktur in Deutschland — ohne externe APIs, ohne Drittanbieter-Clouds, ohne Datenabfluss in proprietäre Plattformen. Das folgt keiner ideologischen Grundsatzentscheidung gegen Cloud-Systeme; es ist die einzig belastbare Antwort auf DSGVO-Anforderungen und die Bedingungen einer wissenschaftlichen Studie mit personenbezogenen Lernverläufen. Wir kontrollieren dabei den gesamten Stack — von der Hardware bis zum Deployment. Infrastruktur wird damit selbst zur Vertrauensfrage.

Die interessanteste Entscheidung: kein freier Chat

Wir haben uns bei KOMPASS-RAD bewusst gegen offene Gesprächsverläufe entschieden. Nach einer Antwort erfolgt eine strukturierte Bewertung — aber kein endloser KI-Dialog. Technisch wäre das problemlos möglich gewesen, was die Entscheidung dagegen erst interessant macht.

Freie Chats erhöhen die Gefahr sog. „faktischer Drifts": Modelle entfernen sich über mehrere Interaktionsrunden schrittweise vom ursprünglichen fachlichen Referenzrahmen. Zusätzlich entstehen Angriffsflächen durch adversariale Eingaben oder unkontrollierte Kontextverschiebungen. In Consumer-Anwendungen ist das oft tolerierbar; in einer medizinischen Prüfungssimulation, die als Grundlage wissenschaftlicher Auswertungen dient, verändert sich diese Abwägung grundlegend: Vorhersagbarkeit wird wichtiger als Flexibilität. Das widerspricht vielen gegenwärtigen KI-Narrativen, dürfte aber für die nächste Generation regulierter Systeme zentral werden.

Warum wir uns bewusst gegen klassisches RAG entschieden haben

Auch beim Thema Wissensintegration fiel die Architekturentscheidung bewusst gegen den derzeit populärsten Ansatz aus: Retrieval Augmented Generation (RAG).

RAG-Systeme durchsuchen dynamisch externe Wissensquellen und erweitern damit den Kontext eines Sprachmodells. Das funktioniert in vielen Anwendungen hervorragend, bringt aber ein strukturelles Problem mit sich: Das Retrieval bleibt probabilistisch — welche Dokumente konkret priorisiert werden, lässt sich nie vollständig deterministisch garantieren. Im medizinischen Ausbildungskontext, wo jedes Feedback fachlich korrekt und reproduzierbar sein muss, ist das kein akzeptables Restrisiko.

Statt dynamischer Retrieval-Prozesse arbeitet KOMPASS-RAD deshalb mit einem kontrollierten Referenzrahmen: fachärztlich validierte Kernkonzepte, definierte Goldstandard-Antworten und annotierte Bewertungsschemata werden direkt in den Modellkontext eingebettet. Das Modell improvisiert dadurch weniger — bewertet aber deutlich reproduzierbarer. Die eigentlich interessante Frage dahinter ist nicht, welcher Ansatz technisch „besser" ist, sondern welche Art von KI-Verhalten in einem gegebenen Kontext überhaupt akzeptabel ist. Welcher Ansatz für ein konkretes Projekt der richtige ist, hängt von Anforderungen ab, die man nur durch Erfahrung mit beiden Seiten beurteilen kann.

Spezialisierte Modelle statt universeller Blackbox

Auch die Modellarchitektur selbst folgt dieser Logik. Statt eines einzelnen Allzweckmodells orchestriert KOMPASS-RAD mehrere spezialisierte Komponenten entlang der Interaktionskette: Voxtral übernimmt die Spracherkennung medizinischer Terminologie, MedGemma 27B — Google DeepMinds speziell für medizinische Textverarbeitung vortrainiertes Modell — analysiert Antworten anhand fachärztlich validierter Kriterien und wird im Studienverlauf auf den gewonnenen Daten weiter fine-getuned, vLLM ermöglicht performante parallele Inferenz auf eigener Hardware, Qwen TTS übernimmt die sprachliche Ausgabe.

Der Aufwand ist höher als bei einem einzelnen Frontier-Modell; die Modularisierung erhöht dafür Kontrollierbarkeit, Austauschbarkeit und langfristige Wartbarkeit erheblich. Im wissenschaftlichen Umfeld wird das schnell relevant: Modelle verändern sich, APIs verschwinden, Lizenzbedingungen kippen. Wer seine Architektur vollständig an proprietäre Plattformen bindet, verliert mittelfristig technologische Souveränität.

Auditierbarkeit als Kernfunktion

Eine der unscheinbarsten Entscheidungen im Projekt gehört gleichzeitig zu den wichtigsten: die vollständige Protokollierung aller KI-Prozesse. Jede Modellausgabe wird in einem kryptografisch verketteten Log gespeichert — jeder Eintrag enthält den Hash seines Vorgängers, sodass nachträgliche Manipulationen die gesamte Kette invalidieren und damit sofort erkennbar werden.

Zusätzlich werden diese Logs periodisch auf physische WORM-Medien gespiegelt. Ja: DVD-R.

DVD-R klingt nach einem Schritt zurück. In auditierbaren Forschungskontexten ergibt es jedoch Sinn, denn physisch unveränderbare Speichermedien besitzen eine Eigenschaft, die viele moderne Cloudsysteme nur eingeschränkt garantieren können: forensisch belastbare Unveränderbarkeit. Hochmoderne KI-Infrastruktur trifft hier auf Prinzipien, die fast vergessen schienen — und das hat seinen Grund.

Was Projekte wie KOMPASS-RAD eigentlich zeigen

Was KOMPASS-RAD zeigt, geht über das konkrete Lernsystem hinaus. Die zugrunde liegende Architektur aus eigener KI-Infrastruktur, modularer Modell-Orchestrierung, proprietärem Prompt-Management und auditierbaren Pipelines ist der technologische Kern, den wir für anspruchsvolle KI-Projekte einsetzen und weiterentwickeln. Die Komponenten sind bereits in weiteren Projekten im Einsatz.

Die vielleicht relevantere Frage ist eine andere: ob wir KI verlässlich machen können — in Umgebungen, wo Fehler Konsequenzen haben. In Medizin, Forschung, Verwaltung oder sicherheitskritischen Bereichen wird sich langfristig das System durchsetzen, dessen Verhalten nachvollziehbar bleibt — das spektakulärste muss das nicht sein. Deep Tech beginnt dann zu klingen wie das, was Technologie am Ende leisten muss.

KI-Systeme, die verlässlich bleiben müssen

Wenn Sie vor der Frage stehen, wie KI-Systeme in regulierten oder sicherheitskritischen Umgebungen zuverlässig, compliant und kontrollierbar betrieben werden können – sprechen Sie uns gern an.

Marian Feiler, Projektmanager

Gespräch anfragen 030 / 217 990 470