Wie wir einem Chefphysiotherapeuten einen Risiko-Score erklären

Ein Modell, das sich nicht erklären kann, hat neben einem medizinischen Stab nichts zu suchen.

Als wir die erste Version unseres Sieben-Tage-Risikowerts vor zwei Jahren auslieferten, war es eine einzelne ganze Zahl zwischen null und hundert. Das Modell war gut — es hatte sich in der Kreuzvalidierung auf retrospektiven Daten von drei vorherigen Spielzeiten aus zwei Vereinen bewährt. Die Aufnahme durch den medizinischen Stab war nicht gut. Sie lasen die Zahl, nickten und kehrten zu ihrem bestehenden Arbeitsablauf zurück. Der Wert änderte nichts.

Der Einwand war nicht, dass der Wert falsch war, zumindest nicht in einem messbaren Sinne. Der Einwand war, dass niemand ihn anzweifeln konnte. Ein leitender Physiotherapeut, der fünfzehn Jahre damit verbracht hat, Körper zu lesen, wird sich nicht, und sollte sich nicht, einer Zahl beugen, deren Herkunft undurchsichtig ist. Klinisches Urteilsvermögen baut auf der Fähigkeit auf, mit einem Signal nicht einverstanden zu sein, zu sagen "Ich sehe, was Sie sehen, aber hier ist, warum dieser Spieler anders ist". Ein Black-Box-Wert nimmt diese Fähigkeit. Der Stab hatte keine Möglichkeit, mit dem Modell zu argumentieren, also ignorierten sie es. Vollkommen rational.

Wir verbrachten die folgenden zwölf Monate damit, die Oberfläche neu aufzubauen, ohne die zugrundeliegende Vorhersage-Engine zu ändern. Die Arbeit war nicht technisch — sie war übersetzerisch. Wir mussten lernen, wie der Stab bereits über Risiko dachte, und unsere Ausgabe auf dieses mentale Modell abbilden, anstatt sie zu bitten, unseres zu übernehmen.

Das Ergebnis basiert auf zwei Prinzipien. Erstens wird jeder Wert mit seinen drei stärksten Einflussfaktoren geliefert, benannt in der Sprache des Stabs: Trainingsbelastungsspitze, Schlafdefizit, vorherige ipsilaterale Verletzung innerhalb von sechzig Tagen. Jeder Faktor enthält einen Sparkline der vorangegangenen vierzehn Tage, sichtbar beim Überfahren mit der Maus, damit der Kliniker die Trajektorie überprüfen kann, nicht nur das Etikett. Zweitens, wenn ein ähnliches Muster in der Geschichte des Spielers existiert, wird der Wert von einem Textverweis auf dieses Analogon begleitet: "Diese Kombination von Faktoren ähnelt der Woche vom 14. Oktober, als der Spieler von zwei Einheiten freigestellt wurde und sich bis zum Spieltag vollständig erholte." Der Rahmen wechselt von der abstrakten Vorhersage zum konkreten Vergleich.

Das Analogonsystem erwies sich als das wichtigere der beiden. Ein Modell, das "78 % Risiko" sagt, lädt zur Skepsis ein. Ein Modell, das sagt "das sieht aus wie die Woche vor der letzten ischiokruralen Verletzung", lädt zum Gespräch ein. Der Stab begann, diese Analoga zu kommentieren — "nein, diesmal ist es anders, er hat sich in der Pause erholt" — und diese Kommentare wurden zu Trainingssignalen für die nächste Modelliteration. Die Rückkopplungsschleife schloss sich.

Was sich änderte, war nicht so sehr die Genauigkeit des Modells, die sich marginal verbesserte, sondern die Rate, mit der der Wert Entscheidungen beeinflusste. Im ersten Quartal nach dem Umbau handelte der Stab bei erhöhten Werten — durch Anpassung der Trainingsbelastung, Planung zusätzlicher Erholung oder Einleitung eines Gesprächs mit dem Spieler — etwa dreimal so häufig wie im vorherigen Quartal. Sie vertrauten dem Wert nicht mehr. Sie vertrauten auf ihre Fähigkeit, ihn zu bewerten.

Diese Unterscheidung ist entscheidend für jede medizinische KI, die in der Praxis eingesetzt werden möchte, nicht nur in einem Forschungspapier bewundert werden will. Ein erklärbarer Risikowert ersetzt nicht das Urteil des Physiotherapeuten. Er gibt ihnen etwas Substanzielles, dem sie zustimmen oder widersprechen können. Die Entscheidung bleibt beim Menschen. Das Modell bringt lediglich das relevante Muster zu ihrer Aufmerksamkeit, formuliert in ihrer Sprache, im Moment, in dem es zählt.

Wir wenden dasselbe Erklärbarkeitsprinzip auf unsere Return-to-Play-Protokolle an. Wenn die Plattform eine Erholungsprogression vorschlägt, zeigt sie die spezifischen physiologischen Signale an, die jeden Schritt informieren. Der Stab kann den Vorschlag basierend auf seiner direkten Beobachtung des Spielers annehmen, modifizieren oder ablehnen. Das Modell passt sich an. Der Kliniker bleibt am Steuer.

Weitere Artikel lesenStreitschrift

Gegen das Dashboard

Weitere Artikel lesen