Come spieghiamo un punteggio di rischio a un fisioterapista capo

Un modello che non sa spiegare se stesso non ha posto a fianco di uno staff medico.

Quando abbiamo lanciato la prima versione del nostro punteggio di rischio a sette giorni, due anni fa, era un singolo numero intero tra zero e cento. Il modello era buono — aveva retto alla validazione incrociata sui dati retrospettivi di tre stagioni precedenti in due club. L'accoglienza da parte dello staff medico non è stata buona. Leggevano il numero, annuivano e tornavano al loro flusso di lavoro esistente. Il punteggio non cambiava nulla.

L'obiezione non era che il punteggio fosse sbagliato, almeno non in alcun senso misurabile. L'obiezione era che nessuno poteva discuterlo. Un fisioterapista capo che ha passato quindici anni a leggere i corpi non si sottometterà, e non dovrebbe sottomettersi, a un numero la cui provenienza è opaca. Il giudizio clinico si costruisce sulla capacità di dissentire da un segnale, di dire "vedo ciò che vedi, ma ecco perché questo giocatore è diverso". Un punteggio a scatola chiusa toglie quella capacità. Lo staff non aveva modo di discutere con il modello, quindi lo ignorava. Perfettamente razionale.

Abbiamo passato i dodici mesi successivi a ricostruire la superficie senza cambiare il motore di previsione sottostante. Il lavoro non è stato tecnico — è stato di traduzione. Dovevamo imparare come lo staff già pensava al rischio, e mappare la nostra uscita su quel modello mentale invece di chiedere loro di adottare il nostro.

Il risultato si basa su due principi. Primo, ogni punteggio viene consegnato con i suoi tre fattori contribuenti più forti, nominati nel linguaggio dello staff: picco di carico di allenamento, deficit di sonno, precedente lesione ipsilaterale entro sessanta giorni. Ogni fattore include un sparkline dei quattordici giorni precedenti, visibile al passaggio del mouse, in modo che il clinico possa verificare la traiettoria, non solo l'etichetta. Secondo, quando esiste un pattern simile nella storia del giocatore, il punteggio è accompagnato da un riferimento testuale a quell'analogo: "Questa combinazione di fattori assomiglia alla settimana del 14 ottobre, quando il giocatore è stato tenuto fuori da due sessioni e si è ripreso completamente per la partita". La cornice passa dalla previsione astratta al confronto concreto.

Il sistema di analoghi si è rivelato il più importante dei due. Un modello che dice "78 % di rischio" invita allo scetticismo. Un modello che dice "questo assomiglia alla settimana prima dell'ultimo bicipite femorale" invita alla conversazione. Lo staff ha iniziato ad annotare quegli analoghi — "no, questa volta è diverso, ha riposato durante la pausa" — e quelle annotazioni sono diventate segnale di addestramento per la successiva iterazione del modello. Il ciclo di feedback si è chiuso.

Ciò che è cambiato non è stato tanto la precisione del modello, migliorata marginalmente, ma il tasso con cui il punteggio influenzava le decisioni. Nel primo trimestre dopo la riprogettazione, lo staff ha agito sui punteggi elevati — modificando il carico di allenamento, programmando recupero aggiuntivo o avviando una conversazione con il giocatore — a circa tre volte il tasso del trimestre precedente. Non si fidavano di più del punteggio. Si fidavano della loro capacità di valutarlo.

Questa distinzione è cruciale per qualsiasi IA medica che speri di essere utilizzata nella pratica, non solo ammirata in un articolo di ricerca. Un punteggio di rischio spiegabile non sostituisce il giudizio del fisioterapista. Dà loro qualcosa di sostanziale con cui essere d'accordo o in disaccordo. La decisione rimane all'umano. Il modello porta semplicemente il pattern rilevante alla loro attenzione, formulato nel loro linguaggio, nel momento in cui conta.

Applichiamo lo stesso principio di spiegabilità ai nostri protocolli di ritorno al gioco. Quando la piattaforma suggerisce una progressione di recupero, mostra i segnali fisiologici specifici che informano ogni passo. Lo staff può accettare, modificare o rifiutare il suggerimento in base alla sua osservazione diretta del giocatore. Il modello si adatta. Il clinico rimane al comando.

Leggi altri articoliPolemica

Contro la dashboard

Leggi altri articoli