Cuando lanzamos la primera versión de nuestro puntaje de riesgo a siete días, hace dos años, era un único número entero entre cero y cien. El modelo era bueno —había resistido la validación cruzada con datos retrospectivos de tres temporadas anteriores en dos clubes. La recepción por parte del staff médico no fue buena. Leían el número, asentían y volvían a su flujo de trabajo existente. El puntaje no cambiaba nada.

La objeción no era que el puntaje fuera incorrecto, al menos no en ningún sentido mensurable. La objeción era que nadie podía discutirlo. Un fisioterapeuta jefe que ha pasado quince años leyendo cuerpos no se someterá, y no debería someterse, a un número cuyo origen es opaco. El juicio clínico se construye sobre la capacidad de discrepar de una señal, de decir "veo lo que ves, pero he aquí por qué este jugador es diferente". Un puntaje de caja negra elimina esa capacidad. El staff no tenía forma de discutir con el modelo, así que lo ignoraban. Perfectamente racional.

Pasamos los doce meses siguientes reconstruyendo la superficie sin cambiar el motor de predicción subyacente. El trabajo no fue técnico —fue de traducción. Necesitábamos entender cómo el staff ya pensaba el riesgo, y mapear nuestra salida sobre ese modelo mental en lugar de pedirles que adoptaran el nuestro.

El resultado se basa en dos principios. Primero, cada puntaje se entrega con sus tres factores contribuyentes más fuertes, nombrados en el lenguaje del staff: pico de carga de entrenamiento, déficit de sueño, antecedente de lesión ipsilateral en los últimos sesenta días. Cada factor incluye un sparkline de los catorce días anteriores, visible al pasar el ratón, para que el clínico pueda verificar la trayectoria, no solo la etiqueta. Segundo, cuando existe un patrón similar en el historial del jugador, el puntaje se acompaña de una referencia textual a ese análogo: "Esta combinación de factores se parece a la semana del 14 de octubre, cuando el jugador fue apartado de dos sesiones y se recuperó completamente para el partido". El encuadre pasa de la predicción abstracta a la comparación concreta.

El sistema de análogos resultó ser el más importante de los dos. Un modelo que dice "78 % de riesgo" invita al escepticismo. Un modelo que dice "esto se parece a la semana anterior al último isquiotibial" invita a la conversación. El staff comenzó a anotar esos análogos —"no, esta vez es diferente, descansó durante el parón"— y esas anotaciones se convirtieron en señal de entrenamiento para la siguiente iteración del modelo. El ciclo de retroalimentación se cerró.

Lo que cambió no fue tanto la precisión del modelo, que mejoró marginalmente, sino la tasa a la que el puntaje influía en las decisiones. En el primer trimestre después de la reforma, el staff actuó sobre los puntajes elevados —modificando la carga de entrenamiento, programando recuperación adicional o iniciando una conversación con el jugador— a aproximadamente tres veces la tasa del trimestre anterior. No confiaban más en el puntaje. Confiaban en su capacidad para evaluarlo.

Esta distinción es crucial para cualquier IA médica que espere ser utilizada en la práctica, no solo admirada en un artículo de investigación. Un puntaje de riesgo explicable no reemplaza el juicio del fisioterapeuta. Les da algo sustancial con lo que estar de acuerdo o en desacuerdo. La decisión sigue siendo del humano. El modelo simplemente trae el patrón relevante a su atención, formulado en su lenguaje, en el momento en que importa.

Aplicamos el mismo principio de explicabilidad a nuestros protocolos de retorno al juego. Cuando la plataforma sugiere una progresión de recuperación, muestra las señales fisiológicas específicas que informan cada paso. El staff puede aceptar, modificar o rechazar la sugerencia según su observación directa del jugador. El modelo se adapta. El clínico sigue al mando.

Cómo explicamos una puntuación de riesgo a un fisioterapeuta jefe

Contra el panel de control