Quando lançamos a primeira versão da nossa pontuação de risco de sete dias, dois anos atrás, era um único número inteiro entre zero e cem. O modelo era bom — tinha resistido à validação cruzada em dados retrospectivos de três temporadas anteriores em dois clubes. A recepção pela equipe médica não foi boa. Eles liam o número, assentiam e voltavam ao seu fluxo de trabalho existente. A pontuação não mudava nada.

A objeção não era que a pontuação estivesse errada, pelo menos não em nenhum sentido mensurável. A objeção era que ninguém podia contestá-la. Um fisioterapeuta chefe que passou quinze anos lendo corpos não se submeterá, e não deveria se submeter, a um número cuja proveniência é opaca. O julgamento clínico é construído sobre a capacidade de discordar de um sinal, de dizer "vejo o que você vê, mas eis por que este jogador é diferente". Uma pontuação de caixa preta tira essa capacidade. A equipe não tinha como discutir com o modelo, então o ignorava. Perfeitamente racional.

Passamos os doze meses seguintes reconstruindo a superfície sem mudar o motor de previsão subjacente. O trabalho não foi técnico — foi tradutório. Precisávamos aprender como a equipe já pensava sobre o risco e mapear nossa saída nesse modelo mental em vez de pedir que adotassem o nosso.

O resultado se baseia em dois princípios. Primeiro, cada pontuação é entregue com seus três fatores contribuintes mais fortes, nomeados na linguagem da equipe: pico de carga de treinamento, déficit de sono, histórico de lesão ipsilateral nos últimos sessenta dias. Cada fator inclui um sparkline dos quatorze dias anteriores, visível ao passar o mouse, para que o clínico possa verificar a trajetória, não apenas o rótulo. Segundo, quando existe um padrão semelhante no histórico do jogador, a pontuação é acompanhada por uma referência textual a esse análogo: "Esta combinação de fatores se parece com a semana de 14 de outubro, quando o jogador foi mantido fora de duas sessões e se recuperou totalmente para a partida". O enquadramento passa da previsão abstrata para a comparação concreta.

O sistema de análogos acabou sendo o mais importante dos dois. Um modelo que diz "78 % de risco" convida ao ceticismo. Um modelo que diz "isto se parece com a semana anterior ao último ísquio" convida à conversa. A equipe começou a anotar esses análogos — "não, desta vez é diferente, ele descansou durante a pausa" — e essas anotações se tornaram sinal de treinamento para a próxima iteração do modelo. O ciclo de feedback se fechou.

O que mudou não foi tanto a precisão do modelo, que melhorou marginalmente, mas a taxa na qual a pontuação influenciava as decisões. No primeiro trimestre após a reformulação, a equipe agiu sobre as pontuações elevadas — modificando a carga de treinamento, programando recuperação adicional ou iniciando uma conversa com o jogador — a aproximadamente três vezes a taxa do trimestre anterior. Eles não confiavam mais na pontuação. Confiavam na sua capacidade de avaliá-la.

Essa distinção é crucial para qualquer IA médica que espera ser usada na prática, não apenas admirada em um artigo de pesquisa. Uma pontuação de risco explicável não substitui o julgamento do fisioterapeuta. Dá a eles algo substancial com que concordar ou discordar. A decisão permanece com o humano. O modelo simplesmente traz o padrão relevante à sua atenção, formulado em sua linguagem, no momento em que importa.

Aplicamos o mesmo princípio de explicabilidade aos nossos protocolos de retorno ao jogo. Quando a plataforma sugere uma progressão de recuperação, ela mostra os sinais fisiológicos específicos que informam cada passo. A equipe pode aceitar, modificar ou rejeitar a sugestão com base na sua observação direta do jogador. O modelo se adapta. O clínico permanece no comando.

Como explicamos uma pontuação de risco a um fisioterapeuta chefe

Contra o dashboard