LOADING
LOADING
D'un projet pilote de documentation clinique au point mort à une pile IA gouvernée, surveillée et encadrée par des SLA — dérive, exactitude, coûts et astreinte 24×5 sous la responsabilité d'un seul partenaire imputable.
Il s'agit d'un mandat représentatif et composite fondé sur des tendances observées par Maverin dans des réseaux de santé multisites réglementés. Ce n'est pas un client réel nommé. Les données sectorielles sont citées à des sources publiques ; les résultats du mandat sont modélisés et étiquetés comme illustratifs.
Un réseau de santé multisite disposait d'un assistant de documentation clinique fonctionnel en pilote, sans moyen de l'exploiter en production. Maverin a pris en charge la surface IA dans le cadre d'une rétention Pile IA gérée : surveillance de la dérive et de l'exactitude, évaluation des sorties avec vérification humaine, observabilité des coûts, astreinte 24×5 et une cadence mensuelle de nouveaux flux gouvernés — le tout encadré par un SLA. Il s'agit d'un mandat représentatif ; les résultats sont modélisés et étiquetés, les données sectorielles sont citées.
Un réseau de santé régional — huit sites hospitaliers et cliniques, un DSE partagé, des RPS encadrés par la LPRPS — avait passé deux trimestres à bâtir un assistant de documentation clinique. Il rédigeait des sommaires de visite et acheminait les demandes de consultation. En démo, il était bon. Les médecins de l'étage pilote l'appréciaient.
Puis il est resté en plan. L'équipe interne qui l'avait conçu était un groupe de science des données, pas un groupe d'exploitation. Personne ne portait le téléavertisseur. Personne ne portait la question « est-il toujours exact ce mois-ci ? ». Quand les coûts d'inférence ont dérivé à la hausse, les finances l'ont remarqué avant l'ingénierie. Quand une mise à jour du modèle a changé le ton de l'assistant sur les consignes de congé, c'est une infirmière responsable qui l'a détecté, pas un moniteur.
C'est la forme habituelle du problème. 66 % des médecins américains ont utilisé l'IA en 2024, contre 38 % l'année précédente — un bond de 78 % en un an (AMA Augmented Intelligence Survey, 2025). La demande est réelle et arrive vite. Le volet exploitation atterrit sur des réseaux de santé qui n'ont jamais été dotés en personnel pour exploiter un logiciel comme le fait un fournisseur.
Maverin n'est pas intervenu pour reconstruire l'assistant — il fonctionnait — mais pour s'approprier la surface sur laquelle il tournait.
Un modèle en démo est un travail terminé. Un modèle en production est un actif qui se déprécie. C'est dans l'écart entre les deux que meurent la plupart des initiatives d'IA en santé.
Les données sont sans détour. 91 % des modèles d'apprentissage automatique se dégradent avec le temps dans une étude portant sur 32 jeux de données et 2,56 millions d'expériences en santé, finance, météo et circulation (Vela, Sharp, Zhang et coll., Scientific Reports, 2022). L'exactitude décline en silence — personne ne reçoit d'alerte indiquant que le modèle se trompe désormais plus souvent. Gartner prévoyait qu'au moins 30 % des projets d'IA générative seraient abandonnés après la preuve de concept d'ici la fin 2025, invoquant une mauvaise qualité des données, de faibles contrôles de risque, des coûts croissants et une valeur floue (Gartner, 2024). Ce pilote présentait ces quatre risques, actifs et sans responsable.
Trois éléments précis rendaient la situation aiguë pour un réseau de santé :
L'équipe interne savait construire. Elle ne savait pas exploiter — détection de dérive, évaluation des sorties, contrôles d'accès, astreinte et boucle de rétroaction — comme capacité permanente, chaque jour, sous SLA. C'est un autre métier.
Nous n'avons pas commencé par une feuille de route. Nous avons commencé par une évaluation de découverte de deux semaines pour répondre à une seule question : qu'est-ce qui tourne réellement, et quelle est la pire chose qui puisse mal tourner pendant que personne ne regarde ?
Le résultat a été un plan de transfert de propriété, pas un plan de reconstruction. L'assistant est resté. Nous avons pris la surface.
Les modalités de la rétention, en clair :
Nous avons arrimé le programme au profil IA générative du cadre de gestion des risques d'IA du NIST (NIST AI 600-1), qui nomme la confabulation (hallucination) parmi 12 catégories de risque de l'IA générative (NIST, 2024). Cela a donné à l'approvisionnement, à l'audit et au bureau de la protection des renseignements un cadre de contrôle reconnu — non une invention de Maverin à prendre sur parole.
Le recadrage vendu au COO : l'inférence n'est plus le coût. Interroger un modèle équivalent à GPT-3.5 est passé de 20,00 USD à 0,07 USD par million de jetons entre nov. 2022 et oct. 2024 — une baisse de plus de 280× (Stanford HAI 2025 AI Index). La dépense durable s'est déplacée vers l'exploitation : observabilité, évaluation, réentraînement, gouvernance. Une rétention chiffre honnêtement cette réalité au lieu de prétendre que le modèle est terminé.
La pile comporte quatre couches, chacune avec un responsable et une mesure.
## 1. Accès et isolation Les RPS ne quittent jamais l'environnement du client. Contrôles d'accès par rôle sur le point d'accès du modèle, journalisation complète des invites et des réponses, et une politique de conservation signée par le bureau de la protection des renseignements. Cela comble directement l'écart derrière le constat d'IBM voulant que 97 % des victimes d'incidents d'IA n'avaient pas de contrôles d'accès appropriés — les contrôles ont été la première chose en place, pas la dernière.
## 2. Évaluation des sorties (la couche de garde-fous) Chaque sortie de texte clinique passe une évaluation en couches avant qu'un clinicien la voie : ancrage par récupération sur le dossier source, vérification d'hallucination calibrée sur le mode d'échec MedHallu, et une porte de confiance. Sous le seuil, la sortie est signalée pour révision humaine obligatoire plutôt que présentée comme un brouillon propre. La vérification avec humain dans la boucle n'est pas négociable — le 0,625 F1 de MedHallu explique pourquoi l'assistant propose et le clinicien dispose, toujours.
## 3. Surveillance de la dérive et de l'exactitude Un ensemble d'évaluation hebdomadaire — réservé, étiqueté par des cliniciens — est exécuté contre le modèle en service. Exactitude, taux d'ancrage et taux de signalement sont suivis dans le temps. Une baisse statistiquement significative alerte l'ingénieur d'astreinte et déclenche le pipeline de réentraînement/révision d'invite. C'est la couche que l'équipe interne n'a jamais eue : la réponse à « est-il toujours exact ce mois-ci ? » est désormais un tableau de bord, pas l'intuition d'une infirmière.
## 4. Observabilité des coûts et de la disponibilité Dépense en jetons par flux, latence et disponibilité sur un seul écran. Les anomalies de coût (une modification d'invite qui double l'usage de jetons) alertent avant la facture. La FDA attend désormais des plans de contrôle prédéterminé des changements pour les dispositifs médicaux d'IA/AA — la surveillance continue est une attente réglementaire, pas une option (FDA AI-Enabled Medical Device List, 2025 ; plus de 1 250 dispositifs autorisés en juillet 2025). Notre discipline de contrôle des changements répond à cette attente même pour l'assistant non médical, car le bureau de la protection des renseignements voulait la même rigueur.
Le canal de rétroaction réclamé par les médecins (exigence première de 88 %) est câblé dans la couche 2 : un bouton « ce brouillon était erroné » qui atterrit dans l'ensemble d'évaluation et façonne le réentraînement de la semaine suivante. Leur rétroaction n'est pas une boîte à suggestions — c'est un signal d'entraînement.
Au cours des 90 premiers jours :
Puis la cadence mensuelle a commencé. À l'aide du créneau gouverné de nouveau flux, les trois capacités suivantes ont été livrées une par mois — chacune par la même porte d'évaluation, aucune ne rouvrant le débat sur le modèle d'exploitation :
Le séquençage est l'essentiel. Nous n'avons pas livré le flux le plus excitant en premier. Nous avons livré celui qui méritait le suivant.
| Étiquette | Valeur |
|---|---|
| Month 0 | 94 |
| Month 2 | 93.8 |
| Month 4 | 94.1 |
| Month 6 | 93.9 |
| Month 8 | 94.2 |
| Month 10 | 94 |
| Month 12 | 94.3 |
Exactitude modélisée étiquetée par cliniciens sur 12 mois. Le tracé inférieur illustre le déclin silencieux qu'implique le constat cité voulant que 91 % des modèles d'AA se dégradent (Vela et coll., 2022); la bande maintenue est la boucle gérée d'évaluation et de réentraînement. Illustratif — non une mesure de client nommé.
Ces résultats sont illustratifs et modélisés pour un mandat de cette taille et de cette forme — ce ne sont pas des résultats mesurés d'un client nommé. Lorsqu'un chiffre est un repère sectoriel, il est cité.
La version honnête : la rétention n'a pas rendu le modèle meilleur que sa démo. Elle a empêché la qualité de la démo de s'évaporer en silence — et elle a donné à un RSSI et à un COO un seul numéro de téléphone imputable pour la surface IA.
| Étiquette | Valeur |
|---|---|
| Month 0 | 94 |
| Month 2 | 92.6 |
| Month 4 | 91 |
| Month 6 | 89.1 |
| Month 8 | 87.4 |
| Month 10 | 85.5 |
| Month 12 | 83.2 |
Le contrefactuel : le même modèle sans surveillance ni réentraînement, dérivant à la baisse trimestre après trimestre — le tracé que suivent 91 % des modèles déployés (Vela et coll., 2022). Illustratif.
Il s'agissait d'un mandat représentatif. La forme — pilote au point mort, sans responsable, risque d'actif qui se déprécie — est récurrente dans les réseaux de santé réglementés. Le correctif n'est pas un meilleur modèle. C'est une couche d'exploitation imputable, avec un SLA, sans verrouillage, et un téléphone auquel on répond.
| Étiquette | Valeur |
|---|---|
| Uptime vs SLA (%) | 99.7 |
| On-call coverage (hrs/week) | 120 |
| New governed workflows / quarter | 3 |
| Clinical-impact incidents | 0 |
Posture d'exploitation modélisée pour un mandat de cette taille : astreinte 24×5, surveillance de la dérive et des coûts, livraison gouvernée mensuelle. Chiffres illustratifs, non un résultat de client nommé.
La rétention n'a pas rendu le modèle meilleur que sa démo. Elle a empêché la qualité de la démo de s'évaporer en silence — et a donné à un RSSI et à un COO un seul numéro imputable pour la surface IA.
Un programme de gouvernance de l'IA — bâti avant la mise à l'échelle des LLM et des agents — qui a rendu le oui plus rapide que le non.
Assurance (assureur IARD national)Un mandat à prix fixe avec harnais, évaluations et restauration en un clic — la rentabilité prouvée dans une évaluation de découverte payante avant la moindre ligne de code en production.
Un pilote qui fonctionne mais sans responsable ? Parlons de qui porte le téléavertisseur. Réservez une évaluation de découverte.
Démarrer la conversation