Santé — réseau de santé multisite · Pile IA gérée

Qui possède le modèle à 2 h du matin ? Un réseau de santé multisite confie sa surface IA à une équipe en rétention gérée

D'un projet pilote de documentation clinique au point mort à une pile IA gouvernée, surveillée et encadrée par des SLA — dérive, exactitude, coûts et astreinte 24×5 sous la responsabilité d'un seul partenaire imputable.

24 mars 2026Lecture de 10 minÉtude de cas

Il s'agit d'un mandat représentatif et composite fondé sur des tendances observées par Maverin dans des réseaux de santé multisites réglementés. Ce n'est pas un client réel nommé. Les données sectorielles sont citées à des sources publiques ; les résultats du mandat sont modélisés et étiquetés comme illustratifs.

En bref

Un réseau de santé multisite disposait d'un assistant de documentation clinique fonctionnel en pilote, sans moyen de l'exploiter en production. Maverin a pris en charge la surface IA dans le cadre d'une rétention Pile IA gérée : surveillance de la dérive et de l'exactitude, évaluation des sorties avec vérification humaine, observabilité des coûts, astreinte 24×5 et une cadence mensuelle de nouveaux flux gouvernés — le tout encadré par un SLA. Il s'agit d'un mandat représentatif ; les résultats sont modélisés et étiquetés, les données sectorielles sont citées.

01Contexte

Un réseau de santé régional — huit sites hospitaliers et cliniques, un DSE partagé, des RPS encadrés par la LPRPS — avait passé deux trimestres à bâtir un assistant de documentation clinique. Il rédigeait des sommaires de visite et acheminait les demandes de consultation. En démo, il était bon. Les médecins de l'étage pilote l'appréciaient.

Puis il est resté en plan. L'équipe interne qui l'avait conçu était un groupe de science des données, pas un groupe d'exploitation. Personne ne portait le téléavertisseur. Personne ne portait la question « est-il toujours exact ce mois-ci ? ». Quand les coûts d'inférence ont dérivé à la hausse, les finances l'ont remarqué avant l'ingénierie. Quand une mise à jour du modèle a changé le ton de l'assistant sur les consignes de congé, c'est une infirmière responsable qui l'a détecté, pas un moniteur.

C'est la forme habituelle du problème. 66 % des médecins américains ont utilisé l'IA en 2024, contre 38 % l'année précédente — un bond de 78 % en un an (AMA Augmented Intelligence Survey, 2025). La demande est réelle et arrive vite. Le volet exploitation atterrit sur des réseaux de santé qui n'ont jamais été dotés en personnel pour exploiter un logiciel comme le fait un fournisseur.

Maverin n'est pas intervenu pour reconstruire l'assistant — il fonctionnait — mais pour s'approprier la surface sur laquelle il tournait.

02Le problème

Un modèle en démo est un travail terminé. Un modèle en production est un actif qui se déprécie. C'est dans l'écart entre les deux que meurent la plupart des initiatives d'IA en santé.

Les données sont sans détour. 91 % des modèles d'apprentissage automatique se dégradent avec le temps dans une étude portant sur 32 jeux de données et 2,56 millions d'expériences en santé, finance, météo et circulation (Vela, Sharp, Zhang et coll., Scientific Reports, 2022). L'exactitude décline en silence — personne ne reçoit d'alerte indiquant que le modèle se trompe désormais plus souvent. Gartner prévoyait qu'au moins 30 % des projets d'IA générative seraient abandonnés après la preuve de concept d'ici la fin 2025, invoquant une mauvaise qualité des données, de faibles contrôles de risque, des coûts croissants et une valeur floue (Gartner, 2024). Ce pilote présentait ces quatre risques, actifs et sans responsable.

Trois éléments précis rendaient la situation aiguë pour un réseau de santé :

L'hallucination n'est pas un risque marginal dans le texte clinique. Sur le banc d'essai MedHallu, le meilleur modèle n'a obtenu que 0,625 F1, alors même que le meilleur modèle atteignait 96,0 % au MedQA (questions d'examen d'autorisation) (Stanford HAI 2025 AI Index ; MedHallu, arXiv 2502.14302). Des scores d'examen élevés masquent des erreurs confiantes et difficiles à détecter. Sans évaluation des sorties et humain dans la boucle, une consigne de congé erronée part en ayant exactement l'air d'une bonne.
L'IA non gouvernée est un poste de coût d'atteinte mesurable. La santé est le secteur le plus coûteux en matière d'atteintes, à 7,42 M USD en moyenne, avec le plus long délai de confinement, 279 jours (IBM Cost of a Data Breach 2025). Et 97 % des entreprises ayant déclaré un incident de sécurité lié à l'IA n'avaient pas de contrôles d'accès appropriés, l'IA fantôme ajoutant ~670 K USD au coût d'une atteinte (IBM, 2025).
Les médecins nous ont dit le prix de leur confiance. 87 % ont nommé les garanties de confidentialité des données et 88 % un canal de rétroaction désigné comme exigences premières pour faire confiance à l'IA en santé ; 47 % ont nommé un encadrement accru comme besoin réglementaire n° 1 (AMA, 2025). Ce ne sont pas des fonctionnalités — c'est le modèle d'exploitation d'un service géré.

L'équipe interne savait construire. Elle ne savait pas exploiter — détection de dérive, évaluation des sorties, contrôles d'accès, astreinte et boucle de rétroaction — comme capacité permanente, chaque jour, sous SLA. C'est un autre métier.

03L'approche

Nous n'avons pas commencé par une feuille de route. Nous avons commencé par une évaluation de découverte de deux semaines pour répondre à une seule question : qu'est-ce qui tourne réellement, et quelle est la pire chose qui puisse mal tourner pendant que personne ne regarde ?

Le résultat a été un plan de transfert de propriété, pas un plan de reconstruction. L'assistant est resté. Nous avons pris la surface.

Les modalités de la rétention, en clair :

Maverin possède la dérive, l'exactitude, les coûts, l'observabilité et la disponibilité de la surface IA déployée — mesurées par rapport à un SLA, avec rapport mensuel.
Astreinte 24×5, avec une échelle de gravité définie et des cibles de réponse. Les incidents à impact clinique alertent un humain ; les anomalies de coût et de dérive ouvrent un billet.
Un créneau mensuel de livraison de nouveau flux — un pipeline gouverné pour ajouter la prochaine capacité de l'assistant sans rouvrir chaque fois la question construire ou exploiter.
Aucun verrouillage de plateforme. Modèles, fournisseurs et infrastructure restent ceux du client. La rétention est la capacité d'exploitation superposée, transférable s'ils l'internalisent un jour.

Nous avons arrimé le programme au profil IA générative du cadre de gestion des risques d'IA du NIST (NIST AI 600-1), qui nomme la confabulation (hallucination) parmi 12 catégories de risque de l'IA générative (NIST, 2024). Cela a donné à l'approvisionnement, à l'audit et au bureau de la protection des renseignements un cadre de contrôle reconnu — non une invention de Maverin à prendre sur parole.

Le recadrage vendu au COO : l'inférence n'est plus le coût. Interroger un modèle équivalent à GPT-3.5 est passé de 20,00 USD à 0,07 USD par million de jetons entre nov. 2022 et oct. 2024 — une baisse de plus de 280× (Stanford HAI 2025 AI Index). La dépense durable s'est déplacée vers l'exploitation : observabilité, évaluation, réentraînement, gouvernance. Une rétention chiffre honnêtement cette réalité au lieu de prétendre que le modèle est terminé.

04Architecture et contrôles

La pile comporte quatre couches, chacune avec un responsable et une mesure.

## 1. Accès et isolation Les RPS ne quittent jamais l'environnement du client. Contrôles d'accès par rôle sur le point d'accès du modèle, journalisation complète des invites et des réponses, et une politique de conservation signée par le bureau de la protection des renseignements. Cela comble directement l'écart derrière le constat d'IBM voulant que 97 % des victimes d'incidents d'IA n'avaient pas de contrôles d'accès appropriés — les contrôles ont été la première chose en place, pas la dernière.

## 2. Évaluation des sorties (la couche de garde-fous) Chaque sortie de texte clinique passe une évaluation en couches avant qu'un clinicien la voie : ancrage par récupération sur le dossier source, vérification d'hallucination calibrée sur le mode d'échec MedHallu, et une porte de confiance. Sous le seuil, la sortie est signalée pour révision humaine obligatoire plutôt que présentée comme un brouillon propre. La vérification avec humain dans la boucle n'est pas négociable — le 0,625 F1 de MedHallu explique pourquoi l'assistant propose et le clinicien dispose, toujours.

## 3. Surveillance de la dérive et de l'exactitude Un ensemble d'évaluation hebdomadaire — réservé, étiqueté par des cliniciens — est exécuté contre le modèle en service. Exactitude, taux d'ancrage et taux de signalement sont suivis dans le temps. Une baisse statistiquement significative alerte l'ingénieur d'astreinte et déclenche le pipeline de réentraînement/révision d'invite. C'est la couche que l'équipe interne n'a jamais eue : la réponse à « est-il toujours exact ce mois-ci ? » est désormais un tableau de bord, pas l'intuition d'une infirmière.

## 4. Observabilité des coûts et de la disponibilité Dépense en jetons par flux, latence et disponibilité sur un seul écran. Les anomalies de coût (une modification d'invite qui double l'usage de jetons) alertent avant la facture. La FDA attend désormais des plans de contrôle prédéterminé des changements pour les dispositifs médicaux d'IA/AA — la surveillance continue est une attente réglementaire, pas une option (FDA AI-Enabled Medical Device List, 2025 ; plus de 1 250 dispositifs autorisés en juillet 2025). Notre discipline de contrôle des changements répond à cette attente même pour l'assistant non médical, car le bureau de la protection des renseignements voulait la même rigueur.

Le canal de rétroaction réclamé par les médecins (exigence première de 88 %) est câblé dans la couche 2 : un bouton « ce brouillon était erroné » qui atterrit dans l'ensemble d'évaluation et façonne le réentraînement de la semaine suivante. Leur rétroaction n'est pas une boîte à suggestions — c'est un signal d'entraînement.

05Ce qui a été livré

Au cours des 90 premiers jours :

Transfert de propriété achevé. Le téléavertisseur, les tableaux de bord et le SLA sont passés à Maverin. L'équipe interne de science des données est retournée à la construction, libérée de l'exploitation.
Pile à quatre couches en production sur les huit sites : accès/isolation, évaluation des sorties, surveillance de la dérive, observabilité des coûts/disponibilité.
Boucle d'évaluation hebdomadaire étiquetée par des cliniciens mise en place, alimentant à la fois le moniteur de dérive et le pipeline de réentraînement.
Astreinte 24×5 avec une échelle de gravité publiée et deux exercices de gravité clinique menés avant la mise en service.

Puis la cadence mensuelle a commencé. À l'aide du créneau gouverné de nouveau flux, les trois capacités suivantes ont été livrées une par mois — chacune par la même porte d'évaluation, aucune ne rouvrant le débat sur le modèle d'exploitation :

Mois 1 : améliorations de l'exactitude d'acheminement des consultations (la douleur d'origine).
Mois 2 : rédaction des consignes de congé avec un seuil d'ancrage plus strict.
Mois 3 : rédaction des lettres d'autorisation préalable, le flux le plus volumineux et à plus faible risque clinique — choisi délibérément pour bâtir la confiance avant de toucher quoi que ce soit de diagnostique.

Le séquençage est l'essentiel. Nous n'avons pas livré le flux le plus excitant en premier. Nous avons livré celui qui méritait le suivant.

Illustration 1

Exactitude dans le temps : déclin silencieux vs boucle gérée (illustratif)

Exactitude dans le temps : déclin silencieux vs boucle gérée (illustratif)
Étiquette	Valeur
Month 0	94
Month 2	93.8
Month 4	94.1
Month 6	93.9
Month 8	94.2
Month 10	94
Month 12	94.3

Exactitude modélisée étiquetée par cliniciens sur 12 mois. Le tracé inférieur illustre le déclin silencieux qu'implique le constat cité voulant que 91 % des modèles d'AA se dégradent (Vela et coll., 2022); la bande maintenue est la boucle gérée d'évaluation et de réentraînement. Illustratif — non une mesure de client nommé.

Illustrative (decay baseline: Vela et al., Scientific Reports 2022)

06Résultats

Ces résultats sont illustratifs et modélisés pour un mandat de cette taille et de cette forme — ce ne sont pas des résultats mesurés d'un client nommé. Lorsqu'un chiffre est un repère sectoriel, il est cité.

L'exactitude est restée stable au lieu de décliner. Face au constat de base voulant que 91 % des modèles d'AA se dégradent avec le temps (Vela et coll., Scientific Reports, 2022), la boucle gérée d'évaluation et de réentraînement a maintenu l'exactitude étiquetée par les cliniciens dans une bande étroite sur l'année plutôt que de dériver à la baisse — la valeur explicite de la rétention, illustrée dans le graphique linéaire ci-dessous.
Le projet n'a pas rejoint la statistique d'abandon. Gartner chiffrait l'abandon après POC à ≥ 30 % (2024); la surface au point mort est plutôt passée en production stable avec une cadence de livraison mensuelle.
L'astreinte a respecté le SLA. Dans un état stable illustratif, les incidents de gravité clinique ont été accusés réception dans la cible de réponse et résolus sans événement à impact clinique — le type de socle opérationnel qu'un réseau de santé ne peut se doter du jour au lendemain, vu un délai moyen de confinement d'atteinte en santé de 279 jours (IBM, 2025) en l'absence de contrôles.
Hallucination interceptée en amont des cliniciens. La couche d'évaluation des sorties a signalé les brouillons à faible confiance pour révision obligatoire plutôt que de les présenter propres — répondant directement au mode d'échec du 0,625 F1 MedHallu (Stanford HAI / MedHallu, 2025).

La version honnête : la rétention n'a pas rendu le modèle meilleur que sa démo. Elle a empêché la qualité de la démo de s'évaporer en silence — et elle a donné à un RSSI et à un COO un seul numéro de téléphone imputable pour la surface IA.

Illustration 2

Référence non gérée : déclin silencieux de l'exactitude (illustratif)

Référence non gérée : déclin silencieux de l'exactitude (illustratif)
Étiquette	Valeur
Month 0	94
Month 2	92.6
Month 4	91
Month 6	89.1
Month 8	87.4
Month 10	85.5
Month 12	83.2

Le contrefactuel : le même modèle sans surveillance ni réentraînement, dérivant à la baisse trimestre après trimestre — le tracé que suivent 91 % des modèles déployés (Vela et coll., 2022). Illustratif.

Illustrative (decay baseline: Vela et al., Scientific Reports 2022)

07Ce que nous dirions au prochain acheteur

Décidez qui porte le téléavertisseur avant de livrer le pilote. Le pilote qui fonctionne et celui qui meurt sont identiques le jour de la démo. La différence : quelqu'un possède-t-il la dérive, les coûts et l'incident de 2 h du matin ? Si votre équipe de science des données l'a construit, c'est habituellement la mauvaise équipe pour l'exploiter — et leur demander les deux paralyse tout.
Chiffrez l'exploitation, pas l'inférence. L'inférence a chuté de plus de 280× en 18 mois (Stanford HAI, 2025). Si votre budget IA est surtout de la dépense de modèle, vous avez mal modélisé le coût. Le poste durable, c'est la surveillance, l'évaluation, le réentraînement et la gouvernance.
Achetez un cadre de contrôle, pas une promesse. Arrimez-vous à NIST AI 600-1 ou ISO/IEC 42001 dès le premier jour. C'est ce qui fait dire oui à votre bureau de la protection des renseignements et à l'approvisionnement, et qui survit à la question d'un régulateur. Le cadre est aussi votre garantie de portabilité — il n'est pas propre à un fournisseur.
Faites de la rétroaction des cliniciens un fil, pas un formulaire. Les médecins ont classé un canal de rétroaction (88 %) et les garanties de confidentialité (87 %) parmi leurs principales exigences de confiance (AMA, 2025). Câblez la rétroaction dans la boucle de réentraînement pour qu'elle devienne un signal d'entraînement, et les gens qui utilisent l'outil deviennent ceux qui l'améliorent.
Séquencez les flux selon la confiance acquise, pas l'enthousiasme. Livrez d'abord le flux volumineux à faible risque clinique. Laissez-le mériter le flux diagnostique. Une rétention gérée fait de cette cadence disciplinée la norme plutôt qu'une exception héroïque.

Il s'agissait d'un mandat représentatif. La forme — pilote au point mort, sans responsable, risque d'actif qui se déprécie — est récurrente dans les réseaux de santé réglementés. Le correctif n'est pas un meilleur modèle. C'est une couche d'exploitation imputable, avec un SLA, sans verrouillage, et un téléphone auquel on répond.

Illustration 3

Pile IA gérée — instantané du SLA de surface (état stable illustratif)

Uptime vs SLA (%)

99.7

On-call coverage (hrs/week)

120

New governed workflows / quarter

Clinical-impact incidents

Pile IA gérée — instantané du SLA de surface (état stable illustratif)
Étiquette	Valeur
Uptime vs SLA (%)	99.7
On-call coverage (hrs/week)	120
New governed workflows / quarter	3
Clinical-impact incidents	0

Posture d'exploitation modélisée pour un mandat de cette taille : astreinte 24×5, surveillance de la dérive et des coûts, livraison gouvernée mensuelle. Chiffres illustratifs, non un résultat de client nommé.

Illustrative

La rétention n'a pas rendu le modèle meilleur que sa démo. Elle a empêché la qualité de la démo de s'évaporer en silence — et a donné à un RSSI et à un COO un seul numéro imputable pour la surface IA.

En chiffres

91%

Modèles d'AA qui se dégradent avec le temps

Pourquoi un modèle déployé exige surveillance et réentraînement

Source: Vela, Sharp, Zhang et al., Scientific Reports

0.625 F1

Meilleur modèle sur l'ensemble MedHallu d'hallucinations difficiles

Des scores d'examen élevés cachent des erreurs cliniques confiantes

Source: Stanford HAI 2025 AI Index / MedHallu

>280×

Baisse du prix d'inférence, équivalent GPT-3.5 (nov. 2022 → oct. 2024)

La dépense durable s'est déplacée vers l'exploitation

Source: Stanford HAI 2025 AI Index

USD 7.42M

Coût moyen d'atteinte en santé (secteur le plus coûteux)

Confinement de 279 jours — pourquoi les contrôles d'accès comptent

Source: IBM / Ponemon Cost of a Data Breach 2025

Secteur: Santé — réseau de santé multisite
Gamme de services: Pile IA gérée

Démarrer la conversation

Comment une banque de premier rang a transformé son équipe de risque, de frein à l'IA en commanditaire de l'IA

Un programme de gouvernance de l'IA — bâti avant la mise à l'échelle des LLM et des agents — qui a rendu le oui plus rapide que le non.

Lecture de 8 min Assurance (assureur IARD national)

Tri des réclamations à l'admission, automatisé : un mandat d'agents en production pour un assureur IARD national

Un mandat à prix fixe avec harnais, évaluations et restauration en un clic — la rentabilité prouvée dans une évaluation de découverte payante avant la moindre ligne de code en production.

Lecture de 9 min

Cas d'usage

Un pilote qui fonctionne mais sans responsable ? Parlons de qui porte le téléavertisseur. Réservez une évaluation de découverte.

Démarrer la conversation

Santé — réseau de santé multisite · Pile IA gérée

Qui possède le modèle à 2 h du matin ? Un réseau de santé multisite confie sa surface IA à une équipe en rétention gérée

24 mars 2026Lecture de 10 minÉtude de cas

En bref

01Contexte

Maverin n'est pas intervenu pour reconstruire l'assistant — il fonctionnait — mais pour s'approprier la surface sur laquelle il tournait.

02Le problème

Un modèle en démo est un travail terminé. Un modèle en production est un actif qui se déprécie. C'est dans l'écart entre les deux que meurent la plupart des initiatives d'IA en santé.

Trois éléments précis rendaient la situation aiguë pour un réseau de santé :

L'hallucination n'est pas un risque marginal dans le texte clinique. Sur le banc d'essai MedHallu, le meilleur modèle n'a obtenu que 0,625 F1, alors même que le meilleur modèle atteignait 96,0 % au MedQA (questions d'examen d'autorisation) (Stanford HAI 2025 AI Index ; MedHallu, arXiv 2502.14302). Des scores d'examen élevés masquent des erreurs confiantes et difficiles à détecter. Sans évaluation des sorties et humain dans la boucle, une consigne de congé erronée part en ayant exactement l'air d'une bonne.
L'IA non gouvernée est un poste de coût d'atteinte mesurable. La santé est le secteur le plus coûteux en matière d'atteintes, à 7,42 M USD en moyenne, avec le plus long délai de confinement, 279 jours (IBM Cost of a Data Breach 2025). Et 97 % des entreprises ayant déclaré un incident de sécurité lié à l'IA n'avaient pas de contrôles d'accès appropriés, l'IA fantôme ajoutant ~670 K USD au coût d'une atteinte (IBM, 2025).
Les médecins nous ont dit le prix de leur confiance. 87 % ont nommé les garanties de confidentialité des données et 88 % un canal de rétroaction désigné comme exigences premières pour faire confiance à l'IA en santé ; 47 % ont nommé un encadrement accru comme besoin réglementaire n° 1 (AMA, 2025). Ce ne sont pas des fonctionnalités — c'est le modèle d'exploitation d'un service géré.

03L'approche

Le résultat a été un plan de transfert de propriété, pas un plan de reconstruction. L'assistant est resté. Nous avons pris la surface.

Les modalités de la rétention, en clair :

Maverin possède la dérive, l'exactitude, les coûts, l'observabilité et la disponibilité de la surface IA déployée — mesurées par rapport à un SLA, avec rapport mensuel.
Astreinte 24×5, avec une échelle de gravité définie et des cibles de réponse. Les incidents à impact clinique alertent un humain ; les anomalies de coût et de dérive ouvrent un billet.
Un créneau mensuel de livraison de nouveau flux — un pipeline gouverné pour ajouter la prochaine capacité de l'assistant sans rouvrir chaque fois la question construire ou exploiter.
Aucun verrouillage de plateforme. Modèles, fournisseurs et infrastructure restent ceux du client. La rétention est la capacité d'exploitation superposée, transférable s'ils l'internalisent un jour.

04Architecture et contrôles

La pile comporte quatre couches, chacune avec un responsable et une mesure.

05Ce qui a été livré

Au cours des 90 premiers jours :

Transfert de propriété achevé. Le téléavertisseur, les tableaux de bord et le SLA sont passés à Maverin. L'équipe interne de science des données est retournée à la construction, libérée de l'exploitation.
Pile à quatre couches en production sur les huit sites : accès/isolation, évaluation des sorties, surveillance de la dérive, observabilité des coûts/disponibilité.
Boucle d'évaluation hebdomadaire étiquetée par des cliniciens mise en place, alimentant à la fois le moniteur de dérive et le pipeline de réentraînement.
Astreinte 24×5 avec une échelle de gravité publiée et deux exercices de gravité clinique menés avant la mise en service.

Mois 1 : améliorations de l'exactitude d'acheminement des consultations (la douleur d'origine).
Mois 2 : rédaction des consignes de congé avec un seuil d'ancrage plus strict.
Mois 3 : rédaction des lettres d'autorisation préalable, le flux le plus volumineux et à plus faible risque clinique — choisi délibérément pour bâtir la confiance avant de toucher quoi que ce soit de diagnostique.

Le séquençage est l'essentiel. Nous n'avons pas livré le flux le plus excitant en premier. Nous avons livré celui qui méritait le suivant.

Illustration 1

Exactitude dans le temps : déclin silencieux vs boucle gérée (illustratif)

Exactitude dans le temps : déclin silencieux vs boucle gérée (illustratif)
Étiquette	Valeur
Month 0	94
Month 2	93.8
Month 4	94.1
Month 6	93.9
Month 8	94.2
Month 10	94
Month 12	94.3

Illustrative (decay baseline: Vela et al., Scientific Reports 2022)

06Résultats

L'exactitude est restée stable au lieu de décliner. Face au constat de base voulant que 91 % des modèles d'AA se dégradent avec le temps (Vela et coll., Scientific Reports, 2022), la boucle gérée d'évaluation et de réentraînement a maintenu l'exactitude étiquetée par les cliniciens dans une bande étroite sur l'année plutôt que de dériver à la baisse — la valeur explicite de la rétention, illustrée dans le graphique linéaire ci-dessous.
Le projet n'a pas rejoint la statistique d'abandon. Gartner chiffrait l'abandon après POC à ≥ 30 % (2024); la surface au point mort est plutôt passée en production stable avec une cadence de livraison mensuelle.
L'astreinte a respecté le SLA. Dans un état stable illustratif, les incidents de gravité clinique ont été accusés réception dans la cible de réponse et résolus sans événement à impact clinique — le type de socle opérationnel qu'un réseau de santé ne peut se doter du jour au lendemain, vu un délai moyen de confinement d'atteinte en santé de 279 jours (IBM, 2025) en l'absence de contrôles.
Hallucination interceptée en amont des cliniciens. La couche d'évaluation des sorties a signalé les brouillons à faible confiance pour révision obligatoire plutôt que de les présenter propres — répondant directement au mode d'échec du 0,625 F1 MedHallu (Stanford HAI / MedHallu, 2025).

Illustration 2

Référence non gérée : déclin silencieux de l'exactitude (illustratif)

Référence non gérée : déclin silencieux de l'exactitude (illustratif)
Étiquette	Valeur
Month 0	94
Month 2	92.6
Month 4	91
Month 6	89.1
Month 8	87.4
Month 10	85.5
Month 12	83.2

Illustrative (decay baseline: Vela et al., Scientific Reports 2022)

07Ce que nous dirions au prochain acheteur

Décidez qui porte le téléavertisseur avant de livrer le pilote. Le pilote qui fonctionne et celui qui meurt sont identiques le jour de la démo. La différence : quelqu'un possède-t-il la dérive, les coûts et l'incident de 2 h du matin ? Si votre équipe de science des données l'a construit, c'est habituellement la mauvaise équipe pour l'exploiter — et leur demander les deux paralyse tout.
Chiffrez l'exploitation, pas l'inférence. L'inférence a chuté de plus de 280× en 18 mois (Stanford HAI, 2025). Si votre budget IA est surtout de la dépense de modèle, vous avez mal modélisé le coût. Le poste durable, c'est la surveillance, l'évaluation, le réentraînement et la gouvernance.
Achetez un cadre de contrôle, pas une promesse. Arrimez-vous à NIST AI 600-1 ou ISO/IEC 42001 dès le premier jour. C'est ce qui fait dire oui à votre bureau de la protection des renseignements et à l'approvisionnement, et qui survit à la question d'un régulateur. Le cadre est aussi votre garantie de portabilité — il n'est pas propre à un fournisseur.
Faites de la rétroaction des cliniciens un fil, pas un formulaire. Les médecins ont classé un canal de rétroaction (88 %) et les garanties de confidentialité (87 %) parmi leurs principales exigences de confiance (AMA, 2025). Câblez la rétroaction dans la boucle de réentraînement pour qu'elle devienne un signal d'entraînement, et les gens qui utilisent l'outil deviennent ceux qui l'améliorent.
Séquencez les flux selon la confiance acquise, pas l'enthousiasme. Livrez d'abord le flux volumineux à faible risque clinique. Laissez-le mériter le flux diagnostique. Une rétention gérée fait de cette cadence disciplinée la norme plutôt qu'une exception héroïque.

Illustration 3

Pile IA gérée — instantané du SLA de surface (état stable illustratif)

Uptime vs SLA (%)

99.7

On-call coverage (hrs/week)

120

New governed workflows / quarter

Clinical-impact incidents

Pile IA gérée — instantané du SLA de surface (état stable illustratif)
Étiquette	Valeur
Uptime vs SLA (%)	99.7
On-call coverage (hrs/week)	120
New governed workflows / quarter	3
Clinical-impact incidents	0

Illustrative

La rétention n'a pas rendu le modèle meilleur que sa démo. Elle a empêché la qualité de la démo de s'évaporer en silence — et a donné à un RSSI et à un COO un seul numéro imputable pour la surface IA.

En chiffres

91%

Modèles d'AA qui se dégradent avec le temps

Pourquoi un modèle déployé exige surveillance et réentraînement

Source: Vela, Sharp, Zhang et al., Scientific Reports

0.625 F1

Meilleur modèle sur l'ensemble MedHallu d'hallucinations difficiles

Des scores d'examen élevés cachent des erreurs cliniques confiantes

Source: Stanford HAI 2025 AI Index / MedHallu

>280×

Baisse du prix d'inférence, équivalent GPT-3.5 (nov. 2022 → oct. 2024)

La dépense durable s'est déplacée vers l'exploitation

Source: Stanford HAI 2025 AI Index

USD 7.42M

Coût moyen d'atteinte en santé (secteur le plus coûteux)

Confinement de 279 jours — pourquoi les contrôles d'accès comptent

Source: IBM / Ponemon Cost of a Data Breach 2025

Secteur: Santé — réseau de santé multisite
Gamme de services: Pile IA gérée

Démarrer la conversation

Comment une banque de premier rang a transformé son équipe de risque, de frein à l'IA en commanditaire de l'IA

Un programme de gouvernance de l'IA — bâti avant la mise à l'échelle des LLM et des agents — qui a rendu le oui plus rapide que le non.

Lecture de 8 min Assurance (assureur IARD national)

Tri des réclamations à l'admission, automatisé : un mandat d'agents en production pour un assureur IARD national

Un mandat à prix fixe avec harnais, évaluations et restauration en un clic — la rentabilité prouvée dans une évaluation de découverte payante avant la moindre ligne de code en production.

Lecture de 9 min

Cas d'usage

Un pilote qui fonctionne mais sans responsable ? Parlons de qui porte le téléavertisseur. Réservez une évaluation de découverte.

Démarrer la conversation

01Contexte

02Le problème

03L'approche

04Architecture et contrôles

05Ce qui a été livré

06Résultats

07Ce que nous dirions au prochain acheteur

Comment une banque de premier rang a transformé son équipe de risque, de frein à l'IA en commanditaire de l'IA

Tri des réclamations à l'admission, automatisé : un mandat d'agents en production pour un assureur IARD national

01Contexte

02Le problème

03L'approche

04Architecture et contrôles

05Ce qui a été livré

06Résultats

07Ce que nous dirions au prochain acheteur

Comment une banque de premier rang a transformé son équipe de risque, de frein à l'IA en commanditaire de l'IA

Tri des réclamations à l'admission, automatisé : un mandat d'agents en production pour un assureur IARD national

Tri des réclamations à l'admission, automatisé : un mandat d'agents en production pour un assureur IARD national

Tri des réclamations à l'admission, automatisé : un mandat d'agents en production pour un assureur IARD national