Publication : L'actuariel Octobre 2018

Quand le big data révolutionnera la prévention

Laure Bert

SANTÉ : LES COMPAGNIES VEULENT FAIRE PARLER LEURS PROPRES DONNÉES

Les assureurs n’ont qu’un accès très restreint au nouveau système national de données de santé. Ils espèrent contourner cette difficulté en faisant parler leurs données traditionnelles : les prestations versées aux assurés.

Les compagnies d’assurances françaises auraient-elle trouvé le précieux sésame qui leur permettra enfin de déployer des programmes de prévention dignes de ce nom ? Les groupes travaillent depuis des années sur leurs données de remboursement santé afin de modéliser les consommations de leurs assurés et d’optimiser la gestion de leurs portefeuilles. Leurs data scientists raffinent désormais ces analyses grâce aux techniques du big data. Romain Gauchon veut aller un pas plus loin. Le jeune homme, qui réalise une thèse à l’université Lyon 1, a construit un modèle de prévention ciblée à partir de données de consommation santé.

« Après une première chute, les personnes âgées ont par exemple plus de risque de tomber à nouveau, avance le thésard. Il peut alors être pertinent de leur proposer un programme de sport adapté pour éviter cette rechute. Or, si nous ne disposons pas des données médicales des assurés, nous connaissons leur consommation en santé, grâce aux remboursements. Je tente d’agréger ces données et de les faire parler pour cibler précisément les segments de population concernés. »

Le chercheur part des prestations que la compagnie a versées à ses assurés. Il traduit ces données en autant de visites chez le médecin, le dentiste, l’opticien, le kinésithérapeute… En parallèle, les assurés sont répartis en sous-catégories en fonction de leur sexe et de leur statut (actif ou retraité). « Pour classifier les assurés, nous avons élaboré une méthode en deux temps, inspirée de l’analyse de texte (text mining), décrypte Romain Gauchon. Nous comptons le nombre de consommations en santé de chaque salarié. Cela donne une matrice de grande taille avec environ 150 colonnes. Nous la réduisons une première fois en suivant la méthode de factorisation de matrice positive (NMF), qui nous permet d’obtenir une vingtaine de colonnes, représentant des groupes d’actes. Nous classifions ensuite les assurés en utilisant la méthode des cartes de Kohonen. Les assurés sont alors répartis en une quinzaine de groupes représentant les comportements de consommation du portefeuille. »

Personnaliser la prévention

Si l’assuré n’a pas donné de consentement pour l’utilisation de ses données, la compagnie se contentera de lui proposer un programme de prévention adapté. Si l’assuré a donné son consentement, il pourra recevoir des alertes personnalisées en fonction de l’évolution de sa santé.

Travailler sur leurs propres données permettrait aux assureurs de contourner la contrainte d’un cadre français très strict en termes d’accès aux données publiques de santé. Ces dernières (Assurance maladie, hôpitaux, causes de décès, handicap) sont regroupées dans le nouveau Système national de données de santé (SNDS) depuis 2015. 1,2 milliard de feuilles de soins et 11 millions de séjours hospitaliers l’alimentent annuellement. Mais deux limites ont été posées d’emblée à son utilisation. Les laboratoires ne peuvent pas y avoir accès pour promouvoir des produits de santé, ni les assureurs pour tarifer leurs risques. Pour travailler sur le fichier, ils doivent ainsi passer par un tiers de confiance qui s’engage à respecter la protection de la vie privée des personnes.