Publication : L'actuariel Octobre 2018

Quand le big data révolutionnera la prévention

Laure Bert

 

POINT DE VUE

Emmanuel Bacry, directeur de recherche au CNRS, attaché à l’université Paris-Dauphine et professeur à l’École polytechnique. Il travaille depuis 2015 sur les données de l’Assurance maladie. Il traque les effets secondaires de médicaments.

L’actuariel : Pourquoi travailler avec l’Assurance maladie ?

Emmanuel Bacry : Le Système national d’information interrégimes de l’Assurance maladie (Sniiram) est une des plus grandes bases de santé mondiales ! Elle contient toutes les informations liées à la carte Vitale pour 67 millions de personnes. J’ai approché l’Assurance maladie en 2014 pour proposer à ses dirigeants de tester le potentiel des techniques du big data sur ces données. Nous avons d’abord signé un partenariat de trois ans, de 2015 à 2017, puis, récemment, un deuxième, de 2018 à 2020.

L’actuariel : Les données étaient-elles directement exploitables pour la recherche ?

Emmanuel Bacry : L’organisation de la base est optimisée pour traiter les remboursements de soins, pas vraiment pour la recherche. L’ensemble est extrêmement complexe. Les données sont organisées dans une base relationnelle sur des machines Oracle à l’architecture relativement fermée. Au total, 800 tables sont ainsi mises en relation, dont 20 de grande taille. La plus grande contient plus d’un milliard de lignes. C’est sur cette table qu’une ligne est ajoutée chaque fois que l’Assurance maladie valide un remboursement de soin. Cette table principale pointe ensuite vers les autres tables annexes : assurés, médecins prescripteurs, actes médicaux…

L’actuariel : Vous avez donc dû restructurer la base…

Emmanuel Bacry : Oui, nous y avons travaillé pendant deux ans afin de retrouver les parcours de soins derrière les remboursements. En septembre dernier, huit personnes à temps plein planchaient dessus. La base atteint un volume considérable, entre 200 et 300 téraoctets. Nous avons commencé par restructurer 3 téraoctets et en sommes aujourd’hui à 30. Pour cela nous avons monté un cluster big data de 20 machines au sein de la Cnam. Nous avons transformé les données brutes en une matrice utilisable par les algorithmes d’apprentissage. L’historique d’un assuré ou d’un professionnel est désormais facilement adressable.

L’actuariel : Cette réorganisation a-t-elle été concluante ?

Emmanuel Bacry : Nous avons remporté un premier succès en pharmacovigilance sur un cas connu, la pioglitazone, un antidiabétique qui augmente les risques de cancer de la vessie et a été retiré de la vente en 2011. À partir d’une cohorte de 2,5 millions de diabétiques, nos algorithmes ont pu identifier de façon automatique le pioglitazone comme ayant un effet significatif sur le risque de cancer. Aujourd’hui nous appliquons cet algorithme à des cas réels. Nous travaillons sur une cohorte de 12 millions de personnes âgées. Sur un ensemble de 400 médicaments, nous voulons repérer ceux qui augmentent les risques de chuter.

Lire le focus sur l’assurance