Publication : L'actuariel 11 Janvier 2014

Gestion des données : la révolution technologique est lancée

Florence Puybareau

Le cloud computing au cœur des enjeux

C’est l’une des clés de voûte du système, celle sans laquelle les promesses du Big data ou du Machine Learning ne pourraient être tenues. Le cloud computing – ou l’informatique dans les nuages – est devenu aujourd’hui incontournable pour tous les projets informatiques d’envergure, car il permet de gérer et de stocker à distance les applications de l’entreprise et surtout les millions de téraoctets qu’elle génère chaque année. Dans le cas d’un projet Big data, la clé du succès repose sur la mise à disposition, outre d’énormes capacités de stockage, de la puissance de la machine, permettant des calculs en temps réel. Aujourd’hui, tous les grands acteurs du cloud computing (Amazon, Google, IBM, HP, Salesforce, Orange…) sont susceptibles de fournir ces services. Mais au-delà de l’aspect technique, c’est le cadre juridique dans lequel se place le cloud computing qui doit interpeller les entreprises et particulièrement les assureurs. L’affaire Prism, qui a révélé l’espionnage de l’administration américaine sur les réseaux Internet du monde entier, rappelle plus que jamais que les entreprises européennes doivent être particulièrement vigilantes sur le choix des prestataires, même ceux d’un pays allié. Il est donc nécessaire de prendre quelques précautions. Ainsi, le cloud computing s’appuyant sur le principe de la virtualisation, les données sont amenées à changer d’emplacement dans les différents data centers du fournisseur en fonction de l’augmentation des volumes et de la place disponible. Par exemple, des données initialement hébergées en Angleterre peuvent se retrouver en Irlande voire plus loin. Par ailleurs, même si les données d’origine restent en Europe, les sauvegardes (back-up) pourront être stockées dans d’autres parties du monde. À l’assureur donc d’exiger que toutes ses données restent sur le Vieux Continent.

Identifier les données vitales

Ce point est particulièrement important pour les entreprises qui gèrent certaines informations confidentielles (comme les données de santé) puisqu’elles ont obligation par le législateur de les héberger sur le sol français. Mais cette précaution peut se révéler encore insuffisante si le prestataire est américain. En vertu du Patriot Act (loi de 2001 destinée principalement à lutter contre le terrorisme), toutes les entreprises américaines, même celles qui sont installées en France et de droit français, peuvent faire l’objet d’investigations de la part des autorités états-uniennes. En clair, les données d’un data center installé en France ont potentiellement le risque d’être examinées tout à fait légalement par un enquêteur américain sans que le client en soit informé. Pour éviter ces déboires et ne pas tomber dans une paranoïa qui bloquerait tous les projets, les assureurs doivent mettre en place en amont une véritable stratégie cloud : déterminer les données vitales ou extrêmement confidentielles qu’il est préférable de conserver en interne ; choisir pour des données peut-être moins sensibles, mais importantes, un prestataire français (ils sont de plus en plus nombreux comme OVH, Numergy, CloudWatt) et enfin être très rigoureux au moment de la contractualisation. C’est-à-dire exiger du prestataire les plans de sauvegarde, la qualité de service (le réseau Internet) et la réversibilité des données (la possibilité pour le client de récupérer des données immédiatement exploitables par lui-même ou un autre fournisseur). Enfin, pour les actuaires, intégrer le cloud computing dans l’évaluation des risques opérationnels de l’entreprise.

Glossaire

Machine Learning (ou apprentissage statistique) : l’un des sous-ensembles de l’intelligence artificielle, qui permet aux machines d’apprendre par elles-mêmes dans le but d’automatiser les traitements. Toutes les entreprises qui manipulent énormément de données (comme Google et Amazon par exemple) l’utilisent déjà.

GLM : le modèle linéaire généralisé, en français, est une généralisation souple de la régression linéaire. Il permet d’étudier la liaison entre une variable dépendante ou réponse Y et un ensemble de variables explicatives ou prédicteurs X1… XK.

Réseaux de neurones artificiels : un modèle de calcul dont la conception est schématiquement inspirée du fonctionnement des neurones biologiques. En tant que système capable d’apprendre, ces réseaux mettent en œuvre le principe de l’induction (apprentissage par l’expérience).

Virtualisation informatique : la virtualisation permet l’exécution de plusieurs systèmes d’exploitation et applications sur un même serveur. Cette technologie optimise l’usage des machines et fait partie des éléments constitutifs du cloud computing.