Selon une récente enquête réalisée par le cabinet de conseil PAC, le Big Data est amené à croître de 35% par an en France d’ici à 2019. Se pose alors la problématique du stockage, de l’intégration, du traitement, de la protection et de l’analyse de cette volumétrie de données, qui devient une ressource clé pour l’entreprise : Comment valoriser les données ainsi obtenues ? Comment optimiser les SI pour une bonne gestion et analyse de ces multitudes de données en provenance de tous horizons ?
En effet, pour faire face à la croissance exponentielle des données, les entreprises sont amenées à repenser et à organiser le département IT de manière cohérente pour intégrer efficacement les applications à la fois sur site et dans le cloud. Elles doivent ainsi faire le choix entre des bases de données relationnelles « robustes » et des technologies de données plus évolutives, telles que NoSQL et Hadoop.
Pour adresser ces problématiques, Frédéric Brousse revient sur les caractéristiques clés du Data Lake et du Data Warehouse et démontre comment ces deux approches sont complémentaires.
Qu’est-ce qu’un Data Lake et quelle est sa valeur ?
Le « Data Lake », ou « lac de données », est un concept simple et relativement nouveau qui s’inscrit dans la mouvance du Big Data. L’objectif principal est de pouvoir fournir un stockage / entrepôt global des informations présentes dans une entreprise. Par le passé, la plupart des entreprises n’ont pas eu à gérer cette masse de données en provenance de plusieurs flux entrants, car la quasi-totalité des données était interne à l’entreprise.
Aujourd’hui, les entreprises ont besoin de pouvoir stocker les données internes et externes, brutes ou non, dans un seul et même lieu. Elles sont également confrontées à des exigences en matière de capacité et de flexibilité à traiter et analyser l’information le plus rapidement possible. A la différence d’un Data Warehouse, le Data Lake offre la possibilité de créer sa propre transformation et d’analyser les données sans avoir un chemin particulier imposé par le système ETL (Extract-Transform-Load). Ainsi, chaque utilisateur peut matérialiser son propre besoin et extraire les données sources nécessaires pour son analyse de manière rapide tout en tirant pleinement parti de l’évolutivité et de l’efficacité opérationnelle qu’offre le Data Lake.
A titre d’exemples, les institutions de services financiers sauvegardent et analysent les données transactionnelles et d’autres signaux connexes afin d’enrichir les techniques de détection des fraudes, suivre l’évolution des réglementations mondiales, et ainsi renforcer la confiance des consommateurs sur la sécurité de leurs services fournis.
Dans le secteur de la santé, les organismes conservent les données de dossiers médicaux électroniques afin de proposer des soins plus personnalisés. Le Data Lake permet ainsi, dans un même lieu, de recueillir tous types de données, de les mettre en relation afin de pouvoir les analyser rapidement et en tirer une vraie valeur ajoutée pour améliorer l’expérience client et garantir la confidentialité au patient.
Data Lake vs. Data Warehouse
Mais le Data Lake ne vient pas remplacer le Data Warehouse, au contraire, il le complète.
Le Data Warehouse entrepose des données de façon structurée. Il conserve ainsi une qualité et une fiabilité liées à la structuration des données imposée à l’origine du schéma/processus de stockage. Ainsi, il permet d’avoir accès à des données à forte valeur ajoutée mais répondant à un nombre limité d’algorithmes analytiques qui ne prend en compte que des formats spécifiques de données.
Le Data Lake offre une véritable agilité qui vient répondre à l’évolution du marché et l’explosion de la volumétrie des données, avec l’émergence du mobile computing, des objets connectés et autres changements disruptifs. Ces évolutions entraînent le besoin d’utiliser, d’examiner et de tester des données de toutes sortes et de tous horizons à des fins analytiques ou applicatives, et à faible coût.
Le Data Warehouse possède peu de données mais d’une valeur importante. Le Data Lake conserve quant à lui une multitude de données diverses et variées à faible coût.
Ainsi, il convient aux entreprises en phase de restructuration, de repenser les usages et besoins en matière d’analyse des données à l’ère du digital, avant de se décider à remplacer définitivement le Data Warehouse par le Data Lake. Des outils existent qui permettent de standardiser la gestion des données à travers les deux univers. Il faudrait ainsi tenter de développer une synergie entre les deux approches pour en tirer le meilleur parti.
___________
Frédéric Brousse est Directeur Général d’Informatica France