Data lake, data warehouse, data mart : Définition, objectif, fonctionnement

Data lake, data warehouse, data mart : Définition, objectif et fonctionnement

Temps de lecture : 4 minutes

Data lake, data warehouse et data mart : définition et enjeux

Le big data a contraint les entreprises à développer des infrastructures permettant de garder le contrôle sur leurs données. Plusieurs solutions ont vu le jour et se développent encore pour répondre aux problématiques de structuration des données. Lorsqu'il s'agit de stocker des informations, plusieurs options s’offrent aux entreprises. Connaissez-vous la différence entre un data lake un data warehouse et un data mart ?





Qu’est-ce qu’un data lake ?


Définition

 

Le terme data lake se traduit par « lac de données ». Le data lake est un référentiel centralisé qui permet de stocker toutes les données d’une entreprise dans leur état brut.

Cet espace de stockage rassemble de gros volumes de données non transformées provenant de sources diverses. Il peut contenir des informations structurées, semi-structurées ou non structurées, dont le but final n’est pas précisé.

Les data lake sont des systèmes offrant d’importantes capacités de stockage et n’imposant aucune structuration ou modélisation des data. Ils permettent de gérer de très grosses volumétries.

 

Objectifs

 

L’objectif principal d’un data lake est de centraliser les données de l'entreprise provenant de sources variées en un point unique sans les modifier.

Le data lake répond aux besoins d’analyse des big data et à l’utilisation de données brutes et non transformées. Il s’adresse aux data scientists qui ont les capacités d’exploiter des données non structurées.

Le data lake n’impose aucune structuration et offre ainsi plus de flexibilité à l’entreprise qui pourra manier et transformer les ressources en fonction de ses besoins d’utilisation à un moment précis.

 

Fonctionnement

 

Un data lake est basé sur une architecture « à plat » permettant de stocker tous types de données provenant de sources variées.

Cette architecture n’impose aucune organisation et aucune hiérarchie entre les ressources. Il permet de conserver des données à portée de main, de manière non structurée.



Qu'est-ce qu'un data warehouse ?


Définition

 

Data waherouse signifie « entrepôt de données ». Un data warehouse regroupe des données structurées de sources variées et sert de référentiel pour l’ensemble de l’entreprise.

Cet entrepôt collecte, ordonne, combine et consolide les données de sources hétérogènes dans le but de faciliter l’analyser et la prise de décision. Il regroupe en quelques sortes toutes les données fonctionnelles d’une organisation.

Le concept de data warehouse a été défini par Bill Immon comme un référentiel centralisé qui doit respecter 4 critères :

  • Orienté sujet : les données y sont organisées par thèmes (ventes, finance, marketing, ressources humaines par exemple.)
  • Intégré : les données hétérogènes provenant de sources disparates sont intégrées de manière cohérente et prêtes à être utilisées.
  • Non-volatile : les données du data warehouse ne sont jamais modifiées ou supprimées.
  • Chronologique : un data warehouse doit permettre d’analyser l’évolution d’une donnée dans le temps grâce à une historisation.

 

Objectifs

 

L’objectif principal du data warehouse est de répondre aux besoins décisionnels de l’entreprise.

Il fournit des données structurées qui vont être analysées et utilisées pour anticiper des évolutions sur l’environnement de l’entreprise et faire des prédictions.

La data warehouse permet ainsi d’améliorer la prise de décision et le déploiement de stratégies plus efficaces. Il constitue un avantage concurrentiel important pour une entreprise.

 

Fonctionnement

 

Un data warehouse est une base de données relationnelles qui peut être hébergée sur un serveur ou dans le cloud.

A l’inverse d’une simple base de données qui collecte et stocke les données, le data warehouse va rassembler et consolider toutes les données de l’entreprise en un point unique.

Le data warehouse intègre un processus d’intégration de type ETL : Extract, Transform and Load. Les données vont être extraites de sources variées, transformées et structurées puis chargées dans le data warehouse de manière organisée.

Les données sont ensuite complètement accessibles pour répondre aux requêtes de l’entreprise.



Qu'est-ce qu'un data mart ?


Définition

 

Data mart se traduit par l’expression « magasin de données » ou « comptoir de données ». Un data mart est un sous-ensemble du data wharehouse destiné à un groupe restreint d’utilisateur.

Ce magasin de données orienté métier regroupe toutes les informations spécifiques à un sujet, une fonction ou un métier. Les entreprises utilisent généralement un data mart finance, un data mart commercial, un dat mart ressource humaine etc…

Les données sont donc ciblées, organisées et structurées pour servir une communauté spécifique et répondre à des besoins métier spécifiques.

Ce concept a également été défini par Bill Inmon comme un flux de données provenant du data warehouse, ayant pour vocation de présenter la donnée de manière spécialisée, agrégée et regroupée fonctionnellement.

 

 

Objectifs

 

Le gain de temps est un des objectifs principaux du data mart. Il est conçu pour offrir un accès rapide à des données spécifiques à un groupe d’utilisateur.

Un data mart va extraire un sous-ensemble de données d’un gisement très volumineux en amont. C’est une réponse au temps de traitement des requêtes plus long du data warehouse qui regroupe toutes les données confondues.

Le but d’un data mart est de proposer des données ciblées sur un métier qui vont favoriser le pilotage de l’activité et l’aide à la décision. Il répond à des besoins très précis grâce à une classification des informations.

 

 

Fonctionnement

 

Le Datamart intervient à la fin toute fin de la chaîne de traitement de la data. Imaginez que le data warehouse est un entrepôt de produits généralisés, et le data mart un magasin revendeur spécialisé. Il propose ainsi une vue métier des données stockées dans le data warehouse.

Le data mart est une base relationnelles qui stocke des données transactionnelles en colonnes et en lignes. Les données y sont structurées en fonction des usages métier. Elles sont optimisées pour la recherche selon un mode spécifié.



Des solutions complémentaires

Infographie : relation entre le data lake, le data warehouse et les data mart

Infographie : relation entre le data lake, le data warehouse et les data mart


Le data lake, le data warehouse et le data mart sont 3 outils complémentaires permettant de stocker des données et d’améliorer la prise de décision au sein d’une entreprise. Ils doivent fonctionner ensemble et former une chaîne par laquelle la data suit son cours au sein de l’entreprise.

La data lake peut être comparé au sommet de l’entonnoir. Il regroupe toutes les données sans aucune structuration et s’adressera d’avantages aux analystes.

Le data warehouse quant à lui va proposer des informations structurées et utilisables par tous les collaborateurs de l’entreprise. Il permet à l’entreprise de maîtriser ses ressources en les centralisant et en les organisant. Il favorise également leur nettoyage et le maintien de leur qualité.

Le data mart arrive en fin de chaîne pour offrir une meilleure compréhension des données. Cette solution va permettre aux métiers d’accéder à un ensemble spécifique de ressources à utiliser dans le domaine de la Business Intelligence.


Vous vous intéressez aux sujets autours de la data ?

 

La team Axysweb est en veille constante pour vous partager des articles sur les thématiques de la digitalisation, les big data, la business intelligence etc... Chaque mois, nous regroupons les meilleurs articles de notre blog dans une newsletter. Une bonne occasion pour vous de faire également de la veille sur nos sujets de prédilection. N'hésitez pas à vous abonner ici !