ETL vs ELT : comment faire son choix entre ces 2 processus ?

ETL vs ELT : comment faire son choix entre ces 2 processus ?

Temps de lecture : 5 minutes

ETL vs ELT : quelles différences ?

Le patrimoine informationnel détenu par les entreprises est de plus en plus important. La gestion de ces ressources est devenue primordiale. L’informatique décisionnelle apporte une réponse à ce besoin. De nombreuses entreprises se tournent vers des systèmes d’information centralisés. Ce type de SI permet aux collaborateurs d’avoir un accès commun aux ressources. La mise en place d’un système centralisé passe par une stratégie portée sur l’ETL ou l’ELT. Quelle est la différence entre ces deux méthodes ? Laquelle choisir ?  





Qu'est-ce qu'un ETL ?


Définition 

 

ETL signifie Extract, Transform, Load en anglais. Ce terme désigne l’extraction, la standardisation et le chargement des données dans le SI. Les données brutes sont extraites de sources disparates.

Elles sont ensuite transformées dans une zone de transit. Les données sont chargées vers un emplacement cible. Cet emplacement peut être une base de référence, un serveur ou un entrepôt souvent appelé datawarehouse. Toutes les informations de l’entreprise sont stockées au même endroit. 

L'objectif de ce processus est de centraliser et d’homogénéiser les ressources de l’entreprise. 


Schéma du processus ETL : Extract, Transform and Load

Les étapes

 

L’Extract, Transform and Load est une architecture orientée données. Elle se compose de 3 étapes essentielles. 

 

Extraction 

Les données brutes stockées dans différentes bases (Cloud, CRM, etc...) Le moteur ETL extrait ces informations et les charge vers une zone de transit.  

 

Transformation 

Le moteur de transformation permet de rendre les données brutes exploitables. Il comprend les actions de nettoyage, standardisation, enrichissement et qualification. 

 

Chargement  

Les ressources transformées sont chargées vers un système centralisé. Il peut s’agir d’une base, d’un datawarehouse, d’un Cloud, d’un serveur, d'un entrepôt de données, etc...  

 

 

Cas d’usage 

 

Utiliser un ETL permet de réaliser des transformations complexes sur des ensembles de données dans le SI. Il est possible d’utiliser ce processus pour de nombreux projets data management.

Voici quelques exemples : 

Intégration 

> Migration de données et d'applications 

Synchronisation des systèmes 

Master data management (MDM) 

Une solution ETL permet de nettoyer et sécuriser les informations. Les données brutes sont mises en conformité avec les règlementations de sécurité comme le RGPD. 



Qu'est-ce qu'un ELT ?


Définition 

 

ELT signifie Extract, Load, Transform. C'est une variante de l’ETL néanmoins, l’ordre de traitement est différent.

Dans un ELT, les données brutes sont extraites de diverses sources et sont chargées dans un serveur cible. La transformation se fait directement dans le nouveau système. Les données brutes peuvent ainsi être conservées dans la destination cible.

La phase de chargement se fait dans un data warehouse, une base ou un data lake. Cette manœuvre permet de livrer rapidement les informations traitées ou non. Elle repose sur la réutilisation des systèmes existants.


Schéma du processus ELT : Extract Load and Transform

Les étapes

 

Le processus ELT repose également sur 3 phases successives : 

 

Extraction 

L’étape d’extraction est la même que celle d'un ETL. Les flux sont extraits de diverses sources. 

 

Chargement 

C’est ici que l’ETL et l’ELT se différencient. Les informations ne sont pas chargées dans un espace de traitement temporaire. Dans le processus Extract, Load, Transform  les données brutes sont chargées directement dans un emplacement cible 

 

Transformation 

La transformation se fait au sein du système cible. Les données brutes sont tout de même conservées. 

 

Cas d’usage 

 

Le fonctionnement de l’ELT permet de traiter d'importants volumes de données. Le transfert entre les bases et le système cible se fait en une seule étape. Le processus d’ingestion est plus rapide que celui d’un ETL.

Une solution ELT est particulièrement adaptée pour les traitements du Big Data. Elle est souvent utilisée pour des projets d’intégration dans un système de stockage Cloud (Microsoft Azure, Amazon Redshift, etc.) 



ETL vs ELT, quelles différences ?


Les entreprises collectent de plus en plus d’informations. L’un des enjeux majeurs en informatique décisionnelle est le décloisonnement du SI. Les systèmes en silo disparaissent petit à petit. La centralisation des ressources facilite l’accès aux fichiers. ETL et ELT répondent à cette problématique commune. C’est la manière d’y parvenir qui diffère. 

 

Une transformation différente 

 

La différence majeure entre l’ETL et l’ELT réside dans la transformation des données. Dans une méthode ETL, la transformation se fait dans une zone de transit. Le chargement ne se fait qu’après la structuration 

Dans le processus ELT, il n’y a pas de serveur intermédiaire. Les données brutes sont directement chargées dans l’entrepôt cible. La transformation se fait après le chargement. 

 

Quel impact cette différence a-t-elle ?

Le traitement des données effectué au sein d’un data lake ou data warehouse comporte certains avantages. Le délai de livraison vers le nouveau système est réduit. Une fois chargés, seuls les fichiers sélectionnés par les équipes sont transformés. Les données brutes sont conservées. Cela représente un réel avantage pour l’analyse.  

La structuration avant chargement permet de standardiser et qualifier les données. Elle comprend le nettoyage, l’enrichissement et la sécurisation des informations. Les équipes sont assurées de travailler avec des fichiers conformes aux règlementations en vigueur. Il n’est pas nécessaire de faire le tri. Les erreurs sont limitées. 

 

 

Différences de stockage 

 

L’ETL et l’ELT sont des méthodes permettant la centralisation des ressources dans un emplacement unique 

 

L’ETL stocke les données structurées dans un data warehouse. Le data warehouse permet de classer les ressources selon des critères et des formats définis au préalable.

Un référentiel a l’avantage de contenir des données directement exploitables. Il requiert très peu d’actions de maintenance. Cependant, le délai de livraison des informations est plus long. Le processus ETL n’assure pas le support des data lakes. 

 

L’ELT permet de charger les informations vers un data warehouse. Il dispose également d’un pipeline data lake. Ce dernier est un “lac” où sont stockées l'ensemble les données brutes, structurées et en cours de traitement. Les data scientists peuvent sélectionner les données de leur choix pour les analyser.

Le data lake permet également de stocker une très grande quantité de données. Ce type d’emplacement est idéal pour le traitement du Big Data. L’inconvénient des data lakes est la nécessité de contrôles réguliers de la qualité. 

 

 

Sécurité et conformité  

 

Les données détenues par les entreprises doivent se soumettre à des règles de sécurité. Les informations sensibles doivent être masquées pendant leur traitement. La sécurisation est une étape cruciale de la gouvernance. 

L’ETL assure la sécurisation des échanges tout au long de l’intégration. Les données sensibles sont anonymisées. La gouvernance est assurée dans un serveur transitoire. Les données chargées dans l’entrepôt cible sont fiables, conformes et sécurisées. 

Dans un processus ELT, l'absence de gouvernance peut être à l’origine de lacunes de sécurité. Des données non-sécurisées ne sont pas en conformité avec la règlementation en vigueur. Cela peut entrainer de lourdes conséquences financières pour l’entreprise. 



Comment choisir ?


Lors d’un projet d’intégration, le choix entre un outil ETL et ELT peut s’avérer complexe. Les deux processus mènent à une finalité similaire 

Afin de choisir la solution la plus adaptée, voici quelques questions à se poser : 

Quels sont les besoins de l'organisation ?

Quel est le budget alloué ?

Quelle est la volumétrie de données à traiter ?

Est-ce un projet d’intégration dans un système Cloud ?

Quels moyens humains sont à disposition ? (service informatique, data scientists, etc...)

Quelle stratégie de gestion de données adopter ?

 

Le choix d’un outil dépend des réponses apportées à ces problématiques. Talend est un éditeur de logiciels open source spécialisé dans la gestion des données d'entreprise.

Parmi les solutions proposées par l’éditeur, on retrouve l’ETL Talend Data Integration et l’outil ELT Big Data Integration.


Devenez incollable sur l'intégration de données

 

Vous souhaitez établir une stratégie orientée data ?
Vous vous questionnez sur l'intégration de données ?

Notre équipe élabore des projets d’intégration pour nos clients de tous secteurs.
Nos experts ont rédigé pour vous le guide pour tout savoir sur l'intégration.
Téléchargez votre guide gratuitement !