Dossier : la liste des solutions ETL Open Source sur le marché en 2020

La liste des solutions ETL Open Source en 2020

Temps de lecture : 4 minutes

Dossier sur les solutions ETL Open Source

A l'ère du big data, le traitement des données en volume est devenu indispensable pour les entreprises. Les logiciels de data management représentent souvent un budget important. De plus en plus de sociétés optent ainsi pour des solutions ETL open source. Vous vous demandez surement ce qu’est un ETL ?

ETL signifie Extract, Transform Load en anglais. Cet outil permet d’extraire des informations issues de différentes sources, les transformer, pour ensuite les charger dans un entrepôt de donnés cible.

L’extraction consiste à collecter des données brutes des différentes database via des connecteurs. La transformation consiste ensuite à convertir les données extraites dans un format standard. Cette étape permet de nettoyer, vérifier, enrichir et consolider les données. Après formatage, elles sont transférées vers un emplacement défini comme un data warehouse ou une application de business intelligence. C'est la phase de chargement des données.

Le processus ETL revient à unifier les données de diverses provenances afin de les rendre exploitables en temps réel par l’entreprise. Ce type d’outil permet de traiter très rapidement des de grandes quantités d’informations.

Le terme open source désigne un logiciel dont le code source est accessible au public. Ce modèle de développement autorise la modification et la redistribution de la solution. On trouve de nombreux logiciels ETL open source sur le marché des outils de gestion des données.

Les tarifs et les types de licences varient en fonction de l’éditeur et des fonctionnalités intégrées. Ces derniers proposent leurs produits en version gratuite ou en version entreprise généralement payante au nombre d’utilisateurs. Axysweb vous donne la liste des outils ETL open source présents sur le marché en 2020.



GeoKettle, un ancien projet étudiant

GeoKettle ETL open source logo

Crée entre 2006 et 2009, GeoKettle est un ancien projet étudiant québécois qui s’est développé à partir de Kettle (Pentaho Data Integration).

En 2009, la compagnie Spatialytics a été créée pour poursuivre le développement des projets GeoKettle et GeoMondrian.

GeoKettle est une version de Pentaho Data Integration spécialisée dans le traitement des données géospatiales. Avec son interface graphique et son approche metadata driven, ce logiciel reprend le fonctionnement de l’ETL Pentaho.

Il s’installe sur Windows, Mac OS, Linux et Solaris et peut extraire des données issues de plus de 35 database (Oracle, MySQL, etc....

GeoKettle constitue un ETL complet et entièrement gratuit rivalisant avec produits propriétaire.




Scriptella, un ETL gratuit codé en Java

Scriptella ETL open source logo

Scriptella est un ETL codé en Java proposé en version gratuite. Cette solution a vu le jour e 2004.

Elle est principalement utilisée pour réaliser des projets de migration de données et des opérations d’intégration à partir de bases croisées. Le point noir de cet outil est l’absence d’interface graphique.


Télécharger le guide Axysweb sur la synchronisation des données



CloverDX, le nouveau CloverETL

CloverDX ETL open source logo

CloverDX est la nouvelle version de l’ancien CloverETL crée en 2002. Initialement proposé en version hybride avec une partie gratuite et payante, cet outil ETL est désormais payant depuis 2018.

L’éditeur s’est tourné vers une licence uniquement payante afin de proposer une seule et unique plateforme aux utilisateurs. Néanmoins, il est possible de faire un essai gratuit de 45 jours pour tester l’ensemble des fonctionnalités de la solution.

Produit complet de data integration et data transformation, CloverDX est basé sur une interface graphique via son module Designer.

Aucun code n’est requis pour son utilisation. Compatible avec Windows, Mac OS et Linux, la force de cet outil est son interopérabilité avec n’importe quelle application.



Apatar, un ETL hybride

Apatar ETL open source logo

Fondé en 2005, Apatar est un éditeur d’ETL proposant ses outils en versions gratuites et payantes. La version gratuite possède l’intégralité des fonctionnalités de la version entreprise.

La seule différence entre les deux licences est le service de consulting, assistance et support technique qui n’est disponible que pour la version payante.

Apatar est une solution ETL intégrant une interface graphique sous Eclipse basée sur Java proposant une excellente connectivité.




Knowage, l’ancien SpagoBI

Knowage ETL open source logo

Knowage, plus connu sous son ancien nom SpagoBi, est une suite de logiciels dédiés à l’intégration et la création de reporting.

L’éditeur propose aujourd’hui une double licence communautaire et commerciale après de nombreuses années entièrement gratuites.

Désormais les fonctionnalités avancées de l’ETL sont payantes. Avec une interface graphique et un développement sur Java, Knowage est une solution d’intégration ergonomique.




Talend, le leader des ETL open source

Talend ETL open source logo

Talend est un éditeur de solutions de gestion de données. Depuis 2005, le groupe développe le produit gratuit Talend Open Studio for Data Integration et sa version eterprise Talend Data Management Platform.

Cet ETL développé sous Java est l’un des plus utilisés pour la intégrer les données d’entreprise. Il intègre des outils dédiés à la data quality et la transformation des données.

Talend propose une interface graphique très intuitive sous Eclipse. L’éditeur est est connu pour sa bibliothèque collaborative de plus de 900 composants et connecteurs aux sources de données. Ses outils sont aujourd’hui leaders du marché. Ils sont portés par une très large communauté et régulièrement nommés par le Gartner.




TIBCO Jaspersoft ou JETL

TIBCO Jaspersoft ETL open source logo

TIBCO Jaspersoft ETL (JETL) est un logiciel d’intégration de données au modèle hybride. Programmé en Java avec une interface graphique, la version community de l’outil est basée sur le code de Talend.

Jaspersoft partage de nombreuses fonctionnalités avec l’éditeur Talend en plus de partager les mêmes composants. La version payante propose des dispositifs avancés tels que les schémas dynamiques, l’outil de planification ou encore la comparaison des jobs.

 




Pentaho Data Integration pour le coté analytique


Pentaho Data Integration est un ETL metadata driven appartenant à l'éditeur Hitachi Ventara. Sa version commerciale, Pentaho Platform est un produit porté sur l’aspect analytique des data.

Crée au début des années 2000, cet outil basé sur Java est l’un des premiers à avoir utilisé l’interface graphique (Spoon). La licence communautaire de Pentaho a permis de créer GeoKettle.




Pour conclure, ETL open source n’est pas égal à gratuit


Le terme open source de ne veut pas forcément dire gratuit. Comment nous l’avons vu ici, les ETL open source peuvent également être payants. Nombreux sont les éditeurs qui suivent un modèle hybride en proposant une licence open source gratuite et une version entreprise payante.

Cette méthode de commercialisation est appelée double licence ou dual licensing. Ce modèle concurrence à la fois les produits 100% gratuits et les licences propriétaires on premise comme Informatica ou encore Oracle par exemple.

Les entreprises bénéficient d’une assistance technique et d’un service de maintenance s’ils investissent dans une licence commerciale. Le cas échéant, chaque éditeur dispose d’une communauté d’aide par le biais de forums pour les versions communautaires.