Dossier : Tout savoir sur les solutions ETL Open Source

A la découverte des solutions ETL Open Source

Temps de lecture : 5 minutes

Dossier sur les solutions ETL Open Source

Le traitement de gros volumes de données est devenu indispensable pour les entreprises. Les logiciels de data management peuvent représenter un budget important. De plus en plus de sociétés portent leur choix vers des ETL open source. Pourquoi les sociétés devraient-elles se tourner vers ce type de produits pour leurs projets d’intégration ? Quels sont leurs avantages par rapport aux solutions propriétaires ? Zoom sur les ETL en open source présents sur le marché en 2020.





ETL : définition, avantages et intérêts


Qu’est-ce qu’un ETL ?

 

Un ETL (en anglais Extract, Transform, Load) est un outil permettant d’extraire des données issues de différentes sources, les transformer pour ensuite les charger dans un entrepôt cible.

Le fonctionnement de ce processus est très simple. L’extraction permet de collecter les informations brutes des différentes database via des connecteurs. Elles sont ensuite converties dans un format standard. Cette étape permet de nettoyer, vérifier, enrichir et transformer les données en informations exploitables. Après formatage, elles sont transférées vers un emplacement défini comme un datawarehouse, une database ou une application décisionnelle par exemple.

Ce processus permet d’unifier les données de diverses provenances afin de les rendre exploitables par l’entreprise.

 

 

Pourquoi utiliser un ETL en entreprise ?

 

Un ETL constitue un véritable atout commercial pour les entreprises. Les bases de données sont souvent cloisonnées, ce qui constitue un manque à gagner en termes d’exploitation. Ce type d’outil permet de traiter des informations en grande quantité en une seule exécution.

Le chargement des data vers un datawarehouse permet de les faire interagir entre elles et d’avoir une vision globale de celles-ci. L’entreprise peut alors analyser et exploiter ses données issues de bases disparates en temps réel dans une entrepôt commun.

 

L’utilisation d’un ETL est un gain de temps et de productivité pour les équipes du département IT. Certains d’entre eux possèdent une interface graphique dans laquelle le traitement des données est géré grâce à une représentation visuelle. Le logiciel permet d’effectuer des actions de préparation et de structurations sans avoir recours au code.



A propos des logiciels open source


Définition de l’open source

 

Le terme open source désigne un logiciel dont le code source est accessible au public. Ce modèle de développement collaboratif autorise la modification et la redistribution du logiciel.

De nombreuses solutions informatiques open source sont gratuites, mais ce terme ne signifie pas toujours gratuit ni libre de droit. L’accès au code source et à certaines fonctionnalités peut être payant en fonction de la licence proposée par l’éditeur.

 

 

Quels sont les avantages de l’open source ?

 

Faire le choix de ce type de solutions en entreprise est avantageux à de nombreux égards. Même si la grande majorité de ces logiciels sont gratuits, certaines des licences open sources sont payantes mais représentent un faible coût comparé aux solutions propriétaires.

Un autre avantage de l’open source est l’interopérabilité entre les divers systèmes. Les applications développées sous un même langage informatique peuvent partager des connecteurs et des composants communs. Il est parfois possible de reprendre des projets développés dans un outil précédant vers le logiciel d’un autre éditeur.

Autre point très important, le client est indépendant vis-à-vis de l’éditeur propriétaire et ne signe aucun contrat. Il peut changer de solution à tout moment sans engendrer de pertes.

L’accès au code source permet aux développeurs de personnaliser les projets en fonction des besoins métier des clients. L’entreprise est assurée d’avoir une solution répondant parfaitement à ses contraintes et ses attentes.

Contrairement aux idées reçues, les logiciels open source proposent une sécurisation élevée. Les nombreux développeurs collaborateurs consultent régulièrement le code pour y apporter des modifications. La moindre erreur ou faille de sécurité est repérée et corrigée rapidement.



Les ETL open source


Sur le marché des logiciels de data management, il est possible de trouver des ETL open source. Les tarifs et les types de licences varient en fonction de l’éditeur et des fonctionnalités intégrées.

Ces derniers proposent leurs produits en version gratuite ou en version entreprise généralement payante au nombre d’utilisateurs.

 

Les licences gratuites

 

Les éditeurs peuvent proposer leurs ETL en licence gratuite. L’ensemble des fonctionnalités est alors disponible gratuitement, aucune option payante n’est proposée en dehors du support technique et le service de maintenance.

Parmi ces produits gratuits, on retrouve GeoKettle. Crée entre 2006 et 2009, cet ancien projet étudiant québécois s’est développé à partir de Kettle (Pentaho Data Integration). En 2009, la compagnie Spatialytics s’est créé pour poursuivre le développement des projets GeoKettle et GeoMondrian.

 

GeoKettle est une version de Pentaho Data Integration spécialisée dans le traitement des données géospatiales. Avec son interface graphique et son approche metadata driven, ce logiciel reprend le fonctionnement de l’ETL Pentaho.

Il peut extraire des données issues de plus de 35 database (Oracle, MySQL, etc...) et s’installe sur Windows, Mac OS, Linux et Solaris. GeoKettle constitue un ETL complet et entièrement gratuit rivalisant avec produits propriétaire.

 

Toujours proposé en version gratuite, Scriptella est un ETL codé en Java. Crée en 2004, cette solution est principalement utilisée pour de la migration de données et des opérations d’intégration à partir de database croisées. Le principal inconvénient de cette solution est l’absence d’interface graphique.

 

 

Les licences payantes

 

Les ETL open source peuvent également être payants. Souvent, les éditeurs qui migrent vers une licence payante étaient auparavant détenteurs d’une double licence community et entreprise. C’est le cas pour CloverDX (anciennement CloverETL) qui depuis 2018 ne propose que la version payante de son ETL.

Crée en 2002, CloverDX est un logiciel d’intégration open source payant. Initialement proposé en hybride gratuit et payant, l’éditeur s’est tourné vers une licence payante de CloverETL pour proposer une seule et unique plateforme aux utilisateurs. Néanmoins, il est possible de faire un essai gratuit de 45 jours pour tester l’ensemble des fonctionnalités de la solution.

Produit complet de data integration et data transformation, CloverDX est basé sur une interface graphique via son module Designer. Aucun code n’est requis pour son utilisation. Compatible avec Windows, Mac OS et Linux, la force de cet outil est son interopérabilité avec n’importe quelle application.

 

 

Les hybrides : licence open source gratuite et version entreprise payante

 

Nombreux sont les éditeurs qui suivent un modèle hybride en proposant une licence open source gratuite et une version entreprise payante. Cette méthode de commercialisation est appelée double licence ou dual licensing.

Sur le marché des ETL open source, la grande majorité des solutions offre cette double licence. Ce modèle concurrence à la fois les produits 100% gratuits et les licences propriétaires on premise comme Informatica ou encore Oracle par exemple.

 

Fondé en 2005, Apatar est un éditeur d’ETL proposant ses outils en version gratuite et payante. La version gratuite possède l’intégralité des fonctionnalités de la version entreprise.

La seule différence entre les deux licences est le service de consulting, assistance et support technique qui n’est disponible que pour la version payante. Apatar est une solution à interface graphique (sous Eclipse) basée sur Java proposant une excellente connectivité.

 

Knowage, plus connu sous son ancien nom SpagoBi, est une suite de logiciels data integration et data reporting. L’éditeur propose dorénavant une double licence communautaire et commerciale après de nombreuses années entièrement gratuites.

Désormais les fonctionnalités avancées sont payantes. Avec une interface graphique et un développement sur Java, Knowage est une solution d’intégration ergonomique.

 

Talend est un éditeur de solutions de traitement de données. Depuis 2005, le groupe développe le produit Talend Data Management Platform et sa version gratuite Talend Open Studio for Data Integration.

Développé dans l’environnement Java, cet ETL à l’interface graphique (Eclipse) est l’un des plus utilisé pour intégrer les données grâce à sa bibliothèque collaborative de plus de 900 composants.

 

TIBCO Jaspersoft ETL (JETL) est un produit d’intégration de données au modèle hybride. Programmé en Java avec une interface graphique, la version community de l’outil est basée sur le code de Talend. Jaspersoft partage de nombreuses fonctionnalités avec l’éditeur Talend en plus de partager les mêmes composants. La version payante propose des dispositifs avancés tels que les schémas dynamiques, l’outil de planification ou encore la comparaison des jobs.

 

Pentaho Data Integration est un ETL metadata driven. Sa version commerciale, Pentaho Platform est un produit porté sur l’aspect analytique des data. Crée au début des années 2000, cet outil basé sur Java est l’un des premiers à avoir utilisé l’interface graphique (Spoon). La licence communautaire de Pentaho a permis de créer GeoKettle.

 

Les produits open source ont beaucoup de points en commun. Ils sont généralement compatibles avec la plupart des systèmes d’exploitation et disposent d’une interopérabilité importante grâce au développement en Java.

Les entreprises bénéficient d’une assistance technique et d’un service de maintenance s’ils investissent dans une licence commerciale. Le cas échéant, chaque éditeur dispose d’une communauté d’aide par le biais de forums pour les versions communautaires.


Vous vous questionnez sur le traitement de vos données ?

 

Axysweb est spécialiste de la gestion des données via les solutions de l’éditeur Talend.
Nos clients sont principalement des PME et des ETI.
Nous assurons le conseil, la mise en œuvre et le suivi de vos d’intégration de données.
Nos consultants ont une forte expérience sur les solutions data integration gratuites et payantes de Talend.