Dans ce guide complet, nous allons comparer les principales solutions de Data Preparation du marché. Nous vous proposons pour commencer un focus sur 3 outils qui retiennent particulièrement notre attention : Dataiku, Talend et Excel / PowerBI (by Microsoft). Nous passerons ensuite en revue les autres outils du marché.
Sommaire
Un nouveau monde est advenu, un monde où les données sont partout. Leur volume et leur variété ont explosé. Les gens, leurs comportements, leurs actions, leurs interactions sont partout mis en données grâce au développement de l’informatique, de l’internet et des nouvelles technologies. Tout devient traçable (« Il n’y a pas de présence sans trace » disait un philosophe), analysable, connaissable.
C’est une grande aubaine pour les entreprises, qui peuvent utiliser ces gisements de données pour mieux comprendre leurs clients et mieux cibler les messages et les offres poussés. La donnée enrichit, personnalise la relation clients et le marketing. Elle en est le carburant. Les informations exprimées par les données sont devenues l’actif le plus précieux des entreprises. Ces informations rendent les entreprises plus intelligentes, et donc plus performantes.
Mais, justement, comment tirer des informations utilisables à partir de la masse de données brutes collectée par les entreprises en temps réel et à partir de dizaines de sources différentes ? Grâce à l’information décisionnelle ou Business Intelligence (BI). La BI s’est développée dans les années 1990. Les dispositifs technologiques sous-jacents se sont complexifiés à mesure qu’explosaient les sources, les volumes et les variétés de données.
Pour réaliser la transformation, le raffinement, l’enrichissement, la modélisation et l’analyse des données brutes, les entreprises utilisent aujourd’hui des dispositifs intégrés, composés généralement de ces 3 briques technos fondamentales :
- L’ETL, pour Extract-Transform-Load, qui désigne les outils utilisés pour extraire les données à partir des DataSources, les transformer et les charger dans…
- Le Data Warehouse (et ses compartiments, les Datamarts), lieu de stockage et de centralisation des données.
- L’ensemble des outils d’analyse et de reporting des données (Tableau, Qlik…) utilisés pour dégager des enseignements à partir des données stockées dans le Data Warehouse.
Ces 3 composants sont les 3 étages d’une même fusée, celle de la Business Intelligence. Ces 3 composants sont intégrés par des chaînes de traitement automatisées conçues sur mesure lors de leur mise en place, formant un dispositif bien défini, très structuré.
Et c’est justement là que réside le problème qui a amené à l’émergence des Outils de Data Prep.
Les dispositifs ETL – DataWarehouse – BI sont rigides, lourds et donc difficiles à faire évoluer par les utilisateurs métiers. Une nouvelle application / source à connecter ? Un nouveau besoin métier ? Un nouveau cas d’usage à implémenter ? Et c’est un parcours du combattant qui s’engage. Les fonctions métiers sont directement dépendantes de l’IT, de la DSI, des intégrateurs, des développeurs informatiques, des gestionnaires de bases de données, des programmeurs, des concepteurs de flux ETL dans l’évolutivité du dispositif de BI.
Il faut parfois plusieurs mois d’échanges et de production (et souvent d’incompréhensions mutuelles) avant que la validation d’un nouveau besoin métier amène à une transformation du dispositif par les « techniciens ». Il existe un intermédiaire entre les données brutes et les utilisateurs métiers facteur d’inertie.
Et c’est un fait : aujourd’hui encore, l’activité de manipulation et de transformation des données reste l’apanage d’un nombre restreint de personnes. Ceux qui ont l’intelligence des données, qui savent quoi en faire, ne sont pas les mêmes que ceux qui savent construire les infrastructures et les tuyaux. Et la communication entre les deux est souvent délicate.
C’est dans ce contexte global et pesant – surement schématisé, mais vrai dans beaucoup d’entreprises – que sont apparus les Outils de Data Prep. C’est un marché encore très jeune, mais aux ambitions fortes : démocratiser la préparation des données. Avec ces outils, l’activité de préparation des données devient plus agile, plus souple, plus simple, plus intuitive, plus « visuelle ». Elle devient accessible aux utilisateurs métiers. Grâce aux solutions de DataPrep, les utilisateurs métiers s’autonomisent vis-à-vis de leurs interlocuteurs techniques. Ils reprennent le contrôle sur la manipulation des données.
Les outils de Data Prep permettent de confier le travail de la donnée aux personnes qui en connaissent la valeur et les cas d’usage possibles. Leur avènement est logique, il devait se produire et il s’est produit ! Ces outils simplifient l’accès, la mise en forme, l’enrichissement et la diffusion des données. Comme nous allons le voir, ils permettent – via les applications et fonctions plus ou moins intuitives qu’ils intègrent – de structurer et de transformer vos jeux de données sans compétences techniques, sans programmation.
Zoom sur 3 outils de DataPrep : Dataiku vs Talend vs Excel / PowerBI
Pour ce tableau comparatif, nous avons sélectionné trois outils de Data Prep : Dataiku, Talend et Excel / PowerBI (Microsoft). Nous allons les comparer sous différents angles : leurs caractéristiques « générales », leur couverture fonctionnelle et les formats de données générés (pour l’import et l’export).
CARACTÉRISTIQUES | |||||
Systèmes d’exploitation acceptés |
Windows, iOS, Linux | Windows, iOS | Windows, iOS | ||
Utilisation dans le Cloud |
Non | Oui | Non | ||
Version gratuite |
Oui | Oui | Non | ||
Volume de données accepté |
Aucune limitation | Aucune limitation | Aucune limitation | ||
Représentations statistiques |
Oui | Oui | Oui | ||
Reconnaissance datas |
Oui | Oui | Non | ||
Variété de données acceptés |
25 types | 20+ | 11 | ||
Barres de qualité |
Oui | Oui | Non | ||
Indicateurs de qualité |
Oui | Oui | Non | ||
Affichage dynamique |
Non | Oui | Non | ||
Preview |
Oui | Oui | Non | ||
Profiling utilisateur |
Oui | Oui | Non | ||
Import + Data Prep simultanés |
Oui | Oui | Non | ||
Collaboratif |
Oui | Oui | Oui | ||
COUVERTURE FONCTIONNELLE | |||||
Tableur |
Non | Non | Oui | ||
Data Preparation |
Oui | Oui | Non | ||
Data Visualization |
Oui | Non | Oui | ||
Gouvernance / Traçabilité des données |
Oui | Oui | Non | ||
Big Data |
Oui | Oui | Non | ||
Data Quality |
Non | Oui | Non | ||
FORMATS DE DONNÉES GÉRÉS | |||||
Formats Imports – Sources locales |
CSV, Excel, JSON, XML. | CSV, Excel, JSON, PDF. | CSV, Excel, Texte, XML. | ||
Formats Imports – Sources externes |
HDFS, SGBDR, HIVE, Amazon S3, Amazon RedShift, Oracle. | HDFS, SGBDR, Amazon S3, Amazon RedShift, Salesforce, Oracle. | Salesforce. | ||
Formats Exports |
SGBDR, CSV, Excel, HDFS, Parquet, Avro, Hive, Amazon S3, Amazon RedShift, Oracle. | Tableau, Qlik, SGBDR, CSV, Excel, JSON, HDFS, Parquet, Avro, Hive, Amazon S3, Amazon RedShift, Oracle, SAS. | CSV, Excel, HDFS, Amazon S3, Amazon RedShift, Oracle, SAS. |
Zoom sur les principaux outils de DataPrep du marché
Dataiku DSS
Dataiku DSS est un éditeur français de solutions Big Data et d’analyse prédictive. L’équipe de Dataiku est partie d’un constat basique : Les experts de la donnée sont habitués à travailler avec plusieurs outils : un outil pour la Data Prep, un autre pour la Data Analyse, un autre encore pour la Data Vizualisation, etc. Cette multiplication des outils accroît le risque d’erreurs et peut entraîner des problèmes de compatibilité. Pour remédier à ce problème, Dataiku a conçu une plateforme intégrant toutes les fonctionnalités nécessaires au travail de Data Préparation : Dataiku Data Science Studio, DSS pour les intimes. Solution propriétaire basée sur un framework open source, DSS permet de gérer depuis une plateforme unique la Data Prep proprement dite, le machine learning, le data mining, la data visualization, les workflows, la collecte de données en temps réel, etc.
DSS propose une version gratuite, assez limitée néanmoins sur le plan fonctionnel : les fonctionnalités de gestion collaborative et les connecteurs Big Data, par exemple, ne sont pas disponibles avec cette version. DSS a pour particularité de proposer une interface visuelle de tableur pour la Data Prep et une interface de type ETL pour gérer les jeux de données préparés (les jobs) et leurs flux.
Dans la version payante (utilisable en local), il n’y a aucunes limitations dans le volume des jeux de données importés. Il n’y a pas non plus de limitations dans la version gratuite en terme de nombre de lignes importé, mais la version gratuite se limite à du SQL.
L’un des grands avantages de Dataiku DSS est la quantité de formats gérés : plus de 25 types sont reconnus. Comme vous pouvez le voir sur la capture d’écran ci-dessus, l’interface affiche des barres de qualité avec un code couleur renseignant sur le niveau de validité des données. Très pratique pour identifier en un coup d’oeil les données valides, erronées ou manquantes. Dataiku propose en plus de cela des indicateurs de qualité : lorsqu’une cellule contient des données erronées, elle est surlignée en rouge. Un autre avantage de Dataiku réside dans la finesse des représentations statistiques proposées, qui permettent de connaître la répartition des données et la proportion occupée par chaque donnée par rapport à la colonne. Bref, Dataiku est une solution très robuste que nous vous recommandons d’intégrer dans votre benchmark des outils de Data Prep. Ce n’est pas pour rien que nous la plaçons en tête de ce comparatif des outils DataPrep.
Découvrez notre guide complet pour intégrer et unifier vos Données Clients via un RCU.
Talend Data Preparation
Talend est lui aussi un éditeur français (cocorico !). Talend édite des solutions de Data Management et d’intégration. Dont la solution « Talend Data Preparation », assez récente, disponible en version open source et en version enterprise. L’outil, sans surprise, s’intègre très bien à l’écosystème de solutions proposé par Talend – et en particulier avec l’ETL. La version enterprise par exemple peut se connecter aux sorties de données issues des jobs de l’ETL de Talend (Talend Data Integration). Dans l’autre sens, les scripts produits dans Talend Data Preparation peuvent être convertis en composants de recettes utilisables dans les jobs de Talend Data Integration.
La version « Enterprise » permet de gérer la gouvernance des données et le travail collaboratif. En ce qui concerne les formats gérés, soulignons que Talend reconnaît un nombre très estimable de data types. Comme Dataiku, Talend Data Preparation affiche des barres de qualité au niveau des entêtes et des indicateurs de qualité au niveau des cellules pour visualiser facilement les données problématiques. C’est un des gros points forts de Talend qui, avec Talend Data Preparation, propose l’une des solutions de Data Quality les plus intéressantes du marché.
Les fonctionnalités de représentations statistiques sont elles-mêmes de très bon niveau. Il vous suffit de cliquer sur une colonne pour en afficher la représentation statistique et obtenir des fonctions spécifiques en fonction du type de données que la colonne contient. En revanche, et c’est dommage, il n’est pas possible de visualiser la représentation de plusieurs colonnes à la fois.
Le système de filtres proposé par cet outil de Data Prep permet de réaliser des nettoyages massifs de vos jeux de données.
Le plus gros point fort de Talend Data Preparation est sans doute son expérience utilisateur, pensée pour être la plus intuitive possible. Même si le profiling utilisateur est perfectible, le nettoyage des données est particulièrement rapide à réaliser grâces aux filtres et aux multiples fonctions proposées. Il est extrêmement simple de supprimer des lignes ou des colonnes dans votre jeu de données via un clic droit + Suppr. Et comme Dataiku DSS, Talend offre une fonction de preview.
Découvrez notre guide complet sur l’Enrichissement de Données en B2B (Outils et Bonnes Pratiques).
Excel / PowerBI
On ne vous fera pas l’injure de vous présenter Excel, la solution de tableur de Microsoft ! Excel peut tout à fait être utilisé pour faire de la Data Prep. Après tout, la plupart des outils de Data Prep présentent une interface de type tableur qui ressemble par bien des traits à l’interface bien connue d’Excel (il faut cependant rappeler ici qu’il existe des outils de Data Prep présentant une interface de type ETL, mais nous les avons évacué de notre comparatif). Excel est un outil adapté aux fonctions marketing qui veulent pouvoir accéder facilement à des données préparées pour éditer des tableaux de bord.
Edité lui aussi par Microsoft, Power BI est un outil disponible en version gratuite et en version payante. Il peut être utilisé sans Excel et est spécialement conçu pour faire de la Business Intelligence. L’un de ses points forts est son volet collaboratif : il est possible de travailler en groupes de travail sur des jeux de données et de partager le résultat via un lien web.
Pour se transformer véritablement en outils de Data Prep, Excel et Power BI utilisent 3 modules :
- Power Query, qui sert à structurer les jeux de données et mémorise les actions utilisateurs sous forme de scripts transformables en requêtes SQL (c’est l’équivalent des scripts produits par les outils classiques de Data Prep). Parce que Power Query n’a pas été au départ conçu pour de la Data Prep, son interface est beaucoup moins visuelle que les autres outils de notre comparatif. C’est l’un des points faibles de cette solution.
- Power Pivot, utilisé en aval de Power Query. Power Pivot permet de présenter les jeux de données produits via Power Query avec une orientation en colonnes à des fins de BI.
- Power View, qui est l’outil de Data Visualization de Microsoft.
Découvrez notre comparatif des meilleurs Outils de Lead Generation.
Contactez Cartelis
pour enfin capitaliser sur vos données clients.
Cartelis vous accompagne dans le cadrage et le déploiement d'une stratégie data et CRM vraiment impactante.
Analyse client, Choix des outils, Pilotage projet et Accompagnement opérationnel.
Prendre contact avec CartelisDatawatch Data Prep Studio
Datawatch est un acteur US spécialisé dans la Business intelligence, l’analytique et la Data Visualization. Datawatch édite un outil de Data Prep nommé « Data Prep Studio », disponible en version gratuite et en version payante. Dans la version gratuite, vous êtes limité dans l’import des fichiers à 100 000 lignes. Vous êtes limité également dans le nombre de BSS compatibles. Datawatch Data Prep Studio ne reconnaît que 3 types de données : les valeurs numériques, les dates et les données textuelles. Il n’y a pas de barres de qualité, ce qui implique une grande vigilance de la part de l’utilisateur dans les transformations opérées sur les datasets. Data Prep Studio permet de visualiser les représentations statistiques de toutes les colonnes à la fois via le menu « Preview Data », accessible dans le répertoire du dataset.
L’interface est moins intuitive, plus complexe à prendre en main que les autres solutions présentées. L’utilisateur est peu assisté lors de ses préparations. Disons-le, il faut un certain temps pour se familiariser avec le fonctionnement de l’outil. Mais c’est un outil indéniablement puissant pour la structuration et le nettoyage des données.
L’un des avantages de Datawatch DPS réside dans la possibilité que l’outil offre de charger plusieurs jeux de données simultanément, ensuite répartis dans différents onglets. Cela donne la possibilité d’effectuer plusieurs préparations en parallèle. Il est possible aussi de sélectionner plusieurs lignes et colonnes pour créer de nouvelles tables.
DPS permet d’aller très loin dans l’enrichissement des datasets, c’est un autre de ses points forts. Quand vous voulez créer des jointures, l’outil vous propose des « perfection matching » entre les clés des différentes sources de données et celles du dataset initial. La fonctionnalité « Fuzzy Matching » permet d’utiliser un algorithme pour réaliser des jointures impossibles en temps normal (en raison d’un taux de compatibilité insuffisant). La Fuzzy Machine permet d’augmenter le pourcentage de compatibilité des clés.
Signalons aussi la fonctionnalité « Smart append » qui permet de concaténer des sets de données. Pratique si par exemple vous avez des colonnes contenant plusieurs types de données. Mais attention, les fonctionnalités Fuzzy Matching et Smart append supposent une grande expertise. Une erreur est vite venue !
Pour finir, on peut regretter que les résultats de la Data Prep ne soient pas exportables vers des bases de données…Pour être poussés dans une BDD, les résultats doivent d’abord transiter par le Monarch Server, un outil de type ETL. Monarch server traite les données et les rend ensuite visibles sur le Panopticon, la solution de Data visualization de Datawatch.
Informatica REV
Informatica est un acteur US historique spécialisé dans l’intégration de données. L’entreprise édite un outil de Data Prep nommé Informatica REV. Cet outil est très accès sur la Data Quality et sur une approche collaborative de la gestion des données. Il est important de noter qu’Informatica REV est une solution Cloud, accessible en se loguant sur le site web d’Informatica. Pas d’installation donc. L’avantage, c’est que cela évacue d’emblée la question de la compatibilité avec le système d’exploitation de l’ordinateur.
Découvrez notre guide complet sur la Déduplication et le Dédoublonnage des données clients (Enjeux, outils & tutoriel).
Comment fonctionne Informatica REV ? Lorsque vous chargez votre jeu de données, vous avez accès à un aperçu de tous les types de données de votre dataset. L’interface est découpée en deux parties, une partie supérieure et une partie inférieure. Dans la partie supérieure, vous pouvez visualiser toutes les cellules de votre dataset. La partie inférieure se présente sous la forme d’un panel donnant des informations sur les données et proposant des fonctions (profiling utilisateur). Il n’y a pas de barres de qualité visibles, mais celles-ci sont en fait confondues avec les représentations statistiques. Ces dernières indiquent la répartition et la qualité des données. Il faut cliquer sur une cellule pour accéder aux représentations de la colonne concernée. Il n’y a donc pas d’aperçu global. Il est difficile du coup de se faire un aperçu global de la qualité de votre jeu de données. Il faut savoir aussi que la fonction preview est disponible pour certaines transformations, pas toutes.
Informatica REV permet de réaliser des actions de préparation de données et des imports de datasets en parallèle. Il est donc possible de réaliser des préparations en simultané sur différentes tables avant de réaliser les jointures.
Information REV délivre une expérience utilisateur irréprochable, c’est un point fort de cet outil de DataPrep. Vous pouvez supprimer des lignes et des colonnes en deux clics. Vous pouvez utiliser la fonction CTRL + clic sur les entêtes pour sélectionner manuellement les cellules et colonnes de votre choix.
Trifacta Wrangler
Trifacta est une des sociétés pionnières dans l’industrie de la Data Prep. Elle met en pratique à la perfection la philosophie des outils modernes de Data Prep : démocratiser la préparation des données, donner le contrôle aux utilisateurs métiers, les autonomiser de l’IT. Nous avons donc affaire à un outil présentant une interface très intuitive, très visuelle, très ergonomique et rapide à prendre en main par les non-techniciens.
Trifacta Wrangler est disponible en version gratuite et en version enterprise payante. La version gratuite est un outil hybride cloud / desktop : les calculs sont réalisés par l’ordinateur de l’utilisateur, les préparations de données sont réalisées en ligne. Cette version gratuite comporte des limitations. En particulier, la taille des data sources importées est limitée à 100 MO.
La version enterprise de la solution permet de gérer la gouvernance des données, le collaboratif et le Big Data (aucunes limites en matière de volumes traités). La version payante est également plus rapide, les calculs s’effectuent en un temps très réduits, sur des serveurs Hadoop via le moteur Trifacta.
Cet outil de Data Prep permet de faire des manipulations sur un échantillon de votre dataset. Le script généré peut ensuite s’appliquer à l’ensemble du jeu de données au moment de son exécution. Cela permet de gagner du temps dans le travail de préparation.
Les représentations statistiques sont très fines et s’adaptent aux variations des données de vos colonnes. Trifacta gère une belle variété de données : une vingtaine de types sont aujourd’hui reconnus. Il est même possible de créer ses propres types de données, sous forme de listes de valeur ou de patterns. L’interface affiche des barres de qualité permettant d’identifier rapidement les données erronées ou manquantes. Ce qu’il y a de très intéressant aussi avec Trifacta, c’est que les représentations statistiques (comme les barres de qualité) sont en interaction avec les données, ce qui facilite l’exploration et le travail de nettoyage des datasets. Par ailleurs, un menu accessible depuis les entêtes permet d’accéder à des informations plus détaillées sur les représentations statistiques : outliers, déviation standard, valeurs particulières…
Découvrez notre guide complet pour nettoyer votre base de données clients. L
Sur le volet du profiling utilisateur, Trifacta est probablement la solution la plus avancée. L’outil suggère des fonctions de transformation pertinentes au moment de la sélection des données, ce qui est très appréciable. Pour cela, Trifacta utilise des algorithmes de machine learning.
Il est possible de préparer des données en parallèle. Avec la version payante de l’outil, c’est simple comme bonjour : il suffit d’ouvrir un nouvel onglet dans le navigateur ! La fonction preview est présente qui permet de réduire le risque d’erreurs de manipulations et permet de comprendre comment fonctionne l’outil au début.
Comme nous le disions au début, l’expérience utilisateur est l’un des grands points forts de cet outil de Data Prep. Vous pouvez sélectionner plusieurs colonnes avec les touches CTRL et Shift. Certaines fonctions d’habitude assez complexes à utiliser sont d’un usage étonnamment simple. On pense par exemple aux jointures, aux pivots lignes-colonnes et inversement, aux agrégats à plat ou aux sessionalisations.
Nous espérons avec ce comparatif des outils de DataPrep vous avoir éclairé sur les principales solutions du marché. Des questions ? Des remarques ? Un besoin de conseil personnalisé ? N’hésitez pas à nous contacter !
Laisser un commentaire