« Data Management » est un concept assez générique, pour ne pas dire fourre-tout. Le Global Data Management Community (DAMA International) le définit comme « le développement d’architectures, de règles, de pratiques et de procédures conçues pour gérer le cycle de vie des données ». Très bien. Mais quand on emploie le terme de Data Management, de quoi parle-t-on exactement ?
Réponse : Souvent de plusieurs choses ! Le Data Management, c’est un ensemble d’activités différentes : du stockage de la donnée à son analyse en passant par sa transformation et son unification. A chaque activité correspond une famille d’outils, même si certaines outils couvrent le périmètre fonctionnel de plusieurs activités. Nous allons vous présenter quelques-uns des meilleurs outils de Data Management par catégorie.
Panorama des outils de Data Management
Mais avant, quelques précisions sur les principales activités du Data Management :
- La gestion des données dans le cloud, c’est-à-dire le process d’intégration des données dans un écosystème d’applications cloud. Les données sont stockées, transformées, préparées, analysées, exploitées via une solution de type Data Warehouse Cloud.
- L’intégration data / l’ETL, c’est-à-dire le process d’extraction des données à partir des data sources, leur transformation et leur chargement dans un Data Warehouse Cloud.
- Le Master Data Management (MDM), qui est une méthode de standardisation des données visant à limiter / éliminer les redondances et à améliorer la maintenance des données.
- La gestion des données de référence, sous-catégorie du MDM, qui consiste à définir le format des valeurs à utiliser dans les champs de données. Par exemple, le format des codes postaux, les listes de pays, de régions, de villes ou bien les numéros de série des produits.
- L’analyse de données qui consiste à explorer les données issues des principales sources de données et du Data Warehouse à des fins de Business Intelligence (BI). L’analyse est par la Data Vizualisation qui consiste à organiser les données sous forme de tableaux de bord et de rapports graphiques à partir des multiples sources de données.
Toutes ces activités, interconnectées, appartiennent au monde du « Data Management ».
Chacune de ces activités renvoie à une famille d’outils. Les outils de Data Management désignent donc une grande famille composée de plusieurs sous-catégories :
- Les outils de Data Management Cloud – Construits dans le cloud et pour le cloud, ces outils ont la capacité de se connecter et de s’intégrer à de multiples sources de données via des API, des webhooks et des connecteurs natifs.
- Les outils ETL, qui permettent d’extraire, transformer et charger dans la platefofrme cloud toutes les données issues des data sources.
- Les outils de Data Transformation, qui visent à transformer les données brutes en données nettoyées, agrégées, analysables, exploitables à des fins business (marketing, CRM…) et de BI.
- Les outils de Master Data Management (MDM) qui aident à visualiser des ensembles complexes de données maîtres et facilitent le pilotage des données par les personnes chargées de superviser la création et la maintenance des données de référence.
- Les outils de gestion des données de référence, qui sont souvent des modules des outils de MDM utilisés pour définir les process business autour des données de référence.
- Les outils de Data Viz et les outils analytics qui aident les entreprises à explorer, analyser et visualiser de grands ensembles de données. Ils servent à générer des rapports et des tableaux de bords permettant d’extraire des enseignements de ses données et de guider la prise de décision.
En nous inspirant d’un bon article en anglais de Panoply, nous avons sélectionné pour vous les meilleurs outils de Data Management, catégorie par catégorie, à la fois pour vous aider à mieux comprendre le périmètre fonctionnel de chaque famille d’outils mais aussi pour vous aider on l’espère dans le choix des outils les mieux adaptés à votre besoin.
4 services de Data Management Cloud
A mesure que le stockage et la bande passage sont devenus des commodités, des solutions externalisées sont apparues pour le stockage et la gestion des données. Ce sont les fameuses solutions de Data Warehouse Cloud. Les entreprises qui ont de gros volumes de données à stocker sont de plus en plus nombreuses à opter pour les solutions d’hébergement cloud, plus souples, moins chères et offrant globalement une bien meilleure connectivité que les solutions internalisées. La prolifération des outils cloud / SaaS depuis rend chaque jour l’option cloud de plus en plus intéressante. Amazon et Google sont les acteurs historiques de ce marché mais des acteurs plus petits sont apparus. Voici une sélection de solutions de Data Management cloud.
1. Amazon Web Services
Amazon Web Services offre un éventail d’outils très étoffé qui peuvent être combinés entre eux pour constituer une puissante stack de Data Management. Les principaux services proposés sont :
- Amazon S3 pour le stockage temporaire / intermédiaire.
- Amazon Glacier pour le stockage et les sauvegardes de long-terme.
- AWS Glue qui permet de construire des catalogues de données pour catégoriser et requêter vos données.
- Amazon Athena pour faire de l’analytics SQL.
- Amazon Redshift qui est la solution de Data Warehouse.
- Amazon Quicksight pour la construction de tableaux de bord et la Data Vizualisation.
Tarifs
Chaque service est activé et facturé séparément. Le coût dépend donc de l’utilisation.
2. Microsoft Azure
La plateforme Microsoft Azure propose plusieurs approches /architectures pour construire votre système de Data Management cloud ainsi que des outils analytics puissants pour analyser les données stockées dans Azure. Comme AWS, Azure offre un large choix de services et d’outils faisant écosystème. Les principaux services proposés sont :
- Les bases de données SQL et les services SQL (construits sur des machines virtuelles).
- Blob storage (pour la gestion des données non-structurées).
- Le stockage de tables NoSQL.
- Azure Data Explorer (ADX), un service récemment ajouté à la stack Azure qui permet d’analyser en temps réel de très gros flux de données sans besoin de preprocessing.
Tarifs
Les tarifs sont variables et dépendent du nombre de modules activé.
3. Google Cloud
La plateforme Google Cloud propose elle aussi un grand choix d’outils de Data Management Cloud ainsi qu’un gestionnaire de workflows qui peut être utilisé pour relier entre eux les différents services proposés. Voici les principaux composants de l’écosystème Google Cloud :
- BigQuery pour le stockage de tables de données.
- Cloud BigTable pour le stockage de données non-structurées.
- Cloud Pub/Sub et Cloud Data Transfer pour l’ingestion des données. Google Cloud peut aussi se connecter à une variété d’autres sources de données.
- BigQuery analytics pour exécuter des requêtes SQL.
- ML Engine qui permet de réaliser des analyses plus avancées grâce au machine learning et à l’IA.
- Data Studio qui est l’outil de Data Vizualisation de Google. Je vous invite à découvrir notre avis complet sur Google Data Studio.
- Cloud Datalab pour la Data Science.
- Des connecteurs avec les principaux produits de BI : Tableau, Looker…
Tarifs
Les tarifs sont variables et dépendent du nombre de modules activé.
4. Panoply
Panoply propose un service de Data Warehouse conçu pour faciliter l’intégration et la gestion des données dans le cloud. Les principaux fonctionnalités :
- Une large sélection de connecteurs natifs qui facilite l’intégration des données issues des sources de données.
- L’automatisation de l’ingestion des données et du preprocessing qui permet de libérer des ressources IT.
- La création de tableaux de bord intuitifs.
- Un éditeur SQL pour la data analysis et les requêtes.
- Des connecteurs avec les principaux outils de Data Viz / Analytics : Tableau, Looker, Chartio…
Tarifs
Panoply propose une formule à $325 par mois.
8 outils d’intégration data / ETL
Passons à présent aux outils d’intégration data, ce qu’on appelle les outils ETL qui permettent, comme leur nom l’indique, d’extraire (Extract), de transformer (Transform) et charger (Load) les données. Les outils ETL sont utilisés pour mettre en place la tuyauterie reliant les sources de données au Data Warehouse. Pour un panorama plus complet, nous vous invitons à découvrir notre comparatif des outils ETL.
5. Informatica Powercenter
Informatika Powercenter est un outil ETL « On-Premise ». C’est l’un des plus gros acteurs. Voici les principales fonctionnalités proposées :
- Des connecteurs et des intégrations avec tous les types de sources de données.
- L’automatisation de la Data Validation.
- Des outils avancés de Data Transformation (qui permettent de gérer les données non-relationnelles et d’analyser du XML, du JSON, du PDF, Microsoft Office et les données IoT).
- La gestion des méta-données.
Informatica PowerCenter price: $2,000/month for the most basic plan
Tarifs
Informatika Powercenter est une solution très coûteuse. La formule basique est à $2000 par mois.
6. Stitch Data
Stitch Data est un outil ETL cloud dont les principales fonctionnalités sont :
- La pré-intégration de plusieurs dizaines de sources de données (cloud et non cloud) et la capacité de déplacer les données dans Amazon Redshift, S3, BigQuery, PostfreSQL…
- La construction d’un plan de réplications de données.
- La gestion des erreurs et la mise en place d’alertes (avec résolution automatique quand c’est possible).
- L’API et le framework JSON qui vous permettent de pousser la données dans votre Data Warehouse de manière programmatique.
Tarifs
En fonction du volume de données : entre $100 et $1000 par mois.
7. Fivetran
Fivetran permet de construire des pipelines de données via une interface web. Il permet d’intégrer les données de vos outils SaaS et de vos bases de données dans un Data Warehouse unique. Les principaux fonctionnalités :
- Fivetran propose des connecteurs natifs utilisant une couche de mise en cache sophistiquée pour sécuriser la circulation des données dans la tuyauterie.
- Le système de cache permet de déplacer des données d’un point A à un point B sans stocker une copie des données sur l’application serveur.
- Fivetran n’impose aucune limite en termes de volume de données.
- L’outil peut être utilisé pour centraliser les données de l’entreprise et intégrer toutes les sources afin de construire des KPIs au niveau de l’organisation.
Tarifs
Sur devis.
8. Blendo
Blendo est un autre outil ETL dans le cloud. Voici les principales fonctionnalités :
- Vous pouvez connecter en quelques clics un nombre impressionnant de sources de données et déplacer ensuite les données dans Amazon Redshift, PostgreSQL, MS SQL Service, Panoply et autres.
- Vous pouvez charger et synchroniser les données historiques à partir des services cloud.
- Vous pouvez planifier le chargement des données (charger les données périodiquement ou à une fréquence déterminée à partir des data sources).
Tarifs
Sur devis.
9. Microsoft SQL Server SSIS
SSIS est une interface graphique proposée par Microsoft pour gérer l’intégration des données via le serveur MS SQL. Les principales fonctionnalités :
- Une interface intuitive qui permet à l’utilisateur de déployer un Data Warehouse intégré sans (beaucoup de) programmation.
- Une interface graphique qui permet de créer une tuyauterie ETL en drag & drop.
- Une très bonne solution pour des équipes composées de profils techniciens et non-techniciens.
Tarifs
Entre $931 et $15000.
10. Azure Data Factory
En plus de SSIS, son ETL On-premise, Microsoft propose aussi Azure Data Factory (ADF), un ETL conçu pour la plateforme Cloud Azure. Les principales fonctionnalités d’ADF :
- Les pipelines ETL dans ADF sont construits à partir d’une interface graphique nécessitant peu de travail de programmation.
- Une belle variété de connecteurs qui facilite l’intégration des données (excepté, étrangement, pour les fichiers Excel).
- Un support complet pour charger les données dans les Data Warehouses Azure.
Tarifs
$1 pour 1 000 runs par mois.
11. Talend
Talend est un outil d’intégration data open source conçu pour intégrer, nettoyer, masquer et créer des profils de données. Les principales fonctionnalités de Talend :
- GUI, qui permet de gérer un grand nombre de sources de données via des connecteurs standards.
- Des fonctionnalités de Master Data Management.
- Une vue précise, consistante et unique des données clés de l’entreprise.
Tarifs
$1170 par utilisateur et par mois (ou $12000 par an).
12. Alooma
Alooma propose une plateforme d’intégration data pour les entreprises avec de puissants outils ETL. Quelques-unes des fonctionnalités clés proposées par la plateforme :
- Un focus fort sur la rapidité de mise en place des pipeline, le monitoring de la Data Quality et la gestion des erreurs.
- Les mécanismes de protection contre les pertes et corruptions de données.
- La flexibilité dans l’écriture de vos propres scripts pour monitorer, nettoyer et déplacer les données selon vos besoins.
Tarifs
Entre $1000 et $15000 par mois.
4 outils de Data Transformation
Passons maintenant aux outils conçus pour transformer vos données brutes et les adapter à vos cas d’usage.
13. Dataform
Basé sur le langage SQL, Dataform est une plateforme de Data Transformation conçue pour gérer les process dans votre Data Warehouse Cloud. Les principales fonctionnalités :
- Vous pouvez écrire vos workflows SQL dans un environnement de développement collaboratif. S’intègre avec Github.
- Vous pouvez écrire des requêtes pour tester la qualité de vos données et mettre en place des alertes pour vous assurer de la fiabilité de vos données.
- Vous pouvez créer un répertoire pour centraliser les définitions de données et les partager à toute l’organisation.
Tarifs
A partir de $550 par mois (avec des promotions pour les petites entreprises / startups).
14. DBT
DBT (pour Data Build Tool) est lui aussi un outil de transformation des données basé sur le langage SQL qui vous permet de mettre en place des workflows de transformation à partir d’une commande. Les principales fonctionnalités :
- Un système simple de workflows qui vous permet de créer des flux de transformation et de modélisation modulaires.
- Un gestion automatisée de la Data Quality avec un système robuste de testing.
- Un système de programmation simplifié utilisant des environnements et des intégrations continues.
- Un système de Data snapshotting pour mieux analyser les données historiques.
Tarifs
DBT propose une formule gratuite. Pour le plan basique, comptez $100 par mois. Pour les projets plus importants : sur devis.
15. Airflow
Développé à l’origine par Airbnb, Airflow est un outil open source assez populaire. Bien qu’il ne permette pas de processer la donnée en elle-même, Airflow peut être utilisé pour planifier, organiser et gérer les process ETL via Python. Les principales fonctionnalités d’Airflow :
- Une interface utilisateur web pratique pour gérer et éditer vos Directed Acyclic Graphs (DAGs).
- Un bel ensemble d’outils qui facilite la « chirurgie DAGs » via un module de commande.
- Une solution très scalable.
Tarifs
Open source, donc gratuit.
16. Luigi
Développée par Spotify, Luigi est une solution open source utilisant le langage Python. Luigi est conçu pour faciliter la gestion des longs batchs. Ses fonctionnalités excèdent donc le périmètre de l’ETL, bien que Luigi soit par ailleurs une très bonne solution ETL. Les principales fonctionnalités :
- Le langage Python est efficace pour construire des pipelines de données, surtout ceux qui impliquent de gros batchs.
- Une interface web qui permet à l’utilisateur de visualiser les tâches de worflow management.
- Conceptuellement assez proche de GNU Make, mais pas uniquement conçu pour Hadoop.
Tarifs
Open source, donc gratuit.
Contactez Cartelis
pour enfin capitaliser sur vos données clients.
Cartelis vous accompagne dans le cadrage et le déploiement d'une stratégie data et CRM vraiment impactante.
Analyse client, Choix des outils, Pilotage projet et Accompagnement opérationnel.
Prendre contact avec Cartelis6 outils de Master Data Management (MDM)
Voici à présent notre sélection d’outils de Master Data Management ou MDM.
17. Dell Boomi
Dell Boomi propose les fonctionnalités suivantes :
- Vous pouvez définir des modèles de manière visuelle et sans beaucoup de programmation.
- Vous pouvez déployer des modèles de données et identifier les systèmes sources qui interagissent avec eux.
- Vous pouvez onboarder les enregistrements des systèmes transactionnels dans un répertoire consolidé et fusionner automatiquement les enregistrements similaires.
- Vous pouvez mettre en place des alertes pour vos équipes quand il y a un problème de duplication ou de saisie de données.
- Vous pouvez gouverner les données grâce à des flux en temps réel et des process bidirectionnels entre vos silos.
Tarifs
Entre $100 000 et $300 000.
18. Profisee
La plateforme de MDM Profisee propose les fonctionnalités suivantes :
- Pilotage & Gouvernance : Vous pouvez stewarder les données de votre organisation pour gérer les données maîtres avec des feedbacks issus de l’analytics.
- Gestion des golden records : Vous pouvez standardiser, nettoyer et matcher les sources de données sans avoir besoin de faire de la programmation.
- Gestion des événements : Vous pouvez détecter les modifications de données et distribuer les événements aux différents systèmes.
- Intégration : Vous pouvez fédérer les master data au niveau de l’organisation, avec une intégration en temps réel et bidirectionnelle.
Tarifs
$10.30 par heure.
19. SAP NetWeaver MDM
SAP NetWeaver MDM est un composant de la plateforme de développement NetWeaver. Voici les principales fonctionnalités :
- Extraction automatique des master data à partir de toutes les applications de l’écosystème SAP.
- Chargement des master data à partir des autres sources.
- Intégration des données via des process business : Répertoires, règles de validation, mappings inbound et outbound.
- Distribution des données aux cibles.
- Une API et des services web qui permettent de faire de l’intégration data programmatique.
Tarifs
Sur devis.
20. Semarchy xDM
Semarchy est un acteur relativement nouveau sur la scène du Master Data Management. Lancé en 2011, basé en San Francisco avec des bureaux au Royaume-Uni et en France, Semarchy a été fondé par d’anciens employés de Sunopsis. Le produit MDM de Semarchy, xDM, propose les fonctionnalités / caractéristiques suivantes :
- N’est pas dépendant d’Hadoop.
- Optimisé pour Oracle.
- Les mises à jour et changements sont tracés et propagés en utilisant des meta-données, ce qui permet un Data Management itératif et évolutif.
- L’interface peut être personnalisée pour s’adapter aux différents profils d’utilisateur (analystes, opérationnels…).
Tarifs
Sur devis.
21. Tibco MDM
Tibco est l’une des solutions de référence pour le MDM. Les principales fonctionnalités de cet outil sont :
- La flexibilité et la scalabilité pour les applications multi-domaine.
- Un master data layer indépendant et distribué.
- Une interface visuelle personnalisable sans code (peut s’adapter aux différents profils d’utilisateurs).
- Un support de data versioning réputé.
Tarifs
Sur devis.
22. Stibo STEP
Stibo est le plus ancien acteur de notre sélection puisque l’entreprise a été fondée…au XVIIIème siècle. A l’époque, c’était un imprimeur ! Stibo a fait du chemin depuis et développé un outil de MDM appelé Stibo qui propose les fonctionnalités suivantes :
- Une interface utilisateur de qualité.
- Une plateforme MDM holistique et multi-domaine.
- Un niveau d’automatisation avancé.
- Un système de traduction automatique des données et des langues pour les opérations internationales.
- Un Master Data Management au niveau de l’entreprise entière.
Tarifs
Sur devis.
4 outils de gestion des données de référence
Il faut évidemment rapprocher cette famille d’outils de la précédente. Les outils de gestion des données de référence sont souvent des modules des plateformes de MDM. Donc des outils au périmètre fonctionnel plus étroit.
23. Collibra
La plateforme Collibra propose les fonctionnalités suivantes :
- Worflows automatisés pour créer des nouveaux codes et des nouveaux sets.
- Partage des codes et ensembles de codes aux utilisateurs d’une manière accessible et friendly.
- Génération de data mapping précis pour éliminer les barrières à l’accès des données.
- Système de comparaison des données en provenance des différents départements de l’entreprise.
Tarifs
Sur devis.
24. Magnitude
Magnitude propose les fonctionnalités suivantes :
- Modélisation multi-domaine.
- Automation : La solution permet l’automatisation, la gouvernance et le contrôle sur les données de référence et les process de chargement.
- Mapping des données (global & local, externe & interne, spécifique & général).
- Gouvernance : La plateforme offre un workflow personnalisable pour contrôler les process business liés aux données de référence, avec des contrôles de sécurité basés sur les modèles permettant aux utilisateurs de visualiser, modifier et mettre à jour.
Tarifs
Sur devis.
25. Informatica MDM Reference 360
Partie intégrante de l’écosystème d’Informatican MDM – Reference 360 propose les fonctionnalités / caractéristiques suivantes :
- Une solution 100% cloud qui permet d’optimiser la performance et la scalabilité.
- Une plateforme tout-en-un : intégration data, data quality, process management.
- Une plateforme self-service conçue pour permettre aux utilisateurs business sans background technique de faire du MDM et de construire des workflows en toute autonomie.
- Matching et fusion des données en provenance des nouvelles sources de données.
Tarifs
Sur devis.
26. Reltio Cloud
Reltio Cloud est la plateforme MDM orientée graphique de Reltio. Elle intègre des outils de gestion des données de référence. Reltio est construit sur des bases de données graphiques pour offrir le maximum de flexibilité, à la fois au niveau du stockage et dans la définition des relations entre les données et le répertoire. Quelques autres fonctionnalités :
- L’intégration facile avec des outils MDM existants et/ou d’autres sources de données.
- Une interface user friendly.
Tarifs
Sur devis.
4 outils de Data Vizualisation / Analytics
Terminons avec 4 outils classiques de Data Vizualisation. Connectés à vos sources de données et à votre Data Warehouse, ces outils permettent d’organiser vos données sous une forme visuelle (tableaux de bord) afin de faciliter les analyses. Pour aller plus loin, découvrez notre Top 20 des outils de Data Vizualisation.
27. Tableau
Tableau est un logiciel de Business Intelligence disponible en version cloud et en version à installer. Voici les fonctionnalités clés proposées par cet outil :
- La très bonne connectivité avec sources de données.
- La qualité de l’interface qui permet de créer et partager des tableaux de bord / rapports accessibles à tous.
- Les modèles de tableaux de bord qui permettent de générer vos tableaux de bord en quelques minutes en utilisant les applications web les plus connues.
- La génération automatique des cartes interactives.
Tarifs
Entre$35 et $70 par utilisateur et par mois.
28. Chartio
Chartio est un outil cloud de BI et Data Vizualisation proposant les fonctionnalités clés suivantes :
- Une interface intuitive, qui permet de créer des tableaux de bord en mode drag & drop.
- Le mode SQL qui permet de connecter les bases de données en SQL pour extraire directement des insights.
- Le data layering : Vous pouvez ajouter des étapes de transformation successive sur les données pour transformer les résultats de vos requêtes.
- Chartio vous recommande le meilleur mode d’affichage des données.
- La capacité de la solution à combiner des sources de données très différentes en un instant et à fournir des insights actionnables sans exploration des données brutes.
Tarifs
$249 par mois pour une licence « Equipe ».
29. Looker BI
Récemment intégré à l’écosystème Google Cloud, Looker est une autre plateforme cloud connue d’analytics et de Data Viz. Voici les principales fonctionnalités de cet outil :
- Vous définissez les métriques une fois pour toutes en utilisant LookML, le langage de modélisation de Looker, et ensuite la plateforme écrit des requêtes SQL pour répondre à toutes les questions relatives à ces métriques.
- Les tableaux de bord sont très bien faits, faciles à lire. Ils facilitent l’exploration et sont accessibles à tout le monde.
- Vous pouvez connecter la solution directement à vos bases de données, sans extractions ou logiciel à télécharger.
- Vous pouvez donner accès à vos rapports et tableaux de bord à tout le monde, pas seulement aux analystes data et aux data scientists.
Tarifs
Entre $3000 et $5000 par mois pour 10 utilisateurs.
30. Microsoft Power BI
Power BI est l’outil de business analytics de Microsoft. Il s’adresse plutôt à des analystes business et à des data scientists. Les principales fonctionnalités :
- Une interface drag & drop simple conçue pour ne pas dépayser les utilisateurs d’Excel !
- Power BI est une plateforme sans programmation, disponible à la fois en version web et version desktop.
- La bibliothèque de connecteurs pré-construite est très qualitative.
- Les performances tendent à diminuer avec les gros ensembles de données. Power BI n’est pas adapté pour des usages Big Data.
Microsoft Power BI price: $9.99 per user per month, or free for the basic version.
Tarifs
$9.99 par utilisateur et par mois. Il existe aussi une version basique gratuite.
Nous avons couvert les principales familles d’outils de Data Management et quelques-uns des meilleurs outils dans chaque catégorie. Nous espérons que ce tour d’horizon vous aura été utile et permis d’acquérir une vision plus précise de ce continent qu’est le « Data Management ». Si vous êtes à la recherche de conseils personnalisés pour le choix de vos outils de Data Management, n’hésitez pas à prendre contact auprès de nous via le tchat ou le formulaire de contact.
Laisser un commentaire