De quoi parle-t-on quand on parle de stack data moderne ?
Une stack data moderne est une combinaison d’outils digitaux permettant de remplir l’ensemble des tâches dans la valorisation de données.
Alors que les précédentes générations de stacks étaient développées pour ou par une entreprise pour répondre à leurs besoins spécifiques et déployées localement, la disponibilité de serveurs dans le cloud et le développement massif de technologies numériques répondant à des besoins qui sont manifestement très communs ont un impact très important sur les nouvelles architectures de stack.
De plus, nombre d’entreprises rendent des outils, développés en interne, librement accessibles et utilisables. Ces outils open-source permettent de déployer des architectures avec des coûts très limités et de rapidement déployer des POCs, par exemple.
Un réel changement de paradigme
Data Warehouses (DWH) Cloud
L’émergence de DWH dans le cloud devient le grand incontournable des bases de données. Avec des coûts réduits par rapport à leurs prédécesseurs et des puissances de calculs bien plus importantes que les data warehouses classiques, il s’agit du nouveau moteur principal de la stack data moderne.
Plus spécifiquement, les avantages prouvés de ce mode de déploiement de base de données sont :
- Coûts bas : absence de coûts d’entretien, d’achat de matériel, d’installation;
- Puissance de calcul décuplée : possibilité de faire du scaling vertical et/ou horizontal;
- Accès amélioré à la donnée : capacité à déployer de multiples serveurs et de les rapprocher géographiquement des utilisateurs;
- Capacité d’hébergement : possibilité d’étendre les ressources de storage rapidement;
- Sécurisation de la donnée : paramétrage de back-up.
Transition de l’ETL vers l’ELT
Les solutions de type Extract – Transform – Load (ETL), l’approche historiquement pour les flux de données, sont aujourd’hui confrontées à des approches ELT qui permettent une plus grande flexibilité et simplicité d’utilisation puisqu’ils permettent de manipuler la donnée directement au sein de votre DWH.
Le point faible d’effectuer les transformations au sein des bases de données était la potentielle surcharge de données qu’on voulait éviter : aujourd’hui les coûts de stockage ayant fortement diminué, cette crainte n’a plus lieu d’être.
Les avantages de ces développements
Les disponibilités de DWH Cloud présentent donc des avantages clairs par rapport à une infrastructure locale, notamment autour de :
- La sécurisation des données;
- L’accessibilité des données;
- La scalabilité de l’infrastructure;
Cette infrastructure peut ainsi héberger et s’adapter rapidement aux et au besoin de différentes technologies de gestion des données. Parmi celles-ci, il en existe des open-source développées par des entreprises ou par des communautés et partagées librement au grand public.
La combinaison des deux développements peut ainsi avoir un impact sur des cas d’usages rencontrés souvent dans le domaine de la gestion de données :
- La stack s’adapte automatiquement aux besoins du client, notamment au moment d’évolutions brusques de la quantité de données ou de calculs (ajout de filiales, période promos, nouveau plan de tracking, …).
- La stack implémentée peut être deployée à des coûts limités aux serveurs utilisés en n’utilisant que des outils nécessaires et open-source.
- La stack data peut être améliorée avec des modules fonctionnels afin de répondre aux nouveaux besoins d’un client sans pour autant impliquer des coûts significativement augmentés.
La stack data minimaliste
Grâce à des outils open-source et/ou légers qui émergent aujourd’hui, il est possible de développer et déployer des stack data minimalistes qui répondent à l’essentiel des cas d’usages de l’entreprise.
Ce type de stack peut gérer un périmètre plus ou moins flexible en fonction des besoins mais qui couvrent principalement :
- L’importation et la consolidation de données de différentes sources
- La transformation de données
- L’automatisation de ses fonctionnalités
Les composantes de la stack data minimaliste
Les outils qui composent cette stack doivent pouvoir remplir les rôles suivants afin d’assurer un minimum d’autonomie :
-
- Un orchestrateur : outil de planification et d’organisation des flux et des transformations
- Un integrateur : outil d’implémentation et d’exécution de flux
- Une base de données : outil de stockage des données
- Un transformeur : outil de manipulation standard des données
En plus de ses rôles, il peut être utile d’étoffer la stack de modules optionnels qui peuvent la rendre plus exploitable :
- Visualisation : capacité à présenter les données facilement et esthétiquement
- Modélisation / Data science : possibilité de procéder à des traitements avancés de la donnée afin de prédire ou automatiquement classer des données.
- Reverse ELT : capacité à renvoyer les données traiter vers des outils d’activation (Shopify, Klaviyo)
Contactez Cartelis
pour enfin capitaliser sur vos données clients.
Cartelis vous accompagne dans le cadrage et le déploiement d'une stratégie data et CRM vraiment impactante.
Analyse client, Choix des outils, Pilotage projet et Accompagnement opérationnel.
Prendre contact avec CartelisOutils open-sources ou commercial gratuits
Exemple de stack data moderne minimaliste
Nous avons développé et partagé une stack data open-source remplissant ce rôle à partir d’une combinaison d’outils différents mais qui, une fois liés, permettent de gérer des flux et traitements de données.
La stack est composée des outils open-source suivants :
- Orchestrateur : Airflow
- Intégrateur : Airbyte
- Base de données : PostgreSQL
- Transformeur : Airbyte / dbt
Avec cette combinaison d’outils open-source, il est possible de consolider des données de multiples sources, programmer des synchronisations et des traitements réguliers, et le tout au prix d’une facturation d’un serveur dans le cloud, soit 40 à 80 euros pour des besoins modérés (par exemple, importations, jointures et calculs récurrents pour une base constitutée de 1-2 millions de lignes, plusieurs utilisateurs simultanés et un outil de visualisation en plus).
Il est possible de déployer cette stack rapidement avec un peu d’entraînement et d’y greffer des fonctionnalités supplémentaires facilement.
Pour plus de détails sur ce stack, vous pouvez aller voir cet article
Implémenter cette stack
Concrètement, les points forts de la stack data moderne open-source sont sa capacité à être rapidement déployable et d’être à la portée des PMEs qui font face à des contraintes budgétaires et d’expertises plus prononcées.
Elles ont besoin d’outils légers qui permettent d’avoir des quicks wins tout en montant en compétences sur ces expertises techniques sans avoir à investir des ressources importantes ou à s’engager sur des contrats de licences importants.
En fonction des compétences internes d’une PME, deux approches sont envisageables : interne et externe.
Une implémentation interne guidée
Méthodologie
Cette approche consiste à déployer cette stack sans avoir recours à des expertises externes limitant au maximum un besoin de financement. Cela implique de gérer l’ensemble des étapes d’implémentation :
- Sélectionner des outils nécessaires aux cas d’usages identifiés
- Créer d’une instance sur laquelle faire tourner la stack
- Installer et paramétrer les composants de la stack
- Maintenir la stack (mise-à-jour des composants, gérer les problèmes de flux, assurer un monitoring)
Compétences requises
Bien que les nouveaux outils cherchent à minimiser la programmation en code, les analyses plus complexes ou personnalisées nécessiteront encore un savoir a minima en SQL. Les compétences nécessaires pour le déploiement sont donc :
- Une maîtrise du terminal Mac/Windows/Linux
- Une maîtrise de la technologie Docker
- Une compréhension de l’architecture proposée
Celles pour le maniement de la stack en production sont moins importantes et plus accessibles :
- Une maîtrise de SQL
- Une familiarité avec PostgreSQL
- Une compréhension du flux entier envisagé
Durée d’implémentation
En fonction de la complexité de la stack envisagée (nombre de sources/destinations, retraitements de données) et la maîtrise des points ci-dessus, l’implémentation en interne de ce stack peut prendre une semaine pour les fonctionnalités essentielles. Cela couvre uniquement l’implémentation concrète, sans l’identification d’outils, de travail de mapping des bases, d’implémentation des transformations des données et sécurisation des données.
Ce process peut être rendu plus simple et rapide en suivant des guides, dont la ressource que nous avons préparée accompagnée de l’installation automatique.
Une implémentation externalisée
Type de prestataires
Plusieurs types de prestataires peuvent répondre à ce type de projet, notamment des SSII/ESN et des cabinets de conseil data. Les différences entre les types d’acteurs qui peuvent être sollicités pour l’implémentation d’une stack ont tendance à devenir plus floues avec le temps mais peuvent devenir plus évidentes avec la forme et la méthodologie de la prestation.
Notamment, le niveau d’implication de l’acteur dans les métiers et les activités d’un client sera un élément différenciant : traditionnellement, les cabinets de conseil auront une approche plus customer-centric qui cherchera à comprendre le contexte de l’entreprise, la stratégie de développement digital, et les métiers afin d’y adapter les livrables. Chez ce type d’acteur, l’implémentation d’une solution numérique suit nécessairement un travail d’analyse important et implique les utilisateurs de données autant que les responsables dans les phases de scoping.
Budget à prévoir
Une mission impliquant uniquement l’implémentation de ce type de stack à partir de données déjà identifiées pourrait se limiter à une semaine avec le travail de préparation de données ainsi que le travail de vérification assurant la fiabilité des données. Cette durée d’implémentation augmentera avec le nombre de sources et de destinations de données mais aussi les quantités et complexités des transformations à implémenter.
Une estimation basse d’un budget d’implémentation à prévoir pourrait donc être de 7 000 et 10 000 euros. Les coûts de run, hors maintenance, sont cependant limités et constituent le réel avantage d’une telle stack : contrairement à un abonnement d’une solution commerciale, ce coût récurrent peut être de 100 euros par mois pour une instance de moyenne taille.
Conclusion
Ainsi, grâce à la réduction des coûts de serveurs et l’open-sourcing d’outils, il est possible de développer et déployer rapidement des stacks qui correspondent réellement aux besoins d’une entreprise tout en limitant les investissements.
A travers toutes les étapes d’une pipeline de données, des solutions open-source sont apparues, et continuent d’apparaître, qui permettent d’adapter une telle stack à des cas d’usages plus spécifiques ce qui lui attribue une grande flexibilité.
En fonction des compétences internes, les premiers pas de déploiement peuvent être pris sans intervention extérieure. Nous avons même préparé un guide à cet effet ( lien ).
Cette autonomie attribuée par ces outils qui cherchent à minimiser les compétences techniques nécessaires pour les déployer ne remplace cependant pas une réelle expertise et ne donne pas la capacité à la prise de recul sur les différentes possibilités de déploiement. Une prestation externe permettra d’assurer un travail de qualité et une stack qui correspond aux besoins existants et à venir de l’entreprise.
Laisser un commentaire