Imaginez un grand lac de montagne alimenté de dizaines et de dizaines de petits cours d’eau. Imaginez maintenant un poulpe au milieu de ce lac et un pêcheur debout sur le rivage remontant une truite. Comment cette truite a-t-elle pu se trouver là ? Et comment le poulpe est-il arrivé dans ce lac ?
Tout cela a l’air bien loin de notre sujet, mais en fait cette métaphore permet de bien visualiser ce qu’est un Data Lake (ou lac de données en français). Un Data Lake est un lieu où affluent tout un tas de données très diverses en provenance de sources elles-mêmes très diverses. Un lieu qui recèle des surprises en raison de la grande variété de ses affluents. Ces affluents peuvent contenir toutes sortes de données, des tableaux structurées de votre entrepôt de données aux données non-structurées en provenance de vos réseaux sociaux. Les Data Lakes représentent le paradis pour ceux qui adorent manipuler, analyser et découvrir des données.
Certains experts nuanceront la pertinence de notre image, en rappelant qu’un Data Lake n’est pas un lac de montagne à l’eau pure et claire, mais un lieu beaucoup plus obscur. Les données non-structurées représentent une opportunité pour ceux qui aiment manipuler et analyser de la donnée, mais un défaut de programmation peut rapidement transformer votre lac en marais. Comment extraire de la donnée d’un marais ? Si vous vous souvenez de l’histoire (…le poulpe), vous comprendre que cela peut rapidement mal finir !
Dans notre métaphore, nous avons imaginé un pêcheur remontant sa truite. Il représente le Data Scientist, le développeur informatique, ou, plus généralement, toutes les personnes qui ont accès au Data Lake. Il est tout seul et c’est normal. Peu de personnes ont l’expertise et/ou la patience suffisantes pour pêcher dans un Data Lake. Par contre, il y a beaucoup plus de personnes (les marketers au premier chef) qui se rueront sur le produit de la pêche.
Bon, arrêtons ces analogies et entrons dans la technique. Qu’est-ce qu’un Data Lake ? A quoi ça sert ? Comment l’exploiter ? On répond à toutes vos questions.
Sommaire
Ne pas confondre Data Lake et Data Warehouse
Le Data Lake, vous l’aurez compris, est un immense lieu de stockage de données. Il stocke toutes les données dont dispose ou a accès l’entreprise. Mais les Data Lakes doivent être distingués des entrepôts de données (Data Warehouses). Un Data Lake contient toutes les données, de toutes natures, de toutes origines, qu’elles soient structurées ou non structurées, que les données soient raffinées ou complètement brutes. Aucun schéma de structuration des données n’est imposé aux données qui affluent via les flux entrants. Dans les Data Lakes, les données sont stockées dans leur état d’origine.
C’est sur ce point qu’un lac de données diffère d’un entrepôt de données. Pour prendre une image très parlante, disons qu’un lac stocke de l’eau tandis qu’un entrepôt stocke des bouteilles d’eau et les stocke de manière organisée : elles ne sont pas rangées nulle part, elles ont leur place attitrées. Les données qui arrivent dans un entrepôt de données sont identifiées, filtrées, nettoyées, structurées, organisées. Ce qui nécessite, évidemment, beaucoup de travail. Un Data Lake peut stocker des données non structurées, non filtrées. Un Data Lake permet de stocker de la donnée à moindre coût. La donnée qui entre dans le lac n’a pas besoin d’être travaillée. Dans le cas d’un Data Lake, le travail sur la donnée intervient en aval, jamais en amont. Data Lake : on charge, puis on transforme. Entrepôt de données : on transforme, puis on charge.
Le Data Lake est un bac à sable. On voit tout de suite le principale avantage et le principal inconvénient d’un Data Lake. Le principal inconvénient d’abord, c’est que c’est un peu le bordel, forcément. Les données ne sont pas organisées. Le Data Lake est un fourre-tout. Il permet de garder au chaud des données qui serviront potentiellement dans le futur ou dont on n’anticipe pas l’utilité. Le principal avantage, c’est que les données entrent dans leur état d’origine, sans formatage lié aux phases de collecte et d’intégration dans le système d’information.
Pour rendre les choses plus concrètes, prenons un exemple. Vous êtes une entreprise commercialisant des casseroles. Vous pouvez stocker dans votre Data Lake :
- Les informations récupérées de votre site de fabrication : vitesse de production, erreurs, statistiques de sécurité…
- Les données récupérées de vos entrepôts concernant le stockage, la livraison, la logistique…
- Les statistiques d’engagement de vos clients.
- Les interactions avec vos clients sur les réseaux sociaux.
- Les informations de contact de vos clients : email, téléphone…
- Les données de vos campagnes marketing.
- Les données transactionnelles de votre CRM.
- Les données d’usage de vos produits (si vos casseroles sont des objets connectés !).
- Etc.
Evidemment, la liste est très très loin d’être exhaustive, mais cela donne une image de ce à quoi peut ressembler concrètement un lac de données.
Le sujet des CDP vous intéresse ?
L’importance de donner une architecture à votre Data Lake
Si un Data Lake est un bac à sable, il est quand même important de lui donner une architecture. Sinon, vous finirez par ne plus savoir comment accéder aux données qu’il recèle. Sans architecture, le lac de données se transforme en marais obscur composé de données à jamais inaccessibles.
Voici les différents points qu’il faut se aborder pour donner une architecture, même basique, à votre Data Lake :
- Les flux entrants. Comment les données arrivent-elles dans le Data Lake au départ ? Comptez-vous utiliser des méthodes particulières de chargement ou non ? A quelle fréquence mettrez-vous à jour vos données ? Quel volume de données comptez-vous charger ?
- La sécurité. Les Data Lakes contiennent potentiellement des données sensibles, en particulier si vous stockez des données clients ou des données de navigation. Construisez votre Data Lake en gardant à l’esprit que vos données doivent rester sécurisées.
- L’organisation. Même si un Data Lake intègre des données « brutes », toutes les données doivent être accessibles, sinon elles seront très difficilement utilisables, donc inutiles. Cela suppose de mettre en place une structure basique (data batches).
- L’accès. Qui aura accès aux données brutes, non filtrées ? Quels sont les outils qui seront utilisés pour manipuler les données ? Il y a plusieurs approches possibles : créer un moteur de recherche, créer un système de noeuds pour séparer les données en différents fichiers.
Découvrez les 10 tendances majeures dans l’univers des logiciels CRM B2B.
Contactez Cartelis
pour enfin capitaliser sur vos données clients.
Cartelis vous accompagne dans le cadrage et le déploiement d'une stratégie data et CRM vraiment impactante.
Analyse client, Choix des outils, Pilotage projet et Accompagnement opérationnel.
Prendre contact avec CartelisLes avantages d’avoir un Data Lake
La plupart des experts conseillent de construire un Data Lake tout en continuant à garder le système de stockage actuel de l’entreprise. Chacun des deux ont leurs avantages. Et comme aucune méthode de stockage n’est parfaite, Data Lake et Data Warehouse se complètent. Nous avons déjà abordé la question des avantages d’un Data Lake, plus haut. Allons un peu plus loin. Voici les 3 bénéfices pour l’entreprise de disposer d’un lac de données :
- Lorsque vous transformez la donnée avant de la stocker, vous la formatez, vous définissez ses caractéristiques suivant des critères qui sont ceux qui vous importent à l’instant t. Imposer d’emblée (dès l’entrée dans le système d’informationn) un schéma à vos données signifie forcément que vous allez perdre des données brutes. Les Data Lakes, contrairement aux entrepôts de données, stockent TOUTES les données brutes, sans leur imposer un schéma lors de leur ingestion.u
- Le Data Lake stocke les données dans leur format natif, ce qui vous donne un pouvoir quasiment infini de manipuler cette données plus tard sans perturber ou changer les flux entrants.
- En raison de sa nature non-structurée, le Data Lake permet de stocker un volume énorme de données à un coût très intéressant. Le Data Lake, en quelque sorte, démocratise le stockage de données.
Les enjeux liés à la mise en place d’un Data Lake
Les lac de données, comme toute technologie, sont loin d’être parfaits. Construire un Data Lake à côté de son entrepôt de données permet d’avoir accès à beaucoup plus de données, mais cela va forcément compliquer la vie de vos analystes :
- Le travail sur les données non structurées nécessite une programmation spécifique. Même si cela se fait après que la donnée soit arrivée dans le Data Lake, vous aurez quand même besoin de construire des programmes, des applications pour accéder, trier, nettoyer et utiliser la donnée dans un format exploitable.
- Vous devrez aussi prévoir à l’avance des cas d’usage potentiels. C’est nécessaire pour clarifier les types de données dont vous disposez et opérer les traitements.
- Ce n’est pas parce que vous importez les données dans leur état brut qu’il n’y a pas de travail de maintenance à opérer. Vous devrez vous assurer régulièrement de la propreté de vos flux entrants de données pour éviter que votre Data Lake ne se transforme en marais.
- Tout le monde ne peut pas accéder au Data Lake. Les Data Analysts doivent être les seuls à pouvoir y avoir accès. Ils sont les seuls à savoir comment utiliser la donnée de votre lac. Le temps où les utilisateurs business (type marketers) seront à même d’accéder à un Data Lake n’est pas encore proche.
- Vous devez aussi vous interroger sur l’usage que votre entreprise fera de toute cette quantité de données stockées, sur les raisons pour lesquelles vous utilisez ou souhaiter utiliser un Data Lake. Certes, « stocker tout » permet d’anticiper des enjeux et des usages futurs. Mais, malgré tout, la question de l’usage du Data Lake doit être mûrement posée.
Le Data Lake est une nouvelle méthode de stockage des données. Le Data Lake ne doit pas être pensé comme une alternative au Data Warehouse, mais plutôt comme un outil complémentaire. Mais attention, la mise en place d’un lac de données et surtout l’exploitation des données qu’il contient supposent des compétences très pointues. Ne construisez pas un Data Lake parce que c’est à la mode. Réfléchissez avant de prendre votre décision.
Laisser un commentaire