L’ingénieurie data est un domaine technique sujet à une densité d’innovation extrémement importante, et ce sont chaque année des dizaines de framework, typologies de base de données, acteurs, qui apparaissent. Difficile de rester à jour.
Nous nous sommes donc très largement inspiré du suberbe travail réalisé par Kovid Rathee pour vous proposer cet abécédaire du projet data, regroupant les 150 principaux termes auxquels vous seriez susceptibles d’être exposés en travaillant sur un projet data.
N’hésitez pas à nous suggérer des termes qu’il vous paraitrait pertinent pour enrichir cette ressource !
Aa
ACID – Propriétés d’exécution des transactions d’une base de données ; atomicité, cohérence, isolement, durabilité
Atomicité – Si une étape (d’une tâche à plusieurs étapes) échoue, toute la transaction échoue
Avro – Format de données compact, orienté ligne, basé sur JSON
Azkaban – Le planificateur par lot de LinkedIn pour les tâches d’Hadoop
Airflow – Le programmateur de tâches programmable d’Airbnb basé sur le DAG. Projet Apache très populaire
AWS glue – Service d’extraction, de transformation et de chargement (ETL) entièrement géré qui facilite la préparation et le chargement des données pour analyse des clients
Bb
Base de données orientée colonne – Stockage où les valeurs des colonnes sont stockées de manière contiguë sur le disque
Base de données orientée ligne – Où les données au niveau des enregistrements/des lignes sont stockées de manière contiguë sur le disque/mémoire
Base de données clé-valeur (Key-Value) – Type de base de données non relationnelle qui utilise une méthode clé-valeur simple pour stocker des données
Big Data – Suffisamment importantes pour ne pas pouvoir être traitées par les systèmes traditionnels
Business Intelligence (BI) – Technologies, processus permettant d’obtenir les meilleures informations à partir des données
BigQuery – L’entrepôt de données sans serveur de Google, en concurrence avec Redshift et Azure DW
BigTable – Base de données NoSQL à l’échelle du pétaoctet par Google
Cc
Cassandra – Base de données NoSQL distribuée, populaire pour ses capacités de stockage en colonnes
CTE – Un cache d’ensemble de résultats qui peut être référencé par son nom en SQL
Cloud Composer – Mise en œuvre de Google Airflow
Cube – Données multidimensionnelles ; terme utilisé dans l’entreposage des données
Catalogue – Organisation des métadonnées avec capacité de gestion et de recherche
Cloud functions – L’option de calcul sans serveur de Google comme AWS Lambda
Dd
DynamoDB – Valeur clé à l’échelle du pétaoctet, base de données de documents par AWS
Druide – Magasin de données en colonne distribué
Drill – SQL pour les données non relationnelles, JSON, données imbriquées dans Hadoop, base de données NoSQL
Dremel – Le moteur de recherche interactif à grande échelle de Google
DataFrame – Table de base de données relationnelle comme construct dans les langages de programmation
Data Warehouse (DW) – Collection de données orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d ‘un processus d ‘aide à la décision
Dataflow – La solution de Google pour la gestion des flux de données
Dataprep – La solution de Google pour la préparation des données (nettoyage, querelles, etc.)
Dataproc – L’offre Spark/Hadoop entièrement gérée par Google
Dashboard – Un système de visualisation pour le suivi des performances, des indicateurs de performance clés, etc.
Dictionnaire de données – Métadonnées approfondies révélant la structure et les utilisations d’une source de données
Data Mart – Sous-ensemble de l’entrepôt de données, généralement pour une fonction commerciale spécifique
Dimension – Descripteur ou catégorisation des données
Data Custodian – Responsable, pour un système d’information, de la mise en place de règles de gouvernance de la donnée
DataVault – Méthodologie de conception de l’entrepôt de données
DBT – Solution de flux de données et de flux de travail basée sur SQL
Docker – Plateforme de containérisation la plus populaire
Données non structurées – Données sans schéma ou structure prédéfinie
Données structurées – Données suivant un schéma ou un format prédéfini
Données semi-structurées – Ne suivent pas une structure formelle mais contiennent toujours d’autres marqueurs
Database Reliability Engineering (DBRE) – Discipline qui intègre des aspects de l’ingénierie logicielle et les applique aux problèmes d’infrastructure et d’exploitation
Ee
Elasticsearch – Base de données NoSQL dont la particularité est de pouvoir indexer des documents fortement orientés textes
EMR – MapReduce sur AWS
Enrichissement – Processus consistant à enrichir les données avec plus de données
ETL – Extraction de la source, transformation, chargement à destination
ELT – Extraction de la source, chargement à destination et transformation
ER Diagram – Un diagramme visualisant les relations entre les entités de la base de données
ELK – La solution open-source analyse de logs composée de 3 logiciels open source, développés par la société Elastic : Elasticsearch, Logstach et Kibana.
Ff
Flume – Canalisation de données à grande échelle pour les flux d’événements
Flink – Moteur de traitement distribué pour les flux de données
Fichier plat – Généralement un texte ou un fichier binaire
Fait – Une mesure d’un processus commercial, par exemple, les ventes totales
Failover – Passer d’une machine défaillante à une machine en état de marche
Fonction analytique – Fonctions agrégées qui opèrent sur un groupe de lignes
Fonction de fenêtre – Calcul SQL sur plusieurs lignes par rapport à la ligne en cours
Gg
Golden record – Données exactes et à jour
GAC (Graphe orienté acyclique) – Est un graphe orienté, ne possède pas de circuit
GraphQL – Un langage de requêtes pour API ainsi qu’un environnement pour exécuter ces requêtes
Hh
Hadoop – Grand cadre de traitement des données comprenant MapReduce, YARN et HDFS
Hive – Moteur de recherche de type SQL pour accéder aux données stockées dans l’écosystème Hadoop
HBase – Base de données distribuée non relationnelle qui fonctionne au-dessus de Hadoop
HDFS – Le système de fichiers distribués de Hadoop
Ii
InfluxDB – Base de données de séries chronologiques très populaire
Ingestion – Processus d’obtention et d’importation de données en vue de leur utilisation immédiate ou de leur stockage dans une base de données
Intégration – Rassembler plusieurs sources de données
In-memory – Stockage en mémoire, calcul en mémoire, pas sur disque
Jj
JSON – Format d’échange de données
KK
Kafka – Le cadre de streaming distribué de LinkedIn
Kinesis – Le service de streaming kafkaïen géré par AWS
Kibana – Greffon de visualisation de données pour Elasticsearch
Key-Value Store – Les données sont stockées dans un dictionnaire ou une structure de type table de hachage
Kubernetes – Le service d’orchestration de conteneurs de Google, aussi appelé K8s
LL
Looker – application de Data Discovery permettant aux utilisateurs d’obtenir des insights grâce à l’analyse de données par le biais d’une interface web
Luigi – Le moteur d’orchestration des tâches de Spotify
Lake – Mémoire brute de toutes les données de l’entreprise
Lambda – L’offre FaaS d’AWS – très populaire
Logstash – Solution d’analyse des logs dans la pile ELK
Lignage – Parcours du brut au transformé et du transformé au final
Mm
MySQL – Base de données relationnelle open source très populaire
MongoDB – Base de données open source NoSQL très populaire
MariaDB – Système de gestion de base de données édité sous licence GPL
MapReduce – Un modèle de programmation pour le calcul distribué ; le fondement de Hadoop
Machine Learning Library (MLlib) – Permet le prétraitement, l’apprentissage de modèles et l’établissement de prédictions à l’échelle sur des données
Metabase – Solution populaire de visualisation de données à source ouverte
MDM – Un ensemble d’outils et de processus permettant de définir, stocker, gérer, maintenir et diffuser des données référentielles au sein de l’entreprise
MDX – Fonctionnalité propre à MS SQL Server pour l’interrogation OLAP
MPP – Calcul parallèle coordonné par un grand nombre de processeurs
Métadonnées – Est une donnée servant à définir ou décrire une autre donnée quel que soit son support
Moteur de recherche – Le logiciel qui exécute des requêtes sur un ensemble de données
Contactez Cartelis
pour enfin capitaliser sur vos données clients.
Cartelis vous accompagne dans le cadrage et le déploiement d'une stratégie data et CRM vraiment impactante.
Analyse client, Choix des outils, Pilotage projet et Accompagnement opérationnel.
Prendre contact avec CartelisNn
NoSQL – Groupe de technologies de bases de données qui sont plus que des bases de données relationnelles
Neo4j – Système de gestion de base de données au code source libre basée sur les graphes, développé en Java
Nomad – Solution de programmation de HashiCorp
Normalisation – Méthode de prétraitement des données qui permet de réduire la complexité des modèles
Oo
Optimized Row Columnar (ORC) – Format de stockage de données orienté colonne libre et à code source ouvert de l’écosystème Apache Hadoop
Oozie – Planificateurde workflow qui permet de donner les tâches d’importation envers le HDFS et permet également de notifier le HDFS en termes de fichiers importés et exportés
OLAP – Traitement analytique, sans transactions, généralement pour les entrepôts de données
OLTP – Traitement transactionnel, avec propriétés ACID
ODS – Stockage de données opérationnelles, dont la finalité est similaire à celle d’un DW
Pp
PostgreSQL – La base de données open-source préférée des programmeurs
PostGIS – Extension pour le support de données géospatiales dans PostgreSQL
Percona – Offre des forks de MySQL, MongoDB etc. avec des fonctionnalités avancées
Parquet – Le format de stockage en colonne en open-source
Presto – Outil conçu pour interroger de grandes quantités de données à l’aide de requêtes SQL distribuées, utilisé notamment par Facebook
Plotly – Un outil de Data visualisation et d’analyse de données
Pipeline – Série de processus et de calculs pour transformer et transporter des données
Partitionnement – Division d’un tableau en plusieurs parties pour interroger moins de données
Pandas – La bibliothèque écrite pour le langage de programmation Python
Pub/Sub – Modèle de publication et d’abonnement pour le traitement des flux d’événements
Python – Le langage pour faire de l’ingénierie des données, de la science des données
Plan de requête – Le plan d’exécution à l’aide duquel le moteur de recherche exécute les requêtes
Query Optimizer – Composant de base de données qui optimise et réécrit les requêtes SQL
Query Engine – L’élément de logiciel qui exécute des requêtes sur un ensemble de données
Rr
RDS – Service de base de données relationnelle gérée de l’AWS
RBAC – Accès aux systèmes basé sur le rôle et l’habilitation d’une personne
RabbitMQ – Logiciel d’agent de messages open source qui implémente le protocole AMQP
Redshift – La solution d’entreposage de données gérée la plus populaire, à l’échelle du pétaoctet
Redis – Solution de mise en cache populaire pour les applications
Redash – Un outil de visualisation idéal pour les rapports et analyses de base
Réplication – Faire des copies redondantes de bases de données pour le basculement, la répartition de la charge
RDD – Principale construction de traitement au sein de Spark. Pour en savoir plus, cliquez ici.
Ss
S3 – Le service de stockage dans le cloud le plus populaire, offert par AWS
SQL – Le langage que parlent les données
Sqoop – Transferts de données en masse vers et depuis Hadoop
Snappy – Compresseur/décompresseur de Google
Spark – Le grand moteur de traitement de données avec support SQL
Storm – Moteur de calcul en temps réel, open-source
Superset – L’outil de visualisation de données et de BI sur le web de Airbnb
Sharding – Division et stockage d’une base de données sur plusieurs machines
Storage Engine – Couche opérationnelle de stockage de données d’une base de données
Star Schema – Méthodologie populaire de conception d’entrepôts de données
Snowflake Schema – Méthodologie populaire de conception d’entrepôts de données
SCD – Valeurs des catégories de données qui changent lentement avec le temps, par exemple, la ville de résidence
Source unique de vérité – Source de données considérée comme reflétant la vérité sur l’entreprise
Site Reliability Engineer (SRE) – DevOps réimaginé par Google, ingénieur en fiabilité
Tt
Terraform – Outil qui permet de construire, modifier et versionner une infrastructure
Traitement par lots – Réalisation de nombreuses tâches en une seule fois, c’est-à-dire chargement de 100 millions d’enregistrements
Traitement distribué – Répartir les tâches et le processus sur différentes unités de calcul pour des résultats plus rapides
Temps quasi réel – Temps réel avec des retards uniquement dus à des contraintes physiques
Thrift – Un langage de définition d’interface (IDL) conçu pour la création et la définition de services pour de nombreux langages
Uu
Upload – Transférer des données d’un ordinateur local vers un ordinateur distant par un réseau informatique
Vv
Vertica – Est conçue pour être utilisée dans les entrepôts de données et autres applications complexes, faisant un usage intensif des requêtes
VoltDB – Base de données en mémoire avec des transactions sérialisées
Vault – Outil de programmation qui permet de créer, gérer et stocker les secrets propres à un projet de développement
Vue – Objet de base de données non persistant représenté par une requête SQL
Vue matérialisée – Le jeu de résultats de la requête stocké comme un objet de la base de données a persisté sur le disque
Ww
Workflow – Série d’activités nécessaires à l’exécution d’une tâche ou d’un travail
Xx
Rien ici.
Yy
YARN – Gestionnaire de ressources pour l’écosystème Hadoop (utilisé pour MapReduce et Spark)
Zz
Zookeeper – Service de gestion centralisée de la configuration
Si vous souhaitez approfondir vos connaissances sur un sujet précis, nous vous invitons fortement à parcourir ces articles :
Laisser un commentaire