Google Analytics pratique, dans certains cas et au-delà de certains seuils volumétriques, un échantillonnage des données. Si vous lisez cet article, vous savez déjà a priori de quoi il est question. C’est une méthode très ancienne, utilisée bien avant Google Analytics. Quand on souhaite déterminer le nombre d’arbres d’une forêt de 1 000 hectares, il suffit de compter le nombre d’arbres sur un hectare et de multiplier le tout par 1 000. Enfin, à une condition : que la répartition des arbres soit homogène sur toute la superficie. Ce qui n’est pas toujours le cas, et c’est là tout le problème de l’échantillonnage.
Si vous disposez de gros volumes de données (en provenance de votre site web, de votre application mobile…) et que vous utilisez Google Analytics pour les analyser, vous allez être confronté aux problèmes de l’échantillonnage et aux incertitudes que cette méthode peut introduire.
Comment contourner l’échantillonnage de données sur Google Analytics ? Nous allons vous donner plusieurs astuces pour y parvenir.
Sommaire
- Dans quels cas Google Analytics utilise-t-il l’échantillonnage de données ?
- Pourquoi l’échantillonnage de données peut poser problème ?
- 4 conseils pour contourner l’échantillonnage depuis l’interface de Google Analytics
- 3 autres conseils pour contourner l’échantillonnage de GA en utilisant des outils tiers
Dans quels cas Google Analytics utilise-t-il l’échantillonnage de données ?
Même les serveurs de Google ne peuvent pas toujours manipuler des volumes infinis de données en une période finie de temps. Et pourtant, plus c’est rapide, mieux c’est, the faster the better. C’est pour cette raison que Google Analytics utilise l’échantillonnage dans certains cas, afin de trouver un bon équilibre entre la précision et la rapidité de traitement. Pour savoir, sur un rapport donné, si Google Analytics utilise l’échantillonnage, il suffit de regarder en haut de votre rapport. Si Google indique que le rapport est basé sur moins de 100% des sessions, cela signifie que les données ont été échantillonnées.
Cela se produit souvent lorsque le volume de données sélectionné excède les 500 000 sessions. Mais attention, il n’y a pas que le nombre de sessions qui entre en ligne de compte. La profondeur des données entre aussi en jeu.
Découvrez 30 modèles de rapports Google Data Studio pour les marketeurs.
Les rapports par défaut / les rapports personnalisés
La majorité des rapports par défaut de Google Analytics – ceux auxquels vous pouvez accéder depuis le menu de gauche de l’interface – sont non échantillonnés. Pour chaque « vue », Google Analytics crée un ensemble de rapports pré-déterminés, composés d’une combinaisons de dimensions et de metrics prises à partir de l’ensemble des données. Les données de ces rapports sont traitées quotidiennement. Ce qui signifie que les metrics des rapports par défaut sont automatiquement calculées et prêtes à être affichées lorsque vous y accédez. Voici un exemple de rapport basé sur l’ensemble des données non échantillonnées :
Par contre, lorsque vous appliquez un segment, un filtre ou une dimension secondaire sur le rapport par défaut, Google Analytics doit gérer des requêtes ad-hoc, non-standards pour vous retourner les informations demandées. La même chose se produit lorsque vous créez des rapports personnalisés comprenant des dimensions et des metrics qui ne sont pas exploitées dans les rapports par défaut. Dans un premier temps, Google Analytics vérifie si la nouvelle requête peut être pleinement satisfaite par les agrégats de données déjà existants. Si ce n’est pas le cas, Google Analytics doit accéder aux données brutes pour calculer les informations demandées. Si la période que vous sélectionnez comprend plus de 500 000 sessions ou même moins, les rapports personnalisés peuvent présenter des données échantillonnées.
Voici un exemple de rapport basé sur des données échantillonnées :
Les rapports de flux
Pour les rapports de visualisation des flux, comme par exemple le rapport de flux de comportement ou les rapports de flux de l’objectif, Google Analytics ne peut les générer que jusqu’à 100 000 sessions au maximum pour la plage de dates sélectionnée. Au-delà, les données sont toujours échantillonnées. Dans la mesure où les rapports de flux se basent sur des échantillons différents de ceux utilisés pour les rapports par défaut, il y a souvent des contradictions dans les métriques présentées. Cela signifie que le nombre total de visites, d’utilisateurs ou de sorties peut être différent dans les rapports généraux de comportement et de conversion d’une part, et les rapports de flux de comportement et d’objectif d’autre part.
Voici un exemple de rapport de flux :
Un dernier mot sur les entonnoirs multicanaux et les rapports d’attribution. Dans ces rapports, les données ne sont pas échantillonnées tant que vous ne les modifiez pas. Sinon, Google Analytics vous affichera un échantillon de 1 000 000 de conversions.
Pourquoi l’échantillonnage de données peut poser problème ?
Si l’échantillon totalise, disons, 90% des sessions, alors il y a de fortes probabilités que vos rapports reflètent bien la réalité. Mais, évidemment, plus l’échantillon est petit, plus les problèmes de précision se posent. Si vous voyez 100 sessions dans un rapport basé sur un échantillon d’1%, cela signifie que les résultats se basent sur…une session, multipliée par 100. Les 99 autres sessions ne sont pas du tout analysées, elles passent sous le radar. On voit les problèmes que cela pose. La confiance que vous pouvez accorder à vos rapports se trouve bien réduite.
La précision des données peut ne pas constituer un problème majeur lorsqu’on ne s’intéresse qu’au nombre de sessions. Mais quand on s’intéresse à des données liées à des transactions, comme par exemple rapports d’objectifs, de conversions, de revenus, l’échantillonnage peut conduire à faire de graves erreurs d’analyse et à prendre de mauvaises décisions (décider par exemple de continuer d’investir de la publicité sur un canal, ou l’inverse).
Découvrez notre guide complet pour tracker vos conversions correctement grâce aux paramètres UTM.
Si vous pensez que l’échantillonnage des données représente un problème pour vous, voici quelques conseils pour le contourner et fiabiliser vos données.
Contactez Cartelis
pour enfin capitaliser sur vos données clients.
Cartelis vous accompagne dans le cadrage et le déploiement d'une stratégie data et CRM vraiment impactante.
Analyse client, Choix des outils, Pilotage projet et Accompagnement opérationnel.
Prendre contact avec Cartelis4 conseils pour contourner l’échantillonnage depuis l’interface de Google Analytics
Voici 4 conseils pour contourner l’échantillonnage en restant dans l’interface de votre compte Google Analytics, sans avoir à utiliser des outils tiers.
#1 Raccourcir la plage de dates pour rester sous le seuil d’échantillonnage
Plus la plage de dates est longue, plus il y a de données à traiter, par définition. Et donc, plus le risque d’échantillonnage est élevé. Inversement, raccourcir les plages de dates vous permettra d’obtenir des données plus précises. C’est assez intuitif. Par exemple, si vous site web a moins de 500 000 visites par mois, vos rapports risquent d’être échantillonnés si vous choisissez une plage de dates de plusieurs mois. Essayez plutôt de choisir une plage de dates d’un mois pour éviter tout risque d’échantillonnage. Nous verrons plus tard que vous pouvez adopter une approche plus avancée, en agrégeant les données de vos rapports mensuels dans une autre interface que Google Analytics.
#2 Eviter d’utiliser les rapports personnalisés
Comme nous l’avons dit plus haut, la plupart des rapports par défaut de Google Analytics ne sont pas soumis à l’échantillonnage. On peut être tenté d’utiliser des rapports personnalisés, alors que parfois les rapports par défaut font le même travail. Une méthode pour contourner l’échantillonnage est de se limiter dans la création de rapports personnalisés (avec segments et dimensions secondaires personnalisés).
Prenons un exemple. Vous voulez estimer le trafic organique de votre site web. Vous pouvez le faire en appliquant le segment « Organic » sur votre rapport de Landing Pages, ou aller voir le rapport accessible dans Acquisition > Tout le trafic > Canaux, et en faisant de « Landing Page » la dimension principale.
Si vous choisissez la première solution, le rapport a des chances d’être échantillonnés. Si vous choisissez la deuxième solution, vous serez sûr que le rapport ne sera pas échantillonné. Il faut malgré tout signaler, pour être tout à fait complet, que les rapports par défaut stockent un maximum de 50 000 lignes par jour, contre 1 000 000 de lignes dans les rapports personnalisés. Quand, par le jeu des combinaisons de dimensions, le nombre de lignes excède cette limite, les données sont groupées dans une ligne unique labellisée « other ».
#3 Appliquer des filtres de vue pour n’afficher que les données dont vous avez le plus souvent besoin
Google Analytics échantillonne les données au niveau de la « vue », une fois que des filtres de vue sont appliqués. Cela signifie que l’échantillon est prix à partir des sessions filtrées. Reprenons l’exemple précédent. Vous souhaitez savoir combien de visiteurs atterrissent sur votre site web via les moteurs de recherche (organic search). Utiliser le segment « trafic organique » peut conduire à créer un échantillon. Si vous le faites souvent, vous pouvez créer une vue dupliquée et ensuite appliquer un filtre de vue afin que cette nouvelle vue créée n’affiche que le trafic organique.
Découvrez si vous avez besoin d’un audit de votre compte Google Analytics.
#4 Utiliser une propriété GA différente pour chaque site web
Souvent, on a tendance à tracker plusieurs sites web dans une seule propriété Google Analytics et à utiliser les filtres pour analyser les données site par site. Plus vous collectez de données dans une propriété, plus le risque est grand que vos rapports soient échantillonnés. Il peut être intéressant d’utiliser une propriété par site web. Cela réduit mécaniquement le volume de trafic par propriété et donc le risque d’échantillonnage.
3 autres conseils pour contourner l’échantillonnage de GA en utilisant des outils tiers
Il est possible de contourner l’échantillonnage en exportant les données de votre compte Google Analytics. Rappelons, par contre, qu’il n’est pas possible d’exporter les données démographiques brutes – ces données restent dans Google Analytics.
#1 Utiliser l’API de Google Analytics
La première solution consiste à accéder aux données de Google Analytics sans passer par l’interface, mais en utilisant l’API de GA. L’API vous permet de spécifier le volume de données que vous voulez extraire par requête, ce qui vous permet d’éviter de dépasser les seuils d’échantillonnage. Si vous gérez un site web à très fort trafic et que vos données sont massivement échantillonnées, cela signifie que vous devrez exécuter des centaines de requêtes pour extraire toutes les données dont vous avez besoin. Avec l’API, vous pouvez exécuter 50 000 requêtes par projet et par jour.
Découvrez notre comparatif des modèles d’attribution (du Last Click au Data Driven).
Le principal inconvénient de cette approche, c’est que c’est potentiellement très chronophage pour vos équipes et que cela demande des compétences techniques assez avancées. C’est difficilement faisable et même franchement impossible d’exécuter manuellement des milliers de requêtes par jour – des compétences en programmation sont donc nécessaires pour automatiser le traitement. Par ailleurs, avec l’API, vous êtes limité à 7 dimensions et 10 métriques quelle que soit la requête, chaque requête doit toujours avoir au moins une métrique et certaines dimensions ne peuvent pas être appliquées ensemble dans une requête. Voici le type d’erreur qui peut survenir si vous utilisez plus de 7 dimensions :
#2 Utiliser le Spreadsheet Add-on de Google Analytics
L’add-on officiel utilise l’API de Google Analytics, ce qui vous permet de faire des requêtes sur les données de votre compte Google Analytics et de les importer dans un Google Sheets sans avoir à écrire une seule ligne de code. L’add-on permet d’extraire automatiquement les données dont vous avez besoin d’une ou plusieurs vues Google Analytics et de manipuler les données depuis des feuilles de calcul Google Sheets. Avec cet add-on, vous pouvez combiner jusqu’à 9 dimensions. A noter cependant que Google Sheets a aussi ses limites propres. Vous ne pouvez pas aller au-delà de 400 000 cellules par fichier GSheets, ce qui, dans les faits, rend difficile le traitement d’énormes volumes de données.
#3 Adopter la version premium de Google Analytics : Google Analytics 360
Google Analytics 360 permet de résoudre la plupart des problèmes liés à l’échantillonnage des données :
- Le seuil d’échantillonnage passe à 100 millions de sessions par vue, contre, rappelons-le, 500 000 sessions par propriété dans la version standard.
- Les rapports non échantillonnés avec plus de 3 millions de lignes de données peuvent être générés sur demande ou sur une base période.
- Les rapports personnalisés peuvent gérés jusqu’à 1 million de lignes par jour et donner un accès instantané aux données jusqu’à 6 dimensions, 25 métriques, 5 filtres et 4 segments combinés.
Découvrez notre comparaison entre Google Analytics Standard et Google Analytics 360.
Par ailleurs, Google Analytics 360 peut être intégré à l’entrepôt de données Google BigQuery. Cette intégration permet d’importer automatiquement dans BigQuery des données non échantillonnées et en quasi temps-réel en provenance de Google Analytics, et d’exécuter des requêtes SQL pour créer des rapports très avancés en seulement quelques secondes. Pour les grosses entreprises gérant de gros volumes de données (avec un site web générant plus de 10 millions de hits par mois), Google Analytics 360 est donc une solution à envisager.
Comme vous le voyez, il existe plusieurs techniques, plus ou moins complexes et onéreuses à mettre en place, pour contourner l’échantillonnage de données utilisé dans Google Analytics. Si vous connaissez d’autres astuces, n’hésitez pas à nous les partager !
Laisser un commentaire