Comment estimer sa part de trafic non captée et redresser sa donnée (via GA et BigQuery)

Sommaire

  1. Le cadre légal et son impact sur le monde de l’analytics
  2. Pourquoi redresser sa donnée ?
  3. Quelles solutions pour estimer sa perte de trafic ?
  4. Comment rectifier sa donnée avec BigQuery, GA et son data warehouse
  5. Conclusion

#1 Le cadre légal et son impact sur le monde de l’analytics

Ces dernières années le cadre réglementaire autour du consentement de l’utilisateur à la collecte de ses données s’est resserré. Depuis l’apparition de la loi européenne du Règlement général sur la protection des données (RGPD) en 2017, et la montée en puissance de la CNIL, organisme français chargé de veiller au respect du RGDP, l’utilisation des cookies et du tracking en général est devenue de plus en plus encadrée.  

D’abord floues et nouvelles, les règles du jeu sur ce que les sites pouvaient se permettre en termes de collecte de données se sont progressivement éclaircies au fur et à mesure des recommandations de la CNIL et des sanctions infligées aux entreprises ne respectant pas les consignes. D’ailleurs l’année 2021 a été une année record pour la CNIL avec 18 sanctions pour un montant total de 214 Millions d’euros.

La dernière grosse évolution date d’Avril 2021 où il a été demandé aux sites web de rendre leur bannière cookie plus claire : 

  • L’internaute doit être informé de l’objectif poursuivi par les cookies (nécessaires au fonctionnement du site, analytics, marketing etc)
  • Le tracking ne peut avoir lieu que si l’utilisateur clique sur ‘Accepter’ dans le bandeau cookie. Tout autre action est considérée comme un refus de consentement.
  • Le bouton ‘Refuser’ doit être aussi visible et accessible que le bouton ‘Accepter’

Vous pouvez retrouver toutes les dernières modifications sur le site de la CNIL, via cet article très clair. Si le mot d’ordre reste inchangé : il faut obtenir le consentement de l’utilisateur pour collecter sa donnée, l’évolution d’Avril 2021 a forcé de nombreux sites web à se mettre en conformité.

Les répercussions de cette mise en conformité font que les outils de Web Analyse collectent moins de données qu’auparavant. Plusieurs études ont estimé que la perte de trafic se situe entre 15% et 30%. Je précise qu’on parle de perte de trafic collecté car  le trafic réel lui n’est pas impacté, seulement la part des gens qui n’acceptent pas que l’on collecte leur donnée n’apparait pas dans vos outils d’analyse. 

Alors oui, il existe des solutions de web analyse exemptées du recueil du consentement de l’utilisateur car ne collectant pas d’informations à caractère personnel. C’est le cas de Matomo et d’AT Internet notamment. Mais pour la vaste majorité des stacks d’outils analytics qui ne sont pas exemptés, il y a un delta entre trafic collecté et trafic réel. 

Il est d’ailleurs bon de rappeler que les outils de web analyse permettent de suivre des tendances et non pas d’établir une mesure absolue de votre audience. Il y aura toujours des utilisateurs avec des adblockers, des navigateurs obscurs et votre tracking n’est pas infaillible non plus; toutes ces raisons font que votre outil d’analytics ne captera jamais l’intégralité de votre audience. 

#2 Pourquoi redresser sa donnée ?

Les modifications successives de la gestion du consentement de l’utilisateur rendent difficile l’analyse de deux périodes différentes. Si suite à votre mise en conformité RGPD vous perdez 15% de votre trafic, vos performances de l’année en cours vont paraître pâles comparées à l’année précédente. En redressant la donnée on arrive à comparer des périodes avant/après le déploiement d’un bandeau cookie plus strict par exemple.

Une autre raison de redresser ses données est de connaître sa part de trafic non captée. Si on lit souvent les chiffres de 15 à 30% de visites non captées, il peut y avoir de grandes disparités d’un secteur ou d’une marque à l’autre. Il est bon d’avoir en tête l’ordre de grandeur de trafic non capté quand on regarde ses chiffres dans son outil d’analyse.

#3 Quelles solutions pour estimer sa perte de trafic ?

Plusieurs méthodes me viennent en tête pour estimer sa part de trafic qui ne donnent pas son consentement :

  • Via les outils agréés par le CNIL et exempté du recueil de consentement.  La liste des solutions est disponible sur le site de la CNIL. Concrètement ces solutions permettent de mesurer la totalité de votre audience et peuvent également vous informer du nombre d’utilisateurs qui refusent les cookies (qui sont demandés pour activer d’autres solutions marketing par exemple). C’est le cas pour les utilisateurs de AT Internet qui ont accès à un rapport qui vous donne cette information : c’est le Privacy Analysis. Dans ce rapport il est possible de mesurer le trafic non capté, ou plus précisément ce trafic est capté mais il est exclu dans les autres rapports car l’utilisateur n’a pas donné son consentement. Ce Privacy Analytics permet également de segmenter ces utilisateurs par mécanisme d’exclusion : no cookie consent, no cookie browser, opt-out, custom exclusion. 
  • En théorie on pourrait également faire une analyse de logs. Une analyse de log est une pratique utilisée en SEO notamment où on analyse les fichiers de logs qui sont sur le serveur d’un site web. Les logs sont une sorte d’historique des interactions effectuées avec le site web. Ils contiennent des informations comme l’adresse IP, la date et l’heure de la requête, la réponse envoyée à cette requête sous forme de code HTTP : 200, 300, 404 etc. On pourrait imaginer une estimation de son trafic en se basant sur les logs du serveur car même un utilisateur qui n’a pas donné son consentement, a quand même interagit avec votre site et donc laissé une trace dans le fichier de log.

Mais en pratique il y a plusieurs grosses limites à cette méthode : 

  • La complexité technique des fichiers de logs qui rendent l’analyse difficile.
  • Il n’y a pas que des humains qui interagissent avec votre site mais également de nombreux robots, aka bots. Pas facile de différencier le trafic réel de vos utilisateurs et celui générer par des machines.
  • L’utilisation de cache qui permet d’afficher des pages web sans faire de requêtes au serveur.
  • Les adresses IP dynamiques qui rendent difficile de distinguer les utilisateurs.

Pour toutes ces raisons l’analyse de logs pour mesurer son trafic est une pratique très rare dans le monde de l’analytics. A ma connaissance seul Matomo propose cette fonctionnalité. 

  • On peut aussi comparer les transactions enregistrées entre notre base de données et notre outil analytics. Toutes les transactions effectuées avec succès sont enregistrées dans une base de données, et leur nombre est logiquement plus élevé que dans votre outil analytics dans lequel il va manquer les transactions des utilisateurs n’ayant pas donné leur consentement. L’écart entre ces deux nombres vous donne une estimation du trafic non capté. On devrait retomber sur notre 15 à 30% d’écart.

#4 Comment rectifier sa donnée avec BigQuery, GA & son data warehouse

Ici nous allons nous intéresser sur la dernière méthode, la plus simple à mettre en place, pour les utilisateurs de GA et BigQuery. 

Plus précisément, nous allons voir comment rectifier ses données GA en comparant le delta entre transaction en base de données et transaction dans GA, en passant par BigQuery. Avec l’arrivée de GA4 et l’accès gratuit à la donnée GA dans BigQuery (dans la limite de 1TB de requête et 10 GB de stockage par mois), qui était préalablement uniquement réservé aux comptes premium de GA360, cette méthode de redressement va pouvoir être utilisée par un plus grand nombre d’utilisateurs à l’avenir.

Avant de se lancer il faut préciser la limite de cette méthode de redressement : on se base sur les meilleurs visiteurs. On peut penser que les utilisateurs qui acceptent vos cookies sont vos meilleurs utilisateurs, ceux qui vous font confiance, avec qui vous avez une relation de confiance et qui vous laissent utiliser leur donnée pour que vous puissiez améliorer votre site et leur expérience. A l’inverse, ceux qui refusent les cookies vont être les plus sceptiques, probablement les moins bons clients. Remplacer cette part de trafic manquante en se basant sur vos meilleurs utilisateurs peut vous donner une vision surgonflée, meilleure que la réalité. 

Avec cette limite en tête, regardons comment rectifier notre donnée.

Étape 1: Alimenter une table avec les transactions enregistrées dans GA et en base de données.

Le prérequis est d’avoir sa donnée GA exportée automatiquement dans BigQuery et d’avoir également une table avec les transactions journalières enregistrées dans votre base de données. Vous pouvez vous rapprocher de votre Data Engineer pour effectuer ce prérequis.  

Avec ces informations nous allons pouvoir créer une 3ème table avec les KPIs suivants :

  • Transaction enregistrées dans la base de données (commandes dwh sur la screenshot en dessous)
  • Transaction enregistrées dans GA (transactions_ga)
  • Taux = Transaction GA / Transaction base de données (tx_transaction)

Exemple de rendu de la table, nommée taux_dwh_ga_daily dans cet exemple

Ce taux va nous permettre dans un deuxième temps de redresser la donnée de GA, en reconstruisant les rapports de l’interface Google Analytics que l’on veut suivre, avec la donnée stockée dans BigQuery.

Étape 2: Créer un rapport Google Analytics dans BigQuery

Avec la donnée brute de GA qui se déverse dans BigQuery, il est possible de recréer les rapports existants dans l’interface de Google Analytics, voir d’aller plus loin et de créer vos propres rapports personnalisés, de combiner d’autres sources de données comme le CRM, votre plateforme e-commerce, des données météos etc. 

Je vous recommande cet excellent article pour bien comprendre les bénéfices à utiliser BigQuery.

Ici nous allons prendre un simple exemple issu du rapport d’acquisition : les sessions par source et medium. Pour cela, il faut réaliser les points suivants :

1. Récupérer les sessions en partant de la table GA.

2. Récupérer le taux dans la table de redressement, ici taux_dwh_ga_daily via une jointure basée sur la date.

3. Multiplier les sessions de GA par le taux de redressement pour obtenir les sessions redressées.

La requête SQL

Le résultat de la requête

Et voilà ! Avec vos données redressées il ne reste plus qu’à vous brancher à l’outil de data visualisation de votre choix : Data Studio, Tableau, Looker, Qlik etc pour avoir votre rapport et commencer à analyser votre trafic sur des périodes englobant votre mise en conformité RGPD par exemple. 

Cette méthode n’est bien sûr pas limitée aux sessions et peut aussi s’appliquer à d’autres indicateurs comme les entrées, les visites uniques, les ajouts au panier, les évènements, le chiffre d’affaires etc. 

Conclusion

Si vous avez lu cet article jusqu’ici : félicitations et merci à vous !

L’essentiel à retenir est que le RGDP et les évolutions passées et à venir rendent difficile le suivi de son trafic dans le temps : on ne compare pas la même chose. Il faut s’y faire, les outils d’analytics captent moins de trafic qu’auparavant, ce qui renforce le postulat que ce sont des outils de suivi de tendance et non des sources de vérité absolue.   

Plusieurs méthodes existent pour redresser la donnée en se basant sur une estimation de la part de trafic non captée. Mais aucune de ces méthodes n’est infaillible et toutes ont leur limite. Il est important de bien comprendre ces limites pour pouvoir les expliquer ensuite aux clients des rapports que vous aurez construit avec la donnée redressée.

Enfin nous avons vu comment redresser la donnée de GA en se basant sur l’écart entre les transactions enregistrées dans GA et dans votre base de données. Tout ça en utilisant BigQuery comme entrepôt pour stocker votre donnée et calculer vos indicateurs. Cette méthode a l’avantage d’être simple à mettre en place, notamment pour les utilisateurs de GA4 qui bénéficient d’un export gratuit de leur donnée dans BigQuery. Sa limite est qu’elle remplace les “mauvais” utilisateurs par les “bons” utilisateurs qui acceptent de vous donner leur donnée.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Les derniers articles

Le 20/07/2022

Sommaire Conclusion Tous les éléments d’une propriété GA4 #1 L’assistant de configuration Bien que ce soit le premier lien de la propriété, l’assistant de configuration n’est pas vraiment une rubrique […]

Le 23/06/2022

Avec la fin annoncée d’Universal Analytics (UA) à l’été 2023, le passage à GA4 se concrètise pour de nombreuses entreprises.  Dans un article précédent j’évoquais les questions à se poser […]