ga4 analytics tracking data-quality

Les limites de GA4 que personne ne vous dit

Échantillonnage, seuils de confidentialité, cardinalité, modélisation : les contraintes structurelles de GA4 et ce qu'elles changent pour vos décisions

Robin Guedoit 7 min de lecture
Sommaire de l'article

GA4 s'est imposé comme l'outil analytics de référence depuis la fin d'Universal Analytics. Mais derrière une interface modernisée et une promesse de mesure cross-device, l'outil cache une série de contraintes structurelles que peu de ressources documentent clairement. Résultat : des équipes marketing qui prennent des décisions sur des chiffres qui, silencieusement, ne reflètent plus tout à fait la réalité.

Ce n'est pas une question de mauvaise configuration. C'est une question de compréhension des mécanismes internes de GA4 — échantillonnage, cardinalité, seuils de confidentialité, modélisation, rétention — et de leurs impacts concrets sur vos rapports.

Pourquoi ces limites sont-elles si peu visibles ?

GA4 ne vous prévient pas toujours. L'icône de qualité des données — ce petit symbole discret en haut de certains rapports — est le seul signal que quelque chose ne va pas. Encore faut-il savoir la chercher, comprendre ce qu'elle indique, et surtout mesurer l'ampleur de l'impact.

Pour un CMO ou un responsable acquisition, la conséquence est directe : des CVR, des CPA ou des ROAS calculés sur une base de données partiellement dégradée. Les décisions d'investissement qui s'ensuivent sont potentiellement faussées.

Voici les six limites structurelles à connaître absolument.

1. L'échantillonnage : quand GA4 n'analyse qu'une partie de vos données

L'échantillonnage se produit lorsque le nombre d'événements utilisés pour générer un rapport dépasse un quota défini. Dans ce cas, GA4 analyse un sous-ensemble de données et extrapole les résultats pour représenter l'ensemble du trafic.

Pour une propriété GA4 standard, la limite est de 10 millions d'événements par requête dans Explorer. Pour une propriété GA4 360 (version payante), ce seuil monte à un milliard d'événements — avec une limite initiale de 100 millions par requête, ajustable selon le niveau de précision souhaité.

En pratique, cela touche principalement les rapports Explorer dès lors qu'on travaille sur des plages de dates longues ou des segments complexes. Depuis fin 2023, les rapports standards et l'API peuvent également être concernés.

Conséquence terrain : un rapport sur 6 mois qui affiche 78 % d'échantillonnage produit des tendances, pas des faits. Pour s'en débarrasser, on peut réduire la période d'analyse, simplifier les dimensions utilisées, ou basculer sur BigQuery — qui, lui, n'est pas sujet à l'échantillonnage.

2. La cardinalité : la ligne (other) qui avale vos données

La cardinalité désigne le nombre de valeurs uniques associées à une dimension. Quand ce nombre est trop élevé — typiquement au-delà de 500 valeurs uniques par dimension dans une journée — GA4 agrège les valeurs les moins fréquentes dans une ligne intitulée "(other)".

La limite de lignes dans la plupart des rapports standards est de 50 000 pour une propriété GA4 standard, et d'un million pour GA4 360. Dès qu'on ajoute une dimension secondaire, un filtre ou une comparaison, cette limite descend à 2 millions de lignes.

Ce problème touche particulièrement les sites avec de nombreuses URLs dynamiques (e-commerce, médias, SaaS avec interfaces personnalisées), mais aussi toute propriété qui utilise des dimensions personnalisées à cardinalité élevée — comme un identifiant de session ou une variation de test A/B.

La bonne pratique documentée par Google est de ne pas enregistrer des dimensions personnalisées à cardinalité élevée dans les propriétés — les envoyer en paramètres d'événement et traiter ces données directement dans BigQuery si nécessaire.

Vos décisions reposent-elles sur des chiffres GA4 fiables ?

30 minutes pour repérer où l'échantillonnage et les seuils faussent vos rapports clés.

Réserver un audit flash

3. Les seuils de confidentialité : des lignes qui disparaissent sans prévenir

Lorsque les Signaux Google sont activés dans une propriété GA4, des seuils de confidentialité s'appliquent automatiquement. Ces seuils suppriment les lignes présentant de faibles volumes dans les rapports — typiquement sur les dimensions source/support ou chemin de page — pour protéger l'anonymat des utilisateurs.

Ces seuils ne peuvent pas être ajustés. Ils s'appliquent à toutes les surfaces de reporting sauf BigQuery. Résultat : certaines sources d'acquisition peu volumineuses disparaissent simplement de vos rapports, sans que vous en soyez informé explicitement.

Depuis octobre 2023, il est possible d'exclure les Signaux Google de l'identité de reporting tout en conservant leurs bénéfices (audiences Google Ads, mesure cross-device) pour éviter ce problème. Sinon, passer l'identité de reporting sur "Basé sur l'appareil" supprime ces seuils — mais retire aussi les avantages cross-device.

4. La modélisation des conversions : des données reconstruites dans vos rapports

GA4 intègre nativement une couche de modélisation des conversions. Son rôle : combler les lacunes créées par le refus des cookies, les restrictions des navigateurs (ITP d'Apple notamment), et les comportements multi-appareils.

Cette modélisation ne modifie pas le nombre total de conversions enregistrées, mais elle réattribue des conversions — normalement créditées au canal "Direct" — vers d'autres canaux d'acquisition. BigQuery, lui, stocke les données brutes sans cette réattribution : les chiffres de conversions par canal divergent donc structurellement entre l'interface GA4 et BigQuery.

Aucune icône de qualité des données ne vous prévient de l'activation de cette modélisation. La seule façon de la désactiver est de choisir l'identité de reporting "Observée".

5. La modélisation du comportement : des utilisateurs que vous n'avez pas réellement vus

Distincte de la modélisation des conversions, la modélisation du comportement reconstitue le comportement des utilisateurs qui ont refusé les cookies analytics. Elle repose sur le Consent Mode de Google et n'est active que si votre propriété reçoit au moins 1 000 refus par jour pendant 7 jours consécutifs et 1 000 acceptations par jour sur 7 des 28 derniers jours.

Quand elle est active, le nombre de sessions et d'utilisateurs est plus élevé dans les rapports standards que dans BigQuery — qui, lui, ne contient que les données observées, sans reconstruction comportementale.

Pour les équipes qui pilotent des budgets media, cela peut créer des distorsions invisibles dans le suivi du CPA ou du CPL sur des marchés où le taux de refus des cookies est élevé.

Besoin de reconstruire un système data fiable ?

On audite, répare et documente votre stack tracking en 4 à 6 semaines.

Voir la méthode Data Detective

6. Les surfaces de reporting ne parlent pas le même langage

C'est peut-être la limite la plus sous-estimée. GA4 dispose de quatre "surfaces de reporting" — les rapports standards, l'API Data, Explorer, et BigQuery — qui ne sont pas soumises aux mêmes règles de traitement des données.

Les rapports standards et l'API Data utilisent des données agrégées. Ils sont soumis à la cardinalité, aux seuils de confidentialité, à la modélisation des conversions et du comportement, et depuis fin 2023, potentiellement à l'échantillonnage. Explorer travaille sur des données brutes mais est exposé à l'échantillonnage et aux seuils. BigQuery seul est exempt de cardinalité, d'échantillonnage et de modélisation — mais ne contient pas les données des Signaux Google.

Conséquence directe : si votre équipe pilote les KPIs via Looker Studio connecté à l'API GA4, elle travaille sur des données agrégées soumises aux mêmes contraintes que les rapports standards. Ce n'est pas BigQuery, même si on l'appelle "données brutes" dans les réunions de pilotage.

Ce que tout cela signifie concrètement pour votre pilotage

Ces six mécanismes s'activent souvent simultanément, sans se signaler distinctement. Un rapport de performance mensuel peut cumuler de l'échantillonnage sur les explorations, de la cardinalité sur les rapports standards, des seuils sur les sources d'acquisition, et de la modélisation sur les conversions.

Le résultat visible : des chiffres cohérents en apparence, avec des tendances plausibles, mais construits sur des données partiellement reconstruites ou incomplètes. Pour une PME qui décide de doubler son budget sur un canal parce que GA4 l'indique comme le plus performant, l'enjeu est réel.

La réponse ne consiste pas à abandonner GA4 — c'est un outil puissant quand il est bien configuré et bien interprété. Elle consiste à comprendre ses limites, à construire une stack data adaptée (BigQuery pour les analyses critiques, configuration propre des dimensions personnalisées, identité de reporting ajustée), et à documenter ses règles de lecture pour que toute l'équipe travaille avec le même référentiel.

C'est exactement ce que nous aidons nos clients à mettre en place chez Data Detective.

Robin Guedoit
À propos de l'auteur
Robin Guedoit
Fondateur Data Détective

Spécialiste data marketing. J'audite, répare et construis des systèmes data qui permettent de piloter efficacement votre marketing et d'exploiter à 100% vos données.

Reprenez confiance dans vos chiffres GA4

Chez Data Detective, on aide les équipes marketing à retrouver confiance dans leurs données GA4. Parlons de votre situation.

Réserver un appel découverte