Pourquoi mesurer la qualité des données ?
Si vous lisez cet article, c’est que vous avez à minima conscience de l’importance de la qualité des données. Mais laissez-moi vous convaincre de l’importance de mesurer cette qualité.
Vous savez probablement déjà que des données de mauvaise qualité peuvent nuire à vos opérations, fausser vos analyses et compromettre vos décisions. Cependant, sans un suivi rigoureux, il est difficile de savoir à quel point vos données sont fiables et comment elles influencent les résultats de votre entreprise.
Mesurer la qualité des données, c’est prendre le contrôle. Cela vous permet non seulement d’identifier les points faibles, mais aussi de comprendre comment ces failles affectent vos processus. Que ce soit un manque de précision, des informations obsolètes ou des doublons, chaque problème a un impact, souvent invisible à première vue, mais qui peut s'amplifier au fil du temps.
En surveillant les bons indicateurs, vous avez la capacité d’agir avant qu'il ne soit trop tard. Cela vous permet d’optimiser vos processus, d'améliorer la satisfaction client, et même de réduire les coûts liés aux erreurs de données. En d’autres termes, mesurer la qualité des données, c’est assurer la pérennité de vos décisions et la fiabilité de vos opérations.
Pour définitivement vous convaincre, voici 4 raisons de mesurer la qualité des données :
- Identifier les domaines à améliorer : les KPI vous montrent où vos données posent problème, que ce soit un fort taux d’erreurs ou des informations manquantes. Cela vous permet d'agir là où c'est nécessaire, en ayant une vision claire des priorités.
- Comprendre l’efficacité des processus : des indicateurs comme les délais de traitement ou le taux d’erreurs permettent d’évaluer si vos processus internes sont efficaces. Un suivi régulier vous aide à ajuster vos méthodes de travail pour obtenir de meilleurs résultats.
- Développer des solutions adaptées : dans des secteurs comme la production, analyser la qualité des données permet de prendre des décisions stratégiques, comme l’investissement dans de nouveaux outils ou matériaux pour réduire les erreurs.
- Réduire les coûts : des données de mauvaise qualité génèrent des coûts cachés, comme les retours client, les retouches ou encore la gestion de plaintes. En surveillant de près ces indicateurs, vous pouvez anticiper les problèmes et réduire les frais liés à des erreurs de données.
En fin de compte, mesurer la qualité des données, c’est se donner les moyens de prendre des décisions éclairées et d’éviter les mauvaises surprises. C’est un gage de confiance dans vos processus et vos résultats. Cela vous donne un cadre objectif, en évitant que celles-ci ne soient influencées par des suppositions ou des préjugés.
Qu’est-ce qu’un KPI Data Quality ?
Un KPI de qualité des données est un indicateur qui permet de mesurer la fiabilité et la santé de vos données. Il sert à évaluer si les informations sur lesquelles vous vous basez sont conformes aux exigences définies, qu’il s’agisse de critères légaux, commerciaux ou techniques.
Toutefois, il ne s’agit pas de mesurer tous les aspects de toutes les données. Il est important de choisir les bons KPI, en fonction de ce qui est réellement important pour votre organisation.
Par exemple, si 10 % des enregistrements clients dans une base marketing manquent d’un prénom, cela peut ne pas être critique. Mais si 4 % des adresses postales sont incorrectes, cela peut entraîner des problèmes importants, comme des courriers non distribués ou des factures non reçues. Ces erreurs peuvent avoir un impact financier considérable, surtout lorsqu’elles se produisent à grande échelle.
Choisir les bons KPI vous aide à vous concentrer sur ce qui compte réellement et à améliorer la qualité des données là où cela a le plus de valeur pour votre organisation.
Les indicateurs de qualité des données sont les mesures que les équipes de données utilisent pour surveiller et communiquer l'état de leurs données et de leurs pipelines aux parties prenantes. Lorsqu'ils sont choisis avec soin et gérés correctement, de bons indicateurs de qualité des données vous aideront non seulement à améliorer la fiabilité de vos actifs de données, mais ils peuvent également contribuer à la confiance dans les données au sein de votre organisation.
Liste des KPI pour mesurer la qualité des données
Une fois les données à analyser identifiées, l’étape suivante consiste à définir les aspects de leur qualité qui nécessitent une mesure.
Historiquement, de nombreuses dimensions de qualité des données ont été adoptées, telles que l’exactitude, la validité, l’exhaustivité, la cohérence, la fiabilité, l’actualité, l’unicité, l’accessibilité, la confidentialité, la pertinence, l’intégrité, … etc.
Cependant, il n’existe pas de normalisation de leurs noms ou de leurs descriptions.
Une étude complète portant sur plus de 60 dimensions a été menée par DAMA NL Foundations et publiée dans DDQ-Research-2020 dans le but de progresser vers une plus grande normalisation.
On les appelle dimensions primaires ou critiques.
Bien que les dimensions principales ne fassent pas l’objet d’un consensus universel, même parmi les professionnels de la qualité des données, six dimensions sont largement acceptées comme dimensions principales :
- Exhaustivité : toutes les informations requises pour les processus métiers sont-elles présentes ?
- Unicité : y a-t-il des doublons qui pourraient créer de la confusion ?
- Actualité : les données sont-elles suffisamment récentes pour être pertinentes ?
- Validité : les données sont-elles conformes aux règles métiers et aux formats prédéfinis ?
- Précision : reflètent-elles fidèlement le monde réel ?
- Cohérence : les données sont-elles identiques et cohérentes, quelle que soit leur source ?
Exhaustivité
L'exhaustivité, souvent définie comme le pourcentage de valeurs non nulles dans les données, est l'une des mesures les plus élémentaires.
Cela signifie simplement de vérifier si toutes les informations nécessaires sont présentes dans vos bases de données. Alors, complet par rapport à quoi ? Étant donné que les données sont renseignées à différents niveaux, il existe différentes manières de calculer cela.
- Ensemble de données/base de données : il s’agit de vérifier si la totalité des données attendues est présente dans l'ensemble de données ou la base de données. Par exemple, si une base de données clients contient historiquement 100 000 enregistrements mensuels et qu’en un mois, seuls 75 000 enregistrements sont présents, cela reflète une incomplétude à 25 %.
- Table/schéma : pour chaque table, on peut mesurer la complétude des données en comparant le nombre de lignes et d'attributs attendus avec les données présentes. Par exemple, dans une table des commandes, si vous attendez que chaque commande ait un client associé, une adresse de livraison et un montant total, mais que 10 % des commandes manquent d’une adresse de livraison, cela indique un taux d’incomplétude à ce niveau.
- Métadonnées : il s'agit de mesurer le degré de complétude des informations techniques et commerciales des métadonnées. Typiquement, cela inclut des champs comme les descriptions, les balises de sécurité, les dates de création. Par exemple, si sur 500 jeux de données dans votre catalogue, 50 n’ont pas de description, votre taux de complétude des métadonnées sera de 90 %.
- Enregistrements : cette mesure concerne le nombre total d’enregistrements dans un ensemble de données. Les attentes sont basées sur des tendances historiques ou sur la lignée des différentes sources de données dans le pipeline. Par exemple, dans un pipeline de traitement, si vous attendez 10 000 transactions par jour mais que seulement 9 500 sont présentes, il manque 500 enregistrements, soit un taux d’incomplétude de 5 %.
- Attributs : le nombre total d’attributs renseignés dans une définition de schéma doit correspondre aux exigences métier. Ce KPI permet de vérifier que le schéma est bien complet sur les différentes sources de données, et peut être suivi via la lignée des schémas. Par exemple, une table clients dans BigQuery pourrait comporter 18 attributs, alors que Cassandra n’en aurait que 16, ce qui pourrait indiquer une discordance de schéma.
- Valeur : il s’agit du nombre total de valeurs renseignées pour les attributs sur l’ensemble des lignes d'une table. Par exemple, si une table contient 10 lignes avec 5 attributs, cela correspond à 50 valeurs à vérifier.
- Valeur d'attribut spécifique : le nombre total de valeurs renseignées pour un attribut particulier (par exemple, le taux de remplissage des adresses e-mail dans un fichier clients). Par exemple, si sur 100 000 clients, 80 % ont une adresse e-mail renseignée, cela signale un taux d’incomplétude de 20 % pour cet attribut.
L’exhaustivité peut être mesurée par des vérifications simples, comme la détection de valeurs nulles au sein de la base de données. Les proxys de valeurs nulles peuvent inclure des entrées comme "000-000-000", "N/A", "Non défini", ou encore "NA".
Le taux d’exhaustivité se calcule souvent en pourcentage pour évaluer rapidement la complétude des données.
Unicité
L’unicité mesure le pourcentage d’enregistrements dans une base de données qui peuvent être identifiés de manière unique à l’aide d’une clé prédéfinie, comme une clé primaire. Un faible taux d’unicité reflète la présence de doublons, ce qui peut compromettre la qualité des données et entraîner des analyses erronées.
La formule pour calculer l'unicité est la suivante :
Unicité = 1− (nombre de clés dupliquées/ nombre total d'enregistrements)
Voici des exemples de KPI concrets pour mesurer l'unicité et ses impacts :
- Taux de duplication des clés primaires : mesurez le pourcentage d’enregistrements avec des clés primaires dupliquées dans une base de données clients. Un KPI pertinent pourrait fixer un seuil de tolérance à 0,5 % de doublons. Si ce taux est dépassé, cela indiquerait un besoin urgent de nettoyage des données pour éviter des erreurs de facturation ou des doublons dans les campagnes marketing.
- Taux de duplication par clé secondaire : dans une base de données produits, le KPI pourrait suivre le pourcentage d’enregistrements avec des valeurs de nom de produit identiques mais avec des codes de produit différents. Un objectif serait d'avoir un taux de duplication inférieur à 1 %. Un taux plus élevé pourrait entraîner des erreurs dans le suivi des stocks ou dans la gestion des commandes.
- Taux de détection des faux doublons : ce KPI mesure le pourcentage d'enregistrements qui semblent être des doublons, mais qui, après vérification, sont en réalité distincts. Par exemple, deux clients ayant le même nom et adresse pourraient être détectés comme doublons. Un taux élevé de faux doublons (par exemple supérieur à 3 %) pourrait indiquer un besoin d'amélioration dans les processus de validation des données.
- Taux de correction des doublons : mesurez combien de doublons identifiés dans une base de données ont été corrigés dans un délai donné (par exemple, dans les 30 jours suivant leur détection). Un objectif de correction pourrait être de 95 % de doublons résolus dans ce délai, afin de maintenir la qualité des données et éviter des problèmes opérationnels.
Actualité
L’actualité des données fait référence à la rapidité avec laquelle les données sont mises à jour et disponibles. Les données sont considérées comme "fraîches" lorsqu'elles sont accessibles en temps voulu et reflètent une réalité récente. À l'inverse, des données obsolètes ou mises à jour trop tard peuvent perdre leur fiabilité et leur pertinence pour l’entreprise.
L’actualité peut être mesurée à différents niveaux :
- Temps de mise à jour des données : mesurez le délai entre la fin d'une journée de production et la disponibilité des données pour analyse. Par exemple, un objectif pourrait être de rendre les données accessibles dans les 30 minutes suivant la fin de la production. Tout dépassement régulier de ce délai indiquerait un besoin d'amélioration du pipeline de données.
- Délai de traitement des enregistrements : dans le cas de la gestion des stocks, un KPI pourrait suivre le délai entre l'arrivée d'un nouveau produit dans l'entrepôt et son enregistrement dans le système de gestion des stocks. Si ce délai dépasse une certaine limite (par exemple, 24 heures), cela pourrait indiquer un problème dans le flux de traitement des données.
- Actualité des métadonnées : un autre KPI pourrait mesurer le taux de mise à jour des métadonnées associées aux données d'un produit. Si 90 % des métadonnées critiques (comme la description du produit ou les balises de sécurité) sont à jour, mais 10 % ne le sont pas, cela peut poser un problème d’interprétation des données par les utilisateurs.
- Fréquence des rafraîchissements des données : pour une application en temps réel, un KPI peut mesurer combien de fois par jour les données sont actualisées. Par exemple, dans une application de monitoring industriel, un KPI pourrait indiquer que les données des capteurs doivent être rafraîchies toutes les 15 minutes pour garantir la surveillance en temps réel des équipements.
L’actualité est souvent mesurée à différents niveaux :
- Au niveau de la table : par exemple, combien de temps s'écoule entre l’ajout d’un enregistrement à une table (par exemple, une nouvelle commande client) et la mise à jour de cette table dans votre système de reporting ?
- Au niveau de l’enregistrement : si un enregistrement individuel (par exemple, un profil client) n'a pas été mis à jour depuis plusieurs mois, cela peut indiquer que les informations ne sont plus fiables, et un KPI peut mesurer combien de temps s'écoule avant qu’un enregistrement ne soit actualisé.
- Au niveau de l’entité : cela se réfère à l'ensemble des données associées à une entité (par exemple, un client, un produit). Si les données d’une entité ne sont pas mises à jour dans un délai défini (par exemple, 48 heures), cela peut affecter les décisions prises à partir de ces données.
Validité
La validité des données signifie qu'elles respectent des règles et des paramètres prédéfinis, comme des formats, des plages de valeurs, ou des règles métier spécifiques.
Voici des exemples concrets de KPI pour mesurer cette validité à différents niveaux :
- Format des données : il consiste à vérifier si les données respectent le format attendu. Par exemple, dans une base de données clients, les adresses e-mail doivent respecter le format standard (nom@domaine.com). Si 90 % des adresses e-mail respectent ce format, cela indique un taux de validité de 90 %. Si ce taux est inférieur à 95 %, cela suggérerait un besoin d'audit des processus d'entrée des données pour améliorer la qualité des adresses collectées.
- Conformité aux règles métier : il permet de mesurer si les données sont conformes aux règles métier spécifiques. Par exemple, dans une base de données de contrats, la règle stipule que la date d’expiration ne peut pas être antérieure à la date de début. Si 98 % des contrats respectent cette règle, cela indique un bon niveau de validité. Cependant, si ce taux tombe en dessous de 95 %, il faudrait envisager de renforcer les contrôles sur les dates lors de la saisie pour éviter des erreurs critiques.
- Plages de valeurs autorisées : il permet de vérifier que les valeurs numériques respectent des plages définies. Par exemple, pour un système de gestion des stocks, si la quantité d’un produit doit toujours être comprise entre 0 et 1 000. Si ce taux est inférieur à 98 %, cela pourrait indiquer un problème dans le processus de mise à jour des quantités de stocks, comme une mauvaise saisie ou un défaut dans les contrôles de validation des données.
- Validité des métadonnées : les métadonnées doivent également respecter certaines normes de validité. Un KPI pourrait mesurer le pourcentage de champs de métadonnées correctement renseignés et valides. Par exemple, si 90 % des descriptions de jeux de données sont conformes aux règles établies (longueur minimale, présence de termes spécifiques), le taux de validité des métadonnées serait de 90 %. Si ce pourcentage est inférieur à 90 %, il sera nécessaire d'améliorer les processus de gestion des métadonnées pour garantir leur qualité et leur complétude.
Notez que les données peuvent également n'être valides que pendant une durée déterminée. Par exemple, les données générées à partir de RFID ou d'ensembles de données scientifiques.
Précision
En tant qu’un des indicateurs de qualité des données les plus complexes mais aussi les plus critiques, la précision est le degré auquel l’élément de données décrit correctement l’objet ou l’événement du « monde réel » décrit, généralement basé sur le contexte commercial.
- Précision des données démographiques : il permet de mesurer le pourcentage d'enregistrements correctement renseignés. Par exemple, si 95 % des adresses dans une base de données client correspondent aux adresses réelles des clients, cela indique un taux de précision de 95 %. Si ce taux est faible, il faudra envisager des processus de validation plus rigoureux.
- Précision des métadonnées : pour suivre le pourcentage de métadonnées décrivant correctement les données associées. Si 90 % des jeux de données dans un catalogue sont correctement documentés, le taux de précision des métadonnées est de 90 %. Un taux faible suggère une révision des processus de gestion des métadonnées.
Cohérence
La cohérence des données mesure à quel point les valeurs sont représentées de manière cohérente à travers différents enregistrements, ensembles de données ou moments dans le temps.
- Cohérence au sein d'un enregistrement : un KPI peut suivre le pourcentage d’enregistrements où les valeurs sont cohérentes entre elles. Par exemple, dans une base de données clients, si la date d’inscription est toujours postérieure à la date de naissance, un KPI pourrait mesurer le respect de cette règle. Si 98 % des enregistrements sont cohérents, le taux de cohérence est de 98 %. Un taux faible indiquerait des erreurs dans la gestion des dates.
- Cohérence entre les enregistrements d'un ensemble de données : permet de mesurer la cohérence des valeurs entre différents enregistrements. Par exemple, dans une base de données de transactions, le montant total des commandes doit toujours être cohérent avec les lignes de commande individuelles. Si 95 % des transactions respectent cette règle, le taux de cohérence est de 95 %. Si ce taux diminue, cela suggère des erreurs dans l'agrégation ou l'enregistrement des données de commande.
- Cohérence temporelle : il peut suivre le respect de la cohérence dans le temps. Par exemple, si le nombre quotidien de transactions ne doit pas dépasser 105 % de la moyenne des 30 jours précédents, un KPI pourrait mesurer combien de jours respectent cette règle. Si 97 % des jours respectent cette contrainte, le taux de cohérence temporelle est de 97 %. Un dépassement fréquent indiquerait un problème dans la régulation des opérations ou une erreur dans les données.
Ces KPI permettent de surveiller la cohérence des données, et un taux faible doit alerter sur des incohérences pouvant affecter les analyses et décisions.
6 conseils pour créer votre tableau de bord de qualité des données
Un tableau de bord de qualité des données vous permet de visualiser et de suivre vos KPI de manière claire et concise. Il doit offrir à la fois une vue d’ensemble des indicateurs les plus importants, tout en permettant de zoomer sur les détails lorsque c’est nécessaire. Voici quelques éléments à considérer pour structurer efficacement votre tableau de bord :
- Résumé des scores : présentez une vue d’ensemble des KPI les plus critiques, facilitant ainsi une lecture rapide des résultats globaux.
- Filtrez par période et par source : intégrez des options de filtrage par période (mois, trimestre, année) ou par source de données pour permettre des analyses plus ciblées et pertinentes selon les besoins spécifiques.
- Rapports d’erreurs : suivez et analysez les erreurs pour comprendre leur répartition dans le temps et identifier les tendances récurrentes.
- Informations détaillées : offrez la possibilité de descendre au niveau des enregistrements individuels pour une analyse plus précise et approfondie des anomalies ou problèmes détectés.
- Distinguez les erreurs historiques des récentes : priorisez les corrections en fonction de l’ancienneté des erreurs pour mieux ajuster vos processus et éviter leur récurrence.
- Assurez la traçabilité : intégrez des fonctionnalités permettant de suivre les actions correctives mises en place suite aux anomalies détectées, afin d’évaluer l’impact des corrections sur la durée.
Un tableau de bord bien structuré doit permettre à tous les acteurs, qu’ils soient métiers ou techniques, d’accéder facilement aux informations nécessaires pour améliorer la qualité des données. C’est aussi un outil pour évaluer le coût de la mauvaise qualité des données sur l’entreprise et justifier les investissements nécessaires pour améliorer la gestion de celles-ci.