Nahla Davies examine ce qui constitue un cadre d'intégrité des données approprié et comment des cadres inadéquats nuisent à la qualité des données.

Si vous demandiez à la plupart des entreprises si elles disposent d’un cadre d’intégrité des données, elles vous répondraient oui sans hésitation. Ils vous dirigeraient vers un lecteur partagé, peut-être une page Confluence, éventuellement une feuille de calcul à code couleur avec des onglets intitulés « Règles de validation » et « Matrice de propriété ». Cela a l'air officiel. Il y a un logo dessus. Quelqu'un a même ajouté une mise en forme conditionnelle.

Mais voilà : ressembler à un cadre et fonctionner réellement comme un seul sont deux réalités très différentes. Dans tous les secteurs, les organisations confondent documentation et gouvernance, et c’est là que la qualité des données s’effondre discrètement. Le problème n’est pas que les équipes s’en moquent. C'est qu'ils se sont convaincus que le tableur était suffisant.

Le piège des feuilles de calcul est plus courant qu’on ne l’admet

Il existe un modèle qui se retrouve dans presque toutes les organisations de taille moyenne qui ont subi une sorte de transformation numérique au cours des cinq dernières années. Une personne travaillant dans le domaine de l'ingénierie ou de l'analyse des données est chargée de « créer un cadre d'intégrité des données ». Ils effectuent leurs recherches, rassemblent quelques bonnes pratiques et créent un document. Peut-être qu'il se trouve dans Google Sheets, peut-être que c'est une base de données Notion, peut-être que c'est un véritable PDF qui a été envoyé par courrier électronique une fois puis oublié. Quelle que soit sa forme, il coche une case. Les dirigeants le voient et se sentent rassurés.

Les ennuis commencent lorsque ce document doit survivre au contact avec la réalité. Les pipelines de données changent. De nouvelles sources sont ajoutées. Les membres de l'équipe tournent. Et cette feuille de calcul ? Il ne se met pas à jour. Il n'envoie pas d'alertes lorsqu'un schéma change ou lorsqu'un champ critique commence à renvoyer des valeurs nulles deux fois plus vite que d'habitude. Il reste là, figé au moment où il a été créé, devenant lentement un artefact historique plutôt qu'un outil opérationnel.

Le pire, c'est que les gens continuent d'y faire référence comme si c'était toujours exact. Les décisions sont prises sur la base de règles de validation qui n'ont pas été revues depuis des mois. Les colonnes de propriété répertorient les personnes qui ont quitté l'entreprise. C'est l'équivalent organisationnel de naviguer avec une carte de 2019 et de se demander pourquoi vous continuez à vous retrouver dans des impasses.

Et ce n'est pas un problème de niche. Une enquête Gartner de 2023 a révélé que la mauvaise qualité des données coûte aux organisations en moyenne 12,9 millions de dollars par an. Ce chiffre ne provient pas de violations dramatiques qui ont fait la une des journaux. Cela vient de l’accumulation lente et invisible d’enregistrements erronés, d’anomalies manquées et d’hypothèses non vérifiées qu’un document statique ne peut tout simplement pas détecter.

À quoi ressemble réellement un véritable cadre

Alors, qu’est-ce qui différencie un cadre d’intégrité des données fonctionnel d’une feuille de calcul bien formatée ? Il s’agit de savoir si la chose peut fonctionner sans que quelqu’un la garde manuellement. Un véritable framework est embarqué dans votre infrastructure. C’est automatisé, observable et réactif.

Cela signifie que les contrôles de validation sont exécutés dans le cadre de vos pipelines de données, et non comme un audit trimestriel que quelqu'un se souvient de faire au cours de la dernière semaine du trimestre. Cela signifie que les données sont correctement annotées et qu'une surveillance est en place pour signaler les anomalies en temps réel, qu'il s'agisse d'un pic soudain de valeurs nulles ou d'une inadéquation entre le nombre de lignes source et de destination. Des outils tels que les tests Great Expectations, Monte Carlo et dbt existent spécifiquement pour apporter ce type de rigueur dans le flux de travail.

Cela signifie également que la propriété est renforcée via des outils, et pas seulement documentée dans un onglet. Lorsqu’un actif de données a un propriétaire enregistré dans un catalogue de données et que ce catalogue s’intègre à votre système d’alerte, la responsabilité devient structurelle. Cela cesse d’être quelque chose pour lequel vous devez chasser les gens dans Slack.

Il y a aussi une composante culturelle ici. Les organisations ayant des pratiques matures en matière d’intégrité des données traitent la qualité des données comme une préoccupation produit et sont mieux préparées à établir une gouvernance appropriée de l’IA. Les chefs de produit s'en soucient. Les analystes signalent les problèmes de manière proactive au lieu de les contourner. Les ingénieurs écrivent des tests pour les données de la même manière qu’ils écrivent des tests pour le code. Ce genre de culture ne émerge pas d’une feuille de calcul. Cela émerge du leadership, indiquant clairement que l'intégrité des données est une priorité et non un projet parallèle que quelqu'un gère lorsque les choses sont lentes.

Les entreprises qui réussissent ont tendance à partager quelques traits. Ils ont investi dans l'observabilité sur l'ensemble de leur pile de données. Ils traitent les changements de schéma comme des événements qui nécessitent un examen, et non comme des choses qui se produisent silencieusement. Et ils ont dépassé l’idée selon laquelle la documentation à elle seule équivaut à une gouvernance.

Pourquoi c’est plus important aujourd’hui qu’il y a cinq ans

Les enjeux autour de l’intégrité des données ont considérablement évolué. Il y a cinq ans, un mauvais enregistrement dans un tableau de bord de reporting était ennuyeux mais gérable. Aujourd'hui, ce même mauvais bilan pourrait alimenter un modèle d'apprentissage automatique qui prend des décisions automatisées en matière de crédit, d'embauche ou de soins aux patients. Le rayon d’action des données de mauvaise qualité s’est élargi parce que les systèmes consommant ces données sont devenus plus autonomes et plus conséquents.

La pression réglementaire augmente également. Des cadres tels que la loi européenne sur l'IA et l'évolution des réglementations sur la confidentialité des données mettent davantage l'accent sur la manière dont les organisations gèrent les données qui alimentent leurs produits. Il est de plus en plus difficile d’ignorer les problèmes de qualité des données en les qualifiant de « dette technique à laquelle nous finirons par parvenir ». Les régulateurs veulent voir des preuves de gouvernance, et une feuille de calcul avec la date de l’année dernière n’y suffira pas.

Il y a aussi l’aspect compétition. Les entreprises qui peuvent faire confiance à leurs données évoluent plus rapidement. Ils prennent des décisions avec plus de confiance. Ils passent moins de temps à concilier des rapports contradictoires et plus de temps à agir sur la base des informations obtenues. L'intégrité des données n'est pas glamour, mais c'est l'un de ces éléments fondamentaux qui déterminent discrètement si une organisation peut mettre en œuvre sa stratégie ou simplement en parler.

Réflexions finales

La vérité inconfortable est que la plupart des frameworks d’intégrité des données n’ont pas du tout été conçus pour être des frameworks. Ils ont été conçus pour satisfaire une demande, pour cocher une case de conformité ou pour donner à quelqu'un quelque chose à présenter lors d'une réunion.

Et c'est bien comme point de départ. Tout système mature a commencé quelque part. Mais si votre « framework » est encore une feuille de calcul à laquelle personne n’a touché depuis six mois, il est temps d’être honnête sur ce que vous avez réellement.

La véritable intégrité nécessite l’automatisation, l’observabilité et l’adhésion culturelle. La feuille de calcul n’a jamais été la destination. Traitez-le comme le brouillon qu'il a toujours été et commencez à créer quelque chose qui peut réellement suivre vos données.

Par Nahla Davies

Nahla Davies est développeur de logiciels et rédactrice technique. Avant de consacrer son travail à plein temps à la rédaction technique, elle a réussi – entre autres choses intrigantes – à devenir programmeuse principale dans une organisation de branding expérientiel Inc. 5,000, qui compte parmi ses clients Samsung, Time Warner, Netflix et Sony.

A lire également