- Qu’est-ce qu’un catalogue de données ?
- Le Data Catalog est-il en fait une bibliothèque de données ?
- Quelles sont les grandes fonctionnalités d’un Data Catalog ?
- Comment ce catalogue de données va être un support aux initiatives data ?
- En quoi le Data Catalog permet d’instaurer une culture de la donnée au sein d’une organisation ?
- Qui sont les acteurs dans la constitution d’un catalogue de données ?
- Quelles sont les étapes pour la mise en place d’un Data Catalog ?
Vidéo
Webinar | Data Catalog, un support aux initiatives data
Qu’est-ce qu’un catalogue de données ?
La définition du Gartner est la suivante : un catalogue de données maintient un inventaire des données actives grâce à la découverte, la description et l’organisation d’ensemble de données.
On peut compléter cette définition en ajoutant que c’est un outil qui centralise la gestion des métadonnées. Ces métadonnées sont des informations qui décrivent les caractéristiques d’une donnée : date, heure de création, type (texte, date), taille d’un champ…
En plus de la centralisation de ces métadonnées, le catalogue de données recueille le savoir des équipes métiers, qui vont pouvoir documenter, décrire, définir les données cataloguées.
Le Data Catalog est un outil qui va participer à augmenter la maitrise du patrimoine des données en les cartographiant.
Documenter les applications, les flux, les glossaires de données n’est pas une idée nouvelle. Les glossaires, les dictionnaires, les définitions de champs ou tables existent depuis plusieurs années ou décennies. Mais avec l’accroissement du volume, du nombre de sources, des nouveaux enjeux autour des données, la gouvernance et la gestion des données sont devenues très importantes. Les catalogues sont très certainement aujourd’hui l’outil le plus abouti pour documenter la donnée.
Le Data Catalog est-il en fait une bibliothèque de données ?
Pour avoir une idée un peu plus précise de ce qu’est un catalogue de données, on peut faire une métaphore avec une bibliothèque ou plutôt une médiathèque :
- Variété du contenu
- Dans une médiathèque on trouve des livres, des bandes dessinées, et d’autres contenus media physiques.
- Dans le catalogue de données, on va retrouver les sources de données variées, on va également retrouver la description de datasets de types et de formats différents.
- Gestion du contenu
- Dans une médiathèque, un système de catalogage est en place : les livres sont classés par genre, ou alphabétiquement.
- Côté catalogue de données, idem, des classements peuvent être faits par type, par taille. Les données peuvent aussi être catégorisées avec des tags, des labels.
- Recherche de contenu
- Une médiathèque ou une bibliothèque va avoir un système de recherche sur ordinateur, qu’il faudra parfois compléter d’une recherche plus manuelle dans le rayon directement pour trouver plus précisément ce que l’on cherche.
- C’est la même chose côté catalogue de données, la plupart des outils proposent des fonctions de recherches avancées. Et, il est possible aussi de chercher plus finement en explorant « manuellement » les données, champs, concepts.
- Gestion des accès
- Pour une médiathèque, on va avoir une carte d’accès, avec des droits, des restrictions.
- On aura une gestion de profils avec des droits, une gestion d’espaces, une administration générale de l’outil.
Quelles sont les grandes fonctionnalités d’un Data Catalog ?
Les fonctionnalités peuvent évoluer d’une solution à une autre, certaines demeurent néanmoins incontournables :
- Collecter et définir grâce à des connecteurs
- Classer par l’utilisation de labels, de catégories de données
- Rechercher avec un moteur de recherche assez classique, ou manuellement, avec la possibilité d’ajouter des filtres sur les résultats obtenus
- Analyser avec des solutions de profilage, de traçabilité (data lineage) ou des tableaux de bord
- Collaborer via des workflows
Comment ce catalogue de données va être un support aux initiatives data ?
Avec toutes les fonctionnalités que nous venons de voir, il apparait clair que le catalogue va d’abord jouer un rôle de facilitateur de projet.
Facilitateur de projet par une confiance renforcée dans la donnée au sein de l’organisation car il va permettre :
- Etablir une sémantique claire, commune et partagée
- Responsabiliser les équipes métiers. Les propriétaires de la donnée sont identifiés, ils seront les personnes garantes de la définition et de l’utilisation de la donnée.
- Monitorer l’implémentation des données, comme par exemple contrôler leur conformité (contrôles des types de données, traitements réalisés sur les données sensibles etc..)
- Aller plus vite ! On peut dans cet inventaire centralisé facilement explorer, chercher l’information que l’on veut.
- Être plus efficace grâce à une vision de l’existant sur les données avec une vision métier, les sources, les traitements et les utilisations qui en sont faites.
- Démocratiser l’accès et l’utilisation et favoriser la diffusion de la culture de la donnée.
En quoi le Data Catalog permet d’instaurer une culture de la donnée au sein d’une organisation ?
La culture de la donnée est la capacité à lire, utiliser, analyser et communiquer grâce aux données. Cette capacité est stratégique pour les organisations souhaitant devenir Data Driven.
3 éléments contribuent à cette culture de la donnée dans une organisation :
- Donner accès à la donnée : la documenter, avoir des processus décrits, connaitre les points de maitrise de la donnée, avoir une gestion des accès (ce sont les grands principes d’une gouvernance de la donnée).
- Former l’organisation à l’utilisation de la donnée : former à son utilisation, à sa compréhension et c’est donc partager la connaissance.
- Mettre en place les bons outils permettant d’atteindre les objectifs qui sont fixés sur le travail sur ces données.
Le catalogue de données représente une opportunité d’adresser ces 3 sujets en même temps et de les améliorer, de les encourager. C’est le point central de savoirs sur les données de l’organisation, tout en favorisant la collaboration, le partage entre les équipes métiers, les équipes SI et entre les SI et les métiers.
Une culture forte de la donnée va avoir 2 grands bénéfices pour une organisation : participer à ce que les décisions soient fondées sur des données et démocratiser l’utilisation de la donnée. Une meilleure culture de la donnée, c’est aussi une meilleure connaissance du contexte et donc dans les interactions entre collaborateurs des échanges plus pertinents et plus efficaces.
Qui sont les acteurs dans la constitution d’un catalogue de données ?
L’initiative est souvent portée par la DSI, là où les équipes les plus proches de la donnée (décisionnel, BI…), ce sont aussi ces équipes qui peuvent être le plus rapidement confrontées à des besoins de classification, traçabilité ou par une équipe data avec un chief data officer. Cela peut aussi être à l’initiative d’une direction métiers (marketing, finance), en général là où il y a des profils avec une certaine appétence data et donc des besoins d’un catalogue de données.)
Pour mener à bien cette initiative, un sponsor fort est nécessaire pour porter le sujet et emmener l’initiative sur toute l’organisation. Des rôles sont aussi à formaliser pour contribuer à la réussite de la mise en place de ce catalogue :
- Viewer, correspond à ceux qui ont un accès en lecture.
- Editor ou Contributor qui peuvent enrichir les objets/liens mais qui ne sont pas tenus responsables.
- Owner, ceux responsables de l’intégrité de la donnée, garant de la donnée.
Concrètement, les acteurs principaux sont :
- Data Owner : il est le référent métier de sa donnée pour toute l’entreprise. Il est garant des définitions métiers et des référentiels associés. Il prend les décisions impactantees sur la donnée. Il délivre les autorisations d’accès à la donnée, en lien avec des cas d’usage identifiés, et définit le niveau de sensibilité des données. Il n’y a qu’un seul Data Owner par donnée.
- Data Steward : il est le référent fonctionnel qui détient la connaissance des métadonnées et des données. Il va s’occuper de la conservation des données et de leur recensement. Il assure au quotidien la bonne intégrité des informations au quotidien (métadonnées). Il gère un périmètre de données bien défini sous le contrôle du Data Owner.
- Chief Data Officer : il s’assure de la bonne définition et de la mise en place du cadre de gouvernance des données. Il propose et pilote des projets stratégiques, travaille avec les sponsors métiers et l’IT pour hiérarchiser et résoudre les problématiques rencontrées.
- Data Protection Officer : il est responsable du respect de la conformité, du bon usage des données par rapport aux législations, aux réglementations, dont il assure une veille. Il propose les moyens de répondre à ces objectifs de mise en conformité. Rôle exigé par l’UE.
Quelles sont les étapes pour la mise en place d’un Data Catalog ?
Pour la mise en place d’un catalogue de données, nous conseillons de plutôt travailler de manière itérative, de commencer par un premier périmètre soit technique, donc par une source de données (une base de données) ou par un périmètre fonctionnel métier (univers commercial par exemple), les deux approches présentent des avantages et des inconvénients.
L’approche technique, va nécessiter de solliciter plusieurs métiers puisqu’une application, une base de données va concerner plusieurs directions métiers. L’approche du côté fonctionnel va travailler sur plusieurs sources de données de manière partielle, avec un périmètre métier.
Exemple d'une démarche itérative :
Au-delà de l’outil en lui-même, la mise en place d’un catalogue de données est une démarche transverse, qui tire sa valeur du partage et de la collaboration entre les différentes équipes, et c’est à ce moment-là qu’il représentera un atout de taille pour toutes les initiatives data d’une organisation.