Article
Qu’est-ce que la Data Preparation et à quoi sert-elle ?
En 2017, selon Experian, 92% des entreprises n’ont pas confiance en leur données et 56% des entreprises sondées n’arrivent pas à prendre des décisions souhaitées.Gartner, de son côté, parle de la nouvelle BI et de la BI en self-service. Il prévoit que d’ici 2020, la moitié des efforts consentis dans l’intégration des données passeront par des plateformes de la Data Preparation.
Aujourd’hui, un utilisateur ou un Data Analyst passe 80% de son temps pour avoir des données propres et exploitables. Un autre problème auquel doivent faire face ces deux acteurs est le partage et la gouvernance des données.
Dans cet article, nous allons parler du domaine de la préparation des données, ainsi que des problématiques, des motivations, et du marché de la Data Preparation. Nous conclurons dans un prochain article par un atelier technique sur les deux outils leaders de ce marché : Trifacta et Talend Data Preparation.
Quelques Définitions
- Data-Quality : Traitement d’amélioration de la qualité des données, permettant à l’utilisateur d’offrir des données fraîches, accessibles, fiables, cohérentes et exploitables.
- Data-Wrangling : Processus de transformation des données d’une manière visuelle et interactive.
- Data-Profiling : Processus de collecte des données et des statistiques sur ces données.
- Data-Preparation : Ensemble des étapes (Découverte, Structuration, Nettoyage, Enrichissement, Validation, Publication) qui viennent en amont de la restitution des données.
Étapes de la Data Preparation
Problématiques de la Data Preparation
- 80 % du temps d’un processus (BI/Big Data) est dans la préparation des données
- Complexité de la construction d’un Data Warehouse
- Le développement prend un temps énorme (problème de la fraîcheur des données)
- Architecture Rigide (enrichissement, nouveau besoins)
- Intégration et alimentation complexe
- Faiblesse des outils de préparation classiques
- Pas de gouvernance de données
- Ne supportent pas le passage à l’échelle
- Découverte et transformation difficile
Motivations et promesses de la Data Preparation
- L’analytique en self-service
- Gouvernance et collaboration
- Accélération de l’exploitation des données
Cas d’utilisation des outils de la Data Preparation
Certains d’entre vous se posent déjà la question suivante : « Puis-je tirer profit de ces outils, comment et dans quels cas ? »
Nous avons détecté dans notre analyse des cas d’utilisation réels où ces outils peuvent être mis en œuvre afin d’apporter de la valeur dans les projets de la transformation des données.
- L’entreprise manque de compétences ETL
Dans le cas où l’entreprise ne possède pas des compétences ETL, et celle-ci a besoin de nettoyer et transformer ses données, les outils de la Data Preparation sont là pour subvenir à ses besoins. Cependant, ces outils ne remplacent pas un processus ETL, ils peuvent remplacer quelques besoins de transformation comme ils peuvent être associés à un processus, en apportant une certaine agilité dans le processus ETL. Talend mise beaucoup sur ce dernier point.
- Besoin de données fraîches
Dans le cas où la fraîcheur des données est importante (marchés financiers…), les données doivent être préparées dans les plus brefs délais, sans créer une architecture lourde (comme la constitution d’un Data Warehouse) et sachant que les flux de données ainsi que les besoins diffèrent chaque jour.
- Variété et vélocité dans la Big Data
La vélocité et la variété des types et des structures de données exigent de nouvelles stratégies pour l’identification et la rationalisation des données dans un système d’information.
Comme dans les plateformes big data, il peut y avoir une variété importante de données avec différentes structures, ne permettant pas le traitement avec un processus ETL unique standard. En construisant un nouveau processus, nous pouvons perdre en vélocité. Ces plateformes de la Data Preparation pourront limiter cette perte en vélocité. En effet, l’utilisateur pourra s’adapter à cette variation des données, et traiter chaque cas d’une manière manuelle selon son besoin.
Outils de la Data Preparation
Gartner classe ces outils en trois grandes familles :
Outils leaders dans la Data Preparation
Démonstration
Pour se familiariser avec ces outils, nous mettrons en pratique -dans un prochain article- un cas concret avec Talend Data Preparation, puis avec Trifacta.
Dans ce cas concret, les données ne seront pas très propres. Nous tenterons de corriger les valeurs manquantes, éliminer les valeurs aberrantes, enrichir le jeu avec une autre source, et construire une adresse email à partir de colonnes existantes.