Aller au contenu principal
Menu Rechercher

Article

Pourquoi utiliser une plateforme de Machine Learning automatisé ?

Pour accélérer vos projets AI-Driven, avez-vous déjà pensé à l’utilisation d’outils de Machine Learning automatisé ? Dans cet article, nous vous faisons découvrir deux plateformes : DataRobot et H2O Driverless AI. Deux plateformes de qualité qui proposent régulièrement de nouvelles fonctionnalités.

Qu’est-ce que le Machine Learning automatisé ?

A l’heure où la donnée devient un atout stratégique et que l’Intelligence Artificielle se démocratise dans notre quotidien, le recours au Machine Learning, pour faire des prédictions, suscite de plus en plus d’intérêt dans les entreprises : détection de fraude, prédiction des ventes, lutte contre l’attrition (churn)… Les applications sont infinies ! C’est pourquoi, de nombreux acteurs sur le marché automatisent certaines tâches du processus en proposant des solutions de Machine Learning automatisé, encore appelé ML automatisé ou AutoML. Ainsi, les Data Analystes et Data Scientists gagnent du temps sur des tâches répétitives et peuvent se consacrer essentiellement à la connaissance des métiers, à la compréhension et à l’analyse des données.

Comment choisir une solution AutoML ?

Pas facile de s’y retrouver entre tous les acteurs de l’AutoML ! Parmi eux, nous distinguons les solutions open source (Auto-WEKA, TPOT, auto-sklearn…), les outils proposés par les GAFAM (Cloud AutoML, Azure Machine Learning…) et les plateformes commerciales (Prevision.io, Dataiku DSS, MLJAR…) Ici nous allons présenter DataRobot et H2O Driverless AI.

A la découverte de DataRobot

DataRobot a été fondé en 2012 par Jeremy Achin et Thomas de Godoy. Ils géraient auparavant ensemble une équipe de Data Scientists au sein d'une assurance spécialisée dans les voyages. Un certain nombre des premiers employés de l'entreprise étaient des participants aux compétitions Data Sciences organisées par Kaggle, qui a récemment été racheté par Google.

Démo

DataRobot ne propose pas de version d’essai. En revanche, sur demande, il est possible d’avoir une démonstration de la solution et de la tester pendant plusieurs jours.

Screen version essai DataRobot

Rapidité 

L’entraînement des modèles se fait sur un CPU (Central Processing Unit). DataRobot n’utilise pas de GPU (Graphics Processing Unit). Pour diminuer le temps d’exécution, DataRobot commence à faire tourner les modèles sur un échantillon de données et garde uniquement les modèles les plus performants pour les exécuter sur plus de données. De plus, il parallélise les traitements. La plateforme accepte un grand nombre de colonnes.

Modélisation

DataRobot intègre un grand nombre de bibliothèques Open Source (y compris celles crées par H2O) en Python et R (scikit-learn, XGBoost, Tensorflow…) et intègre ses propres modèles.

L’un des principaux atouts de DataRobot est son tableau de bord facile à utiliser. Nous pouvons immédiatement identifier le modèle le plus précis, le plus rapide ou le modèle recommandé pour le déploiement. L’interface permet de comparer facilement 2 modèles entre eux.

Tableau de bord DataRobot

Data Preparation & Feature Engineering

Avant de lancer les modèles, DataRobot réalise quelques traitements : détection et remplacement des valeurs manquantes ou encore création de nouvelles colonnes à partir d’une date (jour de la semaine ou du mois par exemple). Pour faire du feature engineering plus poussé, DataRobot utilise Paxata, sa solution Data Preparation, mais il est également possible de préparer les données manuellement avec du Python, du R, SQL …En fonction du modèle généré, des traitements supplémentaires sont effectués visibles via un schéma, le fameux « blueprint ».

Déploiement

Le déploiement se fait très facilement. Les modèles construits peuvent immédiatement être utilisés pour la mise en production. Il est possible de charger ponctuellement de nouvelles données à évaluer ou de faire des prédictions en temps réel via une API. Une fois le modèle déployé, le monitoring des modèles est une autre caractéristique intéressante car les modèles peuvent être supervisés dans le temps et changés simplement en cas de dérive ou si un modèle s’avère meilleur. Il est également possible, si on le souhaite, d’exporter le code de chaque modèle en Java ou Python.

Compréhension des données 

DataRobot fournit d’excellents outils de Datavisualisation comme par exemple l’impact des variables qui met en évidence les caractéristiques du modèle impactant le plus les prévisions. Le tableau de bord permet d'obtenir facilement des informations solides sur la qualité des données fournies.

Outil de datavisualisation

A la découverte de H2O Driverless AI

Démo 

H2O Driverless fournit un essai gratuit de 21 jours. On peut également avoir accès à l’environnement Aquarium qui permet d’avoir des sessions gratuites de 2h pour tester la plateforme sur ses propres jeux de données ou sur des données Open Source déjà intégrées.

version essai H2O Driverless AI

Rapidité

Une des caractéristiques les plus importantes de la plateforme est l’utilisation d’un GPU (Graphics Processing Unit) pour faire tourner plus rapidement les modèles de Machine Learning. H2O Driverless est l’un des outils AutoML les plus rapides sur le marché et a la capacité de fonctionner avec de grands volumes de données. Dans de nombreux cas, vous travaillez avec des données qui contiennent des dizaines voire des centaines de colonnes. Grâce à l’utilisation d’un GPU, H2O Driverless est capable de traiter rapidement des données avec un grand nombre de colonnes.

Modélisation

Tout comme DataRobot, H2O Driverless utilise un grand nombre de bibliothèques Open Source et dispose de ses propres algorithmes de Machine Learning.

Il n’est pas possible de classer les modèles selon différents critères. Par exemple, on ne peut pas visualiser sur le tableau de bord quel modèle est le plus rapide ou le plus précis. En revanche, il est possible de comparer les performances du modèle final de deux ou trois expérimentations en parallèle.

Data Preparation & Feature Engineering

Le traitement automatique des données est très avancé. H2O Driverless détecte les caractéristiques pertinentes dans un jeu de données, trouve les interactions entre ces caractéristiques et traite les valeurs manquantes. Mais surtout, H2O Driverless crée de nouvelles caractéristiques et les compare aux caractéristiques initiales.

Déploiement

Pour déployer un modèle, il faut d’abord télécharger un fichier MOJO (Model Object Optimized) Ensuite, le modèle peut être déployé pour une utilisation en temps réel, par exemple, sur un serveur API REST. Il est également possible de faire des prédictions ponctuelles.

Compréhension des données 

La capacité de visualiser les données est essentielle à la compréhension de ces données. Les outils de business intelligence d’H2O Driverless comprennent des graphiques et diagrammes pour vous aider à comprendre les données.

La plateforme fournit des rapports détaillés sur la qualité des données. Nous pouvons visualiser le type de données, les valeurs aberrantes ou manquantes ainsi que certaines statistiques.

Outils de business intelligence H2O Driverless AI

En conclusion, pour déterminer quelle solution va répondre au mieux à son besoin, il est important de se fixer les critères essentiels à son projet, et ce que l’on attend de cette solution, par exemple : la facilité à intégrer un modèle au sein d’une infrastructure, la rapidité d’exécution, la facilité de prise en main, la transparence des modèles utilisés ou encore la visualisation des interactions entre les différentes variables.

Et vous, quelle est votre stratégie d’Intelligence Artificielle et quel outil de Machine Learning utilisez-vous ?

Source illustration : by upklyBuffaloboy - www.freepik.com

Charlotte, Data Analyste | Juin 2020