Data Classification et Machine Learning

Machine Learning Technologies et bonnes pratiques

  • Filière :

    IA & Innovation

  • Sous-filière :

    AI Modeling, tools & frameworks

  • Référence

    DB-MCH

  • Durée

    2 jours (14 h)

  • Prix par personne HT

    1 460 € HT

Objectifs pédagogiques

  • Savoir définir les étapes de préparation des données
  • Comprendre et mettre en œuvre l’apprentissage automatique, les techniques de classification de données, les apports des réseaux de neurones et du Deep Learning

Public cible

  • architectes
  • chefs-de-projets
  • data-scientists
  • developpeurs

Pré-requis

Connaissances des principes du Big Data et des architectures techniques mises en œuvre

Programme de la formation

Introduction

  • Zoom sur les données : format, volumes, structures, …
  • Requêtes et attentes des utilisateurs
  • Etapes de la préparation des données
  • Définitions, présentation du data munging
  • Le rôle du data scientist

Gouvernance des données

  • Qualité des données
  • Transformation de l’information en donnée
  • Qualification et enrichissement
  • Sécurisation et étanchéité des lacs de données
  • Flux de données et organisation dans l’entreprise
  • De la donnée maître à la donnée de travail
  • MDM
  • Mise en œuvre pratique des différentes phases : nettoyage, enrichissement, organisation des données

Traitements statistiques de base

  • Introduction aux calculs statistiques
  • Paramétrisation des fonctions
  • Applications aux fermes de calculs distribués
  • Problématiques induites
  • Approximations
  • Précision des estimations

Data Mining

  • Besoin, apports et enjeux
  • Extraction et organisation des classes de données
  • Analyse factorielle

Machine Learning

  • Apprentissage automatique
  • Définition, les attentes par rapport au Machine Learning
  • Les valeurs d’observation et les variables cibles
  • Ingénierie des variables
  • Les méthodes : apprentissage supervisé et non supervisé
  • Classification des données
  • Algorithmes : régression linéaire, k-moyennes, k-voisins, classification naïve bayésienne, arbres de décision, forêts aléatoires, …
  • Création de jeux d’essai, entraînement et construction de modèles
  • Prévisions à partir de données réelles
  • Mesure de l’efficacité des algorithmes
  • Courbes ROC
  • Parallélisation des algorithmes
  • Choix automatique

IA

  • Introduction aux réseaux de neurones
  • Réseaux de neurones à convolution
  • Modèles de CNN
  • Les types de couches : convolution, pooling et pertes
  • L’approche du Deep Learning
  • Deeplearning4j sur Spark

Les risques et écueils

  • Importance de la préparation des données
  • L’écueil du « surapprentissage »

Visualisation des données

  • L’intérêt de la visualisation
  • Outils disponibles
  • Exemples de visualisation avec R et Python

Qualité

Cette formation est accessible aux personnes en situation de handicap, nous contacter en cas de besoin d’informations complémentaires.

Programme mis à jour le