Introduction au Big Data et Machine Learning

  • Filière :

    Gestion de données

  • Sous-filière :

    NoSql & Big Data

  • Référence

    DB-BIGML

  • Durée

    2 jours (14 h)

  • Prix par personne HT

    1 850 € HT

Objectifs pédagogiques

  • Présenter les enjeux de l’analyse des données numériques à grande échelle.
  • Comprendre le concept de valorisation de la donnée.
  • Maîtriser le vocabulaire lié au big data et à la data science
  • Comprendre la problématique de traitement de données massives à des fins d’analyse.
  • Identifier les risques et opportunités du Big Data pour les individus (vie privée, protection des données personnelles…).
  • Conduire un projet Big Data en entreprise (étapes projets, bonnes pratiques, schémas organisationnels et gouvernance des données).
  • Acquérir les compétences techniques pour gérer des flux de données complexes, non structurés et massifs.

Public cible

  • Consultants
  • consultants-it
  • data-scientist

Programme de la formation

Comprendre les concepts et les enjeux du Big Data

  • Découvrir les concepts du Big Data
  • Définition d’un projet Big Data
  • Big data en entreprise
    • Principes de fonctionnement
    • Les secteurs impactés
    • Comment se reconvertir dans le big data ?
    • La gouvernance des données
  • Les spécificités d’un projet big data
  • Les enjeux du Big Data : organisation, confidentialité des données, GPDR.

Les technologies du Big Data

  • Business Intelligence vs Big Data
  • Architecture et composants de la plateforme Hadoop.
  • Les modes de stockage
    • Le stockage fichiers : Hadoop Distributed File System (HDFS).
    • Stockage colonne, graph, clé/valeur et document :
  • Paradigme MapReduce
  • Spark : framework de calcul distribué in memory
  • Les architectures big data.
  • Les technologies spécifiques pour le Big Data (Tableau, Talend, Qlikview …).

Atelier :

  • Installation d’une plateforme Big Data Hadoop
  • Implémentation de flux de données massives.

Data Science : Méthodes d’analyse et traitements des données pour le Big Data

  • Les bases de l’apprentissage Machine (Machine Learning)
  • Prétraitement des données
  • La réduction de dimensions
  • Les types des modèles du machine learning : Clustering, Classification, Regression
  • L’évaluation des modèles.
  • Les méthodes d’ensemble.
  • Le langage Python pour le Big Data et le Machine Learning : Pandas, Scipy, Scikit-learn, TensorFlow.
  • Communiquer ses résultats à l’aide de représentations graphiques lisibles et pertinentes.

Ateliers Données:

  • Visualisation des données
  • Exploration et sélection/ingénierie des variables
  • Application des méthodes d’apprentissage automatique
  • Sélection de modèles et méthodes d’ensemble

Qualité

Cette formation est accessible aux personnes en situation de handicap, nous contacter en cas de besoin d’informations complémentaires.

Programme mis à jour le