-
Filière :
Gestion de données
-
Sous-filière :
NoSql & Big Data
-
Référence
DB-BIGML
-
Durée
2 jours (14 h)
-
Prix par personne HT
1 850 € HT
Objectifs pédagogiques
- Présenter les enjeux de l’analyse des données numériques à grande échelle.
- Comprendre le concept de valorisation de la donnée.
- Maîtriser le vocabulaire lié au big data et à la data science
- Comprendre la problématique de traitement de données massives à des fins d’analyse.
- Identifier les risques et opportunités du Big Data pour les individus (vie privée, protection des données personnelles…).
- Conduire un projet Big Data en entreprise (étapes projets, bonnes pratiques, schémas organisationnels et gouvernance des données).
- Acquérir les compétences techniques pour gérer des flux de données complexes, non structurés et massifs.
Public cible
- Consultants
- consultants-it
- data-scientist
Programme de la formation
Comprendre les concepts et les enjeux du Big Data
- Découvrir les concepts du Big Data
- Définition d’un projet Big Data
- Big data en entreprise
- Principes de fonctionnement
- Les secteurs impactés
- Comment se reconvertir dans le big data ?
- La gouvernance des données
- Les spécificités d’un projet big data
- Les enjeux du Big Data : organisation, confidentialité des données, GPDR.
Les technologies du Big Data
- Business Intelligence vs Big Data
- Architecture et composants de la plateforme Hadoop.
- Les modes de stockage
- Le stockage fichiers : Hadoop Distributed File System (HDFS).
- Stockage colonne, graph, clé/valeur et document :
- Paradigme MapReduce
- Spark : framework de calcul distribué in memory
- Les architectures big data.
- Les technologies spécifiques pour le Big Data (Tableau, Talend, Qlikview …).
Atelier :
- Installation d’une plateforme Big Data Hadoop
- Implémentation de flux de données massives.
Data Science : Méthodes d’analyse et traitements des données pour le Big Data
- Les bases de l’apprentissage Machine (Machine Learning)
- Prétraitement des données
- La réduction de dimensions
- Les types des modèles du machine learning : Clustering, Classification, Regression
- L’évaluation des modèles.
- Les méthodes d’ensemble.
- Le langage Python pour le Big Data et le Machine Learning : Pandas, Scipy, Scikit-learn, TensorFlow.
- Communiquer ses résultats à l’aide de représentations graphiques lisibles et pertinentes.
Ateliers Données:
- Visualisation des données
- Exploration et sélection/ingénierie des variables
- Application des méthodes d’apprentissage automatique
- Sélection de modèles et méthodes d’ensemble
Qualité
Cette formation est accessible aux personnes en situation de handicap, nous contacter en cas de besoin d’informations complémentaires.
Programme mis à jour le