Objectifs pédagogiques

Public cible

Notions de calculs statistiques

Présentation Spark, origine du projet, apports, principe de fonctionnement
Langages supportés
Modes de fonctionnement : batch/Streaming
Bibliothèques : Machine Learning, IA
Mise en oeuvre sur une architecture distribuée
Architecture : clusterManager, driver, worker, …
Architecture : SparkContext, SparkSession, Cluster Manager, Executor sur chaque noeud
Définitions : Driver program, Cluster manager, deploy mode, Executor, Task, Job
Savoir intégrer Spark dans un environnement Hadoop

Création et exploitation d’un cluster Spark/YARN
Intégration de données sqoop, kafka, flume vers une architecture Hadoop et traitements par Spark
Intégration de données AWS S3
Différents cluster managers : Spark interne, avec Mesos, avec Yarn, avec Amazon EC2
Atelier : Mise en oeuvre avec Spark sur Hadoop HDFS et Yarn. Soumission de jobs, supervision depuis l’interface web

Objectifs, principe de fonctionnement: stream processing
Source de données : HDFS, Flume, Kafka, …
Notion de StreamingContext, DStreams, démonstrations
Atelier : traitement de flux DStreams en Scala. Watermarking. Gestion des micro-batches
Intégration de Spark Streaming avec Kafka
Atelier : mise en oeuvre d’une chaîne de gestion de données en flux tendu : IoT, Kafka, SparkStreaming, Spark. Analyse des données au fil de l’eau

Utilisation du shell Spark avec Scala ou Python. Modes de fonctionnement. Interprété, compilé
Utilisation des outils de construction
Gestion des versions de bibliothèques
Atelier : Mise en pratique en Java, Scala et Python. Notion de contexte Spark. Extension aux sessions Spark

Spark et SQL
Traitement de données structurées
L’API Dataset et DataFrames
Jointures
Filtrage de données, enrichissement
Calculs distribués de base
Introduction aux traitements de données avec map/reduce
Lecture/écriture de données : Texte, JSon, Parquet, HDFS, fichiers séquentiels
Optimisation des requêtes
Mise en oeuvre des Dataframes et DataSet
Compatibilité Hive
Atelier : écriture d’un ETL entre HDFS et HBase
Atelier : extraction, modification de données dans une base distribuée. Collections de données distribuées. Exemples

Fourniture d’algorithmes, d’opérateurs simples pour des calculs statistiques sur les graphes
Atelier : exemples d’opérations sur les graphes

Machine Learning avec Spark, algorithmes standards supervisés et non-supervisés (RandomForest, LogisticRegression, KMeans, …)
Gestion de la persistance, statistiques
Mise en oeuvre avec les DataFrames
Atelier : mise en oeuvre d’une régression logistique sur Spark

Cette formation est accessible aux personnes en situation de handicap, nous contacter en cas de besoin d’informations complémentaires.

Programme mis à jour le 5 juin 2024