-
Filière :
Gestion de données
-
Sous-filière :
NoSql & Big Data
-
Référence
DB-BDI
-
Durée
2 jours (14h)
-
Prix unitaire HT
1390 €
Objectifs pédagogiques
- Comprendre les connexions existantes entre les mondes relationnels et NoSQL en environnement Big Data
- Savoir mettre en oeuvre Hive et Pig, Impala, les Spark Dataframes
Public cible
- Chefs de projets
- Experts en bases de données relationnelles
- Toute personne souhaitant comprendre les connexions existantes entre les mondes relationnels et nosql en environnement big data
Pré-requis
Connaissance générale des systèmes d’informations et des bases de données
Programme de la formation
Présentation
- Besoin
- Adéquation entre les objectifs et les outils
- Faciliter la manipulation de gros volumes de données en conservant une approche utilisateurs
- Rappels sur le stockage : HDFS, Cassandra, HBase et les formats de données : parquet, orc, raw, clés/valeurs
- Les outils : Hive, Impala, Tez, Presto, Drill, Pig, Spark/QL
Hive et Pig
- Présentation
- Mode de fonctionnement. Rappel sur map/reduce
- Hive : le langage HiveQL. Exemples
- Pig : le langage pig/latin. Exemples
Impala
- Présentation
- Cadre d’utilisation
- Contraintes
- Liaison avec le métastore Hive
Travaux pratiques : mise en évidence des performances
Presto
- Cadre d’utilisation
- Sources de données utilisables
Travaux pratiques : mise en œuvre d’une requête s’appuyant sur Cassandra et PostgreSQL
Spark DataFrame
- Les différentes approches
- Syntaxe Spark/SQl
- APIs QL
- Compilation catalyst
- Syntaxe, opérateurs
Travaux pratiques : mise en œuvre d’une requête s’appuyant sur HBase et HDFS
Drill
- Utilisation d’APIs JDBC, ODBC
- Indépendance Hadoop
- Contraintes d’utilisation
- Performances
Comparatifs
- Compatibilité ANSI/SQL
- Approches des différents produits
- Critères de choix