Big Data : intégration SQL, Hive, Impala, Phoenix, Spark

Comprendre les connexions et l’intégration de bases de données NoSQL dans un projet Big Data

  • Filière :

    Gestion de données

  • Sous-filière :

    NoSql & Big Data

  • Référence

    DB-BDI

  • Durée

    2 jours (14 h)

  • Prix par personne HT

    1 600 € HT

Objectifs pédagogiques

  • Comprendre les connexions existantes entre les mondes relationnels et NoSQL en environnement Big Data
  • Savoir mettre en oeuvre Hive et Impala, Phoenix, les Spark Dataframes.

Public cible

  • Experts en bases de données
  • Chefs de projet
  • Toute personne souhaitant comprendre le fonctionnement et les apports des bases NoSQL

Pré-requis

Connaissance générale des systèmes d’informations et des bases de données

Programme de la formation

Présentation

  • Besoin
  • Adéquation entre les objectifs et les outils.
  • Faciliter la manipulation de gros volumes de données en conservant une approche utilisateurs.
  • Rappels sur le stockage : HDFS, Cassandra, HBase
    et les formats de données : parquet, orc, raw, clés/valeurs
  • Les outils : Hive, Impala, Tez, Presto, Drill, Phoenix, Spark-sql, Spark Dataframe

Hive et Pig

  • Présentation Hive. Mode de fonctionnement. Rappel sur map/reduce.
  • Hive : le langage HiveQL. La surcouche Tez.
    • Atelier : création de tables, requêtage, connexion avec Hbase.

Impala et Phoenix

  • Présentation Impala. Cadre d’utilisation. Contraintes. Liaison avec le métastore Hive.
    • Atelier : mise en évidence des performances.
  • Présentation Phoenix. Cadre d’utilisation. Contraintes.
    • Atelier : connexion et requêtage sur une table Hbase.

Presto

  • Cadre d’utilisation
  • Sources de données utilisables
    • Atelier : mise en œuvre d’une requête s’appuyant sur Cassandra et PostgreSQL

Spark-sql et Spark DataFrame

  • Les différentes approches. Syntaxe Spark-sql, Spark/SQl. APIs QL.
  • Utilisation du métastore Hive.
    • Atelier : mise en oeuvre d’une requête s’appusant sur une table HBase et sur HDFS. Requêtage en spark-sql sur un fichier csv.

Drill

  • Utilisation d’APIs JDBC, ODBC. Indépendance Hadoop.
  • Contraintes d’utilisation. Performances.
    • Atelier : lecture de fichiers Parquets dans du HDFS, jointures, connexion et requêtage sur une table Hbase.

Comparatifs

  • Compatibilité ANSI/SQL
  • Approches des différents produits
  • Critères de choix

Qualité

Cette formation est accessible aux personnes en situation de handicap, nous contacter en cas de besoin d’informations complémentaires.

Programme mis à jour le