Dataiku DSS

  • Filière :

    IA & Innovation

  • Sous-filière :

    AI Modeling, tools & frameworks

  • Référence

    DS034

  • Durée

    3 jours (21 h)

  • Prix par personne HT

    2.420 € HT

Objectifs pédagogiques

Savoir installer, configurer, Dataiku DSS, l’utiliser depuis l’interface web ou des API.

Public cible

  • Chefs de projet
  • Développeurs
  • Data-scientists
  • Utilisateurs de Dataiku DSS

Pré-requis

Connaissance des principes de la manipulation de données et du machine learning.

Modalités d'évaluation

L’évaluation des acquis se fait tout au long de la session au travers d’ateliers de mise en pratique des notions et concepts abordés pendant la formation.

Programme de la formation

Présentation, concepts DSS

  • Fonctionnalités :
    • Mise à disposition des méthodes et outils de data-sciences à partir d’une interface graphique ou de langages de requêtage ou de programmation (Python, SQL, R), principe de “Self Service Analytics”
  • Cluster DSS : Design, Deployer, Api, Automation et Govern Nodes
  • Notions de projet, data, dataset, recipes
  • Outils collaboratif : Wiki, tags, discussions…
  • Premiers pas avec Dataiku DSS : exemples

Connexion aux données

  • Connecteurs disponibles, formats de fichiers, formats spécifiques Hadoop/Spark
  • Chargement des fichiers, emplacement des fichiers,
  • Système de fichiers, HDFS, Amazon S3, stockage Google Cloud, etc …
  • FTP, connexion ssh, connexion aux bases de données SQL
  • Autres stockages : Cassandra, MongoDB, Elasticsearch, …

Préparation des données

  • Scripts de préparation, échantillonnage, exécution, les différents moteurs d’exécution: DSS, Spark, base de données SQL

Graphiques et statistiques

  • Présentation des types de graphiques disponibles et configuration
  • Echantillonnage et exécution, graphiques de base, tables, nuages de points, visualisation cartographique, etc …
  • Réalisation d’exercices pratiques.
  • Fonctionnalités statistiques disponibles, démonstrations

Machine learning

  • Le laboratoire
  • Fonctionnalités disponibles:
    • apprentissage supervisé et non supervisé,
    • algorithmes utilisés, scoring, deep learning…
  • Evaluation, optimisation, compréhension du modèle
  • Déploiement et cycle de vie du modèle

Flow/Recipes

  • Interface graphique de gestion des cycles de traitement,des datasets, des traitements,paramètrage de l’exécution en parallèle, des données géographiques, export en format pdf ou images, etc …
  • Travaux pratiques

Interfaces de programmation

  • Présentation des différentes interfaces : SQL, Python, R
  • Exemples d’interrogations SQL et Python
  • Interfaçage avec Spark

Programme mis à jour le