Apache Solr

Implémenter un moteur de recherche "scalable" avec Solr

  • Filière :

    Digital Workplace, Contenus, Search

  • Sous-filière :

    Search

  • Référence

    DB-SOLR

  • Durée

    3 jours (21 h)

  • Prix par personne HT

    2 050 € HT

Description

La Recherche d’Information (RI) consiste à trouver des ressources (habituellement des documents) de nature non structurée (habituellement des textes) qui répondent à un besoin d’information parmi une large collection stockée (sur ordinateur). La recherche d’information comporte deux phases : l’indexation et la recherche. L’indexation est le processus qui consiste, à partir des données sources, à construire la structure de données (index inversé) qui va faciliter l’accès à l’information. La phase de recherche consiste à trouver les documents pertinents à partir de l’index inversé. Pour mettre en place un moteur de recherche, il est capital de comprendre les fondamentaux de cette filière. Bien choisir les librairies et solutions de développement est tout aussi primordial. A l’issue de cette formation, vous serez au fait des fondamentaux de la recherche d’information. Vous comprendrez les principaux composants du module d’indexation d’un moteur de recherche Web ou d’entreprise. Nous vous montrons les structures de données utilisées, les infrastructures nécessaires. Nous mettons un accent sur les techniques pour améliorer la pertinence des résultats et l’expérience de l’utilisateur. Nous vous donnons les clés pour aller au delà de la simple recherche par mots clés en capitalisant sur les connaissances de votre domaine d’activité.

Objectifs pédagogiques

  • Démarrer un projet de recherche d’information
  • Modéliser les unités d’indexation
  • Développer les services de recherche
  • Analyser les performances de votre moteur de recherche
  • Déployer le moteur de recherche suivant différentes topologies

Public cible

  • Architectes
  • Développeurs

Pré-requis

Expérience de développement

Programme de la formation

Gestion des cores

  • Core schemaless
  • Options de démarrage
  • Chemin personnalisé pour la localisation des cores
  • Configurations prédéfinies configSets
    • Création core
  • Utilisation de l’API REST (endpoint _introspect)
  • Création core avec des chemins personnalisés

Configuration d’un core

  • Configuration en mode schemaless et autoguessing
  • Création d’un schéma personnalisé

Indexation

  • API – Update Request Handler
    • json
    • xml
  • Utilitaire post
    • xml
  • Utilitaire tika

Data Manupulation Language

  • Recherches structurées – Les filtres
    • Recherches basiques de type filtre – 1
    • Recherches basiques de type filtre – 2
  • Recherches full-text
    • Recherches sur un champ unique
    • Recherches multichamps – un texte spécifique à chaque champ
    • Recherches multichamps – un texte commun à tous les champs
  • Proximité
    • Phrase match
  • Partial matching (Part One)
    • Chargement du jeu d’essai
    • Partial matching sans modification de l’indexation
    • Partial matching avec le type natif search_as_you_type
  • Spécificités du langage
    • Préambule
    • Mapping inféré
    • Mapping personnalisé
  • Spellcheckers
    • Chargement des données
    • Configuration du handler /select et requêtes
    • Configuration du handler /spellcheck et requêtes
  • Suggesters
    • Chargement des données
    • Implémentation individuelle
    • Implémentation groupée
    • Combinaison d’un search et d’une suggestion
  • Agrégations
    • Chargement des données
    • Requêtes
  • Cas concret : Oxiane Trainings

Solr Cloud

  • Zookeeper embarqué
  • Zookeeper standalone

Test de charge

  • Installation
  • Interprétation des résultats
    • View Results Tree
    • Aggregate Graph
    • Summary report

Qualité

Cette formation est accessible aux personnes en situation de handicap, nous contacter en cas de besoin d’informations complémentaires.

Programme mis à jour le