Qu’est-ce que la recherche hybride ?

Définition de la recherche hybride

La recherche hybride est une stratégie puissante de récupération d'informations qui combine deux techniques ou plus dans un algorithme de recherche.

Généralement, la recherche hybride combine la recherche par mots-clés et la recherche sémantique, en utilisant des techniques avancées d’apprentissage automatique. La recherche sémantique récupère des résultats basés sur la signification du texte, tandis que la recherche en texte intégral se concentre sur la correspondance exacte des mots. La recherche hybride est essentielle pour les requêtes conversationnelles et pour ces moments où l’on se demande « Comment cela s’appelait déjà ? », lorsque les utilisateurs ne saisissent pas ou ne peuvent pas saisir de mots-clés précis.

La recherche par mots-clés et la recherche sémantique ont chacune leurs propres forces. La recherche par mots-clés utilise un algorithme de classement et des termes spécifiques pour déterminer la pertinence d’un document par rapport à une requête de recherche. La recherche sémantique prend en compte la requête de recherche et son contexte.

La recherche hybride améliore la précision de la search en combinant les atouts de la recherche sémantique et de la search traditionnelle. Équilibrant la compréhension sémantique et le respect des termes exacts des requêtes, la recherche hybride fournit des résultats qui améliorent l'expérience de recherche des utilisateurs.

Comment fonctionne la recherche hybride ?

La recherche hybride associe la recherche par mots-clés et la recherche vectorielle pour fournir des résultats de recherche complets. Les incorporations vectorielles transforment des données, comme des phrases ou des photos, en nombres capturant leur signification et leurs relations. La recherche vectorielle peut capturer le sens dans des données non structurées. La recherche vectorielle peut capturer le sens dans les données non structurées. La recherche vectorielle surmonte les limites de la recherche par mots-clés, permettant aux utilisateurs de rechercher selon leur intention, même s’ils ne se souviennent pas d’une description précise ou d’un mot-clé exact. La recherche hybride peut analyser à la fois des vecteurs denses et clairsemés pour obtenir les résultats les plus pertinents.

Vecteurs denses

Les vecteurs denses permettent la compréhension sémantique et la gestion des requêtes contextuelles. Ils sont couramment utilisés dans l’apprentissage automatique, notamment pour générer des incorporations.

Vecteurs clairsemés

Les vecteurs clairsemés prennent en charge l'indexation traditionnelle basée sur les mots-clés et sont faiblement remplis en informations. Ces vecteurs sont fréquemment utilisés pour de grands ensembles de données.

Traitement des requêtes

Le traitement des requêtes en recherche hybride utilise des vecteurs clairsemés pour une correspondance exacte des mots-clés et la priorisation, et des vecteurs denses pour la compréhension sémantique, capturant la signification contextuelle et l’intention. En combinant ces deux types de vecteurs, la recherche hybride fournit des résultats de recherche complets qui équilibrent spécificité et pertinence. Pour obtenir des résultats, la recherche hybride utilise la fusion de rangs réciproques (RRF) afin de combiner plusieurs ensembles de résultats (chacun avec des indicateurs de pertinence différents) en un seul ensemble de résultats.

Recherche hybride avec RAG

La génération augmentée de récupération (RAG) est une technique de recherche qui utilise des sources de données privées ou propriétaires pour fournir un contexte qui complète la base de connaissances initiale de votre LLM. Le RAG est précieux pour les requêtes car il permet aux systèmes d'IA générative d'utiliser des sources d'information externes afin de produire des réponses plus pertinentes.

L'utilisation de la recherche hybride avec RAG et l'intégration de sources de données supplémentaires peut améliorer la pertinence d'une expérience de recherche en ajoutant du contexte. Les sources d'informations supplémentaires peuvent inclure tout ce dont les organisations ou les clients pourraient avoir besoin pour répondre à une requête, qu'il s'agisse de nouvelles informations sur Internet ou de documents commerciaux propriétaires ou confidentiels.

RAG présente plusieurs avantages par rapport aux modèles linguistiques fonctionnant de manière isolée. Elle est économique, nécessite moins de puissance de calcul et de stockage, et garantit que votre modèle peut accéder aux informations les plus récentes.

RAG en action

Recherche hybride avec Elastic

Elastic facilite l’implémentation de la recherche hybride en prenant en charge la recherche sémantique prête à l’emploi. Avec Elastic, la recherche hybride peut être effectuée sur une seule plateforme, une API, avec une vitesse et une échelle offrant une meilleure pertinence dès le départ.

Grâce à l'interface de test d'Elastic, les développeurs peuvent explorer l'ancrage des LLM de leur choix avec leurs propres données privées dans une interface low-code.

Elastic aide les développeurs à simplifier la construction des requêtes avec les nouveaux récupérateurs de requêtes — standard, kNN et RRF. À l'aide de ces requêtes, Elastic comprend les données sélectionnées et générera automatiquement une requête unifiée.