Definition: Hybride Suche

Hybrid search ist eine leistungsstarke Strategie zur Informationsbeschaffung, die zwei oder mehr Suchtechniken in einem Suchalgorithmus kombiniert.

Typischerweise kombiniert die Hybridsuche die Keyword-search und die semantische Suche, wobei fortschrittliche Machine Learning Techniken genutzt werden. Die semantische Suche liefert Ergebnisse basierend auf der Bedeutung des Textes, während die Volltextsuche sich auf exakte Wortübereinstimmungen konzentriert. Die hybride Suche ist entscheidend für Konversationsanfragen und jene „Wie hieß das noch mal?“-Momente, in denen Nutzer keine präzisen Schlüsselwörter eingeben können oder wollen.

Sowohl die Keyword-search als auch die semantische search haben einzigartige Stärken. Bei der Stichwortsuche wird mithilfe eines Ranking-Algorithmus und bestimmter Begriffe ermittelt, wie relevant ein Dokument für eine search ist. Die semantische search nimmt die Suchanfrage entgegen und berücksichtigt den Kontext.

Die Hybridsuche verbessert die Suchpräzision, indem sie die Stärken der semantischen search und der herkömmlichen search kombiniert. Durch die Balance zwischen semantischem Verständnis und der Berücksichtigung exakter Suchbegriffe liefert die Hybridsuche Ergebnisse, die das Sucherlebnis der Nutzer verbessern.

Wie funktioniert die Hybridsuche?

Die Hybridsuche kombiniert Stichwort- und Vektorsuche, um umfassende search results zu liefern. Vektoreinbettungen konvertieren Daten wie Sätze oder Fotos in Zahlen, die ihre Bedeutung und Beziehungen erfassen. Die Daten werden tokenisiert, indiziert und durch numerische Einbettungen repräsentiert. Die Vektorsuche kann die Bedeutung in unstrukturierten Daten erfassen. Die Vektorsuche überwindet die Einschränkungen der Stichwortsuche – sie ermöglicht es den Nutzern, nach dem zu suchen, was sie meinen, selbst wenn ihnen eine genaue Beschreibung oder ein exaktes Stichwort nicht einfällt. Die Hybridsuche kann sowohl dichte als auch spärliche Vektoren parsen, um die relevantesten Ergebnisse zu liefern.

Dicht besetzte Vektoren

Dichte Vektoren ermöglichen das semantische Verständnis und die Bearbeitung kontextbezogener Anfragen. Sie werden häufig im modernen Machine Learning verwendet, insbesondere für Aufgaben wie das Generieren von Einbettungen.

Dünn besetzte Vektoren

Sparse-Vektoren verarbeiten die traditionelle schlüsselwortbasierte Indizierung und sind spärlich mit Informationen besetzt. Diese Vektoren werden häufig für große Datensätze genutzt.

Abfrageverarbeitung

Bei der Verarbeitung von Suchanfragen in der hybriden search werden spärliche Vektoren für die exakte Übereinstimmung und Priorisierung von Schlüsselwörtern und dichte Vektoren für das semantische Verständnis verwendet, um die kontextuelle Bedeutung und Absicht zu erfassen. Durch die Kombination dieser beiden Arten von Vektoren liefert die Hybridsuche umfassende search results, die Spezifität und Relevanz in Einklang bringen. Um Ergebnisse zu erzielen, verwendet die Hybridsuche die Reciprocal Rank Fusion (RRF), um mehrere Ergebnismengen (jede mit unterschiedlichen Relevanzindikatoren) zu einer einzigen Ergebnismenge zu kombinieren.

Hybride search mit RAG

Retrieval Augmented Generation (RAG) ist eine search-Technik, die private oder proprietäre data-Quellen verwendet, um Kontext bereitzustellen, der die ursprüngliche Wissensbasis Ihres LLM ergänzt. RAG ist für Abfragen wertvoll, weil es generativen KI-Systemen ermöglicht, externe Informationsquellen zu nutzen, um relevantere Reaktionen zu generieren.

Die Verwendung einer hybriden search mit RAG – und die Einbeziehung zusätzlicher data-Quellen – kann die Relevanz einer Sucherfahrung durch das Hinzufügen von Kontext verbessern. Zusätzliche Informationsquellen können alles umfassen, was Organisationen oder Kunden zur Beantwortung einer Anfrage benötigen, von neuen Informationen im Internet bis hin zu proprietären oder vertraulichen Geschäftsdokumenten.

RAG bietet mehrere Vorteile gegenüber Sprachmodellen, die isoliert arbeiten. Es ist kosteneffizient, erfordert weniger Rechenleistung und Speicherplatz und stellt sicher, dass Ihr Modell auf die aktuellsten Informationen zugreifen kann.

RAG in Aktion

Hybride search mit Elastic

Elastic macht es einfach, eine hybride Suche zu implementieren, indem es die vorkonfigurierte semantische Suche unterstützt. Mit Elastic kann die hybride search auf einer Plattform, einer API und von Anfang an mit besserer Geschwindigkeit und scale durchgeführt werden.

Mithilfe von Elastic's Playground können Entwickler in einer Low-Code-Schnittstelle die LLMs ihrer Wahl mit ihren eigenen privaten Daten erkunden.

Elastic hilft Entwicklern, die Erstellung von Abfragen mit den neu eingeführten Query-Retrievern – Standard, kNN und RRF – zu vereinfachen. Mithilfe dieser Abfragen versteht Elastic die ausgewählten Daten und wird automatisch eine einheitliche Abfrage generieren.