Was ist hybride Suche?
Definition: Hybride Suche
Hybrid search ist eine leistungsstarke Strategie zur Informationsbeschaffung, die zwei oder mehr Suchtechniken in einem Suchalgorithmus kombiniert.
Typischerweise kombiniert die Hybridsuche die Keyword-search und die semantische Suche, wobei fortschrittliche Machine Learning Techniken genutzt werden. Die semantische Suche liefert Ergebnisse basierend auf der Bedeutung des Textes, während die Volltextsuche sich auf exakte Wortübereinstimmungen konzentriert. Die hybride Suche ist entscheidend für Konversationsanfragen und jene „Wie hieß das noch mal?“-Momente, in denen Nutzer keine präzisen Schlüsselwörter eingeben können oder wollen.
Sowohl die Keyword-search als auch die semantische search haben einzigartige Stärken. Bei der Stichwortsuche wird mithilfe eines Ranking-Algorithmus und bestimmter Begriffe ermittelt, wie relevant ein Dokument für eine search ist. Die semantische search nimmt die Suchanfrage entgegen und berücksichtigt den Kontext.
Die Hybridsuche verbessert die Suchpräzision, indem sie die Stärken der semantischen search und der herkömmlichen search kombiniert. Durch die Balance zwischen semantischem Verständnis und der Berücksichtigung exakter Suchbegriffe liefert die Hybridsuche Ergebnisse, die das Sucherlebnis der Nutzer verbessern.
Komponenten der Hybrid search
Die Hybridsuche ist die Kombination aus Schlüsselwort-, lexikalischer oder BM25 (ein Ranking-Algorithmus, der die Relevanz bestimmt) und semantischer search. Die semantische Suche konzentriert sich darauf, was Sie mit der search erreichen, während sich die Vektorsuche darauf konzentriert, wie Sie diese Ergebnisse erzielen, hauptsächlich durch das Abrufen von data mithilfe von Vektordarstellungen.
Semantische Suche
Bei der semantischen search geht es darum, Bedeutung und Kontext zu verstehen. Bei dieser Art der Suche steht das Verständnis der Absicht hinter den Wörtern einer Abfrage im Vordergrund und nicht das bloße Abgleichen von Schlüsselwörtern wie bei der BM25 search. Die semantische search überbrückt die Lücke zwischen menschlicher Abfrage und tatsächlicher Bedeutung, indem sie Variabilität und Mehrdeutigkeit in der Sprache berücksichtigt. Es nutzt Natural Language Processing (NLP), Machine Learning, Wissensgraphen und Vektoren, um Ergebnisse zu liefern, die relevanter für die Absicht des Nutzers sind und den Kontext einbeziehen.
Um den Kontext zu bestimmen, kann die semantische Suche bekannte Nutzerdaten, den Standort oder den bisherigen Suchverlauf verwenden, um relevante Ergebnisse zu liefern. Die search nach „Fußball“ in den USA würde andere Ergebnisse liefern als die gleiche search in anderen Teilen der Welt. Die semantische Suche unterscheidet die Absicht basierend auf dem geografischen Standort des Benutzers.
Vektorsuche
Die Vektorsuche ist eine technische Suchmethode, die numerische Repräsentationen oder Vektoren verwendet, um Elemente wie Text, Bilder oder Audio darzustellen und Daten basierend auf Ähnlichkeiten abzurufen. Diese Vektoren erfassen die zugrunde liegende Bedeutung oder Features dieser Elemente. Eine Vektor-search ruft data ab, indem sie die Ähnlichkeit von Vektordarstellungen misst.
Kombination von Ansätzen
Semantische search und Vektorsuche haben viel gemeinsam, denn die semantische search wird durch Vektorsuche ermöglicht.
Wenn eine Abfrage gestartet wird, transformiert die Suchmaschine die Abfrage in Vektoreinbettungen. Ein Algorithmus, wie der kNN-Algorithmus (k-nächster-Nachbar-Algorithmus), gleicht Vektoren vorhandener Dokumente mit dem Abfragevektor ab. Der Algorithmus generiert anschließend Ergebnisse basierend auf der konzeptionellen Relevanz.
Wenn semantische und Vektor-Search zusammenarbeiten, können Platforms komplexe Abfragen verarbeiten, einschließlich mehrsprachiger Searches und solcher, die unstrukturierte Daten erfordern.
Wie funktioniert die Hybridsuche?
Die Hybridsuche kombiniert Stichwort- und Vektorsuche, um umfassende search results zu liefern. Vektoreinbettungen konvertieren Daten wie Sätze oder Fotos in Zahlen, die ihre Bedeutung und Beziehungen erfassen. Die Daten werden tokenisiert, indiziert und durch numerische Einbettungen repräsentiert. Die Vektorsuche kann die Bedeutung in unstrukturierten Daten erfassen. Die Vektorsuche überwindet die Einschränkungen der Stichwortsuche – sie ermöglicht es den Nutzern, nach dem zu suchen, was sie meinen, selbst wenn ihnen eine genaue Beschreibung oder ein exaktes Stichwort nicht einfällt. Die Hybridsuche kann sowohl dichte als auch spärliche Vektoren parsen, um die relevantesten Ergebnisse zu liefern.
Dicht besetzte Vektoren
Dichte Vektoren ermöglichen das semantische Verständnis und die Bearbeitung kontextbezogener Anfragen. Sie werden häufig im modernen Machine Learning verwendet, insbesondere für Aufgaben wie das Generieren von Einbettungen.
Dünn besetzte Vektoren
Sparse-Vektoren verarbeiten die traditionelle schlüsselwortbasierte Indizierung und sind spärlich mit Informationen besetzt. Diese Vektoren werden häufig für große Datensätze genutzt.
Abfrageverarbeitung
Bei der Verarbeitung von Suchanfragen in der hybriden search werden spärliche Vektoren für die exakte Übereinstimmung und Priorisierung von Schlüsselwörtern und dichte Vektoren für das semantische Verständnis verwendet, um die kontextuelle Bedeutung und Absicht zu erfassen. Durch die Kombination dieser beiden Arten von Vektoren liefert die Hybridsuche umfassende search results, die Spezifität und Relevanz in Einklang bringen. Um Ergebnisse zu erzielen, verwendet die Hybridsuche die Reciprocal Rank Fusion (RRF), um mehrere Ergebnismengen (jede mit unterschiedlichen Relevanzindikatoren) zu einer einzigen Ergebnismenge zu kombinieren.
Vorteile der Hybridsuche
Die Hybridsuche bietet den Nutzern Vorteile gegenüber der traditionellen Suche, indem sie die kombinierten Stärken verschiedener Suchmethoden nutzt. Der Hauptvorteil besteht darin, dass mit weniger Aufwand genauere search results erzielt werden.
Branchenübergreifend können interne und externe Suchalgorithmen die hybride search nutzen, um relevante Ergebnisse zu präsentieren. So können E-Commerce-Plattformen beispielsweise zwischen der Search nach "rotem Kleid mit Taschen" und "rotem Kleid für das erste Abendessen in einem schicken Restaurant, das Platz für Schlüssel und Geld bietet, unterscheiden."
Ein weiteres Beispiel: Die Suche nach „Hunde“ in einem internen Leistungsdokument eines Unternehmens könnte zu einem Ergebnis für „Büro-Haustier-Richtlinie“ führen. Das spezifische Wort erscheint möglicherweise nicht in der Abfrage, ist aber wahrscheinlich die Antwort, nach der ein Nutzer gesucht hat.
Insgesamt führt die hybride Suche dank ihrer sprachlichen Flexibilität zu einem verbesserten user search Erlebnis. Hybrid search verbessert die Suchpräzision, indem sie ein Gleichgewicht zwischen semantischem Verständnis und exakten Suchbegriffen schafft. Daher können konversationelle und komplexe Abfragen effizient verarbeitet werden, um Sackgassen und Frustration der user zu verhindern.
Hybride search mit RAG
Retrieval Augmented Generation (RAG) ist eine search-Technik, die private oder proprietäre data-Quellen verwendet, um Kontext bereitzustellen, der die ursprüngliche Wissensbasis Ihres LLM ergänzt. RAG ist für Abfragen wertvoll, weil es generativen KI-Systemen ermöglicht, externe Informationsquellen zu nutzen, um relevantere Reaktionen zu generieren.
Die Verwendung einer hybriden search mit RAG – und die Einbeziehung zusätzlicher data-Quellen – kann die Relevanz einer Sucherfahrung durch das Hinzufügen von Kontext verbessern. Zusätzliche Informationsquellen können alles umfassen, was Organisationen oder Kunden zur Beantwortung einer Anfrage benötigen, von neuen Informationen im Internet bis hin zu proprietären oder vertraulichen Geschäftsdokumenten.
RAG bietet mehrere Vorteile gegenüber Sprachmodellen, die isoliert arbeiten. Es ist kosteneffizient, erfordert weniger Rechenleistung und Speicherplatz und stellt sicher, dass Ihr Modell auf die aktuellsten Informationen zugreifen kann.
Hybride search mit Elastic
Elastic macht es einfach, eine hybride Suche zu implementieren, indem es die vorkonfigurierte semantische Suche unterstützt. Mit Elastic kann die hybride search auf einer Plattform, einer API und von Anfang an mit besserer Geschwindigkeit und scale durchgeführt werden.
Mithilfe von Elastic's Playground können Entwickler in einer Low-Code-Schnittstelle die LLMs ihrer Wahl mit ihren eigenen privaten Daten erkunden.
Elastic hilft Entwicklern, die Erstellung von Abfragen mit den neu eingeführten Query-Retrievern – Standard, kNN und RRF – zu vereinfachen. Mithilfe dieser Abfragen versteht Elastic die ausgewählten Daten und wird automatisch eine einheitliche Abfrage generieren.
Ressourcen für die hybride Suche
- Krempeln Sie die Ärmel hoch mit Elasticsearch KI-Spielplatz
- Wie man kombinierte Volltext- und kNN-Ergebnisse kombiniert
- aNN vs kNN: Ihre Unterschiede und Rollen in der Vektor-Suche verstehen
- Verwendung der hybriden Suche für die Gopher-Jagd mit Elasticsearch und Go
- So führen Sie eine hybride search mit semantischem Text durch
- Was ist RAG?
- Was ist die semantische Suche?