¿Qué es la búsqueda híbrida?
Definición de búsqueda híbrida
La búsqueda híbrida es una poderosa estrategia de recuperación de información que combina dos o más técnicas de búsqueda en un algoritmo de búsqueda.
Por lo general, la búsqueda híbrida combina la búsqueda de palabras clave y la búsqueda semántica, con técnicas avanzadas de machine learning. La búsqueda semántica recupera resultados basados en el significado del texto, mientras que la búsqueda de texto se centra en coincidencias exactas de palabras. La búsqueda híbrida es esencial para las consultas conversacionales y esos momentos en donde los usuarios se preguntan “¿cómo se llamaba eso?” y no ingresan o no pueden ingresar palabras clave precisas.
Tanto la búsqueda de palabras clave como la búsqueda semántica tienen beneficios únicos. La búsqueda de palabras clave utiliza un algoritmo de clasificación y términos específicos para determinar cuán relevante es un documento para una consulta de búsqueda. La búsqueda semántica toma la consulta de búsqueda y considera el contexto.
La búsqueda híbrida mejora la precisión de la búsqueda al combinar los beneficios de la búsqueda semántica y la búsqueda tradicional. Al equilibrar la comprensión semántica y respetar los términos exactos de consulta, la búsqueda híbrida ofrece resultados que mejoran la experiencia de búsqueda del usuario.
Componentes de búsqueda híbrida
La búsqueda híbrida es la combinación de búsqueda por palabras clave, búsqueda léxica o BM25 (un algoritmo de clasificación que determina la relevancia) y búsqueda semántica. La búsqueda semántica se centra en lo que logras con la búsqueda, mientras que la búsqueda de vectores se centra en cómo logras esos resultados, principalmente al recuperar datos con representaciones vectoriales.
Búsqueda semántica
La búsqueda semántica tiene que ver con comprender el significado y el contexto. Este tipo de búsqueda se centra en entender la intención detrás de las palabras en una consulta, en lugar de solo hacer coincidir palabras clave como lo hace la búsqueda BM25. La búsqueda semántica cierra la brecha entre la consulta humana y el significado real, ya que considera la variabilidad y la ambigüedad del lenguaje. Aprovecha el procesamiento del lenguaje natural (NLP), el machine learning, los grafos de conocimiento y los vectores para ofrecer resultados más relevantes para la intención del usuario e incorporar contexto.
Para determinar el contexto, la búsqueda semántica puede utilizar los datos de usuario conocidos, la ubicación o el historial de búsqueda anterior para obtener resultados relevantes. Buscar “fútbol” en EE. UU. arrojaría resultados diferentes a los de la misma búsqueda en otras partes del mundo. La búsqueda semántica distingue la intención según la ubicación geográfica del usuario.
Búsqueda de vectores
La búsqueda de vectores es un método técnico de búsqueda que utiliza representaciones numéricas o vectores para representar elementos como texto, imágenes o audio, y recupera datos en función de similitudes. Estos vectores capturan el significado subyacente o las características de estos elementos. Una búsqueda de vectores recupera datos al medir la similitud de las representaciones vectoriales.
Combinación de enfoques
La búsqueda semántica y la búsqueda de vectores tienen mucho en común; de hecho, la búsqueda semántica está se apoya en la búsqueda de vectores.
Cuando se lanza una consulta, el motor de búsqueda convierte la consulta en incrustaciones de vectores. Un algoritmo, como el algoritmo kNN (algoritmo de los k vecinos más cercanos), compara los vectores de documentos existentes con el vector de la consulta. Luego, el algoritmo genera resultados en función de la relevancia conceptual.
Cuando la búsqueda semántica y la búsqueda de vectores trabajan juntas, las plataformas pueden manejar consultas complejas, incluidas las búsquedas multilingües y las que requieren datos no estructurados.
Cómo funciona la búsqueda híbrida
La búsqueda híbrida combina la búsqueda de palabras clave y de vectores para proporcionar resultados de búsqueda completos. Las incrustaciones de vectores convierten datos, como oraciones o fotos, en números que capturan su significado y sus relaciones. Los datos se tokenizan, indexan y representan mediante incrustaciones numéricas. La búsqueda de vectores puede capturar el significado en datos no estructurados. La búsqueda de vectores supera las limitaciones de la búsqueda por palabras clave, al permitirles a los usuarios buscar por lo que quieren decir, incluso si no pueden recordar una descripción precisa o una palabra clave exacta. La búsqueda híbrida puede parsear vectores densos y dispersos para obtener los resultados más relevantes.
Vectores densos
Los vectores densos gestionan la comprensión semántica y las consultas contextuales. Se utilizan comúnmente en el machine learning moderno, en especial, para tareas como la generación de incrustaciones.
Vectores dispersos
Los vectores dispersos controlan la indexación tradicional basada en palabras clave y están escasamente poblados de información. Con frecuencia, estos vectores se utilizan para grandes conjuntos de datos.
Procesamiento de consultas
El procesamiento de consultas en la búsqueda híbrida utiliza vectores dispersos para la coincidencia exacta y priorización de palabras clave, y vectores densos para la comprensión semántica, capturando el significado contextual y la intención. Al combinar estos dos tipos de vectores, la búsqueda híbrida proporciona resultados de búsqueda completos que equilibran la especificidad y la relevancia. Para obtener resultados, la búsqueda híbrida utiliza la fusión de rangos recíprocos (RRF) para combinar múltiples conjuntos de resultados (cada uno con diferentes indicadores de relevancia) en un solo conjunto de resultados.
Beneficios de la búsqueda híbrida
La búsqueda híbrida les ofrece beneficios a los usuarios sobre la búsqueda tradicional, ya que aprovecha los beneficios combinados de diferentes métodos de búsqueda. Su principal beneficio es proporcionar resultados de búsqueda más precisos con menos esfuerzo.
En todas las industrias, los algoritmos de búsqueda internos y externos pueden usar la búsqueda híbrida para presentar resultados relevantes. Por ejemplo, las plataformas de comercio electrónico pueden distinguir entre búsquedas como “vestido rojo con bolsillos” y “vestido rojo para la primera cena en un restaurante elegante que tenga espacio para llaves y dinero”.
Otro ejemplo: buscar “perros” en un documento interno de beneficios de una empresa podría arrojar un resultado relacionado con la “política de mascotas en la oficina”. Es posible que la palabra específica no aparezca en la consulta, pero probablemente sea la respuesta que el usuario estaba buscando.
En general, el enfoque híbrido mejora la experiencia de búsqueda del usuario gracias a su flexibilidad con el idioma. La búsqueda híbrida mejora la precisión al equilibrar la comprensión semántica con los términos exactos de la consulta. Por lo tanto, las consultas conversacionales y complejas se pueden procesar de forma eficiente, al prevenir los atascos y la frustración del usuario.
Búsqueda híbrida con RAG
La generación aumentada de recuperación (RAG) es una técnica de búsqueda que utiliza fuentes de datos privadas o propietarias para proporcionar un contexto que complementa la base de conocimientos original de tu LLM. RAG es valioso para las consultas porque permite a los sistemas de AI generativa utilizar fuentes de información externas para generar respuestas más relevantes.
El uso de búsqueda híbrida con RAG, junto con la incorporación de fuentes de datos adicionales, puede mejorar la relevancia de la experiencia de búsqueda al agregar contexto. Las fuentes de información adicionales pueden ser cualquier recurso que las organizaciones o los clientes necesiten para responder a una consulta, desde nueva información en internet hasta documentos empresariales propietarios o confidenciales.
RAG ofrece varios beneficios en comparación con los modelos de lenguaje que operan de forma aislada. Es rentable, requiere menos procesamiento y almacenamiento, y garantiza que tu modelo pueda acceder a la información más actualizada.
Búsqueda híbrida con Elastic
Elastic facilita la implementación de la búsqueda híbrida al admitir búsqueda semántica lista para usar. Con Elastic, la búsqueda híbrida se puede realizar en una plataforma, una API, y a una velocidad y escala con mejor relevancia desde el principio.
Con el área de pruebas de Elastic, los desarrolladores pueden explorar la integración de los LLM de su elección con sus propios datos privados en una interfaz de bajo código.
Elastic ayuda a los desarrolladores a simplificar la construcción de consultas con los recién introducidos recuperadores de consultas: estándar, kNN y RRF. Al usar estas consultas, Elastic entiende los datos seleccionados y generará automáticamente una consulta unificada.
Recursos de búsqueda híbrida
- Poner manos a la obra con Elasticsearch AI Playground
- Cómo combinar los resultados de búsqueda de texto completo y kNN combinados
- aNN vs. kNN: comprender sus diferencias y roles en la búsqueda de vectores
- Usar búsqueda híbrida para la detección de errores con Elasticsearch y Go
- Cómo realizar una búsqueda híbrida con texto semántico
- ¿Qué es RAG?
- ¿Qué es la búsqueda semántica?