¿Qué es la búsqueda híbrida?

Definición de búsqueda híbrida

La búsqueda híbrida es una poderosa estrategia de recuperación de información que combina dos o más técnicas de búsqueda en un algoritmo de búsqueda.

Por lo general, la búsqueda híbrida combina la búsqueda de palabras clave y la búsqueda semántica, con técnicas avanzadas de machine learning. La búsqueda semántica recupera resultados basados en el significado del texto, mientras que la búsqueda de texto se centra en coincidencias exactas de palabras. La búsqueda híbrida es esencial para las consultas conversacionales y esos momentos en donde los usuarios se preguntan “¿cómo se llamaba eso?” y no ingresan o no pueden ingresar palabras clave precisas.

Tanto la búsqueda de palabras clave como la búsqueda semántica tienen beneficios únicos. La búsqueda de palabras clave utiliza un algoritmo de clasificación y términos específicos para determinar cuán relevante es un documento para una consulta de búsqueda. La búsqueda semántica toma la consulta de búsqueda y considera el contexto.

La búsqueda híbrida mejora la precisión de la búsqueda al combinar los beneficios de la búsqueda semántica y la búsqueda tradicional. Al equilibrar la comprensión semántica y respetar los términos exactos de consulta, la búsqueda híbrida ofrece resultados que mejoran la experiencia de búsqueda del usuario.

Cómo funciona la búsqueda híbrida

La búsqueda híbrida combina la búsqueda de palabras clave y de vectores para proporcionar resultados de búsqueda completos. Las incrustaciones de vectores convierten datos, como oraciones o fotos, en números que capturan su significado y sus relaciones. Los datos se tokenizan, indexan y representan mediante incrustaciones numéricas. La búsqueda de vectores puede capturar el significado en datos no estructurados. La búsqueda de vectores supera las limitaciones de la búsqueda por palabras clave, al permitirles a los usuarios buscar por lo que quieren decir, incluso si no pueden recordar una descripción precisa o una palabra clave exacta. La búsqueda híbrida puede parsear vectores densos y dispersos para obtener los resultados más relevantes.

Vectores densos

Los vectores densos gestionan la comprensión semántica y las consultas contextuales. Se utilizan comúnmente en el machine learning moderno, en especial, para tareas como la generación de incrustaciones.

Vectores dispersos

Los vectores dispersos controlan la indexación tradicional basada en palabras clave y están escasamente poblados de información. Con frecuencia, estos vectores se utilizan para grandes conjuntos de datos.

Procesamiento de consultas

El procesamiento de consultas en la búsqueda híbrida utiliza vectores dispersos para la coincidencia exacta y priorización de palabras clave, y vectores densos para la comprensión semántica, capturando el significado contextual y la intención. Al combinar estos dos tipos de vectores, la búsqueda híbrida proporciona resultados de búsqueda completos que equilibran la especificidad y la relevancia. Para obtener resultados, la búsqueda híbrida utiliza la fusión de rangos recíprocos (RRF) para combinar múltiples conjuntos de resultados (cada uno con diferentes indicadores de relevancia) en un solo conjunto de resultados.

Búsqueda híbrida con RAG

La generación aumentada de recuperación (RAG) es una técnica de búsqueda que utiliza fuentes de datos privadas o propietarias para proporcionar un contexto que complementa la base de conocimientos original de tu LLM. RAG es valioso para las consultas porque permite a los sistemas de AI generativa utilizar fuentes de información externas para generar respuestas más relevantes.

El uso de búsqueda híbrida con RAG, junto con la incorporación de fuentes de datos adicionales, puede mejorar la relevancia de la experiencia de búsqueda al agregar contexto. Las fuentes de información adicionales pueden ser cualquier recurso que las organizaciones o los clientes necesiten para responder a una consulta, desde nueva información en internet hasta documentos empresariales propietarios o confidenciales.

RAG ofrece varios beneficios en comparación con los modelos de lenguaje que operan de forma aislada. Es rentable, requiere menos procesamiento y almacenamiento, y garantiza que tu modelo pueda acceder a la información más actualizada.

RAG en acción

Búsqueda híbrida con Elastic

Elastic facilita la implementación de la búsqueda híbrida al admitir búsqueda semántica lista para usar. Con Elastic, la búsqueda híbrida se puede realizar en una plataforma, una API, y a una velocidad y escala con mejor relevancia desde el principio.

Con el área de pruebas de Elastic, los desarrolladores pueden explorar la integración de los LLM de su elección con sus propios datos privados en una interfaz de bajo código.

Elastic ayuda a los desarrolladores a simplificar la construcción de consultas con los recién introducidos recuperadores de consultas: estándar, kNN y RRF. Al usar estas consultas, Elastic entiende los datos seleccionados y generará automáticamente una consulta unificada.