内容和数据采集

成功离不开索引

Elastic 可提供所需的所有工具,包括开箱即用型的工具或 API,帮助您针对所有数据和内容类型构建强大和灵活的采集机制。您可以快速进行设置,并有大量选项可供您视情况来丰富、转换和处理数据,以便您专注于构建功能强大的搜索应用程序。

Open Web Crawler 目前处于公测版阶段。了解如何设置抓取和提取规则,并将其与语义文本搜索相结合。

了解详情

请开始使用 Elasticsearch API 索引数据。

查看指南

了解关联各种工具和任何类型数据的方式。

查看集成

数据采集引擎

多样性是采集的一部分

借助功能强大、预构建但完全可配置的数据采集工具和公开的 API,您可按照自己的方式索引和管理数据,从而完全控制采集管道。

  • 数据提取

    发现、提取、索引和同步您网站的所有内容,包括 PDF!使用 Elastic Open Web Crawler 将您的网页转换为可搜索的数据。

  • 数据连接器

    利用可与流行的效率工具关联的连接器,以及方便使用的 API,为您的数据源构建连接器。

  • 采集 API

    借助合适的索引终端,使用 JavaScript、Java 和 Python 等主流语言客户端,构建定制采集管道。

  • 数据管道

    使用现有的 Elasticsearch 索引或 Elasticsearch 查询语法,将数据采集管道和管理部署到位。

向网站添加搜索功能

索引网页内容的最快方式

以您想要的方式使用灵活的 API 配置爬网。使用 Elastic 的 Open Web Crawler,您可以控制您的爬网。

Video thumbnail

Elasticsearch - 部署最广泛的向量数据库

在两分钟内复制到本地进行试用

curl -fsSL https://elastic.co/start-local | sh
Read docs

立即开始爬取!

使用终端和 Elasticsearch 为您的 Web 内容设置和部署爬虫。

  • 运行 Docker 镜像

    在您自己的基础设施上,通过从 Source 或 Docker 运行来部署 Web 爬虫代码。

  • 设置爬取的URL

    设置一个或多个您想要爬取的 URL。

  • 配置和连接

    识别并解决影响爬取稳定性、内容查找以及内容提取和索引编制的任何问题。

一体化搜索应用程序

一个内容源带来全部数据

灵活高效地捕获、索引和同步数据库或内容管理系统中的文档、文件、字段、元数据和其他关键信息。使用 API 采集、预构建连接器或可配置连接器包,快速将这些数据采集到 Elastic 中。在数据采集过程中,使用直观的 UI 和简单的规则,选择要同步哪些对象以及何时同步。

  • Azure Blob Storage

  • Confluence Cloud & Server

  • Dropbox

  • GitHub & GitHub Enterprise Server

  • Google Cloud Storage

  • Google 云端硬盘

  • Jira Cloud & Server

  • Microsoft SQL

  • MongoDB

  • MySQL

  • 网络驱动器

  • OneDrive

  • Oracle

  • PostgreSQL

  • S3

  • Salesforce

  • ServiceNow

  • SharePoint Online

  • Box

  • 定制连接器

  • Gmail

  • Outlook

  • SharePoint Server

  • Slack

  • Teams

  • Zoom

满怀信心地进行连接

用于构建搜索体验的结缔组织

通过多种可从您的关键数据源中关联和同步内容的安全方式,您可以为所有需要索引的工具定制采集管道。

  • 开箱即用

    利用与热门内容源关联的预构建连接器来简化索引和同步工作。

  • 自行构建

    通过自管型连接器和 API,快速关联到自有数据平台和旧有系统等。

  • 控制访问权限

    利用文档级的权限确保适当的访问,确保让合适的人看到合适的内容。