Elastic Open Web Crawler

智能、直观的索引工具

在无服务器、云端或本地将 Web 内容索引到 Elasticsearch 的最快方法

Video thumbnail

现在就开始爬取!

使用终端和 Elasticsearch 为您的 Web 内容设置和部署爬虫。

  • 运行 Docker 镜像

    在您自己的基础设施上,通过从 Source 或 Docker 运行来部署 Web 爬虫代码。

  • 设置爬取的URL

    设置一个或多个您想要爬取的 URL。

  • 配置和连接

    配置您的爬虫并将其连接到 Elasticsearch。

Elasticsearch - 部署最广泛的向量数据库

在两分钟内复制到本地进行试用

curl -fsSL https://elastic.co/start-local | sh
阅读文档

使用开放代码进行控制

定制 Elastic 开放式网络爬虫(Open Crawler)以满足您的需求。在处理大型文档、运行转换并以所需格式检索数据的同时,检查、修改并为您的项目做出贡献。

灵活且快速:Open Crawler 的优势

受益于不受限制的索引命名以及在爬取之前使用自定义映射的能力。通过将爬取结果批量索引到 Elasticsearch 中,而不是逐页索引来提升性能。

轻松管理部署

使用简单的 CLI 命令以编程方式管理您的开放式网络爬虫。使用 Terraform 或 Puppet 轻松扩展部署 — 并根据需要进行扩展或缩减。消除不必要的依赖以简化管理。将其部署到任何地方,包括无服务器环境,并通过小型、简单的工具轻松连接。

  • 简单

    开放代码

    在 GitHub 上使用完全透明、可修改的代码库。

  • 可定制

    按您的条件进行爬取

    使用 xPath 选择器和 CSS 选择器精确提取您页面所需的内容。

  • 全面

    提取所有数据 — 包括 PDF 文件

    通过二进制内容提取,所有所需的数据类型都可以被提取、导入并转化为可搜索的内容。

  • 可搜索

    执行语义搜索

    可轻松集成,支持混合对话式搜索体验。