Elasticsearch：Ingest architectures - 摄取架构

作者：代码探险家 | 2024-07-09 20:32:05

踩

我们提供各种采集架构，以满足各种用例和网络配置的需求。

要将数据采集到 Elasticsearch，请使用最符合你的需求和用例的选项。对于许多用户和用例来说，最简单的方法是使用 Elastic Agent 采集数据并将其发送到 Elasticsearch。Elastic Agent 和 Elastic Agent 集成适用于许多流行的平台和服务，是一个不错的起点。

提示：你可以在自己的硬件上托管 Elasticsearch，也可以将数据发送到 Elastic Cloud 上的 Elasticsearch。对于大多数用户来说，Elastic Agent 直接写入 Elastic Cloud 上的 Elasticsearch 是最简单、最快捷的实现价值的方式。我们的托管 Elasticsearch 服务可在 AWS、GCP 和 Azure 上使用，你可以免费试用。

更多关于摄取架构的文章，你可以详细阅读文章 “Elastic：开发者上手指南” 中的 “Elastic Stack 架构” 章节。

添加数据到 Elasticsearch 中

你可以通过多种方式将数据导入 Elasticsearch，这称为提取或索引数据。使用 Elastic Agent、Beats、Logstash、Elastic 语言客户端、Elastic 连接器或企业搜索网络爬虫。所选的选项（或组合）取决于你是索引一般内容还是带时间戳的数据。

一般内容

索引 HTML 页面、目录和其他文件等内容。使用 Elastic 语言客户端将数据从应用程序直接发送到 Elasticseach。否则，请使用 Elastic 内容 connectors 或 Elastic 网络爬虫。

带时间戳的数据

索引带时间戳的数据的首选方法是使用 Elastic Agent。Elastic Agent 是一种向主机添加日志、指标和其他类型数据监控的单一、统一方法。它还可以保护主机免受安全威胁、查询操作系统的数据以及转发远程服务或硬件的数据。每个基于 Elastic Agent 的集成都包括默认的提取规则、仪表板和可视化，可立即开始分析你的数据。Fleet Management 使你能够从 Kibana 集中管理所有已部署的 Elastic Agent。
如果你的数据源没有可用的 Elastic Agent 集成，请使用 Beats 收集数据。Beats 是数据传送器，旨在从服务器收集和传送特定类型的数据。你可以为要收集的每种类型的数据安装一个单独的 Beat。某些 Beats（例如 Filebeat 和 Metricbeat）可以使用提供默认配置、Elasticsearch 采集管道定义和 Kibana 仪表板的模块。不为 Beats 提供 fleet 管理功能。
如果 Elastic Agent 和 Beats 都不支持你的数据源，请使用 Logstash。Logstash 是一个开源数据收集引擎，具有实时管道功能，支持各种数据源。你还可以使用 Logstash 来保存传入数据，以确保在出现采集高峰或需要将数据发送到多个目的地时数据不会丢失。

设计数据提取管道

虽然你可以将数据直接发送到 Elasticsearch，但数据提取管道通常包括其他步骤来操作数据、确保数据完整性或管理数据流。

注意：该图重点关注带时间戳的数据。

数据处理

在将数据编入索引并存储在 Elasticsearch 中之前，通常需要对其进行清理、规范化、转换或丰富。

Elastic Agent 和 Beats 处理器使你能够在边缘处理数据。如果你需要控制通过网络发送的数据，或者需要使用主机上可用的信息丰富原始数据，这将非常有用。
Elasticsearch 摄取管道使你能够在数据进入时对其进行处理。这避免了在你从中收集数据的主机上增加额外的处理开销。
Logstash 使你能够避免在边缘进行重量级处理，但仍可以在将数据发送到 Elasticsearch 之前对其进行处理。这还使你能够将处理后的数据发送到多个目的地。

预处理数据的一个原因是控制编入 Elasticsearch 的数据结构 —— 数据模式（data schema）。例如，使用摄取管道将数据映射到 Elastic Common Schema (ECS)。或者，在查询时使用运行时字段来：

无需了解数据的结构即可开始处理数据
无需重新索引数据即可向现有文档添加字段
覆盖索引字段返回的值
无需修改底层架构即可为特定用途定义字段

数据完整性

Logstash 可增强你不想丢失的重要数据的数据弹性。Logstash 提供磁盘持久队列 (persistent queue - PQ)，无需外部缓冲机制即可吸收突发事件。它会尝试传递存储在 PQ 中的消息，直到传递至少成功一次。

Logstash 死信队列 (dead letter queue - DLQ) 为 Logstash 无法处理的事件提供磁盘存储，让你有机会评估它们。你可以使用 dead_letter_queue 输入插件轻松地重新处理 DLQ 事件。

数据流

如果你需要从多个 Beats 或 Elastic Agents 收集数据，请考虑使用 Logstash 作为代理。Logstash 可以从多个端点（即使在不同的网络上）接收数据，并通过单个防火墙规则将数据发送到 Elasticsearch。与为每个端点设置单独的规则相比，你可以用更少的工作获得更高的安全性。

Logstash 可以从单个管道发送到多个输出，以帮助你从数据中获取最大价值。

接下来该怎么做

我们有指南和许多实践教程，可帮助你开始将数据导入集群。

为 Elastic 解决方案导入数据

开始使用 Elastic Observability

使用 Elastic Observability 深入了解你的应用程序和系统的行为。按照我们的指南提取各种数据类型，例如日志和指标、跟踪和 APM 以及来自 Splunk 的数据。还有几个教程可供选择。

将数据添加到 Elastic Security

使用 Elastic Security 快速检测、调查和应对整个环境中的威胁和漏洞。你可以使用 Elastic Agent 将数据提取到 Elastic Defend 集成中，或与许多其他与 Elastic Security 协同工作的集成一起使用。你还可以从 Splunk 或发送符合 ECS 的安全数据的各种第三方收集器中提取数据。