es存储日志原理_日志平台的一点思考

❶ Elasticsearch之存储原理

倒排索引被写入磁盘后是不可变的，ES解决不变性和更新索引的方式是使用多个索引，利用新增的索引来反映修改，在查询时从旧的到新的依次查询，最后来一个结果合并。

ES底层是基于Lucene，最核心的概念就是 Segment(段) ，每个段本身就是一个倒排索引。

ES中的Index由多个段的集合和 commit point(提交点) 文件组成。

提交点文件中有一个列表存放着所有已知的段，下面是一个带有1个提交点和3个段的Index示意图：

Doc会先被搜集到内存中的Buffer内，这个时候还无法被搜索到，如下图所示：

每隔一段时间，会将buffer提交，在flush磁盘后打开新段使得搜索可见，详细过程如下：

下面展示了这个过程完成后的段和提交点的状态：

通过这种方式，可以使得新文档从被索引到可被搜索间的时间间隔在数分钟，但是还不够快。因为磁盘需要 fsync ，这个就成为性能瓶颈。我们前面提到过Doc会先被从buffer刷入段写入文件系统缓存（很快），那么就自然想到在这个阶段就让文档对搜索可见，随后再被刷入磁盘（较慢）。

Lucene支持对新段写入和打开，可以使文档在没有完全刷入硬盘的状态下就能对搜索可见，而且是一个开销较小的操作，可以频繁进行。

下面是一个已经将Docs刷入段，但还没有完全提交的示意图：

我们可以看到，新段虽然还没有被完全提交，但是已经对搜索可见了。

引入refresh操作的目的是提高ES的实时性，使添加文档尽可能快的被搜索到，同时又避免频繁fsync带来性能开销，依靠的就是文件系统缓存OS cache里缓存的文件可以被打开(open/reopen)和读取，而这个os cache实际是一块内存区域，而非磁盘，所以操作是很快的，这就是ES被称为近实时搜索的原因。

refresh默认执行的间隔是1秒，可以使用 refreshAPI 进行手动操作，但一般不建议这么做。还可以通过合理设置 refresh_interval 在近实时搜索和索引速度间做权衡。

index segment刷入到os cache后就可以打开供查询，这个操作是有潜在风险的，因为os cache中的数据有可能在意外的故障中丢失，而此时数据必备并未刷入到os disk，此时数据丢失将是不可逆的，这个时候就需要一种机制，可以将对es的操作记录下来，来确保当出现故障的时候，已经落地到磁盘的数据不会丢失，并在重启的时候可以从操作记录中将数据恢复过来。elasticsearch提供了translog来记录这些操作，结合os cached segments数据定时落盘来实现数据可靠性保证（flush）。

文档被添加到buffer同时追加到translog：

进行 refresh 操作，清空buffer，文档可被搜索但尚未 flush 到磁盘。translog不会清空：

每隔一段时间（例如translog变得太大），index会被flush到磁盘，新的translog文件被创建，commit执行结束后，会发生以下事件：

下面示意图展示了这个状态：

translog记录的是已经 在内存生成(segments)并存储到os cache但是还没写到磁盘的那些索引操作 （注意，有一种解释说，添加到buffer中但是没有被存入segment中的数据没有被记录到translog中，这依赖于写translog的时机，不同版本可能有变化，不影响理解），此时这些新写入的数据可以被搜索到，但是当节点挂掉后这些未来得及落入磁盘的数据就会丢失，可以通过trangslog恢复。

当然translog本身也是磁盘文件，频繁的写入磁盘会带来巨大的IO开销，因此对translog的追加写入操作的同样操作的是os cache，因此也需要定时落盘（fsync）。translog落盘的时间间隔直接决定了ES的可靠性，因为宕机可能导致这个时间间隔内所有的ES操作既没有生成segment磁盘文件，又没有记录到Translog磁盘文件中，导致这期间的所有操作都丢失且无法恢复。

translog的fsync是ES在后台自动执行的，默认是每5秒钟主动进行一次translog fsync，或者当translog文件大小大于512MB主动进行一次fsync，对应的配置是 index.translog.flush_threshold_period 和 index.translog.flush_threshold_size 。

当 Elasticsearch 启动的时候，它会从磁盘中使用最后一个提交点去恢复已知的段，并且会重放 translog 中所有在最后一次提交后发生的变更操作。

translog 也被用来提供实时 CRUD 。当你试着通过ID来RUD一个Doc，它会在从相关的段检索之前先检查 translog 中最新的变更。

默认 translog 是每5秒或是每次请求完成后被 fsync 到磁盘（在主分片和副本分片都会）。也就是说，如果你发起一个index, delete, update, bulk请求写入translog并被fsync到主分片和副本分片的磁盘前不会反回200状态。

这样会带来一些性能损失，可以通过设为异步fsync，但是必须接受由此带来的丢失少量数据的风险：

flush 就是执行commit清空、干掉老translog的过程。默认每个分片30分钟或者是translog过于大的时候自动flush一次。可以通过flush API手动触发，但是只会在重启节点或关闭某个索引的时候这样做，因为这可以让未来ES恢复的速度更快(translog文件更小)。

满足下列条件之一就会触发冲刷操作：

整体流程：

删除一个ES文档不会立即从磁盘上移除，它只是被标记成已删除。因为段是不可变的，所以文档既不能从旧的段中移除，旧的段也不能更新以反映文档最新的版本。

ES的做法是，每一个提交点包括一个 .del 文件（还包括新段），包含了段上已经被标记为删除状态的文档。所以，当一个文档被做删除操作，实际上只是在 .del 文件中将该文档标记为删除，依然会在查询时被匹配到，只不过在最终返回结果之前会被从结果中删除。ES将会在用户之后添加更多索引的时候，在后台进行要删除内容的清理。

文档的更新操作和删除是类似的：当一个文档被更新，旧版本的文档被标记为删除，新版本的文档在新的段中索引。
该文档的不同版本都会匹配一个查询，但是较旧的版本会从结果中删除。

通过每秒自动刷新创建新的段，用不了多久段的数量就爆炸了，每个段消费大量文件句柄，内存，cpu资源。更重要的是，每次搜索请求都需要依次检查每个段。段越多，查询越慢。

ES通过后台合并段解决这个问题。ES利用段合并的时机来真正从文件系统删除那些version较老或者是被标记为删除的文档。被删除的文档（或者是version较老的）不会再被合并到新的更大的段中。

可见，段合并主要有两个目的：

ES对一个不断有数据写入的索引处理流程如下：

合并过程如图：

从上图可以看到，段合并之前，旧有的Commit和没Commit的小段皆可被搜索。

段合并后的操作:

合并完成后新的段可被搜索，旧的段被删除，如下图所示：

注意：段合并过程虽然看起来很爽，但是大段的合并可能会占用大量的IO和CPU，如果不加以控制，可能会大大降低搜索性能。段合并的optimize API 不是非常特殊的情况下千万不要使用，默认策略已经足够好了。不恰当的使用可能会将你机器的资源全部耗尽在段合并上，导致无法搜索、无法响应。

❷ 日志平台的一点思考

日志平台的对开发、运维人员的帮助是非常大的，它可以方便开发、运维人员快速定位问题，从这个角度，日志平台是个搜索平台；同时还可以做有效的数据分析，比如分析 pv, uv，httpstatus，用户行为，资源消耗，网络攻击、trace等等，应用场景非常丰富，这时候它又是个数据分析平台，在马上到来的5G时代，物联网的真正兴起，日志平台会发挥更大的价值。

日志其实是比较宽泛的概念，应用打印的server log,Linux文件系统的syslog，/var/messages 等等都是日志，日志本质上其实是一种时序数据，类似于监控领域的metrics，只不过metrics一般是比较结构化的，每个字段数据长度都比较小，通常是时间+tag+value ，而日志也带有时间，但是单条日志可能会比较长（有时候不止一行），同时大多数都是非结构化的文本数据，它们共同的特点是数据产生后不会被更新。

简单说日志平台既要存储又要计算

功能上，日志平台应该具备以下几个基本的功能点
1、日志的采集
2、日志数据的存储
3、日志数据的快速检索和分析

日志要搜索，就要集中存储，就要采集日志，以前日志采集分2种，一种是agent的方式，一种是agentless的方式，前者是在要采集的服务器上部署一个agent，agent将日志不断的发送给日志server端，agentless的方式是通过类似ssh远程登录服务器去抓日志。
agentless的方式不需要部署agent，一般是定时的方式去拉日志过来，这种方式时效性很差，不能实时监听文件系统获取最新的日志数据，基本上业内很少有人采用了，以前阿里巴巴的TLog似乎是采用这种方式。

现在大部分是采用部署agent的方式获取日志，比较有名的是flume,logstash,filebeat等等，flume和logstash在使用的时候，不方便控制占用的cpu和内存资源，在微服务化架构的环境中，采集日志对agent的性能要求越来越高，同时资源消耗要尽可能的低，filebeat相对比较轻量，功能也非常强大，使用人越来越多。

agent的方式本质上是调用server的api接口将数据发送给日志的server，因此另一种使用方式就是app直接调用日志server的api，比如将这个功能做成log4j的插件，或者写入其它的常用的日志组件中，这样日志采集的成本最低，但是当日志服务不可用的时候，日志数据恢复成了稍微麻烦的事情。

通常在一个成规模的企业内部，使用agent的方式采集日志，管理agent也是一个问题，比如阿里巴巴目前声称SLS的agent部署超过200万个节点，不要说200万个节点，就是200个节点，我们总不能挨个登陆去修改agent的配置文件吧，因此采集任务的自动下发，生效，更改非常重要，同时还要能够自动管理agent的状态，升级agent等等。
以前阿里巴巴的TT也有agent采集，部署规模也较大，在实现方面，有些场景下agent会请求服务端的clientAPI，这种设计在双11降级恢复的时候，会给clientAPI带来非常大的压力，因此，在设计应用于大规模的agent部署场景的时候，应该考虑这种问题。

写的目的是为了读，要更好的读，就要设计更合理的存储方案。既要满足检索，又要做数据统计和分析，似乎解决方案只有倒排索引了？开源社区一提到日志的存储，一般都会选择elasticsearch，一些创业公司也会基于或者借鉴es来做存储的方案，这个东西的确开箱即用，一个命令拉起来，日志灌进去，搜索效果似乎也不错，kibana也能分析，但是当我们实际部署应用起来，就会发现用es存日志是一个成本非常昂贵的方案。
在一家稍有规模的公司，日志数据10w/s每秒的写入是非常容易出现的，实时索引，然后刷到文件系统缓存才可见，es这种实现方式，本身就不适合迎接这种高tps的写入，同时它读写不分离，一般情况下，Lucene的设计在日志场景下需要经过特殊的优化，比如将那些常驻内存的数据进行lru处理，将不常用的索引关闭，在merge的时候对避免重复IO，segment关系映射内存优化等等，越深入了解，越发现这种方案真的太奢华了，业内用es做日志存储的基本上都是土豪，动辄几百上千的服务器堆砌 + 精细化运维，性价比极低，真是暴殄天物，日志规模较大的，财力一般的公司就不要考虑这种败家的方案了。
日志的存储实际上需要实时求是，根据日志的特点，灵活的设计存储方案。

日志搜索也是一种典型的交互式查询的场景, 当然是越快越好，比较理想的情况是1-3秒返回结果，但是时间跨度非常大的场景，十几秒用户也能接受，超大规模查询最慢不超过30秒等等，检索方面，除了输入关键字，还希望能够支持功能强大的分析、过滤、统计。这种特点，其实给存储留下了非常大的设计空间，也是不小的挑战。

存储首先应该是分布式的，可以方便水平扩展的，同时根据日志的特点，做少量的必要的索引。比如日志一般是按照时间范围搜索和分析的，那么时间显然是最重要的索引，同时日志来自哪些机器，属于哪个应用，什么机房，应该会有一些标签，那做一些基于标签的索引就足够了，那么现有的一些存储系统能不能直接利用呢？

前面说了日志是一种时序数据，那么opentsdb能不能做日志的存储呢？opentsdb本身依赖hdfs，hbase，从部署角度讲，太复杂，同时它一行就存储一小时的数据，每一行是一个metric，这种方式，你日志怎么存，显然不合理。
kafka这种东西呢，它也给每条消息加了时间戳信息，支持按照时间戳seek，kafka的架构设计其实给了我很多日志存储设计的启发，但是它的索引仅有时间是不够的，也许你会想能不能在topic名字上做点文章，我想也是不可以，因为我们要索引的东西还是蛮多的，kafka在topic数量非常大的情况下，性能会下降的比较明显。

日志统计和分析方面阿里巴巴的SLS是通过标准sql来做的，但是我更喜欢类似shell命令行的风格和方式，sql思维需要一些时间转变，用户并不一定都会喜欢sql，但是不管怎么样，要分析、统计日志，需要在日志存储系统上面搭建一套DSL分析引擎，能够加入常用的算子，同时还能分布式执行这些运算，同时快速的返回结果，曾经想过用MLSQL加载日志的数据然后用sql分析完将结果取回，这其实也是一条很好的思路，虽然MLSQL不需要每次都提交spark作业的过程，但是搬运数据还是会牺牲掉一部分时效性，好处是计算和存储是分离的，同时我还希望日志平台能够实时的监听一些我感兴趣的日志事件，然后在自定义的dashboard中展示，支持报警等等。

最近1-2年一直在研究探索更具性价比的日志管理平台，后续会将一些心得体会、解决方案记录下来跟大家分享。

❸ ElasticSearch部署架构和容量规划

前面介绍了ElasticSearch原理和使用相关的内容，在生产环境如何比较科学的进行容量规划、部署、调优、排查问题呢，业界和官方也对相关的问题进行总结，我这边也结合自己的经验对这些使用ElasticSearch经常遇到的问题进行了总结。其中主要包括以下三大模块：

ElasticSearch有多种类型的节点，在前面概述和核心也已经介绍过了。在这里可以重新回顾下。ElasticSearch的部署节点类型如下：

主节点及其候选节点，负责集群状态(cluster state)的管理

配置项：node.master，默认为true

数据节点，负责数据存储及处理客户端请求

配置项：node.data，默认为true

ingest节点，负责数据处理，脚本执行

配置项：node.ingest，默认为true

协调节点

配置项：设置上面三个参数全部为false，那么它就是一个纯协调节点

机器学习节点，收费属于x-pack

在生产环境部署推荐配置整体思路就是：尽量是一个节点只承担一个角色。

因为不同的节点所需要的计算机资源都不一样。职责分离后可以按需扩展互不影响。

资源要求：中高CPU；中高内存；中低磁盘

一般在生产环境中配置3台

一个集群只有1台活跃的主节点，负责分片管理，索引创建，集群管理等操作

资源要求：CPU、内存、磁盘要求都高

资源要求：高配置CPU;中等配置的RAM;低配置的磁盘

资源要求：一般中高CPU；中高内存；低磁盘

协调节点扮演者负载均衡、结果的聚合，在大型的es集群中条件允许可以使用高配的cpu和内存。因为如果客户端发起了深度分页等请求可能会导致oom，这个在之前也有过分析。

注意：

如果和数据节点或者Coordinate节点混合部署，数据节点本来相对有比较大的内存占用。

而Coordinate节点有时候可能会有开销很高的查询导致OOM，这些甚至都有可能影响Master节点，导致集群的不稳定。

搭建一个es集群是由模式可循的。

这是一个基础版的职责分离的部署架构：

但是如果大量的聚合查询等操作，这种架构不太适合了。

当系统中有大量的复杂查询或者聚合时候，我们可增加Coordinating节点，增加查询的性能，这里增加了负载均衡层，通过负载均衡扩展时应用程序无感知。

这样部署部署相互影响，写入多的话，多部署ingetst节点，读的时候聚合查询较多可以多部署协调节点，存储数据量大，可以适当对数据节点进行调优。

我们知道数据有冷热之分，比如写入频繁的日志数据，近期的索引将会频繁写入。es根据数据这些特征引入了hot节点和warm节点。

使用ssd，该节点上的索引不断的有新文档写入和查询，对cpu、io的要求较高。

可以使用HDD，上面的索引不会有写入，查询较少。上面只保存只读索引或者旧索引，使用大容量便宜的机械硬盘。

配置步骤：

针对多机房灾备，ElasticSearch业界有多种不同的通用解决方案：

一个集群中的节点分布在不同的机房

应用程序同时将数据写入两个集群

应用程序先将数据写入消息队列，然后由下游的消费者消费并写入集群

ElasticSearch官方的跨集群复制功能，基于文档操作实现订阅复制

定期将索引备份到外部存储，如hdfs等设备

写请求交给网关，网关实时写入主集群，然后异步写备集群

如下是基于CCR跨集群复制的部署架构，因为篇幅有限，异地多活又是一个很大的话题，其它方案和其细节可以查阅相关资料。

我们知道当es集群的节点数大于索引的分片数时，集群将无法通过水平扩展提升集群的性能。而分片数过多，对于聚合查询以及集群的元数据管理也都有影响。我们可以总结为：

分片数量较多

优点：

缺点：

通常建议一个集群总分片数小于10w。

如何设计分片的数量呢？一个分片保持多大的数据量比较合适呢？

我们需要根据使用场景来设置：

避免使用非常大的分片，因为这会对群集从故障中恢复的能力产生负面影响。而每个分片也会消耗相应的文件句柄,内存和CPU资源，分片太多会互相竞争，影响性能。

主分片数一旦确定就无法更改，只能新建创建并对数据进行重新索引(reindex)，虽然reindex会比较耗时，但至少能保证你不会停机。所以我们一定要科学的设计分片数。

这里摘录于官方关于分片大小的建议：

主分片与副本都能处理查询请求，它们的唯一区别在于只有主分片才能处理索引请求。副本对搜索性能非常重要，同时用户也可在任何时候添加或删除副本。额外的副本能给带来更大的容量，更高的呑吐能力及更强的故障恢复能力

3.1.3. 小结

根据实际经验我们稍微总结下：

对于数据量较小（100GB以下）的index

对于数据量较大（100GB以上）的index：

综合考虑整个index的shard数量，如果shard数量（不包括副本）超过50个，就很可能引发拒绝率上升的问题，此时可考虑把该index拆分为多个独立的index，分摊数据量，同时配合routing使用，降低每个查询需要访问的shard数量。

关闭交换分区的方法是：

这里是官方的jvm推荐配置链接：

https://www.elastic.co/cn/blog/a-heap-of-trouble

es的节点提供查询的时候使用较多的内存来存储查询缓存，es的lucene写入到磁盘也会先缓存在内存中，我们开启设计这个es节点时需要根据每个节点的存储数据量来进行判断。这里有一个流行的推荐比例配置：

示例：

有一个业务的数据量预估实际有1T，我们把副本设置1个，那么es中总数据量为2T。

这里31G表示的是jvm设置不超过32g否则不会使用java的指针压缩优化了。

前面也提到过，数据节点推荐使用ssd

可以考虑：

写入的目标在于增大写入的吞吐量，这里主要从两个方面进行优化：

这里可以针对myindex索引优化的示例：

首先有几个原则我们需要清楚：

我们可以通过health相关的api进行查看

我们可以使用profile api来定位慢查询。

在查询条件中设置profile为true的参数，将会显示查询经历的细节。

其结果为：

这里会返回一个shards列表。其中：

主要包含了如下信息：

Profile API让我们清楚地看到查询耗时。提供了有关子查询的详细信息，我们可以清楚地知道在哪个环节查询慢，另外返回的结果中，关于Lucene的详细信息也让我们深入了解到ES是如何执行查询的。

ES记录了两类慢日志：

慢搜索日志

用来记录哪些查询比较慢，每个节点可以设置不同的阈值。

之前我们已经详细分析了ES的搜索由两个阶段组成：

慢搜索日志给出了每个阶段所花费的时间和整个查询内容本身。慢搜索日志可以为查询和取回阶段单独设置以时间为单位的阈值，在定义好每个级别的时间后，通过level决定输出哪个级别的日志。

示例如下

前面参考官方链接：

https://www.elastic.co/guide/en/elasticsearch/reference/7.17/index-moles-slowlog.html

如果出现节点占用CPU很高，我们需要知道CPU在运行什么任务，一般通过线程堆栈来查看。

这里有两种方式可以查看哪些线程CPU占用率比较高：

这里推荐使用hot_threads api

通过返回的结果可以看到什么线程占用更高，正在做什么操作。更详细的内容可以参考官网：

https://www.elastic.co/guide/en/elasticsearch/reference/7.17/cluster-nodes-hot-threads.html

4.3.2 内存使用率过高

1）缓存类型

首先我们需要了解ES中的缓存类型，缓存主要分成如图所示三大类，如下图所示，一个es节点的内存结构：

Node Query Cache（Filter Context）

Shard Query Cache（Cache Query的结果）

Fielddata Cache

Segments Cache

（segments FST数据的缓存），为了加速查询，FST永驻堆内内存，无法被GC回收。该部分内存无法设置大小，长期占用50%~70%的堆内存，只能通过delete index，close index以及force-merge index释放内存

ES底层存储采用Lucene（搜索引擎），写入时会根据原始数据的内容，分词，然后生成倒排索引。查询时，先通过查询倒排索引找到数据地址（DocID）），再读取原始数据（行存数据、列存数据）。

但由于Lucene会为原始数据中的每个词都生成倒排索引，数据量较大。所以倒排索引对应的倒排表被存放在磁盘上。

这样如果每次查询都直接读取磁盘上的倒排表，再查询目标关键词，会有很多次磁盘IO，严重影响查询性能。为了解磁盘IO问题，Lucene引入排索引的二级索引FST[Finite State Transcer]。原理上可以理解为前缀树，加速查询

2）节点的内存查看

3）案例分析

如果节点出现了集群整体响应缓慢，也没有特别多的数据读写。但是发现节点在持续进行Full GC。

常见原因：

Segments个数过多，导致Full GC

我们可以通过查看ElasticSearch的内存分析命令发现：

segments.memory占用很大空间。

解决方案：

Field data cache 过大，导致Full GC

我们可以查看ElasticSearch的内存使用，发现fielddata.memory.size占用很大空间。同时，数据不存在写入和更新，也执行过segments merge。

解决方案：

复杂的嵌套聚合，导致集群Full GC

节点响应缓慢，持续进行Full GC。导出Dump分析。发现内存中有大量 bucket对象，查看日志，发现复杂的嵌套聚合

解决方案：

4）断路器

es有多种断路器，我们可以合理使用，避免不合理操作引发的OOM，每个断路器可以指定内存使用的限制。

关于es的断路器使用可以参考官网文档：

https://www.elastic.co/cn/blog/improving-node-resiliency-with-the-real-memory-circuit-breaker

在排查es问题时，我们会使用一些常见的命令来分析cpu、io、网络等问题。常见的命令如下

我们这里按照1s的频率输出磁盘信息

如果想查看和进程关联的信息，可以使用pidstat或者iotop。

例如，下面为iotop的输出结果

sar命令可以诊断操作系统内存相关情况。

PS：我们需要关闭内存交换，内存交换会严重损害性能 。

我们知道，操作系统有内核态和用户态，该命令可以输出相关信息

Recv-Q和Send-Q代表该连接在内核中等待发送和接收的数据长度。

如果改数据太多，可能原因为应用程序处理不及时或者对端的数据接收不及时，比如网络拥塞之类

本片文章先介绍了es的部署架构，回顾了es节点类型以及它们的配置方式，也了解了不同类型对硬件的要求不一样。然后总结了几种不同的架构模式，比如基础部署、读写分离、冷热分离、异地多活等架构模式，在生产环境中一般我们推荐读写分离架构模式，如果可以最好加上冷热分离，不过配置可能稍微复杂点。

对于容量规划与调优，首先要明确存储的数据量和使用场景，推荐内存磁盘比为：搜索类比例（1:16），日志类（1:48）；比如2T的总数据，搜索如果要保持良好的性能的话，每个节点31*16=496G。每个节点实际有400G的存储空间。那么2T/400G，则需要5个es存储节点，每个节点分片数多少合适，文中也有介绍。副本分片数需要根据我们的容错需求。我们还总结了集群配置和jvm配置相关的优化。

es的使用优化，我们分别总结了写入和查询的优化。写入是其单次数据量、索引refresh、分词等情况都会影响其吞吐量，我们需要根据实际情况来优化。针对于查询，我们可以使用api工具进行分析，分析慢耗时发在在哪一步。当es集群出现异常时，如cpu过高、内存fullgc、卡顿、变红，我们逐一分析了可能的原因和解决办法，同时也介绍了一些常见的诊断工具和监控api。

我们需要先了解es内部运作的原理，这样才能根据实际情况正确的设置集群参数和数据模型，还需要结合实际工作遇到的问题不断的总结经验，才能用好ElasticSearch。

❹ ES数据存储可靠性和写入流程

https://www.elastic.co/guide/en/elasticsearch/guide/2.x/near-real-time.html
https://www.elastic.co/guide/en/elasticsearch/guide/2.x/merge-process.html

1、数据存储可靠性保证原理

1.1 translog机制

当一个文档写入Lucence后是存储在内存中的，即使执行了refresh操作仍然是在文件系统缓存中，如果此时服务器宕机，那么这部分数据将会丢失

当进行文档写操作时会先将文档写入Lucene，然后写入一份到translog，写入translog是落盘的

tips:如果对可靠性要求不是很高，也可以设置异步落盘，可以提高性能，由配置index.translog.rability和index.translog.sync_interval控制
tips:translog是追加写入，因此性能比较好

先写入Lucene再写入translog。原因是写入Lucene可能会失败，为了减少写入失败回滚的复杂度，因此先写入Lucene

1.2 flush操作

refresh_interval定时触发或当translog达到index.translog.flush_threshold_size（默认512mb)，ES会触发一次flush操作：先执行refresh操作将buffer中的数据生成segment，然后调用lucene的commit方法将所有内存中的segment fsync到磁盘，最后会清空translog中的数据(6.x版本为了实现sequenceIDs，不删除translog) 。

1.3 merge操作
refresh操作会产生大量的小segment，因此产生的每个文件都会消耗文件句柄，内存，CPU 使用等各种资源。更重要的是每个查询请求都要顺序检查每个segment; segment越多检索会越慢.
ES会运行一个检测任务，在后台把近似大小的segment合并成一个新的大segment，并删除旧segment

1.4、多副本机制
ES有多副本机制（默认是1个副本），一个分片的主副分片不能分片在同一个节点上，进一步保证数据的可靠性。

2、ES写索引的流程

es存储日志原理

与es存储日志原理相关的内容