es存储数据规模_ES的存储系统

㈠为什么ES不适合做数据存储

es？
什么意思？
es文件管理器？》

㈡可否完全使用ElasticSearch代替数据库存储

我们使用Elasticsearch存储的文档数量接近50亿（算上1份复制，接近
100亿文档），总共10个数据节点和2个元数据节点（48GB内存，8核心CPU，ES使用内存达到70%），每天的文档增量大概是3000W条（速度
持续增加中）。目前来看，单个文档的查询效率基本处于实时状态；对于1到2周的数据的聚合统计操作也可以在10秒之内返回结果。

但是，还有提升的空间：
1. 对于查询单条数据的应用场景来说，我们可以使用ES的路由机制，将同一索引内的具有相同特征（比如具有相同的userid）的文档全部存储于一个节点上，这样我们之后的查询都可以直接定位到这个节点上，而不用将查询广播道所有的节点上；

2. 随着数据节点的增加，适当增加分片数量，提升系统的分布水平，也可以通过分而治之的方式优化查询性能；

个人以为Elasticsearch作为内部存储来说还是不错的，效率也基本能够满足，在某些方面替代传统DB也是可以的，前提是你的业务不对操作的事
性务有特殊要求；而权限管理也不用那么细，因为ES的权限这块还不完善。由于我们对ES的应用场景仅仅是在于对某段时间内的数据聚合操作，没有大量的单文
档请求（比如通过userid来找到一个用户的文档，类似于NoSQL的应用场景），所以能否替代NoSQL还需要各位自己的测试。如果让我选择的话，我
会尝试使用ES来替代传统的NoSQL，因为它的横向扩展机制太方便了。

㈢ Elasticsearch 能够存储的数据量一般有多大

单独看ES能玩多大数据意义不大，具体实践中往往因为各种业务要求而无法继续增加数据量。目大的方面考虑有如下几点：
1、查询速度。ES可以支持的查询类型多种多样，单一的term匹配，复杂的historm agg，甚至父子文档模式下bool查询之后继续做文本高亮，数据量越大查询时间越长。如果只是简单的把数据写进去然后按照ID获取数据，那就尽管往里面写数据吧。
2、写入速度。数据量越大，写入速度受影响的可能性越大。业务要求1小时的数据1小时内必须写完，如果做不到就得考虑分索引或者分集群了。
3、更新速度。同上，更新比单纯的写入操作更多，先get再merge再overwrite到es。
4、其他因素。
目前我遇到的ES集群，有1.5T-2T索引量的情况下，需要支持平均查询在500ms以内的高并发高亮查询。在我们的场景下这个量级不算小了。

㈣ ES是什么

是指Elastic search。

Elasticsearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java语言开发的，并作为Apache许可条款下的开放源码发布，是一种流行的企业级搜索引擎。

Elasticsearch用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。官方客户端在Java、.NET（C#）、PHP、Python、Apache Groovy、Ruby和许多其他语言中都是可用的。根据DB-Engines的排名显示，Elasticsearch是最受欢迎的企业搜索引擎，其次是Apache Solr，也是基于Lucene。

相关信息：

Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索，具有接近实时的搜索，并支持多租户。Elasticsearch是分布式的，这意味着索引可以被分成分片，每个分片可以有0个或多个副本。每个节点托管一个或多个分片，并充当协调器将操作委托给正确的分片。

再平衡和路由是自动完成的。相关数据通常存储在同一个索引中，该索引由一个或多个主分片和零个或多个复制分片组成。一旦创建了索引，就不能更改主分片的数量。

㈤海量日志数据存储用 elasticsearch 和 hbase 哪个好

hbase面向列非常好加字段的！
es适合搜索和分析小规模数据，速度快过hbase。
hbase稳定可靠，而且可以通过mr spark等大批量拉取数据。

㈥在es数据库里的数据还用在关系型数据库里再存一份吗

不用的，es也是有文件形式存在的，而且结构不同，你也存不了…

㈦ java数据直接往es里存会出现性能问题吗

java数据直接往es里存会出现性能问题的，存多了会造成程序运行缓慢，卡顿。

㈧数据在ElasticSearch，需要对数据进行统计分析，怎么做

为了支持高可用性与高伸缩性，Elasticsearch本身就是分布式设计的。从顶层的角度来说，Elasticsearch在索引（或者集合）
中保存文档（或者数据记录），每个集合又分解为多个小块，称为分片。索引越大，所需要分配的分片越多（不必担心会创建过多的分片，它的开销很小）。取决于
Elasticsearch的设置和规模，分片会在集群中均匀地平均分布，有两个原因：

出于冗余方面的原因：默认情况下，Elasticsearch为每个分片都准备了一份拷贝，一旦某个节点停机了，备份的分片就能接替它的位置。

出于性能方面的原因：每个查询都发生在某个索引上，并且会在多个分片中并行运行，这种工作流方式是改善性能的关系所在。如果感觉运行速度缓慢，只需简单地在集群中加入新的机器，Elasticsearch就会自动地将分片与查询进行分布到新添加的机器上。

这种方式让使用Elasticsearch的组织可以自由选择进行纵向扩展（如果节点运行缓慢就升级硬件）或者横向扩展（如果集群整体速度慢就加入更多的节点）。
-
-

㈨ ElasticSearch 分20G内存Filesystem Cache 能存大约第条数据。每条数据20个字段。能估个数么

找其中一条数据，把 20个字段是内容复制到文本文件，保存一下，看看这个文件有多大，
然后自己计算一下即可。虽然不能精确，但是能知道个大概..

㈩ ES的存储系统

ES 内嵌式存储系统ES (内嵌式存储系统（embedded storage，ES）)
内嵌式存储系统（embedded storage，ES）,就是把存储介质内嵌在服务器中，就好比现在PC中的硬盘。
优点是安装简单，维护方便。
缺点是每个服务器所能够连接的存储介质很有限，同时存储容量和存取速度都受到服务器性能的限制。内嵌式存储系统的一个致使缺点是所存储信息的安全性和可用性必须依赖服务器，如果服务器出现故障，其所存储的信息将不可用。
所以说，内嵌式存储系统是一个封闭的系统。

es存储数据规模

与es存储数据规模相关的内容