hivehbase数据存储_hive 和hbase 有什么区别

1. hbase和hive整合后数据存储在哪

数据存在hbase中，hive利用相关接口去分析统计hbase的数据

2. 有几点关于hadoop的hive数据仓库和hbase几点疑惑，希望有高手可以帮忙解决一下，谢谢了！！！

首先感觉你有点乱。。。

你先明白数据仓库的作用－－存储历史数据－进而对数据进行分析，只提供查询－不提供修改

1。Hive 的目标是做成数据仓库，所以它提供了sql，提供了文件－表的映射关系，又由于Hive基于HDFS，所以不提供Update，因为HDFS本身就不支持。
2.HBase 是NoSQL数据库－所以不要跟传统混淆并谈－NoSQL 提供的是另一种思路来满足高性能的需求，而这些是传统数据库的短板，与传统数据库的理念不一样
3.load data 这个可以自己去查。Hbase要使用自己的API
4.是的。
5.这句话不对。
6.映射就是结构对应－如文件每一行的第一个字段－映射到Hive表的第一个字段
类似Hibernate的语法解析。
Hive本身实现了一套语法结构也就是操作符。如扫描文件等，最终记本都会转换成MapRece来运行

3. 北大青鸟设计培训：Hbase知识点总结

hbase概念:非结构化的分布式的面向列存储非关系型的开源的数据库，根据谷歌的三大论文之一的bigtable高宽厚表作用:为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。
能干什么:存储大量结果集数据，低延迟的随机查询。
sql:结构化查询语言nosql:非关系型数据库，列存储和文档存储(查询低延迟),hbase是nosql的一个种类，其特点是列式存储。
非关系型数据库--列存储(hbase)非关系型数据库--文档存储(MongoDB)非关系型数据库--内存式存储(redis)非关系型数据库--图形模型(graph)hive和hbase区别?Hive的定位是数据仓库，虽然也有增删改查，但其删改查对应的是整张表而不是单行数据，查询的延迟较高。
其本质是更加方便的使用mr的威力来进行离线分析的一个数据分析工具。
HBase的定位是hadoop的数据库，电脑培训http://www.kmbdqn.cn/发现是一个典型的Nosql，所以HBase是用来在大量数据中进行低延迟的随机查询的。
hbase运行方式:standalonedistrubited单节点和伪分布式?单节点:单独的进程运行在同一台机器上hbase应用场景:存储海量数据低延迟查询数据hbase表由多行组成hbase行一行在hbase中由行健和一个或多个列的值组成，按行健字母顺序排序的存储。

4. hive和hbase有什么关系和区别

应该是Hadoop在hbase和Hive中的作用吧。 hbase与hive都是架构在hadoop之上的。都是用hadoop作为底层存储。而hbase是作为分布式数据库，而hive是作为分布式数据仓库。当然hive还是借用hadoop的MapRece来完成一些hive中的命令的执行。而hbase与hive都是单独安装的。你需要哪个安装哪个，所以不存在重复信息。

5. hive 和hbase 有什么区别

Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言，这种语言最终被转化为Map/Rece. 虽然Hive提供了SQL查询功能，但是Hive不能够进行交互查询--因为它只能够在Haoop上批量的执行Hadoop。
Apache HBase是一种Key/Value系统，它运行在HDFS之上。和Hive不一样，Hbase的能够在它的数据库上实时运行，而不是运行MapRece任务。Hive被分区为表格，表格又被进一步分割为列簇。列簇必须使用schema定义，列簇将某一类型列集合起来（列不要求schema定义）。例如，“message”列簇可能包含：“to”, ”from” “date”, “subject”, 和”body”. 每一个 key/value对在Hbase中被定义为一个cell，每一个key由row-key，列簇、列和时间戳。在Hbase中，行是key/value映射的集合，这个映射通过row-key来唯一标识。Hbase利用Hadoop的基础设施，可以利用通用的设备进行水平的扩展。

6. 程序中的Hive具体是干什么用的呢

Hive是基于Hadoop平台的数仓工具，具有海量数据存储、水平可扩展、离线批量处理的优点，解决了传统关系型数仓不能支持海量数据存储、水平可扩展性差等问题，但是由于Hive数据存储和数据处理是依赖于HDFS和MapRece，因此在Hive进行数据离线批量处理时，需将查询语言先转换成MR任务，由MR批量处理返回结果，所以Hive没法满足数据实时查询分析的需求。
Hive是由FaceBook研发并开源，当时FaceBook使用Oracle作为数仓，由于数据量越来越大，Oracle数仓性能越来越差，没法实现海量数据的离线批量分析，因此基于Hadoop研发Hive，并开源给Apacha。
由于Hive不能实现数据实时查询交互，Hbase可提供实时在线查询能力，因此Hive和Hbase形成了良性互补。Hbase因为其海量数据存储、水平扩展、批量数据处理等优点，也得到了广泛应用。
Pig与HIVE工具类似，都可以用类sql语言对数据进行处理。但是他们应用场景有区别，Pig用于数据仓库数据的ETL，HIVE用于数仓数据分析。
从架构图当中，可看出Hive并没有完成数据的存储和处理，它是由HDFS完成数据存储，MR完成数据处理，其只是提供了用户查询语言的能力。Hive支持类sql语言，这种SQL称为Hivesql。用户可用Hivesql语言查询，其驱动可将Hivesql语言转换成MR任务，完成数据处理。
【Hive的访问接口】
CLI：是hive提供的命令行工具
HWI：是Hive的web访问接口
JDBC/ODBC：是两种的标准的应用程序编程访问接口
Thrift Server：提供异构语言，进行远程RPC调用Hive的能力。
因此Hiv具备丰富的访问接口能力，几乎能满足各种开发应用场景需求。
【Driver】
是HIVE比较核心的驱动模块，包含编译器、优化器、执行器，职责为把用户输入的Hivesql转换成MR数据处理任务
【Metastore】
是HIVE的元数据存储模块，数据的访问和查找，必须要先访问元数据。Hive中的元数据一般使用单独的关系型数据库存储，常用的是Mysql，为了确保高可用，Mysql元数据库还需主备部署。
架构图上面Karmasphere、Hue、Qubole也是访问HIVE的工具，其中Qubole可远程访问HIVE，相当于HIVE作为一种公有云服务，用户可通过互联网访问Hive服务。
Hive在使用过程中出现了一些不稳定问题，由此发展出了Hive HA机制，

7. hbase和hive的差别是什么，各自适用在什么场景中

Hive和Hbase是两种基于Hadoop的不同技术--Hive是一种类SQL的引擎，并且运行MapRece任务，Hbase是一种在Hadoop之上的NoSQL 的Key/vale数据库。当然，这两种工具是可以同时使用的。就像用Google来搜索，用FaceBook进行社交一样，Hive可以用来进行统计查询，HBase可以用来进行实时查询，数据也可以从Hive写到Hbase，设置再从Hbase写回Hive
共同点：
1.hbase与hive都是架构在hadoop之上的。都是用hadoop作为底层存储
区别：
1.Hive是建立在Hadoop之上为了减少MapRece jobs编写工作的批处理系统，HBase是为了支持弥补Hadoop对实时操作的缺陷的项目。
2.想象你在操作RMDB数据库，如果是全表扫描，就用Hive+Hadoop,如果是索引访问，就用HBase+Hadoop 。
3.Hive query就是MapRece jobs可以从5分钟到数小时不止，HBase是非常高效的，肯定比Hive高效的多。
4.Hive本身不存储和计算数据，它完全依赖于HDFS和MapRece，Hive中的表纯逻辑，就只是表的定义等，即表的元数据。这样就可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能，并将SQL语句最终转换为MapRece任务进行运行。
5.hive借用hadoop的MapRece来完成一些hive中的命令的执行
6.hbase是物理表，不是逻辑表，提供一个超大的内存hash表，搜索引擎通过它来存储索引，方便查询操作。
7.hbase是列存储。
8.hdfs作为底层存储，hdfs是存放文件的系统，而Hbase负责组织文件。
9.hive需要用到hdfs存储文件，需要用到MapRece计算框架。

8. hbase和hive有什么区别

1：Hive中的表是纯逻辑表，就只是表的定义等，即表的元数据。Hive本身不存储数据，它完全依赖HDFS和MapRece。这样就可以将结构化的数据文件映射为为一张数据库表，并提供完整的SQL查询功能，并将SQL语句最终转换为MapRece任务进行运行。而HBase表是物理表，适合存放非结构化的数据。
2：Hive是基于MapRece来处理数据,而MapRece处理数据是基于行的模式；HBase处理数据是基于列的而不是基于行的模式，适合海量数据的随机访问。
3：HBase的表是疏松的存储的，因此用户可以给行定义各种不同的列；而Hive表是稠密型，即定义多少列，每一行有存储固定列数的数据。
4：Hive使用Hadoop来分析处理数据，而Hadoop系统是批处理系统，因此不能保证处理的低迟延问题；而HBase是近实时系统，支持实时查询。
5：Hive不提供row-level的更新，它适用于大量append-only数据集（如日志）的批任务处理。而基于HBase的查询，支持和row-level的更新。
6：Hive提供完整的SQL实现，通常被用来做一些基于历史数据的挖掘、分析。而HBase不适用与有join，多级索引，表关系复杂的应用场景。

9. hive与hbase区别

Apache Hive 和 Apache HBase 都是大数据中不可思议的工具。虽然它们的功能存在一些重叠，但 Apache Hive 和 Apache HBase 都具有独特的品质，使它们更适合特定任务。一些主要区别包括：

虽然这两个工具都是Hadoop的衍生产品，但它们不为用户提供相同的功能。然而，尽管存在差异，Apache Hive 和 Apache HBase 都是处理大数据时优先考虑的两块工具和解决方案。

每个工具都有自己的优缺点。因此，Hive 和 HBase各自都存在一些限制。

首先，虽然Hive也具有非常基本的 ACID 功能，但它们没有像 MYSQL 那样成熟完备的产品架构，速度无法满足日常OLTP型业务。

Hive 查询通常也具有高延迟。由于它在 Hadoop 上运行批处理，因此获取查询结果可能需要几分钟甚至1小时。此外，更新数据可能既复杂又耗时。

Hive 不是擅长用于查询数据集（尤其是大数据集中）当中的部分数据，大多数用户倾向于依赖传统的 RDBMS （关系型数据）来处理这些数据集。

HBase 查询采用自定义语言，需要经过培训才能学习。HBase 并不完全符合 ACID，尽管它确实支持某些属性。

HBase 可以通过协同处理来处理小数据，但它仍然不如 RDBMS（关系型数据库）有用。

1、Hive 应该用于对一段时间内收集的数据进行分析查询——例如，计算趋势或网站日志。

2、HDFS 的 SQL 查询引擎 - 您可以利用 Hive的HQL来查询处理 Hadoop 数据集，然后将它们连接到相应的BI工具，进行相关报表展示。

1、HBase 非常适合实时查询大数据（例如 Facebook 曾经将其用于消息传递）。Hive 不能用于实时查询，因为速度很慢。

2、HBase 主要用于将非结构化 Hadoop 数据作为一个湖来存储和处理。您也可以将 HBase 用作所有 Hadoop 数据的仓库。

3、大量数据需要长期保存, 且数量会持续增长，而且瞬间写入量很大。

hivehbase数据存储

与hivehbase数据存储相关的内容