hiveweb界面_程序中的Hive具体是干什么用的呢

Ⅰ 如何判断hive的远程服务接口已经打开

1、hive 命令行模式，直接输入/hive/bin/hive的执行程序，或者输入 hive --service cli
用于linux平台命令行查询，查询语句基本跟mysql查询语句类似
2、 hive web界面的 (端口号9999) 启动方式
hive –service hwi &
用于通过浏览器来访问hive，感觉没多大用途
3、 hive 远程服务 (端口号10000) 启动方式
hive --service hiveserver &
或者
hive --service hiveserver 10000>/dev/null 2>/dev/null &
备注：
连接Hive JDBC URL：jdbc:hive://192.168.6.116:10000/default （Hive默认端口：10000 默认数据库名：default）

Ⅱ 求助帖，hive sql的web客户端

你网络搜索一下"hive squirrel sql client lxw的大数据田地"，里面详细介绍了连接Hive的客户端界面工具–SQuirrel SQL Client的详细用法。

Ⅲ hive报错FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask

首先，code 2 经常是再试一次就好了。
如果不好的话，你提供的信息不足以排错，需要详细的错误栈

Ⅳ 集群我想连接hive 怎么查找ip地址和端口

1、hive命令行模式，直接输入/hive/bin/hive的执行程序，或者输入hive--servicecli用于linux平台命令行查询，查询语句基本跟mysql查询语句类似2、hiveweb界面的(端口号9999)启动方式hive–servicehwi&用于通过浏览器来访问hive，

Ⅳ python连接hive，怎么安装thrifthive

HiveServer2的启动

启动HiveServer2

HiveServer2的启动十分简便：

$ $HIVE_HOME/bin/hiveserver2

或者

$ $HIVE_HOME/bin/hive --service hiveserver2

默认情况下，HiverServer2的Thrift监听端口是10000，其WEB UI端口是10002。可通过http://localhost:10002来查看HiveServer2的Web UI界面，这里显示了Hive的一些基本信息。如果Web界面不能查看，则说明HiveServer2没有成功运行。

使用beeline测试客户端连接

HiveServer2成功运行后，我们可以使用Hive提供的客户端工具beeline连接HiveServer2。

$ $HIVE_HOME/bin/beeline

beeline > !connect jdbc:hive2://localhost:10000

如果成功登录将出现如下的命令提示符，此时可以编写HQL语句。

0: jdbc:hive2://localhost:10000>

报错：User: xxx is not allowed to impersonate anonymous

在beeline使用!connect连接HiveServer2时可能会出现如下错误信息：

Caused by: org.apache.hadoop.ipc.RemoteException:
User: xxx is not allowed to impersonate anonymous

这里的xxx是我的操作系统用户名称。这个问题的解决方法是在hadoop的core-size.xml文件中添加xxx用户代理配置：

<property> <name>hadoop.proxyuser.xxx.groups</name> <value>*</value></property><property> <name>hadoop.proxyuser.xxx.hosts</name> <value>*</value></property>

重启HDFS后，再用beeline连接HiveServer2即可成功连接。

常用配置

HiveServer2的配置可以参考官方文档《Setting Up HiveServer2》

这里列举一些hive-site.xml的常用配置：

hive.server2.thrift.port：监听的TCP端口号。默认为10000。

hive.server2.thrift.bind.host：TCP接口的绑定主机。

hive.server2.authentication：身份验证方式。默认为NONE（使用 plain SASL），即不进行验证检查。可选项还有NOSASL, KERBEROS, LDAP, PAM and CUSTOM.

hive.server2.enable.doAs：是否以模拟身份执行查询处理。默认为true。

Python客户端连接HiveServer2

python中用于连接HiveServer2的客户端有3个：pyhs2，pyhive，impyla。官网的示例采用的是pyhs2，但pyhs2的官网已声明不再提供支持，建议使用impyla和pyhive。我们这里使用的是impyla。

impyla的安装

impyla必须的依赖包括：

six
bit_array
thriftpy(python2.x则是thrift)

为了支持Hive还需要以下两个包：

sasl
thrift_sasl

可在Python PI中下载impyla及其依赖包的源码。

impyla示例

以下是使用impyla连接HiveServer2的示例：

from impala.dbapi import connect

conn = connect(host='127.0.0.1', port=10000, database='default', auth_mechanism='PLAIN')

cur = conn.cursor()

cur.execute('SHOW DATABASES')print(cur.fetchall())

cur.execute('SHOW Tables')print(cur.fetchall())

Ⅵ hive中怎么删除表中的部分数据

Hive的数据管理：

（1）元数据存储

Hive 将元数据存储在 RDBMS 中，有三种模式可以连接到数据库：

Single User Mode：此模式连接到一个 In-memory 的数据库 Derby，一般用于 Unit Test。

Multi User Mode：通过网络连接到一个数据库中，这是最常用的模式。

Remote Server Mode：用于非 Java 客户端访问元数据库，在服务器端启动一个 MetaStoreServer，客户端则利用 Thrift 协议通过 MetaStoreServer来访问元数据库。

（2）数据存储

首先，Hive 没有专门的数据存储格式，也没有为数据建立索引，用户可以非常自由地组织 Hive 中的表，只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符，它就可以解析数据了。

其次，Hive 中所有的数据都存储在 HDFS 中，Hive 中包含4种数据模型：Table、External Table、Partition、Bucket。

Hive 中的 Table 和数据库中的 Table 在概念上是类似的，每一个 Table 在 Hive 中都有一个相应的目录来存储数据。例如，一个表 pvs，它在 HDFS 中的路径为：/wh/pvs，其中，wh 是在 hive-site.xml 中由 ${hive.metastore.warehouse.dir} 指定的数据仓库的目录，所有的 Table 数据（不包括 External Table）都保存在这个目录中。

Partition 对应于数据库中Partition 列的密集索引，但是 Hive 中 Partition 的组织方式与数据库中的很不相同。在 Hive 中，表中的一个 Partition 对应于表下的一个目录，所有的 Partition 数据都存储在对应的目录中。例如：pvs 表中包含 ds 和 city 两个 Partition，则对应于 ds = 20090801, city = US 的 HDFS 子目录为：/wh/pvs/ds=20090801/city=US；对应于 ds = 20090801, city = CA 的 HDFS 子目录为：/wh/pvs/ds=20090801/city=CA。

Buckets 对指定列计算 hash，根据 hash 值切分数据，目的是为了便于并行，每一个 Buckets对应一个文件。将 user 列分散至 32 个Bucket上，首先对 user 列的值计算 hash，比如，对应 hash 值为 0 的 HDFS 目录为：/wh/pvs/ds=20090801/city=US/part-00000；对应hash 值为 20 的 HDFS 目录为：/wh/pvs/ds=20090801/city=US/part-00020。

External Table 指向已经在 HDFS 中存在的数据，可以创建 Partition。它和 Table 在元数据的组织结构上是相同的，而在实际数据的存储上则有较大的差异。

在Table 的创建过程和数据加载过程（这两个过程可以在同一个语句中完成）中，实际数据会被移动到数据仓库目录中。之后对数据的访问将会直接在数据仓库的目录中完成。删除表时，表中的数据和元数据将会被同时删除。

External Table 只有一个过程，因为加载数据和创建表是同时完成的。实际数据是存储在 Location 后面指定的 HDFS 路径中的，它并不会移动到数据仓库目录中。

（3）数据交换

数据交换主要分为以下几个部分

用户接口：包括客户端、Web界面和数据库接口。

元数据存储：通常是存储在关系数据库中的，如MySQL、Derby等。

解释器、编译器、优化器、执行器。

Hadoop：用 HDFS进行存储，利用 MapRece 进行计算。

用户接口主要有三个：客户端、数据库接口和Web界面，其中最常用的是客户端。Client 是 Hive 的客户端，当启动 Client 模式时，用户会想要连接Hive Server，这时需要指出 Hive Server 所在的节点，并且在该节点启动 Hive Server。Web界面是通过浏览器访问 Hive的。

Hive 将元数据存储在数据库中，如 MySQL、Derby中。Hive 中的元数据包括表的名字、表的列和分区及其属性、表的属性（是否为外部表等）、表数据所在的目录等。

解释器、编译器、优化器完成 HQL 查询语句从词法分析、语法分析、编译、优化到查询计划的生成。生成的查询计划存储在 HDFS 中，并在随后由 MapRece调用执行。

Hive 的数据存储在 HDFS 中，大部分的查询由 MapRece 完成（包含 * 的查询不会生成 MapRedcue 任务，比如 select * from tbl）。

以上从Hadoop的分布式文件系统HDFS、分布式数据库HBase和数据仓库工具Hive入手介绍了Hadoop的数据管理，它们都通过自己的数据定义、体系结构实现了数据从宏观到微观的立体化管理，完成了Hadoop平台上大规模的数据存储和任务处理

Ⅶ 程序中的Hive具体是干什么用的呢

Hive是基于Hadoop平台的数仓工具，具有海量数据存储、水平可扩展、离线批量处理的优点，解决了传统关系型数仓不能支持海量数据存储、水平可扩展性差等问题，但是由于Hive数据存储和数据处理是依赖于HDFS和MapRece，因此在Hive进行数据离线批量处理时，需将查询语言先转换成MR任务，由MR批量处理返回结果，所以Hive没法满足数据实时查询分析的需求。
Hive是由FaceBook研发并开源，当时FaceBook使用Oracle作为数仓，由于数据量越来越大，Oracle数仓性能越来越差，没法实现海量数据的离线批量分析，因此基于Hadoop研发Hive，并开源给Apacha。
由于Hive不能实现数据实时查询交互，Hbase可提供实时在线查询能力，因此Hive和Hbase形成了良性互补。Hbase因为其海量数据存储、水平扩展、批量数据处理等优点，也得到了广泛应用。
Pig与HIVE工具类似，都可以用类sql语言对数据进行处理。但是他们应用场景有区别，Pig用于数据仓库数据的ETL，HIVE用于数仓数据分析。
从架构图当中，可看出Hive并没有完成数据的存储和处理，它是由HDFS完成数据存储，MR完成数据处理，其只是提供了用户查询语言的能力。Hive支持类sql语言，这种SQL称为Hivesql。用户可用Hivesql语言查询，其驱动可将Hivesql语言转换成MR任务，完成数据处理。
【Hive的访问接口】
CLI：是hive提供的命令行工具
HWI：是Hive的web访问接口
JDBC/ODBC：是两种的标准的应用程序编程访问接口
Thrift Server：提供异构语言，进行远程RPC调用Hive的能力。
因此Hiv具备丰富的访问接口能力，几乎能满足各种开发应用场景需求。
【Driver】
是HIVE比较核心的驱动模块，包含编译器、优化器、执行器，职责为把用户输入的Hivesql转换成MR数据处理任务
【Metastore】
是HIVE的元数据存储模块，数据的访问和查找，必须要先访问元数据。Hive中的元数据一般使用单独的关系型数据库存储，常用的是Mysql，为了确保高可用，Mysql元数据库还需主备部署。
架构图上面Karmasphere、Hue、Qubole也是访问HIVE的工具，其中Qubole可远程访问HIVE，相当于HIVE作为一种公有云服务，用户可通过互联网访问Hive服务。
Hive在使用过程中出现了一些不稳定问题，由此发展出了Hive HA机制，

Ⅷ python连接hive的时候必须要依赖sasl类库吗

客户端连接Hive需要使用HiveServer2。HiveServer2是HiveServer的重写版本，HiveServer不支持多个客户端的并发请求。当前HiveServer2是基于Thrift RPC实现的。它被设计用于为像JDBC、ODBC这样的开发API客户端提供更好的支持。Hive 0.11版本引入的HiveServer2。

HiveServer2的启动

启动HiveServer2

HiveServer2的启动十分简便：

$ $HIVE_HOME/bin/hiveserver2

或者

$ $HIVE_HOME/bin/hive --service hiveserver2

默认情况下，HiverServer2的Thrift监听端口是10000，其WEB UI端口是10002。可通过来查看HiveServer2的Web UI界面，这里显示了Hive的一些基本信息。如果Web界面不能查看，则说明HiveServer2没有成功运行。

使用beeline测试客户端连接

HiveServer2成功运行后，我们可以使用Hive提供的客户端工具beeline连接HiveServer2。

$ $HIVE_HOME/bin/beeline

beeline > !connect jdbc:hive2://localhost:10000

如果成功登录将出现如下的命令提示符，此时可以编写HQL语句。

0: jdbc:hive2://localhost:10000>

报错：User: xxx is not allowed to impersonate anonymous

在beeline使用!connect连接HiveServer2时可能会出现如下错误信息：

12Caused by: org.apache.hadoop.ipc.RemoteException:User: xxx is not allowed to impersonate anonymous

这里的xxx是我的操作系统用户名称。这个问题的解决方法是在hadoop的core-size.xml文件中添加xxx用户代理配置：

123456789<spanclass="hljs-tag"><<spanclass="hljs-title">property><spanclass="hljs-tag"><<spanclass="hljs-title">name>hadoop.proxyuser.xxx.groups<spanclass="hljs-tag"></<spanclass="hljs-title">name><spanclass="hljs-tag"><<spanclass="hljs-title">value>*<spanclass="hljs-tag"></<spanclass="hljs-title">value><spanclass="hljs-tag"></<spanclass="hljs-title">property><spanclass="hljs-tag"><<spanclass="hljs-title">property><spanclass="hljs-tag"><<spanclass="hljs-title">name>hadoop.proxyuser.xxx.hosts<spanclass="hljs-tag"></<spanclass="hljs-title">name><spanclass="hljs-tag"><<spanclass="hljs-title">value>*<spanclass="hljs-tag"></<spanclass="hljs-title">value><spanclass="hljs-tag"></<spanclass="hljs-title">property>

重启HDFS后，再用beeline连接HiveServer2即可成功连接。

常用配置

HiveServer2的配置可以参考官方文档《Setting Up HiveServer2》

这里列举一些hive-site.xml的常用配置：

hive.server2.thrift.port：监听的TCP端口号。默认为10000。

hive.server2.thrift.bind.host：TCP接口的绑定主机。

hive.server2.authentication：身份验证方式。默认为NONE（使用 plain SASL），即不进行验证检查。可选项还有NOSASL, KERBEROS, LDAP, PAM and CUSTOM.

hive.server2.enable.doAs：是否以模拟身份执行查询处理。默认为true。

Python客户端连接HiveServer2

impyla的安装

impyla必须的依赖包括：

six
bit_array
thriftpy(python2.x则是thrift)

为了支持Hive还需要以下两个包：

sasl
thrift_sasl

可在Python PI中下载impyla及其依赖包的源码。

impyla示例

以下是使用impyla连接HiveServer2的示例：

Ⅸ 学习hive可以不安装mysql吗

1、hive 命令行模式，直接输入/hive/bin/hive的执行程序，或者输入 hive --service cli
用于linux命令行查询，查询语句基本跟mysql查询语句类似
2、 hive web界面的 (端口号9999) 启动方式
hive –service hwi
用于通过浏览器来访问hive，感觉没多大用途
3、 hive 远程服务 (端口号10000) 启动方式
hive --service hiveserver
或者
hive --service hiveserver 10000>/dev/null 2>/dev/null
备注：
连接Hive JDBC URL：jdbc:hive://192.168.6.116:10000/default （Hive默认端口：10000 默认数据库名：default）

Ⅹ hadoop web管理Hue，Ambari 和CM 的区别是什么

1.hue是什么？
hue是hadoop生态系统的统一webUI。你可以通过hue的界面，链接hive，发出hive语句。这个类似phpmysql。你可以浏览hdfs的文件。你可以定义oozie的工作流，可以写pig的脚本，可以配置zookeeper，可以可视化的配置kafka。总之，hue的目标就是作一个hadoop各种生态组建的webUI的平台。
hue既然是平台，那组件就是app。参考这里。App Store | Hue
我未来的工作会读hue的 python代码，挖掘更多hue的功能。国内有hue的玩家，或者感兴趣的玩家，欢迎一起交流噢。
2.clouera manager。
是管理hadoop集群运维的webUI。你可以用cloudera manager在集群中，简单的搭建hadoop，hbase集群。通过cloudera manager，你能看到哪些datenode结点和namenode 结点联结有问题了，哪些磁盘快满了，哪些cpu高，哪些磁盘io高。等等。当你有个datenode的一块硬盘坏了时，你可以在cm中轻松的把这个datenode先停止工作，然后把结点移除。在磁盘修好了之后，再添加回集群。当你新添加了一批机器，需要运行集群负载平衡的指令时，cm也能简单满足。 cloudera manager的用处，是用来简化hadoop运维人员的工作门槛的，webUI所见所得，提高效率。
更详细的clouderamanager介绍，就去cm的官网撸文档吧。Cloudera QuickStart
3.ambari
做hadoop商业化的公司，有3家比较大的。cloudera manager 、 hortonworks、mapR.
这里是个简单的对比 Cloudera vs. Hortonworks vs. MapR
一句话。cloudera manager的自家管理套件就是同名的cm。 ambari是hortonworks公司的，纯开源的用来对标cm的hadoop生态管理套件。

hiveweb界面

与hiveweb界面相关的内容