当前位置:首页 » 数据仓库 » hive新建数据库
扩展阅读
webinf下怎么引入js 2023-08-31 21:54:13
堡垒机怎么打开web 2023-08-31 21:54:11

hive新建数据库

发布时间: 2023-08-20 19:02:38

1. hive 创建数据表失败

之前根据网上相关教程搭建hive,一直没什么问题,最近新搭建 hive服务时出现了无法创建数据表的问题,从日志中发现报了一个,无法找到/user问题,正常情况下创建一张数据表的时候会在hdfs中创建一个/user/hive/warehouse的文件夹,去hdfs中没有这个目录,我就手动添加

显示添加失败,经过尝试要在目录前添加-p函数,并且添加namenode的域名(机器名)和端口.

创建成功后,重新打开hive使用,创建hive表,依然失败,一样的报错,无法找到/user目录。依据上次手动创建目录的经验我认为应该是没找到对应的hdfs服务。
修改hive-site.xml文件

重新启动hive, 可以创建hive表了。对于之前使用hive无需过多配置,这次却需要修改warehouse,也找到了合理的解释,之前配置hive都是安装在Hadoop namenode的机器上直接可以通过/user/hive/warehouse创建hdfs目录,但是这次为了分散压力我把hive安装到了别的服务器上,导致无法找到正确的namenode,所以需要在hive.metastore.warehouse.dir,添加hdfs联邦的地址。

2. 提问为什么我要创建一个数据库创建不出来求解,怎么办

1、mysql错误码1044,权限错误

当用root创建新数据库时,发现很奇怪的问题,root权限居然无法创建数据库,看了网上很多文档说是root创建密码问题,按照网上方法修改仍然没有起效

后来发现自已原来安装过mysql,已经创建了var/lib/mysql 文件夹,然后卸载重装没有删除这个文件夹,这个文件夹里面的mysql权限文件是原来的mysql用户的,新的mysql用户虽然用户名也是mysql,但是ID是不一样的,当然无法访问原来的文件,于是发原来的mysql文件夹删掉,重新安装mysql,问题解决

2、启动mysql失败,提示:The server quit without updating PID file

查看err文件,提示是设置utf-8字符问题,原因是我在mysqld 下面用了:default-character-set=utf8

导致启动失败

进入/etc/my.cnf文件,把设置utf-8字符的那行删掉,mysqld下面如果要使用utf-8,设置应该为:

init_connect='SET collation_connection = utf8_unicode_ci'
init_connect='SET NAMES utf8'
character-set-server=utf8
collation-server=utf8_unicode_ci
skip-character-set-client-handshake

问题解决

3、创建新数据库hive,创建用户hive,并授权hive数据库权限给hive用户后,发现使用hive用户登录时报错:

ERROR 1045 (28000): Access denied for user 'hive'@'localhost' (using password: YES)

这是因为user表中有用户名为空的用户导致,把user表中的空用户删除,刷新,问题解决

执行命令如下:

delete from user where user='';

FLUSH PRIVILEGES;

3. hive cmd 开启

1、下载Hive软件。如果下载hive-211,可直接进行下一步。如果下载hive-235,需要将缺失的cmd文件放入bin目录下。
2、配置Hive系统变量和环境变量。
3、下载MySQL驱动(mysql-connector-java-5145),放置到目录下。
4、在Hadoop上创建HDFS目录。调出CMD终端,输入以下命令。
5、创建相关目录。
6、将模板文件另存为hive-sitexml,并修改文件hive-sitexml内容。Hive相关目录设置,数据库相关设置。
7、在MySQL下创建数据库。
8、启动Hadoop,即在hadoop的sbin目录下调出CMD输入命令start-dfscmd。
9、启动Hivemetastore服务,即调出CMD输入命令hive-servicemetastore。输入命令后会自动在MySQL的hive数据库下创建许多相关表。
10、启动Hive,即调出CMD输入命令hivecmd。

4. Hive 数据库表的基本操作,必须掌握的基本功

说明:hive 的表存放位置模式是由 hive-site.xml 当中的一个属性指定的,默认是存放在该配置文件设置的路径下,也可在创建数据库时单独指定存储路径。

数据库有一些描述性的属性信息,可以在创建时添加:

查看数据库的键值对信息

修改数据库的键值对信息

与mysql查询语句是一样的语法

删除一个空数据库,如果数据库下面有数据表,那么就会报错

强制删除数据库,包含数据库下面的表一起删除(请谨慎操作)


[]里的属性为可选属性,不是必须的,但是如果有可选属性,会使 sql 语句的易读性更好,更标准与规范。

例如:[comment '字段注释信息'][comment '表的描述信息']等,[external]属性除外


1. CREATE TABLE
创建一个指定名字的表,如果相同名字的表已存在,则抛出异常提示:表已存在,使用时可以使用IF NOT EXISTS语句来忽略这个异常。

如果创建的表名已存在,则不会再创建,也不会抛出异常提示:表已存在。否则则自动创建该表。


2. EXTERNAL
顾名思义是外部的意思,此关键字在建表语句中让使用者可以创建一个外部表,如果不加该关键字,则默认创建内部表。

外部表在创建时必须同时指定一个指向实际数据的路径(LOCATION),Hive在创建内部表时,会将数据移动到数据仓库指向的路径;

若创建外部表,仅记录数据所在的路径,不对数据的位置作任何改变。

内部表在删除后,其元数据和数据都会被一起删除。
外部表在删除后,只删除其元数据,数据不会被删除。


3. COMMENT
用于给表的各个字段或整张表的内容作解释说明的,便于他人理解其含义。


4. PARTITIONED BY
区分表是否是分区表的关键字段,依据具体字段名和类型来决定表的分区字段。


5. CLUSTERED BY
依据column_name对表进行分桶,在 Hive 中对于每一张表或分区,Hive 可以通过分桶的方式将数据以更细粒度进行数据范围划分。Hive采用对列值哈希,然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。


6. SORTED BY
指定表数据的排序字段和排序规则,是正序还是倒序排列。


7. ROW FORMAT DELIMITED FIELDS TERMINATED BY ' '
指定表存储中列的分隔符,这里指定的是' ',也可以是其他分隔符。


8. STORED AS SEQUENCEFILE|TEXTFILE|RCFILE
指定表的存储格式,如果文件数据是纯文本格式,可以使用STORED AS TEXTFILE,如果数据需要压缩,则可以使用STORED AS SEQUENCEFILE。


9. LOCATION
指定 Hive 表在 hdfs 里的存储路径,一般内部表(Managed Table)不需要自定义,使用配置文件中设置的路径即可。
如果创建的是一张外部表,则需要单独指定一个路径。


1. 使用create table语句创建表
例子:


2. 使用create table ... as select...语句创建表
例子:

使用 create table ... as select ...语句来创建新表sub_student,此时sub_student 表的结构及表数据与 t_student 表一模一样, 相当于直接将 t_student 的表结构和表数据复制一份到 sub_student 表。


注意:
(1). select 中选取的列名(如果是 * 则表示选取所有列名)会作为新表 sub_student 的列名。

(2). 该种创建表的方式会改变表的属性以及结构,例如不能是外部表,只能是内部表,也不支持分区、分桶。

如果as select后的表是分区表,并且使用select *,则分区字段在新表里只是作为字段存在,而不是作为分区字段存在。

在使用该种方式创建时,create 与 table 之间不能加 external 关键字,即不能通过该种方式创建外部目标表,默认只支持创建内部目标表。

(3). 该种创建表的方式所创建的目标表存储格式会变成默认的格式textfile。


3.使用like语句创建表
例子:


注意:
(1). 只是将 t_student 的表结构复制给 sub1_student 表。

(2). 并不复制 t_student 表的数据给 sub1_student 表。

(3). 目标表可以创建为外部表,即:

5. db.properties怎么创建

解决办法:1.创建数据库
hive>create database myhive;
hive>create database if not exists myhive;
2.查询数据库和表
hive>show databases;
hive>show tables;
使用正则表达式:
hive>show databases like 'h.*';

3.修改数据库默认位置
hive>create database myhive
>location 'my/myhive.db'; //要指定数据库名
1)为数据库增加描述信息
hive>create database myhive
>comment 'this is my';
hive> desc database myhive; //显示详细信息

2)增加一些和其相关的键-值对属性信息
hive>create database myhive
>with dbproperties('name'='lu','data'='2012-01-02');
查看:hive>desc database extended myhive;
hive>use default;

6. 为什么使用HiveHive提供了什么Hive支持哪些用户

为什么使用Hive?
为什么使用Hive?那么,在哪里使用Hive呢?在载入了60亿行(经度、维度、时间、数据值、高度)数据集到MySQL后,系统崩溃了,并经历过数据丢失。这可能部分是因为我们最初的策略是将所有的数据都存储到单一的一张表中了。后来,我们调整了策略通过数据集和参数进行分表,这有所帮助但也因此引入了额外的消耗,而这并非是我们愿意接受的。
相反,我们决定尝试使用Apache Hive技术。我们安装了Hive 0.5 + 20,使用CDHv3和Apache Hadoop(0 20 2 + 320)。CDHv3还包含有许多其他相关工具,包括Sqoop和Hue这些在我们的架构中都标识出来了,如图23-3底部所示。
我们使用Apache Sqoop转储数据到Hive中,然后通过写一个Apache OODT包装器,来使Hive按照空间/时间约束查询数据,然后将结果提供给RCMET和其他用户(图23-2中间部分显示)。RCMES集群的完整的架构如图23- 3所示。我们有5台机器,包括图中所示的一个主/从配置,通过一个运行GigE的私人网进行连接。

Hive提供了什么
Photobucket公司使用Hive的主要目标是为业务功能、系统性能和用户行为提供答案。为了满足这些需求,我们每晚都要通过Flume从数百台服务器上的MySQL数据库中转储来自Web服务器和自定义格式日志TB级别的数据。这些数据有助于支持整个公司许多组织,比如行政管理、广告、客户支持、产品开发和操作,等等。对于历史数据,我们保持所有MySQL在每月的第一天创建的所有的数据作为分区数据并保留30天以上的日志文件。Photobucket使用一个定制的ETL框架来将MySQL数据库中数据迁移到Hive中。使用Flume将日志文件数据写入到HDFS中并按照预定的Hive流程进行处理。

Hive支持的用户有哪些
行政管理依赖于使用Hadoop提供一般业务健康状况的报告。Hive允许我们解析结构化数据库数据和非结构化的点击流数据,以及业务所涉及的数据格式进行读取。
广告业务使用Hive筛选历史数据来对广告目标进行预测和定义配额。产品开发无疑是该组织中产生最大数量的特定的查询的用户了。对于任何用户群,时间间隔变化或随时间而变化。Hive是很重要的,因为它允许我们通过对在当前和历史数据中运行A / B测试来判断在一个快速变化的用户环境中新产品的相关特性。
在Photobucket公司中,为我们的用户提供一流的系统是最重要的目标。从操作的角度来看,Hive被用来汇总生成跨多个维度的数据。在公司里知道最流行的媒体、用户、参考域是非常重要的。控制费用对于任何组织都是重要的。一个用户可以快速消耗大量的系统资源,并显着增加每月的支出。Hive可以用于识别和分析出这样的恶意用户,以确定哪些是符合我们的服务条款,而哪些是不符合的。也可以使用Hive对一些操作运行A / B测试来定义新的硬件需求和生成ROI计算。Hive将用户从底层MapRece代码解放出来的能力意味着可以在几个小时或几天内就可以获得答案,而不是之前的数周。

Hive中的数据库

Hive中数据库的概念本质上仅仅是表的一个目录或者命名空间。然而,对于具有很多组和用户的大集群来说,这是非常有用的,因为这样可以避免表命名冲突。通常会使用数据库来将生产表组织成逻辑组。
如果用户没有显式指定数据库,那么将会使用默认的数据库default。
下面这个例子就展示了如何创建一个数据库:
hive> CREATE DATABASE financials;

如果数据库financials已经存在的话,那么将会抛出一个错误信息。使用如下语句可以避免在这种情况下抛出错误信息:
hive> CREATE DATABASE IF NOT EXISTS financials;

虽然通常情况下用户还是期望在同名数据库已经存在的情况下能够抛出警告信息的,但是IF NOT EXISTS这个子句对于那些在继续执行之前需要根据需要实时创建数据库的情况来说是非常有用的。
在所有的数据库相关的命令中,都可以使用SCHEMA这个关键字来替代关键字TABLE。
随时可以通过如下命令方式查看Hive中所包含的数据库:
hive> SHOW DATABASES;
default
financials

hive> CREATE DATABASE human_resources;

hive> SHOW DATABASES;
default
financials
human_resources

如果数据库非常多的话,那么可以使用正则表达式匹配来筛选出需要的数据库名,正则表达式这个概念,将会在第6.2.3节“Like和RLike”介绍。下面这个例子展示的是列举出所有以字母h开头,以其他字符结尾(即.*部分含义)的数据库名:
hive> SHOW DATABASES LIKE 'h.*';
human_resources
hive> ...

Hive会为每个数据库创建一个目录。数据库中的表将会以这个数据库目录的子目录形式存储。有一个例外就是default数据库中的表,因为这个数据库本身没有自己的目录。
数据库所在的目录位于属性hive.metastore.warehouse.dir所指定的顶层目录之后,这个配置项我们已经在前面的第2.5.1节“本地模式配置”和第2.5.2节“分布式模式和伪分布式模式配置”中进行了介绍。假设用户使用的是这个配置项默认的配置,也就是/user/hive/warehouse,那么当我们创建数据库financials时,Hive将会对应地创建一个目录/user/hive/warehouse/financials.db。这里请注意,数据库的文件目录名是以.db结尾的。
用户可以通过如下的命令来修改这个默认的位置:
hive> CREATE DATABASE financials
> LOCATION '/my/preferred/directory';

用户也可以为这个数据库增加一个描述信息,这样通过DESCRIBE DATABASE <database> 命令就可以查看到该信息。
hive> CREATE DATABASE financials
> COMMENT 'Holds all financial tables';

hive> DESCRIBE DATABASE financials;
financials Holds all financial tables
hdfs://master-server/user/hive/warehouse/financials.db

从上面的例子中,我们可以注意到,DESCRIEB DATABASE语句也会显示出这个数据库所在的文件目录位置路径。在这个例子中,URI格式是hdfs。如果安装的是MapR,那么这里就应该是maprfs。对于亚马逊弹性MapRece(EMR)集群,这里应该是hdfs,但是用户可以设置hive.metastore.warehouse.dir为亚马逊S3特定的格式(例如,属性值设置为s3n://bucketname...)。用户可以使用s3作为模式,但是如果使用新版的规则s3n会更好。
前面DESCRIBE DATABASE语句的输出中,我们使用了master-server来代表URI权限,也就是说应该是由文件系统的“主节点”(例如,HDFS中运行NameNode服务的那台服务器)的服务器名加上一个可选的端口号构成的(例如,服务器名:端口号这样的格式)。如果用户执行的是伪分布式模式,那么主节点服务器名称就应该是localhost。对于本地模式,这个路径应该是一个本地路径,例如file:///user/hive/warehouse/financials.db。
如果这部分信息省略了,那么Hive将会使用Hadoop配置文件中的配置项fs.default.name作为master-server所对应的服务器名和端口号,这个配置文件可以在$HADOOP_HOME/conf这个目录下找到。
需要明确的是,hdfs:///user/hive/warehouse/financials.db和hdfs://master-server/user/hive/
warehouse/financials.db是等价的,其中master-server是主节点的DNS名和可选的端口号。
为了保持完整性,当用户指定一个相对路径(例如,some/relative/path)时,对于HDFS和Hive,都会将这个相对路径放到分布式文件系统的指定根目录下(例如,hdfs:///user/<user-name>)。然而,如果用户是在本地模式下执行的话,那么当前的本地工作目录将是some/relative/path的父目录。
为了脚本的可移植性,通常会省略掉那个服务器和端口号信息,而只有在涉及到另一个分布式文件系统实例(包括S3存储)的时候才会指明该信息。
此外,用户还可以为数据库增加一些和其相关的键-值对属性信息,尽管目前仅有的功能就是提供了一种可以通过DESCRIBE DATABASE EXTENDED <database>语句显示出这些信息的方式:
hive> CREATE DATABASE financials
> WITH DBPROPERTIES ('creator' = 'Mark Moneybags', 'date' = '2012-01-02');

hive> DESCRIBE DATABASE financials;
financials hdfs://master-server/user/hive/warehouse/financials.db

hive> DESCRIBE DATABASE EXTENDED financials;
financials hdfs://master-server/user/hive/warehouse/financials.db
{date=2012-01-02, creator=Mark Moneybags);

USE命令用于将某个数据库设置为用户当前的工作数据库,和在文件系统中切换工作目录是一个概念:
hive> USE financials;

现在,使用像SHOW TABLES这样的命令就会显示当前这个数据库下所有的表。
不幸的是,并没有一个命令可以让用户查看当前所在的是哪个数据库!幸运的是,在Hive中是可以重复使用USE…命令的,这是因为在Hive中并没有嵌套数据库的概念。
可以回想下,在第2.7.2节“变量和属性”中提到过,可以通过设置一个属性值来在提示符里面显示当前所在的数据库(Hive v0.8.0版本以及之后的版本才支持此功能):
hive> set hive.cli.print.current.db=true;

hive (financials)> USE default;

hive (default)> set hive.cli.print.current.db=false;

hive> ...

最后,用户可以删除数据库:
hive> DROP DATABASE IF EXISTS financials;

IF EXISTS子句是可选的,如果加了这个子句,就可以避免因数据库finanacials不存在而抛出警告信息。
默认情况下,Hive是不允许用户删除一个包含有表的数据库的。用户要么先删除数据库中的表,然后再删除数据库;要么在删除命令的最后面加上关键字CASCADE,这样可以使Hive自行先删除数据库中的表:
hive> DROP DATABASE IF EXISTS financials CASCADE;

如果使用的是RESTRICT这个关键字而不是CASCADE这个关键字的话,那么就和默认情况一样,也就是,如果想删除数据库,那么必须先要删除掉该数据库中的所有表。
如果某个数据库被删除了,那么其对应的目录也同时会被删除。

7. 怎样查看hive建的外部表的数据库

1
进入HIVE之前要把HADOOP给启动起来,因为HIVE是基于HADOOP的。所有的MR计算都是在HADOOP上面进行的。

2
在命令行中输入:hive。这个时候就可以顺利的进入HIVE了。当然了,如果你想直接执行HQL脚本文件可以这样:hive -f xxxxx.hql。

3
进入hive之后一一般默认的数据库都是default。如果你切换数据库的话所建的表都会是在default数据库里面。

4
创建数据库的语法是:create database database_name;非常简单的,其实hive跟mysql的语法还是比较相似的。为什么呢?请继续往下

5
切换数据库的时候可以输入:use database_name;
查看所有数据库的时候可以输入:show databases;
查看所有表的时候可以输入:show tables

6
看表结构的时候可以输入:describe tab_name;

8. websphere 怎么配置hive的数据源

第一步:配置JDBC提供程序.
在左侧的菜单->选择 资源->JDBC->JDBC提供程序->新建

作用域:使用默认即可.
数据库类型:根据你自己的需求选择,有Sql Server,DB2,Oracle.SyBase等等。这里我选择Oracle
实现类型:连接数据源.
名称:Oracle JDBC Driver(可以自己定义)
描述 :可以自己定义.
点击下一步.
这一步是选择驱动包所在的路径..
类路径:${ORACLE_JDBC_DRIVER_PATH}/ojdbc6.jar
这个是Oracle驱动的地址..
也可以指定自己的驱动jar包地址..
另存为 WebSphere 变量 ${ORACLE_JDBC_DRIVER_PATH} 的 ojdbc6.jar 的目录位置

下一步
点击完成.JDBC提供程序就配置完成了.
第二步:配置数据源.
从左侧菜单->选择数据源->新建按钮
输入基本数据源信息
作用域:(选择默认) cells:WpsCell01:nodes:WpsNode01:servers:server1
数据源名称:这里需要指定数据源名称.可以随便定义.然后记住就行了.我这里定义JDBCDataSource.
JNDI 名称:这里是指你在Java程序中指定的JNDI接口名称..这个一定要与Java程序中定义的JNDI名称一致,否则Java程序中不能连接到WebSphere中配置的数据源.

WebSphere数据源的配置:
配置好之后,点击下一步.选择 JDBC 提供程序
这一步则是选择刚刚配置的JDBC提供程序.
创建新的 JDBC 提供程序
选择现有的 JDBC 提供程序
然后下拉框中选择 Oracle JDBC Driver .
然后下一步
填写URL地址URL :jdbc:oracle:thin:@localhost:1521:ORCL
点击下一步设置安全性别名.
就是配置连接数据库的用户名和密码.

右侧-选择
JAAS - J2C 认证数据
点击新建。别名:databaseJ2C(可以随便定义)
用户标识:scott(数据库的用户名.)
密码:tiger(数据库的密码).
描述:可以不输入.
点击,应用->点击完成.
设置好认证信息之后. 回到设置安全性别名.选择刚刚设置的认证信息即可.
点击完成. 第三步测试数据源是否连接成功. 从左侧菜单->资源->数据源,找到刚刚配置好的数据源信息.
选中复选框. 点击测试连接按钮.
测试结果: 在节点 WpsNode01 上的服务器 server1 上,对数据源 JDBCDataSource执行的测试连接操作是成功的。