hadoop连接数据库_现有 java web程序如何去连接hadoop

① 如何使用Hadoop进入大数据库时代

Hadoop中有很多方法可以加入多个数据集。MapRece提供了Map端和Rece端的数据连接。这些连接是非平凡的连接，并且可能会是非常昂贵的操作。Pig和Hive也具有同等的能力来申请连接到多个数据集。Pig提供了复制连接，合并连接和倾斜连接（skewed join），并且Hive提供了map端的连接和完整外部连接来分析数据。

一个重要的事实是，通过使用各种工具，比如MapRece、Pig和Hive等，数据可以基于它们的内置功能和实际需求来使用它们。至于在Hadoop分析大量数据，Anoop指出，通常，在大数据/Hadoop的世界，一些问题可能并不复杂，并且解决方案也是直截了当的，但面临的挑战是数据量。在这种情况下需要不同的解决办法来解决问题。

一些分析任务是从日志文件中统计明确的ID的数目、在特定的日期范围内改造存储的数据、以及网友排名等。所有这些任务都可以通过Hadoop中的多种工具和技术如MapRece、Hive、Pig、Giraph和Mahout等来解决。这些工具在自定义例程的帮助下可以灵活地扩展它们的能力。

② 如何使用Hadoop读写数据库

代码：
package com.qin.operadb;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;
import java.sql.PreparedStatement;
import java.sql.ResultSet;
import java.sql.SQLException;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.Writable;
import org.apache.hadoop.maprece.lib.db.DBWritable;

/***
* 封装数据库实体信息
* 的记录
*
* 搜索大数据技术交流群：376932160
*
* **/
public class PersonRecoder implements Writable,DBWritable {

public int id;//对应数据库中id字段
public String name;//对应数据库中的name字段
public int age;//对应数据库中的age字段

@Override
public void readFields(ResultSet result) throws SQLException {

this.id=result.getInt(1);
this.name=result.getString(2);
this.age=result.getInt(3);

}

@Override
public void write(PreparedStatement stmt) throws SQLException {

stmt.setInt(1, id);
stmt.setString(2, name);
stmt.setInt(3, age);

}

@Override
public void readFields(DataInput arg0) throws IOException {
// TODO Auto-generated method stub
this.id=arg0.readInt();
this.name=Text.readString(arg0);
this.age=arg0.readInt();

}

@Override
public void write(DataOutput out) throws IOException {
// TODO Auto-generated method stub
out.writeInt(id);
Text.writeString(out, this.name);
out.writeInt(this.age);
}

@Override
public String toString() {
// TODO Auto-generated method stub
return "id: "+id+" 年龄: "+age+" 名字："+name;
}

}
</pre>
MR类的定义代码，注意是一个Map Only作业：
<pre name="code" class="java">package com.qin.operadb;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapred.JobConf;
import org.apache.hadoop.mapred.lib.IdentityRecer;
import org.apache.hadoop.maprece.Job;
import org.apache.hadoop.maprece.Mapper;
import org.apache.hadoop.maprece.lib.db.DBConfiguration;
import org.apache.hadoop.maprece.lib.db.DBInputFormat;
import org.apache.hadoop.maprece.lib.output.FileOutputFormat;

public class ReadMapDB {

/**
* Map作业读取数据记录数
*
* **/
private static class DBMap extends Mapper<LongWritable, PersonRecoder , LongWritable, Text>{
@Override
protected void map(LongWritable key, PersonRecoder value,Context context)
throws IOException, InterruptedException {

context.write(new LongWritable(value.id), new Text(value.toString()));

}
}

public static void main(String[] args)throws Exception {

JobConf conf=new JobConf(ReadMapDB.class);
//Configuration conf=new Configuration();
// conf.set("mapred.job.tracker","192.168.75.130:9001");
//读取person中的数据字段
// conf.setJar("tt.jar");

//注意这行代码放在最前面，进行初始化，否则会报
DBConfiguration.configureDB(conf, "com.mysql.jdbc.Driver", "jdbc:mysql://192.168.211.36:3306/test", "root", "qin");

/**要读取的字段信息**/
String fileds[]=new String[]{"id","name","age"};
/**Job任务**/
Job job=new Job(conf, "readDB");
System.out.println("模式： "+conf.get("mapred.job.tracker"));

/**设置数据库输入格式的一些信息**/
DBInputFormat.setInput(job, PersonRecoder.class, "person", null, "id", fileds);
/***设置输入格式*/
job.setInputFormatClass(DBInputFormat.class);
job.setOutputKeyClass(LongWritable.class);
job.setOutputValueClass(Text.class);
job.setMapperClass(DBMap.class);
String path="hdfs://192.168.75.130:9000/root/outputdb";
FileSystem fs=FileSystem.get(conf);
Path p=new Path(path);
if(fs.exists(p)){
fs.delete(p, true);
System.out.println("输出路径存在，已删除！");
}
FileOutputFormat.setOutputPath(job,p );
System.exit(job.waitForCompletion(true) ? 0 : 1);

}

}

③ 现有 java web程序，如何去连接hadoop

看你用什么版本的hadoop，推荐使用cdh版的

jar包导入web工程
调用HBase接口
如：
hbaseConfig = new Configuration();
conf = HBaseConfiguration.create(hbaseConfig);
admin = new HBaseAdmin(conf);
this.setTableName(tableName);

④ 如何用Hive访问Hadoop上数据

步骤
Hive提供了jdbc驱动，使得我们可以连接Hive并进行一些类关系型数据库的sql语句查询等操作，首先我们需要将这些驱动拷贝到报表工程下面，然后再建立连接，最后通过连接进行数据查询。
拷贝jar包到FR工程
将hadoop里的hadoop-common.jar拷贝至报表工程appname/WEB-INF/lib下；
将hive里的hive-exec.jar、hive-jdbc.jar、hive-metastore.jar、hive-service.jar、libfb303.jar、log4j.jar、slf4j-api.jar、slf4j-log4j12.jar拷贝至报表工程appname/WEB-INF/lib下。
配置数据连接
启动设计器，打开服务器>定义数据连接，新建JDBC连接。
在Hive 0.11.0版本之前，只有HiveServer服务可用，在程序操作Hive之前，必须在Hive安装的服务器上打开HiveServer服务。而HiveServer本身存在很多问题（比如：安全性、并发性等）；针对这些问题，Hive0.11.0版本提供了一个全新的服务：HiveServer2，这个很好的解决HiveServer存在的安全性、并发性等问题，所以下面我们分别介绍HiveServer和HiveServer2配置数据连接的方式。
HiveServer
数据库驱动:org.apache.hadoop.hive.jdbc.HiveDriver；
URL:jdbc:hive://localhost:10000/default
注：hive服务默认端口为10000，根据实际情况修改端口；另外目前只支持默认数据库名default，所有的Hive都支持。
测试连接，提示连接成功即可。

4
数据库驱动:org.apache.hive.jdbc.HiveDriver；
URL:jdbc:hive2://localhost:10000/default
注：该连接方式只支持Hive0.11.0及之后版本。

⑤ 如何使用Hadoop读写数据库

我们的一些应用程序中，常常避免不了要与数据库进行交互，而在我们的hadoop中，有时候也需要和数据库进行交互，比如说，数据分析的结果存入数据库，
或者是，读取数据库的信息写入HDFS上，不过直接使用MapRece操作数据库，这种情况在现实开发还是比较少，一般我们会采用Sqoop来进行数
据的迁入，迁出，使用Hive分析数据集，大多数情况下，直接使用Hadoop访问关系型数据库，可能产生比较大的数据访问压力，尤其是在数据库还是单机
的情况下，情况可能更加糟糕，在集群的模式下压力会相对少一些。

那么，今天散仙就来看下，如何直接使用Hadoop1.2.0的MR来读写操作数据库，hadoop的API提供了DBOutputFormat和
DBInputFormat这两个类，来进行与数据库交互，除此之外，我们还需要定义一个类似JAVA
Bean的实体类，来与数据库的每行记录进行对应，通常这个类要实现Writable和DBWritable接口，来重写里面的4个方法以对应获取每行记

hadoop连接数据库

与hadoop连接数据库相关的内容