hbase存儲_hbase 如何存儲數據

1. hbase 存儲為什麼快

從根本上講，

hbase是列式資料庫，不是以行為連續存儲的，二是以列為連續存儲的。因此對列可以將從磁碟上連續地讀取所有記錄的某一列。充分發揮IO吞吐能力，讀取自然會很快；
hbase是基於HDFS存儲數據塊的，可以將操作分散到多個節點並行地執行；

2. 解讀Hadoop Hbase適合存儲哪類數據

最適合使用Hbase存儲的數據是非常稀疏的數據(非結構化或者半結構化的數據)。Hbase之所以擅長存儲這類數據，是因為Hbase是column-oriented列導向的存儲機制，而我們熟知的RDBMS都是row- oriented行導向的存儲機制(郁悶的是我看過N本關於關系資料庫的介紹從來沒有提到過row- oriented行導向存儲這個概念)。在列導向的存儲機制下對於Null值得存儲是不佔用任何空間的。比如，如果某個表 UserTable有10列，但在存儲時只有一列有數據，那麼其他空值的9列是不佔用存儲空間的(普通的資料庫MySql是如何佔用存儲空間的呢?)。 Hbase適合存儲非結構化的稀疏數據的另一原因是他對列集合 column families 處理機制。打個比方，ruby和python這樣的動態語言和c++、java類的編譯語言有什麼不同? 對於我來說，最顯然的不同就是你不需要為變數預先指定一個類型。Ok ，現在Hbase為未來的DBA也帶來了這個激動人心的特性，你只需要告訴你的數據存儲到Hbase的那個column families 就可以了，不需要指定它的具體類型：char,varchar,int,tinyint,text等等。 Hbase還有很多特性，比如不支持join查詢，但你存儲時可以用：parent-child tuple 的方式來變相解決。由於它是Google BigTable的 Java 實現，你可以參考一下：google bigtable 。
解讀Hadoop Hbase適合存儲哪類數據，參考：http://e.51cto.com/course/course_id-3819.html

3. java api操作hbase存儲數據為16進制如何設置存儲為正常數值

一般情況下，我們使用Linux的shell命令，就可以非常輕松的操作Hbase，例如一些建表，建列簇，插值，顯示所有表，統計數量等等，但有時為了提高靈活性，我們也需要使用編程語言來操作Hbase，當然Hbase通過Thrift介面提供了對大多數主流編程語言的支持，例如C++,PHP，Python，Ruby等等，那麼本篇，散仙給出的例子是基於Java原生的API操作Hbase，相比其他的一些編程語言，使用Java操作Hbase，會更加高效一些，因為Hbase本身就是使用Java語言編寫的。轉載
下面，散仙給出源碼，以供參考:

package com.hbase;

import java.util.ArrayList;
import java.util.List;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.HColumnDescriptor;
import org.apache.hadoop.hbase.HTableDescriptor;
import org.apache.hadoop.hbase.KeyValue;
import org.apache.hadoop.hbase.client.Delete;
import org.apache.hadoop.hbase.client.Get;
import org.apache.hadoop.hbase.client.HBaseAdmin;
import org.apache.hadoop.hbase.client.HTable;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.client.Result;
import org.apache.hadoop.hbase.client.ResultScanner;
import org.apache.hadoop.hbase.client.Scan;
import org.apache.hadoop.hbase.util.Bytes;

/**
* @author 三劫散仙
*
* **/
public class Test {

static Configuration conf=null;
static{

conf=HBaseConfiguration.create();//hbase的配置信息
conf.set("hbase.zookeeper.quorum", "10.2.143.5"); //zookeeper的地址

}

public static void main(String[] args)throws Exception {

Test t=new Test();
//t.createTable("temp", new String[]{"name","age"});
//t.insertRow("temp", "2", "age", "myage", "100");
// t.getOneDataByRowKey("temp", "2");
t.showAll("temp");

}

/***
* 創建一張表
* 並指定列簇
* */
public void createTable(String tableName,String cols[])throws Exception{
HBaseAdmin admin=new HBaseAdmin(conf);//客戶端管理工具類
if(admin.tableExists(tableName)){
System.out.println("此表已經存在.......");
}else{
HTableDescriptor table=new HTableDescriptor(tableName);
for(String c:cols){
HColumnDescriptor col=new HColumnDescriptor(c);//列簇名
table.addFamily(col);//添加到此表中
}

admin.createTable(table);//創建一個表
admin.close();
System.out.println("創建表成功!");
}
}

/**
* 添加數據,
* 建議使用批量添加
* @param tableName 表名
* @param row 行號
* @param columnFamily 列簇
* @param column 列
* @param value 具體的值
*
* **/
public void insertRow(String tableName, String row,
String columnFamily, String column, String value) throws Exception {
HTable table = new HTable(conf, tableName);
Put put = new Put(Bytes.toBytes(row));
// 參數出分別：列族、列、值
put.add(Bytes.toBytes(columnFamily), Bytes.toBytes(column),
Bytes.toBytes(value));

table.put(put);
table.close();//關閉
System.out.println("插入一條數據成功!");
}

/**
* 刪除一條數據
* @param tableName 表名
* @param row rowkey
* **/
public void deleteByRow(String tableName,String rowkey)throws Exception{
HTable h=new HTable(conf, tableName);
Delete d=new Delete(Bytes.toBytes(rowkey));
h.delete(d);//刪除一條數據
h.close();
}

/**
* 刪除多條數據
* @param tableName 表名
* @param row rowkey
* **/
public void deleteByRow(String tableName,String rowkey[])throws Exception{
HTable h=new HTable(conf, tableName);

List<Delete> list=new ArrayList<Delete>();
for(String k:rowkey){
Delete d=new Delete(Bytes.toBytes(k));
list.add(d);
}
h.delete(list);//刪除
h.close();//釋放資源
}

/**
* 得到一條數據
*
* @param tableName 表名
* @param rowkey 行號
* ***/
public void getOneDataByRowKey(String tableName,String rowkey)throws Exception{
HTable h=new HTable(conf, tableName);

Get g=new Get(Bytes.toBytes(rowkey));
Result r=h.get(g);
for(KeyValue k:r.raw()){

System.out.println("行號: "+Bytes.toStringBinary(k.getRow()));
System.out.println("時間戳: "+k.getTimestamp());
System.out.println("列簇: "+Bytes.toStringBinary(k.getFamily()));
System.out.println("列: "+Bytes.toStringBinary(k.getQualifier()));
//if(Bytes.toStringBinary(k.getQualifier()).equals("myage")){
// System.out.println("值: "+Bytes.toInt(k.getValue()));
//}else{
String ss= Bytes.toString(k.getValue());
System.out.println("值: "+ss);
//}

}
h.close();

}

/**
* 掃描所有數據或特定數據
* @param tableName
* **/
public void showAll(String tableName)throws Exception{

HTable h=new HTable(conf, tableName);

Scan scan=new Scan();
//掃描特定區間
//Scan scan=new Scan(Bytes.toBytes("開始行號"),Bytes.toBytes("結束行號"));
ResultScanner scanner=h.getScanner(scan);
for(Result r:scanner){
System.out.println("==================================");
for(KeyValue k:r.raw()){

System.out.println("行號: "+Bytes.toStringBinary(k.getRow()));
System.out.println("時間戳: "+k.getTimestamp());
System.out.println("列簇: "+Bytes.toStringBinary(k.getFamily()));
System.out.println("列: "+Bytes.toStringBinary(k.getQualifier()));
//if(Bytes.toStringBinary(k.getQualifier()).equals("myage")){
// System.out.println("值: "+Bytes.toInt(k.getValue()));
//}else{
String ss= Bytes.toString(k.getValue());
System.out.println("值: "+ss);
//}

}
}
h.close();

}

}

4. 傳統的行存儲和（HBase）列存儲的區別

列存儲不同於傳統的關系型資料庫，其數據在表中是按行存儲的，列方式所帶來的重要好處之一就是，由於查詢中的選擇規則是通過列來定義的，因此整個資料庫是自動索引化的。按列存儲每個欄位的數據聚集存儲，在查詢只需要少數幾個欄位的時候，能大大減少讀取的數據量，一個欄位的數據聚集存儲，那就更容易為這種聚集存儲設計更好的壓縮/解壓演算法。

傳統的(Oracle)行存儲和（Hbase）列存儲的區別

這里寫圖片描a
1、數據是按行存儲的
2、沒有索引的查詢使用大量I/O
3、建立索引和物化視圖需要花費大量時間和資源
4、面對查詢的需求，資料庫必須被大量膨脹才能滿足性能需求

這里寫圖片描述
1、數據按列存儲–每一列單獨存放
2、數據即是索引
3、只訪問查詢涉及的列–大量降低系統IO
4、每一列由一個線索來處理–查詢的並發處理
5、數據類型一致，數據特徵相似–高效壓縮

5. hbase可以存儲圖片嗎如果可以怎麼存儲

hbase是分布式資料庫，什麼數據都能存。
hbase是沒有類型的，全是二進制位元組。
你去看看 habse的 client API

6. 儲存框架HBase是啥

分布式資料庫系統

7. HBase數據到底是怎麼存儲的

每個列簇對應HDFS中的一個單獨文件，hbase不是按行存儲，你想一行有多列族的情況下，就會把數據存在多個文件下，按行存儲的意思，是會把行數據存在一個文件中，所以hbase是按列存儲的。

應該說hbase和傳統關系型資料庫還是有些相似的地方，起碼在hfile中hbase列族下一行的列是相鄰存儲的，這點跟傳統關系型資料庫應該是類似的。

8. hbase依靠什麼存儲底層數據

行導向的存儲機制

9. 如果有幾百億條數據,如何在hbase表中存放

1、首先你有沒有那麼多台伺服器的集群，如果只是幾台，你要想夠不夠，你的hbase 有幾百億，那麼你hdfs上的數據可能要有兩個備份，你這幾百億條是如何生成的，肯定是maprece跑出來導入到hbase中把，那麼原始數據你要不要留，如果留，加上備份就要三份，所以節點的多少要確定。
2、幾百億其實挺多的，hbase 的設計一定要跟你的業務相關，hbase他不能完全像關系型資料庫那樣去隨意查詢，到達一定量級，如果設計的不好也是非常之慢的，甚至將hbase搞到崩潰。所以你先去網上看看rowkey的設計原則，比如長度原則等等，然後根據自己業務，哪些查詢經常用到，哪些不會用到，想要用hbase實現那種非常靈活的類似關系資料庫的查詢是不理智的。
3、樓上的兄弟說得對，還有region熱點的問題，如果你的hbase數據不是那種每天增量的數據，建議跑個maprece對你的數據進行各評判，看看如何能將數據盡可能均勻的分配到每個region中，當然這需要預先分配region
4、幾百億條數據，如果對rowkey進行模糊過濾一定非常非常之慢，所以可以考慮二級索引或者協處理器

10. hbase 如何存儲數據

HBASE中的表示按column family來存儲的

建立一個有3個column family的表

create 't1', {NAME => 'f1', VERSIONS => 1}, {NAME => 'f2', VERSIONS => 1}, {NAME => 'f3', VERSIONS => 1}
定義表的時候只需要指定column family的名字，列名在put的時候動態指定
插入數據
下面插入沒有指定column的名字
put 't1', 'r1', 'f1', 'v1'
put 't1', 'r2', 'f2', 'v2'
put 't1', 'r3', 'f3', 'v3'

下面插入指定column的名字
put 't1', 'r4', 'f1:c1', 'v1'
put 't1', 'r5', 'f2:c2', 'v2'
put 't1', 'r6', 'f3:c3', 'v3'

hbase(main):245:0> scan 't1'
ROW COLUMN+CELL
r1 column=f1:, timestamp=1335407967324, value=v1
r2 column=f2:, timestamp=1335408004559, value=v2
r4 column=f1:c1, timestamp=1335408640777, value=v1
r5 column=f2:c1, timestamp=1335408640822, value=v2
r6 column=f1:c6, timestamp=1335412392258, value=v3
r6 column=f2:c1, timestamp=1335412384739, value=v3
r6 column=f2:c2, timestamp=1335412374797, value=v3

插入多列的數據
put 't1', 'r7', 'f1:c4', 'v9'
put 't1', 'r7', 'f2:c3', 'v9'
put 't1', 'r7', 'f3:c2', 'v9'

手工把memstore寫到Hfile中

flush 't1'

刪除所有CF3的數據
deleteall 't1','r7'

flush 't1'

每次flash都會建一個新的hfile

$ ../bin/hadoop dfs -lsr /hbase/t1

數據時直接存到CF目錄下的，每個CF目錄下有3到4個Hfile

f1
f1/
f1/321c683f48dd91e058179486587e
f1/
f2
f2/
f2/
f2/
f3
f3/
f3/
f3/
f3/

f3都數據雖然都被刪除了，由於沒有合並文件都存在

手工合並hfile

hbase(main):244:0> compact 't1'
0 row(s) in 0.0550 seconds

$ ../bin/hadoop dfs -lsr /hbase/t1
f1
f1/
f2
f2/

/f3

f1和f2下就只有一個hfile,f3下面沒有hfile因為數據都被刪除了

一次只能put一個column
一次只能delete一個column
刪除整行，用deleteall
deleteall 't1', 'r1'
了解更多開源相關，去LUPA社區看看吧。

hbase存儲

與hbase存儲相關的內容