1. hbase 存儲為什麼快
從根本上講,
hbase是列式資料庫,不是以行為連續存儲的,二是以列為連續存儲的。因此對列可以將從磁碟上連續地讀取所有記錄的某一列。充分發揮IO吞吐能力,讀取自然會很快;
hbase是基於HDFS存儲數據塊的,可以將操作分散到多個節點並行地執行;
2. 解讀Hadoop Hbase適合存儲哪類數據
最適合使用Hbase存儲的數據是非常稀疏的數據(非結構化或者半結構化的數據)。Hbase之所以擅長存儲這類數據,是因為Hbase是column-oriented列導向的存儲機制,而我們熟知的RDBMS都是row- oriented行導向的存儲機制(郁悶的是我看過N本關於關系資料庫的介紹從來沒有提到過row- oriented行導向存儲這個概念)。在列導向的存儲機制下對於Null值得存儲是不佔用任何空間的。比如,如果某個表 UserTable有10列,但在存儲時只有一列有數據,那麼其他空值的9列是不佔用存儲空間的(普通的資料庫MySql是如何佔用存儲空間的呢?)。 Hbase適合存儲非結構化的稀疏數據的另一原因是他對列集合 column families 處理機制。 打個比方,ruby和python這樣的動態語言和c++、java類的編譯語言有什麼不同? 對於我來說,最顯然的不同就是你不需要為變數預先指定一個類型。Ok ,現在Hbase為未來的DBA也帶來了這個激動人心的特性,你只需要告訴你的數據存儲到Hbase的那個column families 就可以了,不需要指定它的具體類型:char,varchar,int,tinyint,text等等。 Hbase還有很多特性,比如不支持join查詢,但你存儲時可以用:parent-child tuple 的方式來變相解決。 由於它是Google BigTable的 Java 實現,你可以參考一下:google bigtable 。
解讀Hadoop Hbase適合存儲哪類數據,參考:http://e.51cto.com/course/course_id-3819.html
3. java api操作hbase存儲數據為16進制如何設置存儲為正常數值
一般情況下,我們使用Linux的shell命令,就可以非常輕松的操作Hbase,例如一些建表,建列簇,插值,顯示所有表,統計數量等等,但有時為了提高靈活性,我們也需要使用編程語言來操作Hbase,當然Hbase通過Thrift介面提供了對大多數主流編程語言的支持,例如C++,PHP,Python,Ruby等等,那麼本篇,散仙給出的例子是基於Java原生的API操作Hbase,相比其他的一些編程語言,使用Java操作Hbase,會更加高效一些,因為Hbase本身就是使用Java語言編寫的。轉載
下面,散仙給出源碼,以供參考:
package com.hbase;
import java.util.ArrayList;
import java.util.List;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.HColumnDescriptor;
import org.apache.hadoop.hbase.HTableDescriptor;
import org.apache.hadoop.hbase.KeyValue;
import org.apache.hadoop.hbase.client.Delete;
import org.apache.hadoop.hbase.client.Get;
import org.apache.hadoop.hbase.client.HBaseAdmin;
import org.apache.hadoop.hbase.client.HTable;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.client.Result;
import org.apache.hadoop.hbase.client.ResultScanner;
import org.apache.hadoop.hbase.client.Scan;
import org.apache.hadoop.hbase.util.Bytes;
/**
* @author 三劫散仙
*
* **/
public class Test {
static Configuration conf=null;
static{
conf=HBaseConfiguration.create();//hbase的配置信息
conf.set("hbase.zookeeper.quorum", "10.2.143.5"); //zookeeper的地址
}
public static void main(String[] args)throws Exception {
Test t=new Test();
//t.createTable("temp", new String[]{"name","age"});
//t.insertRow("temp", "2", "age", "myage", "100");
// t.getOneDataByRowKey("temp", "2");
t.showAll("temp");
}
/***
* 創建一張表
* 並指定列簇
* */
public void createTable(String tableName,String cols[])throws Exception{
HBaseAdmin admin=new HBaseAdmin(conf);//客戶端管理工具類
if(admin.tableExists(tableName)){
System.out.println("此表已經存在.......");
}else{
HTableDescriptor table=new HTableDescriptor(tableName);
for(String c:cols){
HColumnDescriptor col=new HColumnDescriptor(c);//列簇名
table.addFamily(col);//添加到此表中
}
admin.createTable(table);//創建一個表
admin.close();
System.out.println("創建表成功!");
}
}
/**
* 添加數據,
* 建議使用批量添加
* @param tableName 表名
* @param row 行號
* @param columnFamily 列簇
* @param column 列
* @param value 具體的值
*
* **/
public void insertRow(String tableName, String row,
String columnFamily, String column, String value) throws Exception {
HTable table = new HTable(conf, tableName);
Put put = new Put(Bytes.toBytes(row));
// 參數出分別:列族、列、值
put.add(Bytes.toBytes(columnFamily), Bytes.toBytes(column),
Bytes.toBytes(value));
table.put(put);
table.close();//關閉
System.out.println("插入一條數據成功!");
}
/**
* 刪除一條數據
* @param tableName 表名
* @param row rowkey
* **/
public void deleteByRow(String tableName,String rowkey)throws Exception{
HTable h=new HTable(conf, tableName);
Delete d=new Delete(Bytes.toBytes(rowkey));
h.delete(d);//刪除一條數據
h.close();
}
/**
* 刪除多條數據
* @param tableName 表名
* @param row rowkey
* **/
public void deleteByRow(String tableName,String rowkey[])throws Exception{
HTable h=new HTable(conf, tableName);
List<Delete> list=new ArrayList<Delete>();
for(String k:rowkey){
Delete d=new Delete(Bytes.toBytes(k));
list.add(d);
}
h.delete(list);//刪除
h.close();//釋放資源
}
/**
* 得到一條數據
*
* @param tableName 表名
* @param rowkey 行號
* ***/
public void getOneDataByRowKey(String tableName,String rowkey)throws Exception{
HTable h=new HTable(conf, tableName);
Get g=new Get(Bytes.toBytes(rowkey));
Result r=h.get(g);
for(KeyValue k:r.raw()){
System.out.println("行號: "+Bytes.toStringBinary(k.getRow()));
System.out.println("時間戳: "+k.getTimestamp());
System.out.println("列簇: "+Bytes.toStringBinary(k.getFamily()));
System.out.println("列: "+Bytes.toStringBinary(k.getQualifier()));
//if(Bytes.toStringBinary(k.getQualifier()).equals("myage")){
// System.out.println("值: "+Bytes.toInt(k.getValue()));
//}else{
String ss= Bytes.toString(k.getValue());
System.out.println("值: "+ss);
//}
}
h.close();
}
/**
* 掃描所有數據或特定數據
* @param tableName
* **/
public void showAll(String tableName)throws Exception{
HTable h=new HTable(conf, tableName);
Scan scan=new Scan();
//掃描特定區間
//Scan scan=new Scan(Bytes.toBytes("開始行號"),Bytes.toBytes("結束行號"));
ResultScanner scanner=h.getScanner(scan);
for(Result r:scanner){
System.out.println("==================================");
for(KeyValue k:r.raw()){
System.out.println("行號: "+Bytes.toStringBinary(k.getRow()));
System.out.println("時間戳: "+k.getTimestamp());
System.out.println("列簇: "+Bytes.toStringBinary(k.getFamily()));
System.out.println("列: "+Bytes.toStringBinary(k.getQualifier()));
//if(Bytes.toStringBinary(k.getQualifier()).equals("myage")){
// System.out.println("值: "+Bytes.toInt(k.getValue()));
//}else{
String ss= Bytes.toString(k.getValue());
System.out.println("值: "+ss);
//}
}
}
h.close();
}
}
4. 傳統的行存儲和(HBase)列存儲的區別
列存儲不同於傳統的關系型資料庫,其數據在表中是按行存儲的,列方式所帶來的重要好處之一就是,由於查詢中的選擇規則是通過列來定義的,因此整個資料庫是自動索引化的。按列存儲每個欄位的數據聚集存儲,在查詢只需要少數幾個欄位的時候,能大大減少讀取的數據量,一個欄位的數據聚集存儲,那就更容易為這種聚集存儲設計更好的壓縮/解壓演算法。
傳統的(Oracle)行存儲和(Hbase)列存儲的區別
這里寫圖片描a
1、數據是按行存儲的
2、沒有索引的查詢使用大量I/O
3、建立索引和物化視圖需要花費大量時間和資源
4、面對查詢的需求,資料庫必須被大量膨脹才能滿足性能需求
這里寫圖片描述
1、數據按列存儲–每一列單獨存放
2、數據即是索引
3、只訪問查詢涉及的列–大量降低系統IO
4、每一列由一個線索來處理–查詢的並發處理
5、數據類型一致,數據特徵相似–高效壓縮
5. hbase可以存儲 圖片嗎如果可以怎麼存儲
hbase是分布式資料庫,什麼數據都能存。
hbase是沒有類型的,全是二進制位元組。
你去看看 habse的 client API
6. 儲存框架HBase是啥
分布式資料庫系統
7. HBase數據到底是怎麼存儲的
每個列簇對應HDFS中的一個單獨文件,hbase不是按行存儲,你想一行有多列族的情況下,就會把數據存在多個文件下,按行存儲的意思,是會把行數據存在一個文件中,所以hbase是按列存儲的。
應該說hbase和傳統關系型資料庫還是有些相似的地方,起碼在hfile中hbase列族下一行的列是相鄰存儲的,這點跟傳統關系型資料庫應該是類似的。
8. hbase依靠什麼存儲底層數據
行導向的存儲機制
9. 如果有幾百億條數據,如何在hbase表中存放
1、首先你有沒有那麼多台伺服器的集群,如果只是幾台,你要想夠不夠,你的hbase 有幾百億,那麼你hdfs上的數據可能要有兩個備份,你這幾百億條是如何生成的,肯定是maprece跑出來導入到hbase中把,那麼原始數據你要不要留,如果留,加上備份就要三份,所以節點的多少要確定。
2、幾百億其實挺多的,hbase 的設計一定要跟你的業務相關,hbase他不能完全像關系型資料庫那樣去隨意查詢,到達一定量級,如果設計的不好也是非常之慢的,甚至將hbase搞到崩潰。所以你先去網上看看rowkey的設計原則,比如長度原則等等,然後根據自己業務,哪些查詢經常用到,哪些不會用到,想要用hbase實現那種非常靈活的類似關系資料庫的查詢是不理智的。
3、樓上的兄弟說得對,還有region熱點的問題,如果你的hbase數據不是那種每天增量的數據,建議跑個maprece對你的數據進行各評判,看看如何能將數據盡可能均勻的分配到每個region中,當然這需要預先分配region
4、幾百億條數據,如果對rowkey進行模糊過濾一定非常非常之慢,所以可以考慮二級索引或者協處理器
10. hbase 如何存儲數據
HBASE中的表示按column family來存儲的
建立一個有3個column family的表
create 't1', {NAME => 'f1', VERSIONS => 1}, {NAME => 'f2', VERSIONS => 1}, {NAME => 'f3', VERSIONS => 1}
定義表的時候只需要指定column family的名字,列名在put的時候動態指定
插入數據
下面插入沒有指定column的名字
put 't1', 'r1', 'f1', 'v1'
put 't1', 'r2', 'f2', 'v2'
put 't1', 'r3', 'f3', 'v3'
下面插入指定column的名字
put 't1', 'r4', 'f1:c1', 'v1'
put 't1', 'r5', 'f2:c2', 'v2'
put 't1', 'r6', 'f3:c3', 'v3'
hbase(main):245:0> scan 't1'
ROW COLUMN+CELL
r1 column=f1:, timestamp=1335407967324, value=v1
r2 column=f2:, timestamp=1335408004559, value=v2
r4 column=f1:c1, timestamp=1335408640777, value=v1
r5 column=f2:c1, timestamp=1335408640822, value=v2
r6 column=f1:c6, timestamp=1335412392258, value=v3
r6 column=f2:c1, timestamp=1335412384739, value=v3
r6 column=f2:c2, timestamp=1335412374797, value=v3
插入多列的數據
put 't1', 'r7', 'f1:c4', 'v9'
put 't1', 'r7', 'f2:c3', 'v9'
put 't1', 'r7', 'f3:c2', 'v9'
手工把memstore寫到Hfile中
flush 't1'
刪除所有CF3的數據
deleteall 't1','r7'
flush 't1'
每次flash都會建一個新的hfile
$ ../bin/hadoop dfs -lsr /hbase/t1
數據時直接存到CF目錄下的,每個CF目錄下有3到4個Hfile
f1
f1/
f1/321c683f48dd91e058179486587e
f1/
f2
f2/
f2/
f2/
f3
f3/
f3/
f3/
f3/
f3都數據雖然都被刪除了,由於沒有合並文件都存在
手工合並hfile
hbase(main):244:0> compact 't1'
0 row(s) in 0.0550 seconds
$ ../bin/hadoop dfs -lsr /hbase/t1
f1
f1/
f2
f2/
/f3
f1和f2下就只有一個hfile,f3下面沒有hfile因為數據都被刪除了
一次只能put一個column
一次只能delete一個column
刪除整行,用deleteall
deleteall 't1', 'r1'
了解更多開源相關,去LUPA社區看看吧。