當前位置:首頁 » 硬碟大全 » 超圖場景緩存數據量變大
擴展閱讀
webinf下怎麼引入js 2023-08-31 21:54:13
堡壘機怎麼打開web 2023-08-31 21:54:11

超圖場景緩存數據量變大

發布時間: 2023-08-27 16:11:26

資料庫緩存機制是什麼緩存是如何作用資料庫

緩存的介質一般是內存,所以讀寫速度很快。但如果緩存中存放的數據量非常大時,也會用硬碟作為緩存介質。緩存的實現不僅僅要考慮存儲的介質,還要考慮到管理緩存的並發訪問和緩存數據的生命周期。

② mysql資料庫中,數據量很大的表,有什麼優化方案么

個人的觀點,這種大表的優化,不一定上來就要分庫分表,因為表一旦被拆分,開發、運維的復雜度會直線上升,而大多數公司是欠缺這種能力的。所以MySQL中幾百萬甚至小幾千萬的表,先考慮做單表的優化。

單表優化

單表優化可以從這幾個角度出發:

表分區:MySQL在5.1之後才有的,可以看做是水平拆分,分區表需要在建表的需要加上分區參數,用戶需要在建表的時候加上分區參數;分區表底層由多個物理子表組成,但是對於代碼來說,分區表是透明的;SQL中的條件中最好能帶上分區條件的列,這樣可以定位到少量的分區上,否則就會掃描全部分區。

讀寫分離:最常用的櫻桐優化手段,寫主庫讀從庫;

增加緩存:主要的思想就是減少對資料庫的訪問,緩存可以在整個架構中的很多地方,比如:資料庫本身有就緩存,客戶端緩存,資料庫訪問層對SQL語句的緩存,應用程序內的緩存,第三方緩存(如Redis等);

欄位設計:單表不要有太多欄位;VARCHAR的長度盡量只分配真正需要的空間;盡量使用TIMESTAMP而非DATETIME;避免使用NULL,可以通過設置默認值解決。

索引優化:索引不是越多越好,針對性地建立索引,索引會加速查詢,但是對新增、修改、刪除會造成一定的影響;值域很少的欄位不適合建索引;盡量不用UNIQUE,不要設置外鍵,由程序保證;

SQL優化:盡量使用索引,也要保證不要因為錯誤的寫法導致索引失效;比如:避免前導模糊查詢,避免隱式轉換,避免等號左邊做函數運算,in中的元素不宜過多等等;

NoSQL:有一些場景,可以拋棄MySQL等關系型資料庫,擁抱NoSQL;比如:統計類、日誌類、弱結構化的數據;事務要求低的場景。

表拆分

數據量進一步增大的時候,就不得不考慮表拆分的問題了:

垂直拆分:垂直拆分的意思就是把一個欄位較多的表,拆分成多個欄位較少的表;上文中也說過單表的欄位不宜過多,如果初期的表結構設計的就很好,就不會有垂直拆分的問題了;一般來說,MySQL單表的欄位最好不要超過二三十個。

水平拆分:就是我們常說的分庫分表了;分表,解決了單表數據過大的問題,但是畢竟還在同一台資料庫伺服器上,所以明頌裂IO、CPU、網路方面的壓力,並不會得到徹底的緩解,這個可以通過分庫來解決。水平拆分優點很明顯,可以利用多台資料庫伺服器的資源,提高了系統的負載能力;缺點是邏輯會變得復雜,跨節點的數據關聯性能差,維護難度大(特別是擴容的時候)。

希望我的回答,能夠幫助到你!我將持續分享Java開發、架構激閉設計、程序員職業發展等方面的見解。

③ 資料庫訪問量很大時,如何做優化

你好!如果有大量的訪問用到調取到資料庫時,往往查詢速度會變得很慢,所以我們需襪裂要進行優化處理。

優化從三個方面考慮:

SQL語句優化、

主從復制,讀寫分離,負載均衡、

資料庫分庫分表。

一、SQL查詢語句優化

1、使用索引

建立索引可以使查詢速度得到提升,我們首先應該考慮在where及orderby,groupby涉及的列上建立索引。

2、藉助explain(查詢優化神器)選擇更好的索引和優化查詢語句

SQL的Explain通過圖形化或基於文本的方式詳細說明了SQL語句的每個部分是如何執行以及何時執行的,以及執行效果。通過對選擇更好的索引列,或者對耗時久的SQL語句進行優化達到對查詢速度的優化。

3、任何地方都不要使用SELECT*FROM語句。

4、不要在索引列做運算或者使用函數

5、查詢盡可能使用limit來減少返回的行數

6、使用查詢緩存,並將盡量多的內存分配給MYSQL做緩存

二、悶談主從復制,讀寫分離,負載均衡

目前大多數的主流關系型資料庫都提供了主從復制的功能,通過配置兩台(或多台)資料庫的主從關系,可以將一台資料庫伺服器的數據更新同步到另一台伺服器上。網站可以利用資料庫這一功能,實現資料庫的讀寫分離,從而改善資料庫的負載壓力。一個系統的讀操作遠遠多於寫操作,因此寫操作發向master,讀操作發向slaves進行操作(簡單的輪詢演算法來決定使用哪個slave)。

利用資料庫的讀寫分離,Web伺服器在寫數據的時候,訪問主資料庫(master),主資料庫通過主從復制將數據更新同步到從資料庫(slave),這樣當Web伺服器讀數據的時候,就可以通過從資料庫獲得數據。這一方案使得在大量讀操作的Web應用可以輕松地讀取數據,而主資料庫也只會承受少量的寫入操作,還可以實現數據熱備份,可謂是一舉兩得。

三、資料庫分表、分區、分庫

1、分表

通過分表可以提高表的訪問效率。有兩種拆分方法:

垂直拆分

在主鍵和一些列放在一個表中,然後把主鍵和另外的列放在另一個表中。如果一個表中某些列常用,而另外一些不常用,則可以採用垂直拆分。

水平拆分

根據一列或者多列數據的值把數據行放到兩個獨立的表中。

2、分區

分區就是把一張表的數據分成多個區塊,這些區塊可以在一個磁碟上,也可以在不同的磁碟上,分區後,表面上還是一張表,但是數據散列在多個位置,這樣一來,多塊硬碟同時處理不同的請求,從而提高磁碟I/O讀寫性能。實現比較簡單,包括水平分區和垂直分區。

3、分庫

分庫是根據業務不同把相關的表切分到不同的資料庫中,比如web、bbs、blog等庫。

分庫解決的是資料庫端並發量的問題。分庫和分表並不一定兩個都要上,比如數據量很大,但是訪問的用戶很少,我們就可以只使用分表不使用分庫。如果數據量只有1萬,而訪問用戶有一千,那就只使用分庫。

注意:分庫分表最難解決的問題是統計,還有跨表的連接(比如螞好碰這個表的訂單在另外一張表),解決這個的方法就是使用中間件,比如大名鼎鼎的MyCat,用它來做路由,管理整個分庫分表,乃至跨庫跨表的連接

④ 大蝦請進:oracle資料庫超大數據量的處理

通過使用一些輔助性工具來找到程序中的瓶頸,然後就可以對瓶頸部分的代碼進行優化。一般有兩種方案:即優化代碼或更改設計方法。我們一般會選擇後者,因為不去調用以下代碼要比調用一些優化的代碼更能提高程序的性能。而一個設計良好的程序能夠精簡代碼,從而提高性能。
下面將提供一些在JAVA程序的設計和編碼中,為了能夠提高JAVA程序的性能,而經常採用的一些方法和技巧。
1.對象的生成和大小的調整。

JAVA程序設計中一個普遍的問題就是沒有好好的利用JAVA語言本身提供的函數,從而常常會生成大量的對象(或實例)。由於系統不僅要花時間生成對象,以後可能還需花時間對這些對象進行垃圾回收和處理。因此,生成過多的對象將會給程序的性能帶來很大的影響。
例1:關於String ,StringBuffer,+和append
JAVA語言提供了對於String類型變數的操作。但如果使用不當,會給程序的性能帶來影響。如下面的語句:
String name=new String("HuangWeiFeng");
System.out.println(name+"is my name");
看似已經很精簡了,其實並非如此。為了生成二進制的代碼,要進行如下的步驟和操作:
(1) 生成新的字元串 new String(STR_1);
(2) 復制該字元串;
(3) 載入字元串常量"HuangWeiFeng"(STR_2);
(4) 調用字元串的構架器(Constructor);
(5) 保存該字元串到數組中(從位置0開始);
(6) 從java.io.PrintStream類中得到靜態的out變數;
(7) 生成新的字元串緩沖變數new StringBuffer(STR_BUF_1);
(8) 復制該字元串緩沖變數;
(9) 調用字元串緩沖的構架器(Constructor);
(10) 保存該字元串緩沖到數組中(從位置1開始);
(11) 以STR_1為參數,調用字元串緩沖(StringBuffer)類中的append方法;
(12) 載入字元串常量"is my name"(STR_3);
(13) 以STR_3為參數,調用字元串緩沖(StringBuffer)類中的append方法;
(14) 對於STR_BUF_1執行toString命令;
(15) 調用out變數中的println方法,輸出結果。
由此可以看出,這兩行簡單的代碼,就生成了STR_1,STR_2,STR_3,STR_4和困碧STR_BUF_1五個對象變數。這些生成的類的實例一般都存放在堆中。堆要對所有類的超類,類的實例進行初始化,同時還要調用類極其每個超類的構架器。而這些操作都是非常消耗系統資源的。因此,對對象的生成進行限制,是完全有必要的。
經修改,上面的代碼可以用如下的代碼來替換。
StringBuffer name=new StringBuffer("HuangWeiFeng");
System.out.println(name.append("is my name.").toString());
系統將進行如下的操作:
(1) 生成跡尺汪新的字元串緩沖變數new StringBuffer(STR_BUF_1);
(2) 復制該字元串緩沖變數;
(3) 載入字元串常量"HuangWeiFeng"(STR_1);
(4) 調用字元串緩沖的構架器(Constructor);
(5) 保存該字元串緩沖到數組中(從位置1開始);
(6) 從java.io.PrintStream類中得到靜態的out變數;
(7) 載入STR_BUF_1;
(8) 載入字元串常量"is my name"(STR_2);
(9) 以STR_2為參數,調用字元串緩沖(StringBuffer)實例中的append方法;
(10) 對於STR_BUF_1執行toString命令(STR_3);
(11)調用out變數中的println方法,輸出結果。
由此可以看出,經過改進後的代碼只生成了四個對象變數:STR_1,STR_2,STR_3和STR_BUF_1.你可能覺得少生成一個對象不會對程序的性能有很大的提高。但下面的代碼段2的執行速度將是代碼段1的2倍。因為代碼段1生成了八個對象,而代碼段2隻生成姿仔了四個對象。
代碼段1:
String name= new StringBuffer("HuangWeiFeng");
name+="is my";
name+="name";
代碼段2:
StringBuffer name=new StringBuffer("HuangWeiFeng");
name.append("is my");
name.append("name.").toString();
因此,充分的利用JAVA提供的庫函數來優化程序,對提高JAVA程序的性能時非常重要的.其注意點主要有如下幾方面;
(1) 盡可能的使用靜態變數(Static Class Variables)
如果類中的變數不會隨他的實例而變化,就可以定義為靜態變數,從而使他所有的實例都共享這個變數。
例:
public class foo
{
SomeObject so=new SomeObject();
}
就可以定義為:
public class foo
{
static SomeObject so=new SomeObject();
}
(2) 不要對已生成的對象作過多的改變。
對於一些類(如:String類)來講,寧願在重新生成一個新的對象實例,而不應該修改已經生成的對象實例。
例:
String name="Huang";
name="Wei";
name="Feng";
上述代碼生成了三個String類型的對象實例。而前兩個馬上就需要系統進行垃圾回收處理。如果要對字元串進行連接的操作,性能將得更差,因為系統將不得為此生成更多得臨時變數,如上例1所示。
(3) 生成對象時,要分配給它合理的空間和大小JAVA中的很多類都有它的默認的空間分配大小。對於StringBuffer類來講,默認的分配空間大小是16個字元。如果在程序中使用StringBuffer的空間大小不是16個字元,那麼就必須進行正確的初始化。
(4) 避免生成不太使用或生命周期短的對象或變數。對於這種情況,因該定義一個對象緩沖池。以為管理一個對象緩沖池的開銷要比頻繁的生成和回收對象的開銷小的多。
(5) 只在對象作用范圍內進行初始化。JAVA允許在代碼的任何地方定義和初始化對象。這樣,就可以只在對象作用的范圍內進行初始化。從而節約系統的開銷。
例:
SomeObject so=new SomeObject();
If(x==1) then
{
Foo=so.getXX();
}
可以修改為:
if(x==1) then
{
SomeObject so=new SomeObject();
Foo=so.getXX();
}
2.異常(Exceptions)
JAVA語言中提供了try/catch來發方便用戶捕捉異常,進行異常的處理。但是如果使用不當,也會給JAVA程序的性能帶來影響。因此,要注意以下兩點:
(1) 避免對應用程序的邏輯使用try/catch
如果可以用if,while等邏輯語句來處理,那麼就盡可能的不用try/catch語句。
(2) 重用異常
在必須要進行異常的處理時,要盡可能的重用已經存在的異常對象。以為在異常的處理中,生成一個異常對象要消耗掉大部分的時間。
3. 線程(Threading)
一個高性能的應用程序中一般都會用到線程。因為線程能充分利用系統的資源。在其他線程因為等待硬碟或網路讀寫而 時,程序能繼續處理和運行。但是對線程運用不當,也會影響程序的性能。
例2:正確使用Vector類
Vector主要用來保存各種類型的對象(包括相同類型和不同類型的對象)。但是在一些情況下使用會給程序帶來性能上的影響。這主要是由Vector類的兩個特點所決定的。第一,Vector提供了線程的安全保護功能。即使Vector類中的許多方法同步。但是如果你已經確認你的應用程序是單線程,這些方法的同步就完全不必要了。第二,在Vector查找存儲的各種對象時,常常要花很多的時間進行類型的匹配。而當這些對象都是同一類型時,這些匹配就完全不必要了。因此,有必要設計一個單線程的,保存特定類型對象的類或集合來替代Vector類.用來替換的程序如下(StringVector.java):
public class StringVector
{
private String [] data;
private int count;
public StringVector()
{
this(10); // default size is 10
}
public StringVector(int initialSize)
{
data = new String[initialSize];
}
public void add(String str)
{
// ignore null strings
if(str == null) { return; }
ensureCapacity(count + 1);
data[count++] = str;
}
private void ensureCapacity(int minCapacity)
{
int oldCapacity = data.length;
if (minCapacity > oldCapacity)
{
String oldData[] = data;
int newCapacity = oldCapacity * 2;
data = new String[newCapacity];
System.array(oldData, 0, data, 0, count);
}
}
public void remove(String str)
{
if(str == null) { return; // ignore null str }
for(int i = 0; i < count; i++)
{
// check for a match
if(data[i].equals(str))
{
System.array(data,i+1,data,i,count-1); // data
// allow previously valid array element be gc'd
data[--count] = null;
return;
}
}
}
public final String getStringAt(int index)
{
if(index < 0) { return null; }
else if(index > count) { return null; // index is > # strings }
else { return data[index]; // index is good }
}
}
因此,代碼:
Vector Strings=new Vector();
Strings.add("One");
Strings.add("Two");
String Second=(String)Strings.elementAt(1);
可以用如下的代碼替換:
StringVector Strings=new StringVector();
Strings.add("One");
Strings.add("Two");
String Second=Strings.getStringAt(1);
這樣就可以通過優化線程來提高JAVA程序的性能。用於測試的程序如下(TestCollection.java):
import java.util.Vector;
public class TestCollection
{
public static void main(String args [])
{
TestCollection collect = new TestCollection();
if(args.length == 0)
{
System.out.println("Usage: java TestCollection [ vector | stringvector ]");
System.exit(1);
}
if(args[0].equals("vector"))
{
Vector store = new Vector();
long start = System.currentTimeMillis();
for(int i = 0; i < 1000000; i++)
{
store.addElement("string");
}
long finish = System.currentTimeMillis();
System.out.println((finish-start));
start = System.currentTimeMillis();
for(int i = 0; i < 1000000; i++)
{
String result = (String)store.elementAt(i);
}
finish = System.currentTimeMillis();
System.out.println((finish-start));
}
else if(args[0].equals("stringvector"))
{
StringVector store = new StringVector();
long start = System.currentTimeMillis();
for(int i = 0; i < 1000000; i++) { store.add("string"); }
long finish = System.currentTimeMillis();
System.out.println((finish-start));
start = System.currentTimeMillis();
for(int i = 0; i < 1000000; i++) {
String result = store.getStringAt(i);
}
finish = System.currentTimeMillis();
System.out.println((finish-start));
}
}
}
關於線程的操作,要注意如下幾個方面:
(1) 防止過多的同步
如上所示,不必要的同步常常會造成程序性能的下降。因此,如果程序是單線程,則一定不要使用同步。
(2) 同步方法而不要同步整個代碼段
對某個方法或函數進行同步比對整個代碼段進行同步的性能要好。
(3) 對每個對象使用多」鎖」的機制來增大並發。
一般每個對象都只有一個」鎖」,這就表明如果兩個線程執行一個對象的兩個不同的同步方法時,會發生」死鎖」。即使這兩個方法並不共享任何資源。為了避免這個問題,可以對一個對象實行」多鎖」的機制。如下所示:
class foo
{
private static int var1;
private static Object lock1=new Object();
private static int var2;
private static Object lock2=new Object();
public static void increment1()
{
synchronized(lock1)
{
var1++;
}
}
public static void increment2()
{
synchronized(lock2)
{
var2++;
}
}
}
4.輸入和輸出(I/O)

輸入和輸出包括很多方面,但涉及最多的是對硬碟,網路或資料庫的讀寫操作。對於讀寫操作,又分為有緩存和沒有緩存的;對於資料庫的操作,又可以有多種類型的JDBC驅動器可以選擇。但無論怎樣,都會給程序的性能帶來影響。因此,需要注意如下幾點:
(1) 使用輸入輸出緩沖
盡可能的多使用緩存。但如果要經常對緩存進行刷新(flush),則建議不要使用緩存。
(2) 輸出流(Output Stream)和Unicode字元串
當時用Output Stream和Unicode字元串時,Write類的開銷比較大。因為它要實現Unicode到位元組(byte)的轉換.因此,如果可能的話,在使用Write類之前就實現轉換或用OutputStream類代替Writer類來使用。
(3) 當需序列化時使用transient
當序列化一個類或對象時,對於那些原子類型(atomic)或可以重建的原素要表識為transient類型。這樣就不用每一次都進行序列化。如果這些序列化的對象要在網路上傳輸,這一小小的改變對性能會有很大的提高。
(4) 使用高速緩存(Cache)
對於那些經常要使用而又不大變化的對象或數據,可以把它存儲在高速緩存中。這樣就可以提高訪問的速度。這一點對於從資料庫中返回的結果集尤其重要。
(5) 使用速度快的JDBC驅動器(Driver)
JAVA對訪問資料庫提供了四種方法。這其中有兩種是JDBC驅動器。一種是用JAVA外包的本地驅動器;另一種是完全的JAVA驅動器。具體要使用哪一種得根據JAVA布署的環境和應用程序本身來定。
5.一些其他的經驗和技巧

(1) 使用局部變數。
(2) 避免在同一個類中動過調用函數或方法(get或set)來設置或調用變數。
(3) 避免在循環中生成同一個變數或調用同一個函數(參數變數也一樣)。
(4) 盡可能的使用static,final,private等關鍵字。
(5) 當復制大量數據時,使用System.array()命令。

⑤ 如何處理海量數據

在實際的工作環境下,許多人會遇到海量數據這個復雜而艱巨的問題,它的主要難點有以下幾個方面:
一、數據量過大,數據中什麼情況都可能存在。
如果說有10條數據,那麼大不了每條去逐一檢查,人為處理,如果有上百條數據,也可以考慮,如果數據上到千萬級別,甚至 過億,那不是手工能解決的了,必須通過工具或者程序進行處理,尤其海量的數據中,什麼情況都可能存在,例如,數據中某處格式出了問題,尤其在程序處理時, 前面還能正常處理,突然到了某個地方問題出現了,程序終止了。
二、軟硬體要求高,系統資源佔用率高。
對海量的數據進行處理,除了好的方法,最重要的就是合理使用工具,合理分配系統資源。一般情況,如果處理的數據過TB級,小型機是要考慮的,普通的機子如果有好的方法可以考慮,不過也必須加大CPU和內存,就象面對著千軍萬馬,光有勇氣沒有一兵一卒是很難取勝的。
三、要求很高的處理方法和技巧。
這也是本文的寫作目的所在,好的處理方法是一位工程師長期工作經驗的積累,也是個人的經驗的總結。沒有通用的處理方法,但有通用的原理和規則。
下面我們來詳細介紹一下處理海量數據的經驗和技巧:
一、選用優秀的資料庫工具
現在的資料庫工具廠家比較多,對海量數據的處理對所使用的資料庫工具要求比較高,一般使用Oracle或者DB2,微軟 公司最近發布的SQL Server 2005性能也不錯。另外在BI領域:資料庫,數據倉庫,多維資料庫,數據挖掘等相關工具也要進行選擇,象好的ETL工具和好的OLAP工具都十分必要, 例如Informatic,Eassbase等。筆者在實際數據分析項目中,對每天6000萬條的日誌數據進行處理,使用SQL Server 2000需要花費6小時,而使用SQL Server 2005則只需要花費3小時。
二、編寫優良的程序代碼
處理數據離不開優秀的程序代碼,尤其在進行復雜數據處理時,必須使用程序。好的程序代碼對數據的處理至關重要,這不僅僅是數據處理准確度的問題,更是數據處理效率的問題。良好的程序代碼應該包含好的演算法,包含好的處理流程,包含好的效率,包含好的異常處理機制等。
三、對海量數據進行分區操作
對海量數據進行分區操作十分必要,例如針對按年份存取的數據,我們可以按年進行分區,不同的資料庫有不同的分區方式,不 過處理機制大體相同。例如SQL Server的資料庫分區是將不同的數據存於不同的文件組下,而不同的文件組存於不同的磁碟分區下,這樣將數據分散開,減小磁碟I/O,減小了系統負荷, 而且還可以將日誌,索引等放於不同的分區下。
四、建立廣泛的索引
對海量的數據處理,對大表建立索引是必行的,建立索引要考慮到具體情況,例如針對大表的分組、排序等欄位,都要建立相應 索引,一般還可以建立復合索引,對經常插入的表則建立索引時要小心,筆者在處理數據時,曾經在一個ETL流程中,當插入表時,首先刪除索引,然後插入完 畢,建立索引,並實施聚合操作,聚合完成後,再次插入前還是刪除索引,所以索引要用到好的時機,索引的填充因子和聚集、非聚集索引都要考慮。
五、建立緩存機制
當數據量增加時,一般的處理工具都要考慮到緩存問題。緩存大小設置的好差也關繫到數據處理的成敗,例如,筆者在處理2億條數據聚合操作時,緩存設置為100000條/Buffer,這對於這個級別的數據量是可行的。
六、加大虛擬內存
如果系統資源有限,內存提示不足,則可以靠增加虛擬內存來解決。筆者在實際項目中曾經遇到針對18億條的數據進行處理, 內存為1GB,1個P42.4G的CPU,對這么大的數據量進行聚合操作是有問題的,提示內存不足,那麼採用了加大虛擬內存的方法來解決,在6塊磁碟分區 上分別建立了6個4096M的磁碟分區,用於虛擬內存,這樣虛擬的內存則增加為 4096*6 + 1024 =25600 M,解決了數據處理中的內存不足問題。
七、分批處理
海量數據處理難因為數據量大,那麼解決海量數據處理難的問題其中一個技巧是減少數據量。可以對海量數據分批處理,然後處 理後的數據再進行合並操作,這樣逐個擊破,有利於小數據量的處理,不至於面對大數據量帶來的問題,不過這種方法也要因時因勢進行,如果不允許拆分數據,還 需要另想辦法。不過一般的數據按天、按月、按年等存儲的,都可以採用先分後合的方法,對數據進行分開處理。
八、使用臨時表和中間表
數據量增加時,處理中要考慮提前匯總。這樣做的目的是化整為零,大表變小表,分塊處理完成後,再利用一定的規則進行合 並,處理過程中的臨時表的使用和中間結果的保存都非常重要,如果對於超海量的數據,大表處理不了,只能拆分為多個小表。如果處理過程中需要多步匯總操作, 可按匯總步驟一步步來,不要一條語句完成,一口氣吃掉一個胖子。
九、優化查詢SQL語句
在對海量數據進行查詢處理過程中,查詢的SQL語句的性能對查詢效率的影響是非常大的,編寫高效優良的SQL腳本和存儲 過程是資料庫工作人員的職責,也是檢驗資料庫工作人員水平的一個標准,在對SQL語句的編寫過程中,例如減少關聯,少用或不用游標,設計好高效的資料庫表 結構等都十分必要。筆者在工作中試著對1億行的數據使用游標,運行3個小時沒有出結果,這是一定要改用程序處理了。
十、使用文本格式進行處理
對一般的數據處理可以使用資料庫,如果對復雜的數據處理,必須藉助程序,那麼在程序操作資料庫和程序操作文本之間選擇, 是一定要選擇程序操作文本的,原因為:程序操作文本速度快;對文本進行處理不容易出錯;文本的存儲不受限制等。例如一般的海量的網路日誌都是文本格式或者 csv格式(文本格式),對它進行處理牽扯到數據清洗,是要利用程序進行處理的,而不建議導入資料庫再做清洗。
十一、定製強大的清洗規則和出錯處理機制
海量數據中存在著不一致性,極有可能出現某處的瑕疵。例如,同樣的數據中的時間欄位,有的可能為非標準的時間,出現的原因可能為應用程序的錯誤,系統的錯誤等,這是在進行數據處理時,必須制定強大的數據清洗規則和出錯處理機制。
十二、建立視圖或者物化視圖
視圖中的數據來源於基表,對海量數據的處理,可以將數據按一定的規則分散到各個基表中,查詢或處理過程中可以基於視圖進行,這樣分散了磁碟I/O,正如10根繩子吊著一根柱子和一根吊著一根柱子的區別。
十三、避免使用32位機子(極端情況)
目前的計算機很多都是32位的,那麼編寫的程序對內存的需要便受限制,而很多的海量數據處理是必須大量消耗內存的,這便要求更好性能的機子,其中對位數的限制也十分重要。
十四、考慮操作系統問題
海量數據處理過程中,除了對資料庫,處理程序等要求比較高以外,對操作系統的要求也放到了重要的位置,一般是必須使用伺服器的,而且對系統的安全性和穩定性等要求也比較高。尤其對操作系統自身的緩存機制,臨時空間的處理等問題都需要綜合考慮。
十五、使用數據倉庫和多維資料庫存儲
數據量加大是一定要考慮OLAP的,傳統的報表可能5、6個小時出來結果,而基於Cube的查詢可能只需要幾分鍾,因此處理海量數據的利器是OLAP多維分析,即建立數據倉庫,建立多維數據集,基於多維數據集進行報表展現和數據挖掘等。
十六、使用采樣數據,進行數據挖掘
基於海量數據的數據挖掘正在逐步興起,面對著超海量的數據,一般的挖掘軟體或演算法往往採用數據抽樣的方式進行處理,這樣 的誤差不會很高,大大提高了處理效率和處理的成功率。一般采樣時要注意數據的完整性和,防止過大的偏差。筆者曾經對1億2千萬行的表數據進行采樣,抽取出 400萬行,經測試軟體測試處理的誤差為千分之五,客戶可以接受。
還有一些方法,需要在不同的情況和場合下運用,例如使用代理鍵等操作,這樣的好處是加快了聚合時間,因為對數值型的聚合比對字元型的聚合快得多。類似的情況需要針對不同的需求進行處理。
海量數據是發展趨勢,對數據分析和挖掘也越來越重要,從海量數據中提取有用信息重要而緊迫,這便要求處理要准確,精度要高,而且處理時間要短,得到有價值信息要快,所以,對海量數據的研究很有前途,也很值得進行廣泛深入的研究。

⑥ supermap iDesktop 處理數據集及生成場景緩存

一些相關視頻資料

SuperMap iClient3D for WebGL開發准備: http://support.supermap.com.cn/proct/VedioPlay.aspx?id=189

三維性能優化方法與策略: http://support.supermap.com.cn/proct/VedioPlay.aspx?id=289

註:以下操作均基於SuperMap iDesktop 9D(.NET)版,不同版本菜單及界面稍有不同。

一、數據源處理

1、點擊菜單欄 【開始】→【打開】→【數據源】→選擇數據源文件(UDB格式)

2、數據集類型轉換: CAD 數據集轉換為簡單數據集或模型數據集,轉換為這2種格式後面才能正常生成場景緩存 。如果數據集本身已經是簡單數據集或模型數據集,可跳過這一步。

左鍵選中需要轉換的數據集 →點擊菜單欄【數據】→【類型轉換】→選擇【CAD->簡單】或【CAD->模型】

如果選擇轉換為簡單數據源,將彈出以下界面,選擇需要轉換的源數據(包括數據源及數據集),點擊轉換即可。

如果選擇轉換為模型數據集,將彈出以下界面,直接點擊轉換即可( 如果這個界面沒有顯示數據,需點擊添加源數據按鈕手動添加數據 ,因為supermap會默認轉換當前選中的數據集,如果點擊類型轉換前沒有選中數據集將會出現界面無數據的情況)。

轉換成功後的數據集(這個步驟耗時會比較長,需要耐心等,這里我選擇轉換成模型數據集)

二、數據優化(含 BIM 簡化、移除重復點等)

當需要載入的數據非常大時,即使配置的獨顯再好,也難免出現卡頓掉幀現象。為了提高渲染速度,優化渲染幀率,可進行BIM簡化、移除重復點等操作。

1、添加數據集到球面場景中

點擊工作空間管理器中的【場景】→【新建球面場景】→將上一步轉換成功的簡單或模型數據集拖入新建的球面場景中

2、BIM簡化

菜單欄點擊【對象操作】→【BIM模型】→點擊【BIM簡化】

在彈出來的BIM簡化菜單中,可以選擇是對選中對象還是所有對象進行BIM簡化操作,同時根據需求設定簡化率,簡化率越高,簡化後的模型越粗糙,載入速度越快( 模型是由許多三角面組成的,三角面數越多,模型越精細,BIM簡化其實是過濾三角面數的一個過程,所以簡化後的模型會比原始模型粗糙,對模型精細度有高要求的建議不要進行這步操作 )。

拖動簡化信息下的簡化率後會自動開始BIM簡化,完成後點擊保存。可以查看場景中簡化前及簡化後的幀率信息,可以明顯看到平均幀率提升了,三角面數量也減少了。

幀率信息在場景的左下方可以看到,一般默認都是未開啟的,開啟步驟:場景中右鍵→點擊【屬性】→彈出的場景屬性面板中勾選【幀率信息】

3、移除重復點

重新新建一個球面場景,將上面進行了BIM簡化的數據集拖到新建的球面場景中。

點擊菜單欄【BIM模型】→【移除重復點】

在彈出的移除重復點界面中,可選擇移除的范圍(所有對象或選中對象)和進行參數設置,設置完畢後點擊另存即可。 進行移除重復點主要是移除一些重復的模型數據,例如場景中有許多相同的車子模型,他們除了空間位置信息外,其它的模型數據都相同,那麼實際上只需要保存一份模型數據,然後在不同位置多次繪制即可。

輸出窗口信息,成功移除重復點134個。

三、三維模型數據轉二維面數據

如果項目中有查看二維平面圖或實現二三維地圖聯動效果的需求,就需要把三維模型數據集轉換為二維面數據,進而轉換為二維平面地圖。如果項目不涉及到二維數據可跳過這一步。

1、生成二維面數據

左鍵選中要轉換的三維模型數據集→點擊菜單欄【數據】→【類型轉換】→【模型->二維面】

在彈出的模型數據->二維面數據菜單中,選擇要轉換的模型數據集,點擊轉換即可,轉換需要比較長的時間,具體視電腦配置及數據集數據大小而定。

生成二維面數據集後,雙擊數據集打開如下

2、編輯二維面數據

默認生成的二維數據集是不允許編輯的,如果要對數據集進行刪除、移動等操作,點擊菜單欄【地圖】→【圖層屬性】

在彈出的圖層屬性界面中,勾選【編輯】,就可以在主窗口中對二維面數據進行刪除、移動等操作了。

3、保存為地圖

二維數據需以地圖形式進行數據發布,直接在主窗口中右鍵→點擊【保存地圖】即可

四、生成場景緩存

當所有的數據處理完畢後,需要對處理好的數據進行生成場景緩存操作,如果不生成場景緩存,對於如此大的數據量,瀏覽器直接載入很容易導致卡頓甚至奔潰,載入速度也不理想。

選中最終處理後的數據集→右鍵→生成場景緩存

在彈出的生成場景緩存界面中,緩存類型選擇OSGB,文件類型選擇S3M,瓦片邊長、LOD層數、LOD層級對應的網格簡化率可以使用默認值,如果項目需要也可以根據需求更改,設置完畢後點擊生成。

生成的場景緩存數據會默認保存到當前工作空間所在的目錄

至此,supermap iDesktop 處理數據和生成場景緩存的所有步驟就結束了,接下來只需要把這些數據發布到伺服器即可。生成的數據如何發布詳見寫的另一篇文章: supermap iServer 發布地圖及數據服務

五、前端載入場景緩存