大量數據的存儲與查詢_大數據存儲與應用特點及技術路線分析

『壹』 Mysql每日百萬條數據怎麼存儲和查詢

直接按時間分表吧，如果 500 萬一個表也嫌多，可以1小時一個表，反正你自己控制
分表之後，查詢會比較簡單，容易創建索引
分時間段查的話，根據時間段就可以直接鎖定到要查哪些表
按用戶編號查就需要查所有表，但每個表都有用戶編號索引，並發從多個表可查出數據也可以很快（當然，滿足條件的數據量大的話，這始終是需要花較長時間的）

『貳』大量文字與數字信息怎麼存儲，後期需要查找檢索方便。是建立excel表格還是做資料庫求高人指點

輸入的信息，有大量的文字、數據以及圖像的話最好是用資料庫，資料庫輸入可用襪昌枯表格，也可以用excel表格導入告洞，非常迅渣方便。

『叄』 oracle查大量數據用存儲過程還是sql

這個需要分情況討論，如果只是簡單查詢資料庫中已經存在的數據列這些篩選條件比較模盯運簡單的數據，直接用SQL語句查詢會更快，但是問題如果涉及到多種復雜條件則中查詢則建議使用存儲旦梁過程查詢，優點是可以減少編譯時間且更代碼比SQL更簡潔，只要調用存儲過程就OK了

『肆』大數據存儲與應用特點及技術路線分析

大數據存儲與應用特點及技術路線分析

大數據時代，數據呈爆炸式增長。從存儲服務的發展趨勢來看，一方面，對數據的存儲量的需求越來越大；另一方面，對數據的有效管理提出了更高的要求。大數據對存儲設備的容量、讀寫性能、可靠性、擴展性等都提出了更高的要求，需要充分考慮功能集成度、數據安全性、數據穩定性，系統可擴展性、性能及成本各方面因素。

大數據存儲與應用的特點分析

「大數據」是由數量巨大、結構復雜、類型眾多數據構成的數據集合，是基於雲計算的數據處理與應用模式，通過數據的整合共享，交叉復用形成的智力資源和知識服務能力。其常見特點可以概括為3V:Volume、Velocity、Variety(規模大、速度快、多樣性)。

大數據具有數據規模大(Volume)且增長速度快的特性，其數據規模已經從PB級別增長到EB級別，並且仍在不斷地根據實際應用的需求和企業的再發展繼續擴容，飛速向著ZB(ZETA-BYTE)的規模進軍。以國內最大的電子商務企業淘寶為例，根據淘寶網的數據顯示，至2011年底，淘寶網最高單日獨立用戶訪問量超過1.2億人，比2010年同期增長120%,注冊用戶數量超過4億，在線商品數量達到8億，頁面瀏覽量達到20億規模，淘寶網每天產生4億條產品信息，每天活躍數據量已經超過50TB.所以大數據的存儲或者處理系統不僅能夠滿足當前數據規模需求，更需要有很強的可擴展性以滿足快速增長的需求。

(1)大數據的存儲及處理不僅在於規模之大，更加要求其傳輸及處理的響應速度快(Velocity)。

相對於以往較小規模的數據處理，在數據中心處理大規模數據時，需要服務集群有很高的吞吐量才能夠讓巨量的數據在應用開發人員「可接受」的時間內完成任務。這不僅是對於各種應用層面的計算性能要求，更加是對大數據存儲管理系統的讀寫吞吐量的要求。例如個人用戶在網站選購自己感興趣的貨物，網站則根據用戶的購買或者瀏覽網頁行為實時進行相關廣告的推薦，這需要應用的實時反饋;又例如電子商務網站的數據分析師根據購物者在當季搜索較為熱門的關鍵詞，為商家提供推薦的貨物關鍵字，面對每日上億的訪問記錄要求機器學習演算法在幾天內給出較為准確的推薦，否則就丟失了其失效性；更或者是計程車行駛在城市的道路上，通過GPS反饋的信息及監控設備實時路況信息，大數據處理系統需要不斷地給出較為便捷路徑的選擇。這些都要求大數據的應用層可以最快的速度，最高的帶寬從存儲介質中獲得相關海量的數據。另外一方面，海量數據存儲管理系統與傳統的資料庫管理系統，或者基於磁帶的備份系統之間也在發生數據交換，雖然這種交換實時性不高可以離線完成，但是由於數據規模的龐大，較低的數據傳輸帶寬也會降低數據傳輸的效率，而造成數據遷移瓶頸。因此大數據的存儲與處理的速度或是帶寬是其性能上的重要指標。

(2)大數據由於其來源的不同，具有數據多樣性的特點。

所謂多樣性，一是指數據結構化程度，二是指存儲格式，三是存儲介質多樣性。對於傳統的資料庫，其存儲的數據都是結構化數據，格式規整，相反大數據來源於日誌、歷史數據、用戶行為記錄等等，有的是結構化數據，而更多的是半結構化或者非結構化數據，這也正是傳統資料庫存儲技術無法適應大數據存儲的重要原因之一。所謂存儲格式，也正是由於其數據來源不同，應用演算法繁多，數據結構化程度不同，其格式也多種多樣。例如有的是以文本文件格式存儲，有的則是網頁文件，有的是一些被序列化後的比特流文件等等。所謂存儲介質多樣性是指硬體的兼容，大數據應用需要滿足不同的響應速度需求，因此其數據管理提倡分層管理機制，例如較為實時或者流數據的響應可以直接從內存或者Flash(SSD)中存取，而離線的批處理可以建立在帶有多塊磁碟的存儲伺服器上，有的可以存放在傳統的SAN或者NAS網路存儲設備上，而備份數據甚至可以存放在磁帶機上。因而大數據的存儲或者處理系統必須對多種數據及軟硬體平台有較好的兼容性來適應各種應用演算法或者數據提取轉換與載入(ETL)。

大數據存儲技術路線最典型的共有三種：

第一種是採用MPP架構的新型資料庫集群，重點面向行業大數據，採用Shared Nothing架構，通過列存儲、粗粒度索引等多項大數據處理技術，再結合MPP架構高效的分布式計算模式，完成對分析類應用的支撐，運行環境多為低成本 PC Server，具有高性能和高擴展性的特點，在企業分析類應用領域獲得極其廣泛的應用。

這類MPP產品可以有效支撐PB級別的結構化數據分析，這是傳統資料庫技術無法勝任的。對於企業新一代的數據倉庫和結構化數據分析，目前最佳選擇是MPP資料庫。

第二種是基於Hadoop的技術擴展和封裝，圍繞Hadoop衍生出相關的大數據技術，應對傳統關系型資料庫較難處理的數據和場景，例如針對非結構化數據的存儲和計算等，充分利用Hadoop開源的優勢，伴隨相關技術的不斷進步，其應用場景也將逐步擴大，目前最為典型的應用場景就是通過擴展和封裝 Hadoop來實現對互聯網大數據存儲、分析的支撐。這裡面有幾十種NoSQL技術，也在進一步的細分。對於非結構、半結構化數據處理、復雜的ETL流程、復雜的數據挖掘和計算模型，Hadoop平台更擅長。

第三種是大數據一體機，這是一種專為大數據的分析處理而設計的軟、硬體結合的產品，由一組集成的伺服器、存儲設備、操作系統、資料庫管理系統以及為數據查詢、處理、分析用途而特別預先安裝及優化的軟體組成，高性能大數據一體機具有良好的穩定性和縱向擴展性。

以上是小編為大家分享的關於大數據存儲與應用特點及技術路線分析的相關內容，更多信息可以關注環球青藤分享更多干貨

『伍』為什麼MongoDB適合大數據的存儲

Mongo是一個高性能，開源，無模式的文檔型資料庫，它在許多場景下可用於替代傳統的關系型資料庫或鍵/值存儲方式。Mongo使用C++開發，提供了以下功能：
◆面向集合的存儲：適合存儲對象及JSON形式的數據。
◆動態查詢：Mongo支持豐富的查詢表達式。查詢指令使用JSON形式的標記，可輕易查詢文檔中內嵌的對象及數組。
◆完整的索引支持：包括文檔內嵌對象及數組。Mongo的查詢優化器會分析查詢表達式，並生成一個高效的查詢計劃。
◆查詢監視：Mongo包含一個監視工具用於分析資料庫操作的性能。
◆復制及自動故障轉移：Mongo資料庫支持伺服器之間的數據復制，支持主-從模式及伺服器之間的相互復制。復制的主要目標是提供冗餘及自動故障轉移。
◆高效的傳統存儲方式：支持二進制數據及大型對象（如照片或圖片）。
◆自動分片以支持雲級別的伸縮性（處於早期alpha階段）：自動分片功能支持水平的資料庫集群，可動態添加額外的機器。
MongoDB的主要目標是在鍵/值存儲方式（提供了高性能和高度伸縮性）以及傳統的RDBMS系統（豐富的功能）架起一座橋梁，集兩者的優勢於一身。根據官方網站的描述，Mongo適合用於以下場景：
◆網站數據：Mongo非常適合實時的插入，更新與查詢，並具備網站實時數據存儲所需的復制及高度伸縮性。
◆緩存：由於性能很高，Mongo也適合作為信息基礎設施的緩存層。在系統重啟之後，由Mongo搭建的持久化緩存層可以避免下層的數據源過載。
◆大尺寸，低價值的數據：使用傳統的關系型資料庫存儲一些數據時可能會比較昂貴，在此之前，很多時候程序員往往會選擇傳統的文件進行存儲。
◆高伸縮性的場景：Mongo非常適合由數十或數百台伺服器組成的資料庫。Mongo的路線圖中已經包含對MapRece引擎的內置支持。
◆用於對象及JSON數據的存儲：Mongo的BSON數據格式非常適合文檔化格式的存儲及查詢。
自然，MongoDB的使用也會有一些限制，例如它不適合：
◆高度事務性的系統：例如銀行或會計系統。傳統的關系型資料庫目前還是更適用於需要大量原子性復雜事務的應用程序。
◆傳統的商業智能應用：針對特定問題的BI資料庫會對產生高度優化的查詢方式。對於此類應用，數據倉庫可能是更合適的選擇。
◆需要SQL的問題
MongoDB支持OS X、Linux及Windows等操作系統，並提供了Python，PHP，Ruby，Java及C++語言的驅動程序，社區中也提供了對Erlang及.NET等平台的驅動程序。

『陸』公司有大量的數據需要集中存儲，想請教一下專業人士，有什麼具體的存儲方案。

亨通後天談話

『柒』 jquery 本地存儲大量數據，並支持後續操作的方法！

你的數據有多大？幾千行的話 gzip 一下也不會花超過幾秒（大概不需要），不需要甚麼特別的處理。再大的話就視乎實際數量和所需的處理方式，簡單的 localstorage 復雜的自己看看是用自己的方法處理(一般較快較省記憶)還是去用 js 實作的資料庫(一般較方便)。這也是個編程階段，自己多試試看不同的處理方法那才會有長進，別人給的意見再好都不是你自己的經驗。

『捌』處理億級數據，分表存儲，查詢時如何統一查的策略，謝謝！

實時查詢？這個和你的查詢需求有關。一般使用HBase來實現，通過合理的設計RowKey來實時的虛碼響模譽畢應查旦芹詢需求。

『玖』用C++怎麼實現數據的快速存儲與查詢呢

樓主可以考慮使用資料庫。
如果數據量大，肯定是要用資料庫的，比你用代碼來得方便簡單多了，而且其他人維護你的代碼也非常方便。
如果數據量不是非常大，建議使用SQLite，代碼庫非常小，使用非常簡單，而且效率很高。

『拾』對於大量數據（幾千萬條）的查詢，篩選不用觸發器或者存儲過程，有沒有可能用程序實現高效的查詢

1.對查詢進行優化，應盡量避免全表掃描，首先應考慮在 where 及 order by 涉及的列上建立索引。

2.應盡量避免在 where 子句中對欄位進行 null 值判斷，否則將導致引擎放棄使用索引而進行全表掃描，如：

select id from t where num is null

可以在num上設置默認值0，確保表中num列沒有null值，然後這樣查詢：

select id from t where num=0

3.應盡量避免在 where 子句中使用!=或<>操作符，否則將引擎放棄使用索引而進行全表掃描。

4.應盡量避免在 where 子句中使用 or 來連接條件，否則將導致引擎放棄使用索引而進行全表掃描，如：

select id from t where num=10 or num=20

可以這樣查詢：

select id from t where num=10

union all

select id from t where num=20

5.in 和 not in 也要慎用，否則會導致全表掃描，如：

select id from t where num in(1,2,3)

對於連續的數值，能用 between 就不要用 in 了：

select id from t where num between 1 and 3

6.下面的查詢也將導致全表掃描：

select id from t where name like '%abc%'

若要提高效率，可以考慮全文檢索。

7.如果在 where 子句中使用參數，也會導致全表掃描。因為SQL只有在運行時才會解析局部變數，但優化程序不能將訪問計劃的選擇推遲到運行時；它必須在編譯時進行選擇。然而，如果在編譯時建立訪問計劃，變數的值還是未知的，因而無法作為索引選擇的輸入項。如下面語句將進行全表掃描：

select id from t where num=@num

可以改為強制查詢使用索引：

select id from t with(index(索引名)) where num=@num

8.應盡量避免在 where 子句中對欄位進行表達式操作，這將導致引擎放棄使用索引而進行全表掃描。如：

select id from t where num/2=100

應改為:

select id from t where num=100*2

9.應盡量避免在where子句中對欄位進行函數操作，這將導致引擎放棄使用索引而進行全表掃描。如：

select id from t where substring(name,1,3)='abc'--name以abc開頭的id

select id from t where datediff(day,createdate,'2005-11-30')=0--『2005-11-30』生成的id

應改為:

select id from t where name like 'abc%'

select id from t where createdate>='2005-11-30' and createdate<'2005-12-1'

10.不要在 where 子句中的「=」左邊進行函數、算術運算或其他表達式運算，否則系統將可能無法正確使用索引。

11.在使用索引欄位作為條件時，如果該索引是復合索引，那麼必須使用到該索引中的第一個欄位作為條件時才能保證系統使用該索引，否則該索引將不會被使用，並且應盡可能的讓欄位順序與索引順序相一致。

12.不要寫一些沒有意義的查詢，如需要生成一個空表結構：

select col1,col2 into #t from t where 1=0

這類代碼不會返回任何結果集，但是會消耗系統資源的，應改成這樣：

create table #t(...)

13.很多時候用 exists 代替 in 是一個好的選擇：

select num from a where num in(select num from b)

用下面的語句替換：

select num from a where exists(select 1 from b where num=a.num)

14.並不是所有索引對查詢都有效，SQL是根據表中數據來進行查詢優化的，當索引列有大量數據重復時，SQL查詢可能不會去利用索引，如一表中有欄位sex，male、female幾乎各一半，那麼即使在sex上建了索引也對查詢效率起不了作用。

15.索引並不是越多越好，索引固然可以提高相應的 select 的效率，但同時也降低了 insert 及 update 的效率，因為 insert 或 update 時有可能會重建索引，所以怎樣建索引需要慎重考慮，視具體情況而定。一個表的索引數最好不要超過6個，若太多則應考慮一些不常使用到的列上建的索引是否有必要。

16.應盡可能的避免更新 clustered 索引數據列，因為 clustered 索引數據列的順序就是表記錄的物理存儲順序，一旦該列值改變將導致整個表記錄的順序的調整，會耗費相當大的資源。若應用系統需要頻繁更新 clustered 索引數據列，那麼需要考慮是否應將該索引建為 clustered 索引。

17.盡量使用數字型欄位，若只含數值信息的欄位盡量不要設計為字元型，這會降低查詢和連接的性能，並會增加存儲開銷。這是因為引擎在處理查詢和連接時會逐個比較字元串中每一個字元，而對於數字型而言只需要比較一次就夠了。

18.盡可能的使用 varchar/nvarchar 代替 char/nchar ，因為首先變長欄位存儲空間小，可以節省存儲空間，其次對於查詢來說，在一個相對較小的欄位內搜索效率顯然要高些。

19.任何地方都不要使用 select * from t ，用具體的欄位列表代替「*」，不要返回用不到的任何欄位。

20.盡量使用表變數來代替臨時表。如果表變數包含大量數據，請注意索引非常有限（只有主鍵索引）。

21.避免頻繁創建和刪除臨時表，以減少系統表資源的消耗。

22.臨時表並不是不可使用，適當地使用它們可以使某些常式更有效，例如，當需要重復引用大型表或常用表中的某個數據集時。但是，對於一次性事件，最好使用導出表。

23.在新建臨時表時，如果一次性插入數據量很大，那麼可以使用 select into 代替 create table，避免造成大量 log ，以提高速度；如果數據量不大，為了緩和系統表的資源，應先create table，然後insert。

24.如果使用到了臨時表，在存儲過程的最後務必將所有的臨時表顯式刪除，先 truncate table ，然後 drop table ，這樣可以避免系統表的較長時間鎖定。

25.盡量避免使用游標，因為游標的效率較差，如果游標操作的數據超過1萬行，那麼就應該考慮改寫。

26.使用基於游標的方法或臨時表方法之前，應先尋找基於集的解決方案來解決問題，基於集的方法通常更有效。

27.與臨時表一樣，游標並不是不可使用。對小型數據集使用 FAST_FORWARD 游標通常要優於其他逐行處理方法，尤其是在必須引用幾個表才能獲得所需的數據時。在結果集中包括「合計」的常式通常要比使用游標執行的速度快。如果開發時間允許，基於游標的方法和基於集的方法都可以嘗試一下，看哪一種方法的效果更好。

28.在所有的存儲過程和觸發器的開始處設置 SET NOCOUNT ON ，在結束時設置 SET NOCOUNT OFF 。無需在執行存儲過程和觸發器的每個語句後向客戶端發送 DONE_IN_PROC 消息。

29.盡量避免大事務操作，提高系統並發能力。

30.盡量避免向客戶端返回大數據量，若數據量過大，應該考慮相應需求是否合理。

大量數據的存儲與查詢

與大量數據的存儲與查詢相關的內容