mongodb分布式存儲大數據_為什麼MongoDB適合大數據的存儲

『壹』 mongodb的簡介

MongoDB 是一個基於分布式文件存儲的資料庫。由C++語言編寫。旨在為WEB應用提供可擴展的高性能數據存儲解決方案。
MongoDB 是一個介於關系資料庫和非關系資料庫之間的產品，是非關系資料庫當中功能最豐富，最像關系資料庫的。他支持的數據結構非常鬆散，旁芹是類似json的bson格式，因此可以存儲比較復雜的數據類型。Mongo最大的特點是他支持的查詢語言非常強大，其語法有點類似於面向對象的查詢語言，幾乎可以實廳啟猛現類似關系資料庫單表查詢的絕大部分功能，而且還支持扮橋對數據建立索引。

『貳』 sqlserver2005 和 mongodb的大數據量的處理

你們老闆也是沒事忽虧芹悠你啊! 你上當了現在不是四月!
--------------------------------
MongoDB 是nosql 的一種存儲資料庫. 也就是說所有業務都要轉化.

而且這種分布式並沒有帶來什麼好處.況且即使是銀行,數據量是你的萬億倍,也沒聽說用mongodb啊!

-------------------------
這個問題其實很簡單,將記錄表按時間分區即可.
你可以網路銷橘畢一下 sql2005 表分區
然後你將磁碟進行鏡像分區做分布式存儲這不比你改存儲方式強啊!
學過高中數學劃分分界點伍氏應該很容易.

『叄』大數據技術有哪些

隨著大數據分析市場迅速擴展，哪些技術是最有需求和最有增長潛力的呢？在Forrester Research的一份最新研究報告中，評估了22種技術在整個數據生命周期中的成熟度和軌跡。這些技術都對大數據的實時、預測和綜合洞察有著巨大的貢獻。
1. 預測分析技術
這也是大數據的主要功能之一。預測分析允許公司通過分析大數據源來發現、評估、優化和部署預測模型，從而提高業務性能或降低風險。同時，大數據的預測分析也與我們的生活息息相關。淘寶會預測你每次購物可能還想買什麼，愛奇藝正在預測你可能想看什麼，百合網和其他約會網站甚至試圖預測你會愛上誰……
2. NoSQL資料庫
NoSQL，Not Only SQL，意思是「不僅僅是SQL」，泛指非關系型資料庫。NoSQL資料庫提供了比關系資料庫更靈活、可伸縮和更便宜的替代方案，打破了傳統資料庫市場一統江山的格局。並且，NoSQL資料庫能夠更好地處理大數據應用的需求。常見的NoSQL資料庫有HBase、Redis、MongoDB、Couchbase、LevelDB等。
3. 搜索和知識發現
支持來自於多種數據源(如文件系統、資料庫、流、api和其他平台和應用程序)中的大型非結構化和結構化數據存儲庫中自助提取信息的工具和技術。如，數據挖掘技術和各種大數據平台。
4. 大數據流計算引擎
能夠過濾、聚合、豐富和分析來自多個完全不同的活動數據源的數據的高吞吐量的框架，可以採用任何數據格式。現今流行的流式計算引擎有Spark Streaming和Flink。
5. 內存數據結構
通過在分布式計算機系統中動態隨機訪問內存(DRAM)、快閃記憶體或SSD上分布數據，提供低延遲的訪問和處理大量數據。
6. 分布式文件存儲
為了保證文件的可靠性和存取性能，數據通常以副本的方式存儲在多個節點上的計算機網路。常見的分布式文件系統有GFS、HDFS、Lustre 、Ceph等。
7. 數據虛擬化
數據虛擬化是一種數據管理方法，它允許應用程序檢索和操作數據，而不需要關心有關數據的技術細節，比如數據在源文件中是何種格式，或者數據存儲的物理位置，並且可以提供單個客戶用戶視圖。
8. 數據集成
用於跨解決方案進行數據編排的工具，如Amazon Elastic MapRece (EMR)、Apache Hive、Apache Pig、Apache Spark、MapRece、Couchbase、Hadoop和MongoDB等。
9. 數據准備
減輕采購、成形、清理和共享各種雜亂數據集的負擔的軟體，以加速數據對分析的有用性。
10. 數據質量
使用分布式數據存儲和資料庫上的並行操作，對大型高速數據集進行數據清理和充實的產品。

『肆』為什麼MongoDB適合大數據的存儲

MongoDB文檔型行存儲行存儲讀寫程致都第列始列結束行存儲寫入性完消耗間比列存儲少並且能夠保證數據完整性缺點數據讀取程產冗餘數據少量數據影響忽略；數量能影響數據處理效率使用文檔詞似乎讓覺奇怪其實文檔型數據模型真傳統意義文檔沒關系說文檔其實數據記錄記錄能夠包含數據類型內容進行自我描述

另外用文檔查詢檢索效率高使用資料庫帶許處：減少數據冗餘度節省數據存儲空間；實現數據資源充共享等等外資料庫技術用戶提供非簡便使用手段使用戶易於編寫關資料庫應用程序

『伍』為什麼MongoDB適合大數據的存儲

Mongo是一個高性能，開源，無模式的文檔型資料庫，它在許多場景下可用於替代傳統的關系型資料庫或鍵/值存儲方式。Mongo使用C++開發，提供了以下功能：
◆面向集合的存儲：適合存儲對象及JSON形式的數據。
◆動態查詢：Mongo支持豐富的查詢表達式。查詢指令使用JSON形式的標記，可輕易查詢文檔中內嵌的對象及數組。
◆完整的索引支持：包括文檔內嵌對象及數組。Mongo的查詢優化器會分析查詢表達式，並生成一個高效的查詢計劃。
◆查詢監視：Mongo包含一個監視工具用於分析資料庫操作的性能。
◆復制及自動故障轉移：Mongo資料庫支持伺服器之間的數據復制，支持主-從模式及伺服器之間的相互復制。復制的主要目標是提供冗餘及自動故障轉移。
◆高效的傳統存儲方式：支持二進制數據及大型對象（如照片或圖片）。
◆自動分片以支持雲級別的伸縮性（處於早期alpha階段）：自動分片功能支持水平的資料庫集群，可動態添加額外的機器。
MongoDB的主要目標是在鍵/值存儲方式（提供了高性能和高度伸縮性）以及傳統的RDBMS系統（豐富的功能）架起一座橋梁，集兩者的優勢於一身。根據官方網站的描述，Mongo適合用於以下場景：
◆網站數據：Mongo非常適合實時的插入，更新與查詢，並具備網站實時數據存儲所需的復制及高度伸縮性。
◆緩存：由於性能很高，Mongo也適合作為信息基礎設施的緩存層。在系統重啟之後，由Mongo搭建的持久化緩存層可以避免下層的數據源過載。
◆大尺寸，低價值的數據：使用傳統的關系型資料庫存儲一些數據時可能會比較昂貴，在此之前，很多時候程序員往往會選擇傳統的文件進行存儲。
◆高伸縮性的場景：Mongo非常適合由數十或數百台伺服器組成的資料庫。Mongo的路線圖中已經包含對MapRece引擎的內置支持。
◆用於對象及JSON數據的存儲：Mongo的BSON數據格式非常適合文檔化格式的存儲及查詢。
自然，MongoDB的使用也會有一些限制，例如它不適合：
◆高度事務性的系統：例如銀行或會計系統。傳統的關系型資料庫目前還是更適用於需要大量原子性復雜事務的應用程序。
◆傳統的商業智能應用：針對特定問題的BI資料庫會對產生高度優化的查詢方式。對於此類應用，數據倉庫可能是更合適的選擇。
◆需要SQL的問題
MongoDB支持OS X、Linux及Windows等操作系統，並提供了Python，PHP，Ruby，Java及C++語言的驅動程序，社區中也提供了對Erlang及.NET等平台的驅動程序。

『陸』 hadoop和mangoDb用作大數據分析哪個更好

1，hadoop是大數據分析的完整生態系統，從數據採集，存儲，分析，轉運，再到頁面展示，構成了整個流程採集可以用flume，存儲用hbase，hdfs，mangodb就相當於hbase，分析用Maprece自己寫演算法，還有hive做數據倉庫，pig做數據流處理，轉儲方面有sqoop，可以將hdfs中的數據轉換存儲到mysql，oracle等傳統資料庫，這就構成了一整套大數據分析的整個流程
2，mangodb只是充當存儲功能，是一款nosql資料庫，支持以json的格式存儲
3，所以從功能上來講，hadoop和mangodb是不一樣的，hadoop中可以用mangodb替換hbase，但是mangodb不能替換hadoop，一個是完整的生態系統，一個是資料庫，兩個不一樣的概念
4，至於選擇用mangodb還是hbase，各有優劣，不過使用較多的還是hbase，mangodb社區沒有hbase活躍，所以還是hbase吧

『柒』【Python基礎】mongodb存儲文件的優缺點

MongoDB是一個開源的、基於分布式的、面向文檔存儲的非關系型資料庫。是非關系型資料庫當中功能最豐富、最像關系資料庫的。MongoDB高性能、易部署、易使用，存儲數據非常方便。
MongoDB優點:
1、高性能：弱一致性，訪問速度較快
2、文檔結構的存儲方式，能夠更便捷的獲取數、存儲數據方便，高效存儲二進制大對象
3、支持復制集、主備、互為主備、自動分片等特性
4、全索引支持，查詢語言功能非常強大

MongoDB缺點：
1、不支持事務，實際開發時得搞清楚哪些功能需要使用資料庫提供的事務支持
2、MongoDB佔用空間大（需要強大硬碟支持）
3、相對於MySQL那樣成熟的維護工具，MongoDB維護工具不夠完善、成熟

『捌』 MongoDB是一個基於分布式文件存儲的資料庫，為WEB應用提供高性能的數據存儲解決方案；

MongoDB是一個介於關系資料庫和非關系資料庫之間的產品，是非關系資料庫當中功能最豐富，最像關系資料庫的。
資料庫是按照數據結構來組織、存儲和管理數據的倉庫，它產生於距今六十多年前，隨著信息技術和市場的發展，特別是二十世紀九十年代以後，數據管理不再僅僅是存儲和管理數據，而轉變成用戶所需要的各種數據管理的方式。資料庫有很多種類型，從最簡單的存儲有各種數據的表格到能夠進行海量數據存儲的大型資料庫系統都在各個方面得到了廣泛的應用。

在信息化社會，充分有效地管理和利用各類信息資源，是進行科學研究和決策管理的前提條件。資料庫技術是管理信息系統、辦公自動化系統、決策支持系統等各類信息系統的核心部分，是進行科學研究和決策管理的重要技術手段。【感興趣的話點擊此處，了解一下】

關於資料庫的相關內容，可以到億萬克官網進行深入的了解，億萬克集伺服器和存儲等數據中心產品的研發、生產、銷售、服務系統整合於一體，是民族高科技製造企業領導品牌，所有產品和技術完全擁有自主知識產權，應用領域涵蓋雲計算、數據中心、邊緣計算、人工智慧、金融、電信、教育、能源等，為客戶提供全方位安全自主可控技術服務保障。

『玖』如何實現企業數據大數據平台分布式存放

Hadoop在可伸縮性、健壯性、計算性能和成本上具有無可替代的優勢，事實上已成為當前互聯網企業主流的大數據分析平台。本文主要介紹一種基於Hadoop平台的多維分析和數據挖掘平台架構。作為一家互聯網數據分析公司，我們在海量數據的分析領域那真是被「逼上樑山」。多年來在嚴苛的業務需求和數據壓力下，我們幾乎嘗試了所有可能的大數據分析方法，最終落地於Hadoop平台之上。
1. 大數據分析大分類
Hadoop平台對業務的針對性較強，為了讓你明確它是否符合你的業務，現粗略地從幾個角度將大數據分析的業務需求分類，針對不同的具體需求，應採用不同的數據分析架構。
按照數據分析的實時性，分為實時數據分析和離線數據分析兩種。
實時數據分析一般用於金融、移動和互聯網B2C等產品，往往要求在數秒內返回上億行數據的分析，從而達到不影響用戶體驗的目的。要滿足這樣的需求，可以採用精心設計的傳統關系型資料庫組成並行處理集群，或者採用一些內存計算平台，或者採用HDD的架構，這些無疑都需要比較高的軟硬體成本。目前比較新的海量數據實時分析工具有EMC的Greenplum、SAP的HANA等。
對於大多數反饋時間要求不是那麼嚴苛的應用，比如離線統計分析、機器學習、搜索引擎的反向索引計算、推薦引擎的計算等，應採用離線分析的方式，通過數據採集工具將日誌數據導入專用的分析平台。但面對海量數據，傳統的ETL工具往往徹底失效，主要原因是數據格式轉換的開銷太大，在性能上無法滿足海量數據的採集需求。互聯網企業的海量數據採集工具，有Facebook開源的Scribe、LinkedIn開源的Kafka、淘寶開源的Timetunnel、Hadoop的Chukwa等，均可以滿足每秒數百MB的日誌數據採集和傳輸需求，並將這些數據上載到Hadoop中央系統上。
按照大數據的數據量，分為內存級別、BI級別、海量級別三種。
這里的內存級別指的是數據量不超過集群的內存最大值。不要小看今天內存的容量，Facebook緩存在內存的Memcached中的數據高達320TB，而目前的PC伺服器，內存也可以超過百GB。因此可以採用一些內存資料庫，將熱點數據常駐內存之中，從而取得非常快速的分析能力，非常適合實時分析業務。圖1是一種實際可行的MongoDB分析架構。

圖1 用於實時分析的MongoDB架構
MongoDB大集群目前存在一些穩定性問題，會發生周期性的寫堵塞和主從同步失效，但仍不失為一種潛力十足的可以用於高速數據分析的NoSQL。
此外，目前大多數服務廠商都已經推出了帶4GB以上SSD的解決方案，利用內存+SSD，也可以輕易達到內存分析的性能。隨著SSD的發展，內存數據分析必然能得到更加廣泛的應用。
BI級別指的是那些對於內存來說太大的數據量，但一般可以將其放入傳統的BI產品和專門設計的BI資料庫之中進行分析。目前主流的BI產品都有支持TB級以上的數據分析方案。種類繁多，就不具體列舉了。
海量級別指的是對於資料庫和BI產品已經完全失效或者成本過高的數據量。海量數據級別的優秀企業級產品也有很多，但基於軟硬體的成本原因，目前大多數互聯網企業採用Hadoop的HDFS分布式文件系統來存儲數據，並使用MapRece進行分析。本文稍後將主要介紹Hadoop上基於MapRece的一個多維數據分析平台。
數據分析的演算法復雜度
根據不同的業務需求，數據分析的演算法也差異巨大，而數據分析的演算法復雜度和架構是緊密關聯的。舉個例子，Redis是一個性能非常高的內存Key-Value NoSQL，它支持List和Set、SortedSet等簡單集合，如果你的數據分析需求簡單地通過排序，鏈表就可以解決，同時總的數據量不大於內存（准確地說是內存加上虛擬內存再除以2），那麼無疑使用Redis會達到非常驚人的分析性能。
還有很多易並行問題（Embarrassingly Parallel），計算可以分解成完全獨立的部分，或者很簡單地就能改造出分布式演算法，比如大規模臉部識別、圖形渲染等，這樣的問題自然是使用並行處理集群比較適合。
而大多數統計分析，機器學習問題可以用MapRece演算法改寫。MapRece目前最擅長的計算領域有流量統計、推薦引擎、趨勢分析、用戶行為分析、數據挖掘分類器、分布式索引等。
2. 面對大數據OLAP大一些問題

OLAP分析需要進行大量的數據分組和表間關聯，而這些顯然不是NoSQL和傳統資料庫的強項，往往必須使用特定的針對BI優化的資料庫。比如絕大多數針對BI優化的資料庫採用了列存儲或混合存儲、壓縮、延遲載入、對存儲數據塊的預統計、分片索引等技術。

Hadoop平台上的OLAP分析，同樣存在這個問題，Facebook針對Hive開發的RCFile數據格式，就是採用了上述的一些優化技術，從而達到了較好的數據分析性能。如圖2所示。
然而，對於Hadoop平台來說，單單通過使用Hive模仿出SQL，對於數據分析來說遠遠不夠，首先Hive雖然將HiveQL翻譯MapRece的時候進行了優化，但依然效率低下。多維分析時依然要做事實表和維度表的關聯，維度一多性能必然大幅下降。其次，RCFile的行列混合存儲模式，事實上限制死了數據格式，也就是說數據格式是針對特定分析預先設計好的，一旦分析的業務模型有所改動，海量數據轉換格式的代價是極其巨大的。最後，HiveQL對OLAP業務分析人員依然是非常不友善的，維度和度量才是直接針對業務人員的分析語言。
而且目前OLAP存在的最大問題是：業務靈活多變，必然導致業務模型隨之經常發生變化，而業務維度和度量一旦發生變化，技術人員需要把整個Cube（多維立方體）重新定義並重新生成，業務人員只能在此Cube上進行多維分析，這樣就限制了業務人員快速改變問題分析的角度，從而使所謂的BI系統成為死板的日常報表系統。
使用Hadoop進行多維分析，首先能解決上述維度難以改變的問題，利用Hadoop中數據非結構化的特徵，採集來的數據本身就是包含大量冗餘信息的。同時也可以將大量冗餘的維度信息整合到事實表中，這樣可以在冗餘維度下靈活地改變問題分析的角度。其次利用Hadoop MapRece強大的並行化處理能力，無論OLAP分析中的維度增加多少，開銷並不顯著增長。換言之，Hadoop可以支持一個巨大無比的Cube，包含了無數你想到或者想不到的維度，而且每次多維分析，都可以支持成千上百個維度，並不會顯著影響分析的性能。

而且目前OLAP存在的最大問題是：業務靈活多變，必然導致業務模型隨之經常發生變化，而業務維度和度量一旦發生變化，技術人員需要把整個Cube（多維立方體）重新定義並重新生成，業務人員只能在此Cube上進行多維分析，這樣就限制了業務人員快速改變問題分析的角度，從而使所謂的BI系統成為死板的日常報表系統。
3. 一種Hadoop多維分析平台的架構
整個架構由四大部分組成：數據採集模塊、數據冗餘模塊、維度定義模塊、並行分析模塊。

數據採集模塊採用了Cloudera的Flume，將海量的小日誌文件進行高速傳輸和合並，並能夠確保數據的傳輸安全性。單個collector宕機之後，數據也不會丟失，並能將agent數據自動轉移到其他的colllecter處理，不會影響整個採集系統的運行。如圖5所示。

數據冗餘模塊不是必須的，但如果日誌數據中沒有足夠的維度信息，或者需要比較頻繁地增加維度，則需要定義數據冗餘模塊。通過冗餘維度定義器定義需要冗餘的維度信息和來源（資料庫、文件、內存等），並指定擴展方式，將信息寫入數據日誌中。在海量數據下，數據冗餘模塊往往成為整個系統的瓶頸，建議使用一些比較快的內存NoSQL來冗餘原始數據，並採用盡可能多的節點進行並行冗餘；或者也完全可以在Hadoop中執行批量Map，進行數據格式的轉化。

維度定義模塊是面向業務用戶的前端模塊，用戶通過可視化的定義器從數據日誌中定義維度和度量，並能自動生成一種多維分析語言，同時可以使用可視化的分析器通過GUI執行剛剛定義好的多維分析命令。
並行分析模塊接受用戶提交的多維分析命令，並將通過核心模塊將該命令解析為Map-Rece，提交給Hadoop集群之後，生成報表供報表中心展示。
核心模塊是將多維分析語言轉化為MapRece的解析器，讀取用戶定義的維度和度量，將用戶的多維分析命令翻譯成MapRece程序。核心模塊的具體邏輯如圖6所示。

圖6中根據JobConf參數進行Map和Rece類的拼裝並不復雜，難點是很多實際問題很難通過一個MapRece Job解決，必須通過多個MapRece Job組成工作流（WorkFlow），這里是最需要根據業務進行定製的部分。圖7是一個簡單的MapRece工作流的例子。

MapRece的輸出一般是統計分析的結果，數據量相較於輸入的海量數據會小很多，這樣就可以導入傳統的數據報表產品中進行展現。

『拾』 mongo集群可以用來進行海量數據分析嗎

今已進入大數據時代，特別是大規模互聯網web2.0應用不斷發展及雲計算所需要的海量存儲和海量計算發展，傳統的關系型資料庫已無法滿足這方面的需求。隨著NoSQL資料庫的不斷發展和成熟，可以較好地解決海量存儲和海量計算方面的應用需求。本文重點描述作為NoSQL之一MongoDB資料庫在海量數據存儲方面的應用。

由於MongoDB中的Bson對象大小是有限制的，在1.7版本以前單個Bson對象最大容量為4M，1.7版本以後單個Bson對象最大容量為16M[5]。對於一般的文件存儲，單個對象的4到16M的存儲容量能夠滿足需求，但無法滿足對於一些大文件的存儲，如高清圖片、設計圖紙、視頻等，因此在海量數據存儲方面，MongoDB提供了內置的Grid

基於GridFS的海量數據存儲測試
本文主要採用MongoDB最新版2.0及官方提供的C#語言驅動進行測試。

mongodb分布式存儲大數據

與mongodb分布式存儲大數據相關的內容