千萬條數據用什麼存儲_大數據平台為什麼可以用來儲存巨量的數據

『壹』千萬條數據用代碼還是sql

千萬條數據是用SQL的。
1.真正做過幾個項目才會明白,寫sql語句會比編程代碼還要多。真正的程序,其實是sql。最後說一句,如果經驗足夠豐富,寫出的統計過程,其執行時間在數分鍾甚至幾個小時都是正常的。
2.在SQL語句中實現通常效率更高，因為在java代碼中往往會損耗很大性能。比如一個最簡單的場景A表100W，B表100W，他們連接的結果是1000條數據。那麼在SQL裡面做連接操作的話，資料庫和java程序之間只需要傳遞1000條數據。如果在Java代碼裡面實現資料庫和Java程序之間需要傳遞200W條數據。
3.從這個簡單的場景可以看到，徒增了傳輸的性能損耗。並且占據了更多應用進程的內存和CPU資源，所以大部分場景下建議是在SQL裡面處理比較優。

『貳』互聯網如何海量存儲數據

目前存儲海量數據的技術主要包括NoSQL、分布式文件系統、和傳統關系型資料庫。隨著互聯網行業不斷的發展，產生的數據量越來越多，並且這些數據的特點是半結構化和非結構化，數據很可能是不精確的，易變的。這樣傳統關系型資料庫就無法發揮它的優勢。因此，目前互聯網行業偏向於使用NoSQL和分布式文件系統來存儲海量數據。

下面介紹下常用的NoSQL和分布式文件系統。
NoSQL
互聯網行業常用的NoSQL有：HBase、MongoDB、Couchbase、LevelDB。

HBase是Apache Hadoop的子項目,理論依據為Google論文 Bigtable: A Distributed Storage System for Structured Data開發的。HBase適合存儲半結構化或非結構化的數據。HBase的數據模型是稀疏的、分布式的、持久穩固的多維map。HBase也有行和列的概念，這是與RDBMS相同的地方，但卻又不同。HBase底層採用HDFS作為文件系統，具有高可靠性、高性能。

MongoDB是一種支持高性能數據存儲的開源文檔型資料庫。支持嵌入式數據模型以減少對資料庫系統的I/O、利用索引實現快速查詢，並且嵌入式文檔和集合也支持索引，它復制能力被稱作復制集（replica set），提供了自動的故障遷移和數據冗餘。MongoDB的分片策略將數據分布在伺服器集群上。

Couchbase這種NoSQL有三個重要的組件：Couchbase伺服器、Couchbase Gateway、Couchbase Lite。Couchbase伺服器，支持橫向擴展，面向文檔的資料庫，支持鍵值操作，類似於SQL查詢和內置的全文搜索;Couchbase Gateway提供了用於RESTful和流式訪問數據的應用層API。Couchbase Lite是一款面向移動設備和「邊緣」系統的嵌入式資料庫。Couchbase支持千萬級海量數據存儲
分布式文件系統
如果針對單個大文件，譬如超過100MB的文件，使用NoSQL存儲就不適當了。使用分布式文件系統的優勢在於，分布式文件系統隔離底層數據存儲和分布的細節，展示給用戶的是一個統一的邏輯視圖。常用的分布式文件系統有Google File System、HDFS、MooseFS、Ceph、GlusterFS、Lustre等。

相比過去打電話、發簡訊、用彩鈴的「老三樣」，移動互聯網的發展使得人們可以隨時隨地通過刷微博、看視頻、微信聊天、瀏覽網頁、地圖導航、網上購物、外賣訂餐等，這些業務的海量數據都構建在大規模網路雲資源池之上。當14億中國人把衣食住行搬上移動互聯網的同時，也給網路雲資源池帶來巨大業務挑戰。

首先，用戶需求動態變化，傳統業務流量主要是端到端模式，較為穩定；而互聯網流量易受熱點內容牽引，數據流量流向復雜和規模多變：比如雙十一購物狂潮，電商平台訂單創建峰值達到58.3萬筆，要求通信網路提供高並發支持；又如優酷春節期間有超過23億人次上網刷劇、抖音拜年短視頻增長超10倍，需要通信網路能夠靈活擴充帶寬。面對用戶動態多變的需求，通信網路需要具備快速洞察和響應用戶需求的能力，提供高效、彈性、智能的數據服務。

「隨著通信網路管道十倍百倍加粗、節點數從千萬級逐漸躍升至百億千億級，如何『接得住、存得下』海量數據，成為網路雲資源池建設面臨的巨大考驗」，李輝表示。一直以來，作為新數據存儲首倡者和引領者，浪潮存儲攜手通信行業用戶，不斷探索提速通信網路雲基礎設施的各種姿勢。

早在2018年，浪潮存儲就參與了通信行業基礎設施建設，四年內累計交付約5000套存儲產品，涵蓋全快閃記憶體儲、高端存儲、分布式存儲等明星產品。其中在網路雲建設中，浪潮存儲已連續兩年兩次中標全球最大的NFV網路雲項目，其中在網路雲二期建設中，浪潮存儲提供數千節點，為上層網元、應用提供高效數據服務。在最新的NFV三期項目中，浪潮存儲也已中標。

能夠與通信用戶在網路雲建設中多次握手，背後是浪潮存儲的持續技術投入與創新。浪潮存儲6年內投入超30億研發經費，開發了業界首個「多合一」極簡架構的浪潮並行融合存儲系統。此存儲系統能夠統籌管理數千個節點，實現性能、容量線性擴展；同時基於浪潮iTurbo智能加速引擎的智能IO均衡、智能資源調度、智能元數據管理等功能，與自研NVMe SSD快閃記憶體檔進行系統級別聯調優化，讓百萬級IO均衡落盤且路徑更短，將存儲系統性能發揮到極致。

「為了確保全球最大規模的網路雲正常上線運行，我們聯合用戶對存儲集群展開了長達數月的魔鬼測試」，浪潮存儲工程師表示。網路雲的IO以虛擬機數據和上層應用數據為主，浪潮按照每個存儲集群支持15000台虛機進行配置，分別對單卷隨機讀寫、順序寫、混合讀寫以及全系統隨機讀寫的IO、帶寬、時延等指標進行了360無死角測試，達到了通信用戶提出的單卷、系統性能不低於4萬和12萬IOPS、時延小於3ms的要求，產品成熟度得到了驗證。

以通信行業為例，2020年全國移動互聯網接入流量1656億GB，相當於中國14億人每人消耗118GB數據；其中春節期間，移動互聯網更是創下7天消耗36億GB數據流量的記錄，還「捎帶」打了548億分鍾電話、發送212億條簡訊……海量實時數據洪流，在網路雲資源池(NFV)支撐下收放自如，其中分布式存儲平台發揮了作用。如此樣板工程，其巨大示範及拉動作用不言而喻。

『叄』如果需要對磁碟上的1000W條記錄構建索引，你認為下面哪種數據結構來存儲索引最合

選C
AVL-Tree 檢索速度是很快的，這是因為二分檢索是樹結構的一個本質特性。但是最大的缺點是他的存儲利用率太低。每個樹節點僅僅有一個數據項，有2個指針和每個數據項的控制信息。

Hash Table當溢出發生時可以分裂成2個節點。目錄以2的指數倍增長，只要一個節點溢出而且目錄已經達到了指定的最大目錄深度，他就會加倍。一個問題就是任何一個節點都能引起目錄分裂，因此如果Hash函數不是很隨機的話，目錄可能增長的很大。

List優點是存取方便，但不便於動態維護，進行插入刪除等操作時需要移動大量的數據。

B-tree是比較合適用於磁碟的數據結構，由於他是一個寬而淺的樹，查找一個數需要訪問很少的節點。內存利用率是比較好的，所以他用於內存資料庫比較合適；搜索速度比較快（用二分查找時，只訪問很少一部分節點）；而且更新速度也比較快（數據移動通常只涉及到一個節點）

『肆』 redis千萬數據放緩存合理么

Redis是一種高性能的內存資料庫,它可以用來存儲高速緩存數據。

將數據存儲在緩存中可以提高系統的性能，因為從緩存中讀取數據的速度比從資料庫中讀取數據的速度快得多。

但是，將所有數據都放入緩存中可能並不是最優解。緩存有一定的容量限制，如果緩存容量不足以容納所有數據，那麼緩存就會淘汰部分數據，這樣就會導致緩存命中率降低，系統性能也會降低。因此，應該根據實際情況合理設置緩存容量，並將重要的、頻繁使用的數據放入緩存中。

『伍』 sql server需要存儲1000萬條數據該怎麼辦

以現在的技術，有下面的提示給你：
一、配置為：雙CPU（四核）/RAID5陣列硬碟
的當前的典型數據伺服器，可以存儲每條數據長度不是過大的1000萬條以上數據。
二、存儲是一回事，處理好數據是另一回事，如果對這千萬條數據，在做好關鍵欄位的索引後，只是存儲和查詢的話，速度不會太慢，一般最多幾秒內能給出查找結果。
三、但是，如果你要對這千萬條數據進行分組匯總之類的操作的話，那就很麻煩了，可能慢到你無法接受，甚至會給出超時等報錯的提示。解決的辦法是，優化查詢語句，進行存儲過程的合理編寫。
四、千萬條數據一般會使得資料庫文件的體積達到幾十G甚至更多。

『陸』大數據平台為什麼可以用來儲存巨量的數據

大數據技術是指從各種各樣類型的數據中，快速獲得有價值信息的能力。適用於大數據的技術，包括大規模並行處理（MPP）資料庫，數據挖掘電網，分布式文件系統，分布式資料庫，雲計算平台，互聯網，和可擴展的存儲系統。

採用非關系型資料庫技術(NoSQL)和資料庫集群技術(MPP NewSQL)快速處理非結構化以及半結構化的數據，以獲取高價值信息，這與傳統數據處理技術有著本質的區別。

數據的技術應用范圍與使用范圍很廣，背後也擁有者足夠的商業價值，這就讓大數據工程師以及數據分析人員有了越來越高的價值。所以更多人選擇學習大數據

『柒』數據多的時候為什麼要使用redis而不用mysql

通常來說，當數據多、並發量大的時候，架構中可以引入Redis，幫助提升架構的整體性能，減少Mysql(或其他資料庫)的壓力，但不是使用Redis，就不用MySQL。

因為Redis的性能十分優越，可以支持每秒十幾萬此的讀/寫操作，並且它還支持持久化、集群部署、分布式、主從同步等，Redis在高並發的場景下數據的安全和一致性，所以它經常用於兩個場景：

緩存

判斷數據是否適合緩存到Redis中，可以從幾個方面考慮：會經常查詢么？命中率如何？寫操作多麼？數據大小？

我們經常採用這樣的方式將數據刷到Redis中：查詢的請求過來，現在Redis中查詢，如果查詢不到，就查詢資料庫拿到數據，再放到緩存中，這樣第二次相同的查詢請求過來，就可以直接在Redis中拿到數據；不過要注意【緩存穿透】的問題。

緩存的刷新會比較復雜，通常是修改完資料庫之後，還需要對Redis中的數據進行操作；代碼很簡單，但是需要保證這兩步為同一事務，或最終的事務一致性。

高速讀寫

常見的就是計數器，比如一篇文章的閱讀量，不可能每一次閱讀就在資料庫裡面update一次。

高並發的場景很適合使用Redis，比如雙11秒殺，庫存一共就一千件，到了秒殺的時間，通常會在極為短暫的時間內，有數萬級的請求達到伺服器，如果使用資料庫的話，很可能在這一瞬間造成資料庫的崩潰，所以通常會使用Redis（秒殺的場景會比較復雜，Redis只是其中之一，例如如果請求超過某個數量的時候，多餘的請求就會被限流）。

這種高並發的場景，是當請求達到伺服器的時候，直接在Redis上讀寫，請求不會訪問到資料庫；程序會在合適的時間，比如一千件庫存都被秒殺，再將數據批量寫到資料庫中。

所以通常來說，在必要的時候引入Redis，可以減少MySQL（或其他）資料庫的壓力，兩者不是替代的關系。

我將持續分享Java開發、架構設計、程序員職業發展等方面的見解，希望能得到你的關注。

Redis和MySQL的應用場景是不同的。

通常來說，沒有說用Redis就不用MySQL的這種情況。

因為Redis是一種非關系型資料庫（NoSQL），而MySQL是一種關系型資料庫。

和Redis同類的資料庫還有MongoDB和Memchache（其實並沒有持久化數據）

那關系型資料庫現在常用的一般有MySQL，SQL Server，Oracle。

我們先來了解一下關系型資料庫和非關系型資料庫的區別吧。

1.存儲方式

關系型資料庫是表格式的，因此存儲在表的行和列中。他們之間很容易關聯協作存儲，提取數據很方便。而Nosql資料庫則與其相反，他是大塊的組合在一起。通常存儲在數據集中，就像文檔、鍵值對或者圖結構。

2.存儲結構

關系型資料庫對應的是結構化數據，數據表都預先定義了結構（列的定義），結構描述了數據的形式和內容。這一點對數據建模至關重要，雖然預定義結構帶來了可靠性和穩定性，但是修改這些數據比較困難。而Nosql資料庫基於動態結構，使用與非結構化數據。因為Nosql資料庫是動態結構，可以很容易適應數據類型和結構的變化。

3.存儲規范

關系型資料庫的數據存儲為了更高的規范性，把數據分割為最小的關系表以避免重復，獲得精簡的空間利用。雖然管理起來很清晰，但是單個操作設計到多張表的時候，數據管理就顯得有點麻煩。而Nosql數據存儲在平面數據集中，數據經常可能會重復。單個資料庫很少被分隔開，而是存儲成了一個整體，這樣整塊數據更加便於讀寫

4.存儲擴展

這可能是兩者之間最大的區別，關系型資料庫是縱向擴展，也就是說想要提高處理能力，要使用速度更快的計算機。因為數據存儲在關系表中，操作的性能瓶頸可能涉及到多個表，需要通過提升計算機性能來克服。雖然有很大的擴展空間，但是最終會達到縱向擴展的上限。而Nosql資料庫是橫向擴展的，它的存儲天然就是分布式的，可以通過給資源池添加更多的普通資料庫伺服器來分擔負載。

5.查詢方式

關系型資料庫通過結構化查詢語言來操作資料庫（就是我們通常說的SQL）。SQL支持資料庫CURD操作的功能非常強大，是業界的標准用法。而Nosql查詢以塊為單元操作數據，使用的是非結構化查詢語言（UnQl），它是沒有標準的。關系型資料庫表中主鍵的概念對應Nosql中存儲文檔的ID。關系型資料庫使用預定義優化方式（比如索引）來加快查詢操作，而Nosql更簡單更精確的數據訪問模式。

6.事務

關系型資料庫遵循ACID規則（原子性(Atomicity)、一致性(Consistency)、隔離性(Isolation)、持久性(Durability)），而Nosql資料庫遵循BASE原則（基本可用（Basically Availble）、軟/柔性事務（Soft-state ）、最終一致性（Eventual Consistency））。由於關系型資料庫的數據強一致性，所以對事務的支持很好。關系型資料庫支持對事務原子性細粒度控制，並且易於回滾事務。而Nosql資料庫是在CAP（一致性、可用性、分區容忍度）中任選兩項，因為基於節點的分布式系統中，很難全部滿足，所以對事務的支持不是很好，雖然也可以使用事務，但是並不是Nosql的閃光點。

7.性能

關系型資料庫為了維護數據的一致性付出了巨大的代價，讀寫性能比較差。在面對高並發讀寫性能非常差，面對海量數據的時候效率非常低。而Nosql存儲的格式都是key-value類型的，並且存儲在內存中，非常容易存儲，而且對於數據的一致性是弱要求。Nosql無需sql的解析，提高了讀寫性能。

8.授權方式

大多數的關系型資料庫都是付費的並且價格昂貴，成本較大（MySQL是開源的，所以應用的場景最多），而Nosql資料庫通常都是開源的。

所以，在實際的應用環境中，我們一般會使用MySQL存儲我們的業務過程中的數據，因為這些數據之間的關系比較復雜，我們常常會需要在查詢一個表的數據時候，將其他關系表的數據查詢出來，例如，查詢某個用戶的訂單，那至少是需要用戶表和訂單表的數據。

查詢某個商品的銷售數據，那可能就會需要用戶表，訂單表，訂單明細表，商品表等等。

而在這樣的使用場景中，我們使用Redis來存儲的話，也就是KeyValue形式存儲的話，其實並不能滿足我們的需要。

即使Redis的讀取效率再高，我們也沒法用。

但，對於某些沒有關聯少，且需要高頻率讀寫，我們使用Redis就能夠很好的提高整個體統的並發能力。

例如商品的庫存信息，我們雖然在MySQL中會有這樣的欄位，但是我們並不想MySQL的資料庫被高頻的讀寫，因為使用這樣會導致我的商品表或者庫存表IO非常高，從而影響整個體統的效率。

所以，對於這樣的數據，且有沒有什麼復雜邏輯關系（就只是隸屬於SKU）的數據，我們就可以放在Redis裡面，下單直接在Redis中減掉庫存，這樣，我們的訂單的並發能力就能夠提高了。

個人覺得應該站出來更正一下，相反的數據量大，更不應該用redis。

為什麼？

因為redis是內存型資料庫啊，是放在內存里的。

設想一下，假如你的電腦100G的資料，都用redis來存儲，那麼你需要100G以上的內存！

使用場景

Redis最明顯的用例之一是將其用作緩存。只是保存熱數據，或者具有過期的cache。

例如facebook，使用Memcached來作為其會話緩存。

總之，沒有見過哪個大公司數據量大了，換掉mysql用redis的。

題主你錯了，不是用redis代替MySQL，而是引入redis來優化。

BAT里越來越多的項目組已經採用了redis+MySQL的架構來開發平台工具。

如題主所說，當數據多的時候，MySQL的查詢效率會大打折扣。我們通常默認如果查詢的欄位包含索引的話，返回是毫秒級別的。但是在實際工作中，我曾經遇到過一張包含10個欄位的表，1800萬+條數據，當某種場景下，我們不得不根據一個未加索引的欄位進行精確查詢的時候，單條sql語句的執行時長有時能夠達到2min以上，就更別提如果用like這種模糊查詢的話，其效率將會多麼低下。

我們最開始是希望能夠通過增加索引的方式解決，但是面對千萬級別的數據量，我們也不敢貿然加索引，因為一旦資料庫hang住，期間的所有資料庫寫入請求都會被放到等待隊列中，如果請求是通過http請求發過來的，很有可能導致服務發生分鍾級別的超時不響應。

經過一番調研，最終敲定的解決方案是引入redis作為緩存。redis具有運行效率高，數據查詢速度快，支持多種存儲類型以及事務等優勢，我們把經常讀取，而不經常改動的數據放入redis中，伺服器讀取這類數據的時候時候，直接與redis通信，極大的緩解了MySQL的壓力。

然而，我在上面也說了，是redis+MySQL結合的方式，而不是替代。原因就是redis雖然讀寫很快，但是不適合做數據持久層，主要原因是使用redis做數據落盤是要以效率作為代價的，即每隔制定的時間，redis就要去進行數據備份/落盤，這對於單線程的它來說，勢必會因「分心」而影響效率，結果得不償失。

樓主你好，首先糾正下，數據多並不是一定就用Redis，Redis歸屬於NoSQL資料庫中，其特點擁有高性能讀寫數據速度，主要解決業務效率瓶頸。下面就詳細說下Redis的相比MySQL優點。（關於Redis詳細了解參見我近期文章：https://www.toutiao.com/i6543810796214813187/ ）

讀寫異常快

Redis非常快，每秒可執行大約10萬次的讀寫速度。

豐富的數據類型

Redis支持豐富的數據類型，有二進制字元串、列表、集合、排序集和散列等等。這使得Redis很容易被用來解決各種問題，因為我們知道哪些問題可以更好使用地哪些數據類型來處理解決。

原子性

Redis的所有操作都是原子操作，這確保如果兩個客戶端並發訪問，Redis伺服器能接收更新的值。

豐富實用工具支持異機主從復制

Redis支持主從復制的配置，它可以實現主伺服器的完全拷貝。

以上為開發者青睞Redis的主要幾個可取之處。但是，請注意實際生產環境中企業都是結合Redis和MySQL的特定進行不同應用場景的取捨。如緩存——熱數據、計數器、消息隊列（與ActiveMQ，RocketMQ等工具類似）、位操作（大數據處理）、分布式鎖與單線程機制、最新列表（如新聞列表頁面最新的新聞列表）以及排行榜等等可以看見Redis大顯身手的場景。可是對於嚴謹的數據准確度和復雜的關系型應用MySQL等關系型資料庫依然不可替。

web應用中一般採用MySQL+Redis的方式，web應用每次先訪問Redis，如果沒有找到數據，才去訪問MySQL。

本質區別

1、mysql：數據放在磁碟 redis：數據放在內存。

首先要知道mysql存儲在磁碟里，redis存儲在內存里，redis既可以用來做持久存儲，也可以做緩存，而目前大多數公司的存儲都是mysql + redis，mysql作為主存儲，redis作為輔助存儲被用作緩存，加快訪問讀取的速度，提高性能。

使用場景區別

1、mysql支持sql查詢，可以實現一些關聯的查詢以及統計；

2、redis對內存要求比較高，在有限的條件下不能把所有數據都放在redis；

3、mysql偏向於存數據，redis偏向於快速取數據，但redis查詢復雜的表關系時不如mysql，所以可以把熱門的數據放redis，mysql存基本數據。

mysql的運行機制

mysql作為持久化存儲的關系型資料庫，相對薄弱的地方在於每次請求訪問資料庫時，都存在著I/O操作，如果反復頻繁的訪問資料庫。第一：會在反復鏈接資料庫上花費大量時間，從而導致運行效率過慢；第二：反復地訪問資料庫也會導致資料庫的負載過高，那麼此時緩存的概念就衍生了出來。

Redis持久化

由於Redis的數據都存放在內存中，如果沒有配置持久化，redis重啟後數據就全丟失了，於是需要開啟redis的持久化功能，將數據保存到磁碟上，當redis重啟後，可以從磁碟中恢復數據。redis提供兩種方式進行持久化，一種是RDB持久化（原理是將Reids在內存中的資料庫記錄定時mp到磁碟上的RDB持久化），另外一種是AOF（append only file）持久化（原理是將Reids的操作日誌以追加的方式寫入文件）。

redis是放在內存的~！

數據量多少絕對不是選擇redis和mysql的准則，因為無論是mysql和redis都可以集群擴展，約束它們的只是硬體(即你有沒有那麼多錢搭建上千個組成的集群)，我個人覺得數據讀取的快慢可能是選擇的標准之一，另外工作中往往是兩者同是使用，因為mysql存儲在硬碟，做持久化存儲，而redis存儲在內存中做緩存提升效率。

關系型資料庫是必不可少的，因為只有關系型資料庫才能提供給你各種各樣的查詢方式。如果有一系列的數據會頻繁的查詢，那麼就用redis進行非持久化的存儲，以供查詢使用，是解決並發性能問題的其中一個手段

『捌』 DB2千萬或億級的數據如何存儲性能才最好

db2 list db directory $disk $disk 換成你的D:盤或者E:盤，DB2 Windows只允許安裝在盤符根目錄下，這樣就可以查看到盤里是否有資料庫，如果發現了catalog一下資料庫就回來了

『玖』適合用電子表格或關系資料庫存儲的是什麼

資料庫中存儲的是電子文件。
資料庫是存放數據的倉庫。它的存儲空間很大，可以存放百萬條、千萬條、上億條數據。但是資料庫並不是隨意地將數據進行存放，是有一定的規則的，否則查詢的效率會很低，當今世界是一個充滿著數據的互聯網世界，充斥著大量的數據，即這個互聯網世界就是數據世界。數據的來源有很多，比如出行記錄、消費記錄、瀏覽的網頁、發送的消息等等。除了文本類型的數據，圖像、音樂、聲音都是數據。

千萬條數據用什麼存儲

與千萬條數據用什麼存儲相關的內容