雙活存儲故障測試_存儲雙活的必要性

1. 雙活數據中心是什麼

雙活數據中心指的是熱備份數據中心和冷備份中心。

1、在熱備份的情況下，只有主數據中心承擔用戶的業務，此時備數據中心對主數據中心進行實時的備份，備數據中心可以自動接管主數據中心的業務，用戶的業務不會中斷，所以也感覺不到數據中心的切換。

2、在冷備份的情況下，也是只有主數據中心承擔業務，但是備用數據中心不會對主數據中心進行實時備份，這時可能是周期性的進行備份或者乾脆不進行備份，如果主數據中心掛掉了，用戶的業務就會中斷。

(1)雙活存儲故障測試擴展閱讀：

雙活數據中心的優點：

能夠充分利用資源，避免了一個數據中心常年處於閑置狀態而造成浪費。通過資源整合，「雙活」數據中心的服務能力是雙倍的。雙活數據中心如果斷了一個數據中心，另外一個數據中心還在運行，對用戶來說是不可感知的。

雙活數據中心的建設三個條件：

雙活數據中心的建設首先要滿足三個條件，第一個是應用雙活，也就是說資料庫一定要實現雙活，第二個是網路要雙活，業務網路要保證能夠同時聯通兩個數據中心，第三個是數據要雙活，兩邊的數據要能夠實現被獨立使用。

參考資料來源：網路：數據中心

2. 存儲雙活的必要性

存儲雙活的必要性：

隨著雲計算的發展，越來越多的生產服務轉化成IT應用部署到數據中心。業務連續性的重要性也得到越來越多的關注，而且人們的關注點也不再僅僅集中於前端主機的高可用，而是開始意識到作為數據服務基石——存儲層業務連續性的重要性。

存儲是數據服務的基礎，近幾年人們對存儲層的高可用越來越重視。只是前端主機實現應用雙活，存儲不實現雙活無法建立真正的雙活數據中心。存儲雙活的這個「雙」代表兩份數據（或兩台存儲），「活」代表這兩份數據（或兩台存儲）都可以被讀寫訪問，類似於主機A-A模式的集群。

設計雙活存儲高可用，防止仲裁防腦裂的方法：

AA模式的雙活存儲，在某些特定的多重故障下，仲裁機制會優先保證數據的一致性，可能會將雙活存儲上的所有LUN都停止主機訪問。所以，在設計仲裁模式的時候，建議建立第三方站點作為仲裁機，但也不能完全避免上述情況。

所以，還要考慮強制啟動，而強制啟動端的存儲作為同步源端，會在鏈路恢復後同步增量差異數據。

3. 雙活與容災有什麼不同

雙活是容災范疇里的延伸技術，雙活和容災的區別主要體現在從屬概念上，容災在更廣義上還包括在建立容災備份系統時會涉及到多種技術，如：SAN或NAS技術、遠程鏡像技術、基於IP的SAN的互連技術、快照技術等。雙活技術體現了容災思維的基本脈絡，從容災思維意義上沒本質區別。

綜上對比發現：容災是一個范疇比較廣泛的概念。廣義上，容災是一個系統工程，包括所有與業務連續性相關的內容。對於IT而言，容災是提供一個能防止用戶業務系統遭受各種災難影響破壞的計算機系統。而雙活主要建立在狹義概念上，是指建立兩套或多套功能相同的IT系統，互相之間可以進行健康狀態監視和功能切換，當主要站點因意外（如火災、地震、城市供電中斷等）停止工作時，整個應用系統可以利用輔助站點快速恢復，並繼續工作。

4. 相比於單純的備份，雙活的優勢有哪些

相比於單純的備份，雙活是使用主備兩套IT系統同時承載業務（一般「主」所承載的業務量會更多），這樣既增加了業務承載量，同時主備又可以互為備援，當一套系統出現故障時可以快速切換到備端，從而保障業務的連續運行，最大程度降低人為或自然災害對業務造成的影響。但雙活的一個致命問題是無法解決邏輯錯誤問題，基於存儲層面的雙活一旦遭遇誤刪除、惡意篡改這種邏輯性錯誤，也就是出現我們常說的「雙死」問題。

5. 存儲器的測試

存儲器測試的目的是確認在存儲設備中的每一個存儲位置都在工作。換一句話說，如果你把數50存儲在一個具體的地址，你希望可以找到存儲在那裡的那個數，直到另一個數寫入。任何存儲器測試的基本方法是，往存儲器寫入一些數據，然後根據內存設備的地址，校驗讀回的數據。如果所有讀回的數據和那些寫入的數據是一樣的，那麼就可以說存儲設備通過了測試。只有通過認真選擇的一組數據你才可以確信通過的結果是有意義的。
當然，像剛才描述的有儲器的測試不可避免地具有破壞性。在內存測試過程中，你必須覆蓋它原先的內容。因為重寫非易失性存儲器內容通常來說是不可行的，這一部分描述的測試通常只適用於RAM 的測試。一，普通的存儲器問題
在學習具體的測試演算法之前，你應該了解可能遇到的各種存儲器問題。在軟體工程師中一個普遍的誤解是，大部分的存儲器問題發生在晶元的內部。盡管這類問題一度是一個主要的問題，但是它們在日益減少。存儲設備的製造商們對於每一個批量的晶元都進行了各種產品後期測試。因此，即使某一個批量有問題，其中某個壞晶元進人到你的系統的可能性是微乎其微的。
你可能遇到的一種類型的存儲晶元問題是災難性的失效。這通常是在加工好之後晶元受到物理或者是電子損傷造成的。災難性失效是少見的，通常影響晶元中的大部分。因為一大片區域受到影響，所以災難性的失效當然可以被合適的測試演算法檢測到。
存儲器出問題比較普遍的原因是電路板故障。典型的電路板故障有：
（1）在處理器與存儲設備之間的連線問題
（2）無存儲器晶元
（3）存儲器晶元的不正確插人
二，測試策略
最好有三個獨立的測試：數據匯流排的測試、地址匯流排的測試以及設備的測試。前面兩個測試針對電子連線的問題以及晶元的不正確插入；第三個測試更傾向於檢測晶元的有無以及災難性失效。作為一個意外的結果，設備的測試也可以發現控制匯流排的問題，盡管它不能提供關於問題來源的有用信息。
執行這三個測試的順序是重要的。正確的順序是：首先進行數據匯流排測試，接著是地址匯流排測試，最後是設備測試。那是因為地址匯流排測試假設數據匯流排在正常工作，除非數據匯流排和地址匯流排已知是正常的，否則設備測試便毫無意義。如果任何測試失敗，你都應該和一個硬體工程師一起確定問題的來源。通過查看測試失敗處的數據值或者地址，應該能夠迅速地找出電路板上的問題。
1，數據匯流排測試
我們首先要測試的就是數據匯流排。我們需要確定任何由處理器放置在數據匯流排上的值都被另一端的存儲設備正確接收。最明顯的測試方法就是寫人所有可能的數據值並且驗證存儲設備成功地存儲了每一個。然而，那並不是最有效率的測試方法。一個更快的測試方法是一次測試匯流排上的一位。如果每一個數據上可被設置成為 0 和1，而不受其他數據位的影響，那麼數據匯流排就通過了測試。
2，地址匯流排測試
在確認數據匯流排工作正常之後，你應該接著測試地址匯流排。記住地址匯流排的問題將導致存儲器位置的重疊。有很多可能重疊的地址。然而，不必要測試每一個可能的組合。你應該努力在測試過程中分離每一個地址位。你只需要確認每一個地址線的管腳都可以被設置成0和 1，而不影響其他的管腳。
3，設備測試
一旦你知道地址和數據匯流排是正確的，那麼就有必要測試存儲設備本身的完整性。要確認的是設備中的每一位都能夠保持住0和 1。這個測試實現起來十分簡單，但是它花費的時間比執行前面兩項測試花費的總時間還要長。
對於一個完整的設備測試，你必須訪問（讀和寫）每一個存儲位置兩次。你可以自由地選擇任何數據作為第一步測試的數據，只要在進行第二步測試的時候把這個值求反即可。因為存在沒有存儲器晶元的可能性，所以最好選擇一組隨著地址變化（但是不等於地址）的數。優化措施
市場上並不缺少提高數據存儲效率的新技術，然而這些新技術絕大多數都是關注備份和存檔的，而非主存儲。但是，當企業開始進行主存儲數據縮減時，對他們來說，了解主存儲優化所要求的必要條件十分重要。
主存儲，常常被稱為1級存儲，其特徵是存儲活躍數據――即經常被存取並要求高性能、低時延和高可用性的數據。主存儲一般用於支持關鍵任務應用，如資料庫、電子郵件和交易處理。大多數關鍵應用具有隨機的數據取存模式和不同的取存要求，但它們都生成機構用來運營它們的業務的大量的數據。因此，機構製作數據的許多份拷貝，復制數據供分布使用，庫存數據，然後為安全保存備份和存檔數據。
絕大多數數據是起源於主數據。隨著數據存在的時間增加，它們通常被遷移到二級和三級存儲保存。因此，如果機構可以減少主數據存儲佔用空間，將能夠在數據生命期中利用這些節省下來的容量和費用。換句話說，更少的主存儲佔用空間意味著更少的數據復制、庫存、存檔和備份。
試圖減少主存儲佔用空間存儲管理人員可以考慮兩種減少數據的方法：實時壓縮和數據去重。
直到不久前，由於性能問題，數據壓縮一直沒有在主存儲應用中得到廣泛應用。然而，Storwize等廠商提供利用實時、隨機存取壓縮/解壓技術將數據佔用空間壓縮15:1的解決方案。更高的壓縮率和實時性能使壓縮解決方案成為主存儲數據縮減的可行的選擇。
在備份應用中廣泛採用的數據去重技術也在被應用到主存儲。目前為止，數據去重面臨著一大挑戰，即數據去重處理是離線處理。這是因為確定數量可能多達數百萬的文件中的多餘的數據塊需要大量的時間和存儲處理器做大量的工作，因此非常活躍的數據可能受到影響。當前，推出數據去重技術的主要廠商包括NetApp、Data Domain和OcarinaNetworks。一、零性能影響
與備份或存檔存儲不同，活躍數據集的性能比能夠用某種形式的數據縮減技術節省的存儲容量更為關鍵。因此，選擇的數據縮減技術必須不影響到性能。它必須有效和簡單；它必須等價於「撥動一個開關，就消耗更少的存儲」。
活躍存儲縮減解決方案只在需要去重的數據達到非活躍狀態時才為活躍存儲去重。換句話說，這意味著實際上只對不再被存取但仍保存在活躍存儲池中的文件――近活躍存儲級――進行去重。
去重技術通過建議只對輕I/O工作負載去重來避免性能瓶頸。因此，IT基礎設施的關鍵組件的存儲沒有得到優化。資料庫排在關鍵組件清單之首。由於它們是1級存儲和極其活躍的組件並且幾乎始終被排除在輕工作負載之外，去重處理從來不分析它們。因此，它們在主存儲中占據的空間沒有得到優化。
另一方面，實時壓縮系統實時壓縮所有流經壓縮系統的數據。這導致節省存儲容量之外的意外好處：存儲性能的提高。當所有數據都被壓縮時，每個I/O請求提交的數據量都有效地增加，硬碟空間增加了，每次寫和讀操作都變得效率更高。
實際結果是佔用的硬碟容量減少，總體存儲性能顯著提高。
主存儲去重的第二個好處是所有數據都被減少，這實現了包括資料庫在內的所有數據的容量節省。盡管Oracle環境的實時數據壓縮可能造成一些性能問題，但迄今為止的測試表明性能提高了。
另一個問題是對存儲控制器本身的性能影響。人們要求今天的存儲控制器除了做伺服硬碟外，還要做很多事情，包括管理不同的協議，執行復制和管理快照。再向這些功能增加另一個功能可能會超出控制器的承受能力――即使它能夠處理額外的工作負載，它仍增加了一個存儲管理人員必須意識到可能成為潛在I/O瓶頸的過程。將壓縮工作交給外部專用設備去做，從性能問題中消除了一個變數，而且不會給存儲控制器造成一點影響。
二、高可用性
許多關注二級存儲的數據縮減解決方案不是高可用的。這是由於它們必須立即恢復的備份或存檔數據不像一級存儲中那樣關鍵。但是，甚至在二級存儲中，這種概念也逐漸不再時興，高可用性被作為一種選擇添加到許多二級存儲系統中。
可是，高可用性在主存儲中並不是可選的選項。從數據縮減格式(被去重或被壓縮)中讀取數據的能力必須存在。在數據縮減解決方案中(其中去重被集成到存儲陣列中)，冗餘性是幾乎總是高可用的存儲陣列的必然結果。
在配件市場去重系統中，解決方案的一個組件以數據的原始格式向客戶機提供去重的數據。這個組件就叫做讀出器(reader)。讀出器也必須是高可用的，並且是無縫地高可用的。一些解決方案具有在發生故障時在標准伺服器上載入讀出器的能力。這類解決方案經常被用在近活躍的或更合適的存檔數據上;它們不太適合非常活躍的數據集。
多數聯機壓縮系統被插入系統中和網路上，放置(邏輯上)在交換機與存儲之間。因此，它們由於網路基礎設施級上幾乎總是設計具有的高可用性而取得冗餘性。沿著這些路徑插入聯機專用設備實現了不需要IT管理人員付出額外努力的無縫的故障切換；它利用了已經在網路上所做的工作。
三、節省空間
部署這些解決方案之一必須帶來顯著的容量節省。如果減少佔用容量的主存儲導致低於標準的用戶性能，它沒有價值。
主數據不具有備份數據通常具有的高冗餘存儲模式。這直接影響到總體容量節省。這里也有兩種實現主數據縮減的方法：數據去重和壓縮。
數據去重技術尋找近活躍文件中的冗餘數據，而能取得什麼水平的數據縮減將取決於環境。在具有高冗餘水平的環境中，數據去重可以帶來顯著的ROI(投資回報)，而另一些環境只能取得10%到20%的縮減。
壓縮對所有可用數據都有效，並且它在可以為高冗餘數據節省更多的存儲容量的同時，還為主存儲應用常見的更隨機的數據模式始終帶來更高的節省。
實際上，數據模式冗餘度越高，去重帶來的空間節省就越大。數據模式越隨機，壓縮帶來的空間節省就越高。
四、獨立於應用
真正的好處可能來自所有跨數據類型(不管產生這些數據是什麼應用或數據有多活躍)的數據縮減。雖然實際的縮減率根據去重數據的水平或數據的壓縮率的不同而不同，但所有數據都必須合格。
當涉及存檔或備份時，應用特有的數據縮減具有明確的價值，並且有時間為這類數據集定製縮減過程。但是對於活躍數據集，應用的特殊性將造成性能瓶頸，不會帶來顯著的容量縮減的好處。
五、獨立於存儲
在混合的廠商IT基礎設施中，跨所有平台使用同樣的數據縮減工具的能力不僅將進一步增加數據縮減的ROI好處，而且還簡化了部署和管理。每一個存儲平台使用一種不同的數據縮減方法將需要進行大量的培訓，並造成管理級上的混亂。
六、互補
在完成上述所有優化主存儲的工作後，當到了備份主存儲時，最好讓數據保持優化的格式(被壓縮或去重)。如果數據在備份之前必須擴展恢復為原始格式，這將是浪費資源。
為備份擴展數據集將需要：
使用存儲處理器或外部讀出器資源解壓數據;
擴展網路資源以把數據傳送給備份目標；
把額外的資源分配給保存備份數據的備份存儲設備。

雙活存儲故障測試

與雙活存儲故障測試相關的內容