『壹』 華為hds是什麼部門
是日立數據系統公司。
Hadoop服務(HadoopService,以下簡稱HDS)啟仿滑,是一個以華為FusionInsightHD為悄臘基礎的分布大稿式數據處理系統。
華為海外銷售就已達到220億美元,產品已經進入包括德國、法國、英國、葡萄牙、荷蘭、美國、加拿大等歐美14個發達國家。而且,華為還在全球建立了8個地區部、55個代表處及技術服務中心,銷售及服務網路遍及全球。2011年1月29日消息,據最新出版的華為內刊《華為人》介紹,2010年華為未經審計的全年銷售收入達280億美元,合1850億人民幣,較上年增長28%。
『貳』 華為突破分布式資料庫和存儲技術,打通數字化轉型「雄關漫道」
2019年,我們將進入數字化轉型的攻關期。所謂「攻關期」即數字化轉型2.0階段,需要攻堅企業關鍵業務上雲和數字化轉型改造的課題。在一份市場調查公司IDC的報告中指出:IDC自2014年提出數字化轉型以來,看到企業在數字化轉型層面已經投入了大量人力物力,但是效果並不理想,有一些企業已經成功屹立在潮頭,有一些企業在向上游進發,還有一些企業只能在浪潮的挾裹中被動前行。
對於企業來說,數字化轉型是「雄關漫道」。IDC認為,目前階段來看,企業亟待解決的是數字化能力提升,包括:與業務的深入結合能力;數據處理和挖掘能力;以及IT技術運營和管理能力。特別是數據處理和挖掘能力,因為數字化轉型推進企業從以流程為核心向以數據為核心轉型,對海量、異構、多類型的數據處理和挖掘能力是釋放數據價值的前提,對數據全生命周期的管控治理是釋放數據價值的保障。而隨著數字化轉型引入大量新技術而導致IT復雜度變高,企業IT技術運營和管理能力是提升企業「IT生產力」的關鍵。
攻關數字化轉型的「雄關漫道」,需要一個具備融合、智能、可傳承三大特性的數字平台。這是2019年3月華為與IDC聯合推出的《擁抱變化,智勝未來—數字平台破局企業數字化轉型》白皮書所提出的觀點。融合主要指把傳統技術和創新技術相結合;智能主要指平台智能化和智能化能力輸出;可傳承主要指解耦、功能復用、可配置等理念打造的架構。而承載這三大觀點的,就是新一代分布式企業級技術。
2019年5月15日,華為發布了業界首款支持ARM架構的新一代智能分布式資料庫GaussDB以及分布式存儲FusionStorage 8.0,作為新一代數據基礎設施,詮釋了具備融合、智能、可傳承三大特性的數字平台。華為常務董事、ICT戰略與Marketing總裁汪濤在發布會上表示,千行百業正在加速智能化進程,越來越多的企業已經意識到數據基礎設施是智能化成功的關鍵。華為圍繞計算、存儲和數據處理三個領域重定義數據基礎設施,加速邁向智能時代。
今天所討論雲和工業互聯網等概念的背後是一個新時代的到來,這就是體系架構大遷徙。傳統企業級技術是在單體應用和單機環境中,保證數據存儲、調用等操作的高可靠、高可用、高穩定,特別是滿足金融級事物處理的ACID(原子性、一致性、隔離性和耐久性)要求,為企業關鍵業務提供數據管理支撐。隨著企業技術向雲架構遷移,資料庫技術也面臨轉型。
2018年,基於雲計算技術的分布式資料庫成為了業界的熱點。簡單理解,雲計算技術就是把「單機」環境替換為由X86伺服器機群所組成的分布式計算環境。原先由幾台小型機完成的計算任務,要分散到上百甚至上千台X86伺服器上,而且還可能跨數據中心操作,挑戰可想而之。特別是在線支付等金融級業務,不能在斷網或網路連接有問題時出錯,也不能因響應速度慢而影響用戶體驗。
2018年8月,中國支付清算協會與中國信息通信研究院聯合舉辦了「金融分布式事務資料庫研討會」,與業界廠商和用戶共商核心資料庫分布式轉型之路,同時發布了《金融分布式事務資料庫》白皮書。金融分布式事務資料庫的工作推進,為分布式資料庫進入企業關鍵業務系統,提供了產業化支撐。而華為作為企業ICT解決方案供應商,早在2012年就開始研發面向大數據分析的數據倉庫,在基於傳統關系型資料庫SQL引擎和事務強一致性等基礎上,進行了分布式、並行計算的改造,歷時6年打造了面向PB級海量數據分析的分布式資料庫。
在OLAP數據倉庫之外,華為與行業用戶合作了面向OLTP的分布式事務型資料庫研發。2017年,華為與招商銀行合作成立了分布式資料庫聯合創新實驗室,研發具有高性能企業級內核、完整支持分布式事物、滿足金融行業對數據強一致要求、單機事物處理能力要達到每分鍾百萬級別等的OLTP分布式資料庫。
本次發布的GaussDB資料庫新品包括:聯機事務處理OLTP資料庫、聯機分析處理OLAP資料庫、事務和分析混合處理HTAP資料庫。而華為GaussDB資料庫將AI技術融入資料庫設計、開發、驗證、調優、運維等環節,可實現基於AI的自調優、自診斷自愈、自運維,讓資料庫更高效、更智能,引領資料庫架構的發展。
更進一步,本次發布的GaussDB系列資料庫是業界首款支持ARM晶元的分布式資料庫。華為推動計算架構從以X86+GPU為主的單一計算架構到以X86+GPU+ARM64+NPU為主的異構計算架構快速發展。基於X86架構,華為引入AI管理和智能加速能力,率先推出了智能伺服器FusionServer Pro;基於ARM64打造了業界性能最強的TaiShan伺服器;基於Ascend晶元的Atlas智能計算,實現了業界首個端邊雲協同的人工智慧平台。而GaussDB可充分利用並融合ARM、X86、GPU、NPU等多種異構算力組合,大幅提升資料庫性能。
汪濤強調,作為全球首款AI-Native資料庫,GaussDB有兩大革命性突破:第一,首次將人工智慧技術引入資料庫的全生命周期流程,實現自運維、自管理、自調優和故障自診斷。在交易、分析和混合負載場景下,基於最優化理論,首創深度強化學習自調優演算法,把業界平均性能提升60%。第二,支持異構計算,充分發揮X86/ARM/GPU/NPU多樣性算力優勢,最大化資料庫性能,在權威標准測試集TPC-DS上,華為GaussDB排名第一。GaussDB還支持本地部署、私有雲、公有雲等多種場景。
在以雲計算為代表的分布式計算環境中,數據管理解決方案除了需要分布式資料庫外,為了更好的擴縮容以及滿足多樣化數據存儲需求,計算與存儲分離已經成為分布式資料庫設計的主要架構。分布式雲化架構,就是要支持計算、存儲分離和多租戶等架構設計要求。
GaussDB已經從資料庫層面實現了高可用、高可靠、高穩定的分布式資料庫,本次發布的FusionStorage 8.0則是分布式存儲架構,創新地實現一套系統同時支持塊、文件、對象、HDFS協議,1套存儲支持4類存儲能力,適用於全業務場景混合負載,最終讓「一個數據中心一套存儲」成為可能。
IDC發布的《中國軟體定義存儲(SDS)及超融合存儲(HCI)系統市場季度跟蹤報告,2018年第四季度》顯示,2018年,軟體定義存儲市場達到了54.9%的同比增長。軟體定義存儲在中國整體存儲市場的佔有率穩步上升,分別達到了22.1%的市場佔有率。華為憑借文件解決方案在政府、廣電和電信等行業得到認可,在2018年中國軟體定義存儲市場排名第一。
FusionStorage 8.0採用華為ARM-based處理器鯤鵬920加速,使IOPS提升 20%,結合華為AI Fabric無損網路,時延進一步降低15%。基於華為在計算、網路和存儲領域多年的晶元和演算法積累,FusionStorage 8.0在SPC-1的性能測試中,單節點性能達到了16.8萬IOPS以及1ms以內時延,成為承載企業關鍵應用的新選擇。
此外,通過華為雲的雲上訓練及本地AI晶元,FusionStorage 8.0將智能管理貫穿業務使用的全生命周期,如業務上線前對存儲資源的規劃,使用過程中的風險預判及故障定位,大幅提升存儲效率,幫助行業客戶應對智能時代的數據新挑戰。
汪濤在發布會上強調,新一代智能分布式存儲FusionStorage 8.0通過重定義存儲架構,從「Storage for AI」和「AI in Storage」兩個維度實現效率大幅提升,引領存儲智能化。首先,「Storage for AI」通過融合共享,讓AI分析更高效。其次,「AI in Storage」率先將AI融入存儲全生命周期管理,從資源規劃、業務發放、系統調優、風險預測、故障定位等方面實現智能運維。
遼寧移動就採用了華為FusionStorage。作為遼寧省內最大的移動通信運營商,遼寧移動一直在 探索 先進的存儲方案在自身IT系統的應用。由於5G的快速發展,遼寧移動關鍵資料庫的應用也向雲化方向發展,分布式存儲也要滿足其可靠性和高性能要求。華為在深入分析遼寧移動需求後,首先在邊緣開發測試業務小規模試點分布式存儲,進行了大量的實驗和測試後性能和可靠性都達到了預期,最終決定將全部業務遷移至FusionStorage。該方案通過採用雙活、可寫快照、端到端DIF等特性,順利完成Billing、經營分析、B2B等系統從老舊存儲至FusionStorage的搬遷工作,助力遼寧移動的存儲架構邁入新的 歷史 階段。
值得一提的是,華為分布式資料庫與華為分布式存儲深度結合,把資料庫的操作下沉到存儲節點,極大提升了分布式資料庫的性能。利用新的網路技術和人工智慧技術,華為幫助用戶提升數據中心的吞吐量,提升網路應用的可伸縮性,並且能自動調優。
除了推出新一代突破性的分布式資料庫和存儲技術外,華為也積極與客戶、夥伴在資料庫與存儲領域,從行業應用、平台工具、標准組織和社區等多個層面共建開放、合作、共贏的產業生態。在行業應用層面,華為與軟通智慧、神州信息、東華軟體、易華錄、用友政務、亞信國際等獨立軟體開發商長期合作;在平台和工具層面,華為與Tableau、帆軟、ARM、Veritas等合作夥伴聯合創新;在標准組織和社區層面,華為深度參與OpenSDS、中國人工智慧產業聯盟、OCP、OpenStack、CNCF基金會等組織和社區的建設。
總結來說,華為全線分布式資料庫和分布式存儲產品的發布,是華為具備融合、智能、可傳承三大特性數字平台的最新成果。華為分布式資料庫與分布式存儲結合,能消除企業各業務系統數據孤島,構建面向行業場景的數據建模、分析和價值挖掘能力,對多源異構的數據進行匯聚、整合和分析,形成統一的全量數據和數據底座,實現數據價值挖掘和共享。而基於AI的智能化,可對基礎設施進行高效的管理,為行業應用開發和迭代賦能,全面幫助企業突破關鍵應用上雲的「雄關漫道」。(文/寧川)
『叄』 國內做分布式存儲研發的公司有哪些
做過一些集成項目,國內集群NAS(分布式文件系統)這塊了解一些,隨便說說,僅限於通用集群NAS
宣傳自研集群NAS的公司不少,OEM居多,做研發的不多,完全自研就更少了
列一些接觸過,完全自研,產品化程度相對高一些的吧
大一點的,華為(oceanstor9000),曙光(parastor)
市場上見的比較多了
小一點的,龍存,這個算是老牌子了
聚存,這個知道的人不多
基於ceph的公司這幾年不少,用過其中一家的東西,塊這塊還行,文件這塊還需要時間
分布式存儲其實是一個比較大的領域
有分布式資料庫、分布式文件如隱系統、分布式塊(ServerSAN)、分布式對象存儲渣粗廳之類
做的公司挺多,不過真正都凳亮自己的代碼的挺少,很多都是開源改的
分布式數據來說一般互聯網公司用的多,像阿里,騰訊、網路都有自己分布式資料庫
國內做分布式文件系統來說,數中科院的一幫人做的最早
從中科院出來人基本的分為三家,曙光,龍存,達沃
這三家基本都屬於自研並且應用時間都在國內來說時間最久了
也有像華為、淘寶、網路、騰訊的文件系統
『肆』 華為 FusionData 發布,大數據痛點消失不見
作者 | 胡巍巍發自北京民生現代美術館
出品 | CSDN(ID:CSDNnews)
2009年,世界上出現了一種叫做甲型H1N1流感的病毒。由於當時全球尚未研發出對抗這種病毒的疫苗,公共衛生專家能做的只是減慢傳播速度。
更可怕的是,人們一般是在感染這種病毒多日後、也就是實在受不了的時候,才會去醫院。所以,公共衛生機構在告知公眾流感預告時,往往會有一兩周的延遲。
有意思的是,在甲型H1N1流感爆發的幾周前,谷歌的工程師們在《自然》雜志上發表了一篇論文,文章稱,患者在看病前往往會上網搜索,而谷歌通過觀察人們的搜索記錄,從而可以判斷出流感來源地,並且預測得比官方更准確、更及時。而這,就是數據的力量!
而隨著5G的到來,數據能做的事兒,遠不止於此。
近日,5G牌照的發放,讓5G應用開始照進現實。而德國專利數據公司IPlytics的報告顯示,截至2019年4月,華為擁有1554族專利,領先於諾基亞、三畢備遊星等公司,是擁有5G標准必要專利(5G SEP)數量最多的公司。
進入5G時代後,人類產生的數據必將翻倍,據We Are Social和Hootsuite發布的2019年數字報告顯示,全球人口數76.76億人,其中手機用戶51.12億人,網民43.88億人,有34.84億人活躍在社交媒體上。但是,當下的數據解決方案,是否跟上了人類產生數據的速度呢?
據華為Cloud & AI產品與服務總裁侯金龍介紹,目前,很多企業的數字化程度不足,90%的數據沒有進入系統,大量的IoT數據缺失,要麼就是完整性不足,要麼就是各個部門的數據沒有打通,這種困境導致了很多數據孤島。
另據華為全球產業展望(GIV)報告顯示,全球數據量將從2018年32.5ZB快速增長到2025年的180ZB。
但企業生產活動產生的數據中只有不到2%被保存,而其中得到分析利用的不足10%,數據價值沒有得到充分釋放。並且企業普遍存在煙囪式業務系統,導致數據管理、應用效率低。
故此,華為發布了智能數據解決方案FusionData。6月5日,在北京民生現代美術館,幾百人的發布會場座無虛席。
發布會上,華為EBG中國區總裁蔡英華表示:「站在智能時代的入口,在堅持『被集成』的基礎上,華為企業業務通過『無處不在的聯接+數字平台+無所不及的智能』,致力於打造數字世界的底座。其中數字平台整合了包括雲、大數據、AI、IoT等在內的各種新ICT技術,向上支持應用快速開發、靈活部署,使能各行業業務敏捷創新;向下通過無處不在的 聯接 ,做到雲管端協同優化,真正實現物理世界的數字化。」
華為EBG中國區總裁蔡英華提到數字化時表示滾早:「站在智能時代的入口,在堅持『被集成』的基礎上,華為企業業務通過『手銷無處不在的聯接+數字平台+無所不及的智能』,致力於打造數字世界的底座。其中數字平台整合了包括雲、大數據、AI、IoT等在內的各種新ICT技術,向上支持應用快速開發、靈活部署,使能各行業業務敏捷創新;向下通過無處不在的 聯接 ,做到雲管端協同優化,真正實現物理世界的數字化。」
華為IT產品線副總裁、智能數據與存儲領域總裁周躍峰,在提到數據應用的痛點時也表示:「各行各業在實現數據價值時面臨數據接入難、分析難、消費難等挑戰,亟待更智能的數據解決方案。華為智能數據解決方案FusionData,包含數據接入、數據處理、數據使能等關鍵部件,幫助客戶打通全域數據連接、建立統一的數據平台、提升實時數據服務能力,擁抱行業數字化。」
周躍峰發布FusionData那麼,FusionData究竟可以解決哪些痛點呢?
作為領先的智能數據解決方案,華為FusionData支持智能的數據全生命周期管理,從以下三個層面,重定義數據基礎設施:
智能數據連接部件ROMA支持多數據源接入、消息和API的統一管理、智能通道選擇等技術實現智能全連接,加速數據流動,讓應用與數據連接更高效。
1、多數據源接入:支持1100多種應用和異構數據源接入,通過開放式數據接入框架可靈活接入第三方數據源。
2、消息和API的統一管理:支持分布式消息和API的路由統一配置管理,輕松實現分布式消息和API服務的跨網跨域跨雲集成,讓數據自由流動。
3、智能通道選擇:支持數據多通道傳輸,並且可根據數據特點智能選擇傳送通道,大幅提升數據接入效率。
智能數據處理部件包含分布式存儲FusionStorage、分布式資料庫GaussDB和大數據平台FusionInsight等,通過多類型數據融合存儲、融合分析引擎等技術實現從單一處理到智能融合處理,加速實現數據價值。
1、多類型數據融合存儲:通過存儲與計算分離技術,打破系統煙囪式建設;通過智能分布式存儲的多協議融合技術,實現一份數據同時支持資料庫、大數據、AI等多種業務的分析需求,讓融合數據分析成為可能。
2、融合分析引擎:支持資料庫、大數據、AI多引擎融合分析和多樣性算力統一調度。通過統一架構,降低海量數據處理難度,實現極簡分析。
智能數據使能部件DAYU通過智能元數據感知和OneQuery Turbo 技術構建數據處理與業務創新的橋梁,提升業務體驗,讓業務更敏捷。
1、智能元數據感知:通過AI技術,自動感知和採集多個系統的元數據,並進行智能化分級分類,生成全局統一的數據視圖,數據尋找秒級響應。
2、OneQuery Turbo :提供統一的數據訪問介面,實現多數據源、多類型數據的統一訪問,簡化數據加工流程,數據獲取速度提升10倍以上。
傳說中,三皇五代時期的大禹治理花了13年時間,治理黃河洪水。老百姓在他的幫助下,過上了築室而居的生活。
今天,華為FusionData的使命,也是為了讓企業不再對數據洪水束手無策,而是讓海量數據變成滋養企業不斷發展的資源!如果你對華為FusionData很有信心,就在文末點個「再看」吧!
參考資料:
維克托·邁爾-舍恩伯格《大數據時代》第一章
『伍』 華為發布新一代數據中心級融合分布式存儲FusionStorage 8.0
【西班牙,巴塞羅那,2019年2月25日】在2019年世界移動大會(MWC)上,華為發布新一代數據中心級融合分布式存儲FusionStorage 8.0,基於成熟的企業級存儲能力及公有雲基因,幫助運營商、金融等行業客戶應對數據大爆炸時代業務雲化挑戰。
華為IT產品線智能存儲與數據管理領域總裁孟廣斌發布FusionStorage 8.0
5G、IoT、雲、人工智慧等新興技術快速發展,傳統集中式存儲煙囪式部署的擴展性和管理難題日益凸顯,越來越多的用戶期望有一種新的形式,可以打破不同類型存儲間的數據孤島,讓各類業務以統一的方式進行存儲和管理,同時降低TCO、提升數字化平台服務效率。
面向紛繁復雜的雲環境,華為FusionStorage 8.0創新的實現一套存儲系統同時支持塊、文件、對象、HDFS、資料庫協議,適用於全業務場景混合負載,以一套設備支持數據的生產、災備、分析、歸檔等全生命周期場景,滿足雲上雲下數據流動並保障一致性體驗。
業界首個支持關鍵業務的分布式存儲
華為FusionStorage 8.0是業界首個支持企業關鍵業務的分布式存儲系統。單集群橫向擴展最大可達4096個節點,支持千萬級IOPS,並且憑借華為企業級存儲成熟的晶元和FlashLink®加速技術,使得節點與SSD盤之間協同更高效,時延響應低至0.5毫秒,具備分布式存儲領域最優性能,滿足運營商核心資料庫、金融聯機生產等場景快速IO響應訴求,保障企業關鍵業務高速穩定運行。
此外,基於華為企業存儲產品久經驗證的HyperMetro雙活方案,華為FusionStorage 8.0可提供99.9999%的方案級可靠性,適用於虛擬化及資料庫等多應用場景,保障關鍵業務不中斷,提供業界唯一支持秒級RPO(恢復點目標)的非同步復制技術,為跨數據中心業務提供連續性保障。憑借獨有的自適應重復數據刪除與數據壓縮能力,即使在VDI(桌面虛擬化)應用場景中也能達到5:1的數據縮減比,進一步幫助用戶節省存儲空間。
率先實現五大融合
作為業界唯一同時提供公有雲、傳統存儲和晶元的廠商,華為整合具有強擴展性的分布式存儲底座、傳統存儲豐富的企業特性,並融入晶元的優化能力,從而實現數據中心級的融合。
華為FusionStorage 8.0通過協議融合實現一站式部署,替代原有不同協議時煙囪式部署,提升資源使用率,使TCO降低30%;通過關鍵業務融合實現一套存儲同時支持企業核心應用和新興應用;通過場景融合實現一套存儲對數據的采、用、管、備、存全生命周期管理;通過多雲融合實現一個平台,融合邊緣雲、私有雲和公有雲,為用戶提供一致的業務體驗;通過管理融合實現一套統一的智能管理平台,融合運維和運營兩大能力,實現數據智能化,充分釋放數據價值。
通過創新的五大融合特徵,華為FusionStorage 8.0可幫助用戶實現「一個數據中心一套存儲」的終極目標,有效消除存儲設備多樣性及管理復雜性,降低數據使用成本,並讓雲上雲下數據自由流動和充分共享成為可能;通過存儲永新服務幫助用戶數據終身免遷移,減少數據遷移給業務帶來的中斷風險。
作為華為FusionStorage的用戶,中國移動通信集團遼寧有限公司累計部署容量超過10PB,到目前已穩定運行超過4年,資料庫系統性能大幅提升,100TB經營分析數據處理時長由之前的超過10小時縮短至2小時,保障業務7x24小時在線。
華為IT產品線智能存儲與數據管理領域總裁孟廣斌表示:「在數據中心從傳統孤島向雲架構演進的趨勢下,華為全新一代分布式存儲FusionStorage 8.0通過創新的五大融合,打通企業數據壁壘,在業界首個支持關鍵業務,真正實現一個數據中心一套存儲,助力行業客戶數字化轉型。華為FusionStorage已經為全球數千家企業用戶持續提供數據存儲服務。」
『陸』 女兒要去華為工作,資料庫、大數據、分布式存儲三個部門選一,哪一個發展前景比較好
開發崗,女的去了堅持不了幾年。特別有了孩子以後。哪個方向出來好找工作就去哪個,還有就是哪個產品線利潤高去哪個,因為獎金高。
『柒』 國內做分布式存儲研發的公司有哪些
做過一些集成項目,國內集群NAS(分布式文件系統)這塊了解一些,隨便說說,僅限於通用集群NAS。宣傳自研集群NAS的公司不少,OEM居多,做研發的不多,完全自研就更少了。列一些接觸過,完全自研,產品化程度相對高一些的吧。大一點的,華為 (oceanstor 9000),曙光(parastor)。市場上見的比較多了。小一點的,龍存,這個算是老牌子了。聚存,這個知道的人不多。基於ceph的公司這幾年不少,用過其中一家的東西,塊這塊還行,文件這塊還需要時間。分布式存儲其實是一個比較大的領域。有分布式資料庫、分布式文件系統、分布式塊(ServerSAN)、分布式對象存儲之類。做的公司挺多,不過真正都自己的代碼的挺少,很多都是開源改的。分布式數據來說一般互聯網公司用的多,像阿里,騰訊、網路都有自己分布式資料庫。國內做分布式文件系統來說,數中科院的一幫人做的最早。從中科院出來人基本的分為三家,曙光,龍存,達沃。這三家基本都屬於自研並且應用時間都在國內來說時間最久了。也有像華為、淘寶、網路、騰訊的文件系統。
『捌』 華為分布式存儲中的智能負載均衡技術它的訪問模式是什麼
ActiveActive。華為分布式存儲中的智能負載均衡技術,它的訪問模式是運乎ActiveActive,負載均衡訪問方式由公網彈性負載均衡服務地址以及設置的訪問端指悄中口組成,智能負載均衡通過多節點智能接入技術,使業務防護支持多節點、多線路自動調度容災,保障業唯山務高可用和加速的訪問體驗。
『玖』 華為融合一體機的分布式存儲採用什麼技術
目前國內軟體定義存儲產品主要分兩類:
自主研發,比如SmartX,華為;
基於開源的ceph研發,比如XSKY,杉岩,深信服。
『拾』 華為技術架構師分享:高並發場景下緩存處理的一些思路
在實際的開發當中,我們經常需要進行磁碟數據的讀取和搜索,因此經常會有出現從資料庫讀取數據的場景出現。但是當數據訪問量次數增大的時候,過多的磁碟讀取可能會最終成為整個系統的性能瓶頸,甚至是壓垮整個資料庫,導致系統卡死等嚴重問題。
常規的應用系統中,我們通常會在需要的時候對資料庫進行查找,因此系統的大致結構如下所示:
1.緩存和資料庫之間數據一致性問題
常用於緩存處理的機制我總結為了以下幾種:
首先來簡單說說Cache aside的這種方式:
Cache Aside模式
這種模式處理緩存通常都是先從資料庫緩存查詢,如果緩存沒有命中則從資料庫中進行查找。
這裡面會發生的三種情況如下:
緩存命中:
當查詢的時候發現緩存存在,那麼直接從緩存中提取。
緩存失效:
當緩存沒有數據的時候,則從database裡面讀取源數據,再加入到cache裡面去。
緩存更新:
當有新的寫操作去修改database裡面的數據時,需要在寫操作完成之後,讓cache裡面對應的數據失效。
關於這種模式下依然會存在缺陷。比如,一個是讀操作,但是沒有命中緩存,然後就到資料庫中取數據,此時來了一個寫操作,寫完資料庫後,讓緩存失效,然後,之前的那個讀操作再把老的數據放進去,所以,會造成臟數據。
Facebook的大牛們也曾經就緩存處理這個問題發表過相關的論文,鏈接如下:
分布式環境中要想完全的保證數據一致性是一件極為困難的事情,我們只能夠盡可能的減低這種數據不一致性問題產生的情況。
Read Through模式
Read Through模式是指應用程序始終從緩存中請求數據。 如果緩存沒有數據,則它負責使用底層提供程序插件從資料庫中檢索數據。 檢索數據後,緩存會自行更新並將數據返回給調用應用程序。使用Read Through 有一個好處。
我們總是使用key從緩存中檢索數據, 調用的應用程序不知道資料庫, 由存儲方來負責自己的緩存處理,這使代碼更具可讀性, 代碼更清晰。但是這也有相應的缺陷,開發人員需要給編寫相關的程序插件,增加了開發的難度性。
Write Through模式
Write Through模式和Read Through模式類似,當數據發生更新的時候,先去Cache裡面進行更新,如果命中了,則先更新緩存再由Cache方來更新database。如果沒有命中的話,就直接更新Cache裡面的數據。
2.緩存穿透問題
在高並發的場景中,緩存穿透是一個經常都會遇到的問題。
什麼是緩存穿透?
大量的請求在緩存中沒有查詢到指定的數據,因此需要從資料庫中進行查詢,造成緩存穿透。
會造成什麼後果?
大量的請求短時間內湧入到database中進行查詢會增加database的壓力,最終導致database無法承載客戶單請求的壓力,出現宕機卡死等現象。
常用的解決方案通常有以下幾類:
1.空值緩存
在某些特定的業務場景中,對於數據的查詢可能會是空的,沒有實際的存在,並且這類數據信息在短時間進行多次的反復查詢也不會有變化,那麼整個過程中,多次的請求資料庫操作會顯得有些多餘。
不妨可以將這些空值(沒有查詢結果的數據)對應的key存儲在緩存中,那麼第二次查找的時候就不需要再次請求到database那麼麻煩,只需要通過內存查詢即可。這樣的做法能夠大大減少對於database的訪問壓力。
2.布隆過濾器
通常對於database裡面的數據的key值可以預先存儲在布隆過濾器裡面去,然後先在布隆過濾器裡面進行過濾,如果發現布隆過濾器中沒有的話,就再去redis裡面進行查詢,如果redis中也沒有數據的話,再去database查詢。這樣可以避免不存在的數據信息也去往存儲庫中進行查詢情況。
什麼是緩存雪崩?
當緩存伺服器重啟或者大量緩存集中在某一個時間段失效,這樣在失效的時候,也會給後端系統(比如DB)帶來很大壓力。
如何避免緩存雪崩問題?
1.使用加鎖隊列來應付這種問題。當有多個請求湧入的時候,當緩存失效的時候加入一把分布式鎖,只允許搶鎖成功的請求去庫裡面讀取數據然後將其存入緩存中,再釋放鎖,讓後續的讀請求從緩存中取數據。但是這種做法有一定的弊端,過多的讀請求線程堵塞,將機器內存占滿,依然沒有能夠從根本上解決問題。
2.在並發場景發生前,先手動觸發請求,將緩存都存儲起來,以減少後期請求對database的第一次查詢的壓力。數據過期時間設置盡量分散開來,不要讓數據出現同一時間段出現緩存過期的情況。
3.從緩存可用性的角度來思考,避免緩存出現單點故障的問題,可以結合使用 主從+哨兵的模式來搭建緩存架構,但是這種模式搭建的緩存架構有個弊端,就是無法進行緩存分片,存儲緩存的數據量有限制,因此可以升級為Redis Cluster架構來進行優化處理。(需要結合企業實際的經濟實力,畢竟Redis Cluster的搭建需要更多的機器)
4.Ehcache本地緩存 + Hystrix限流&降級,避免MySQL被打死。
使用 Ehcache本地緩存的目的也是考慮在 Redis Cluster 完全不可用的時候,Ehcache本地緩存還能夠支撐一陣。
使用 Hystrix進行限流 & 降級 ,比如一秒來了5000個請求,我們可以設置假設只能有一秒 2000個請求能通過這個組件,那麼其他剩餘的 3000 請求就會走限流邏輯。
然後去調用我們自己開發的降級組件(降級),比如設置的一些默認值呀之類的。以此來保護最後的 MySQL 不會被大量的請求給打死。