❶ 數據分析師每天做什麼
數據分析是干什麼的?
在企業里收集數據、計算數據、提供數據給其他部門使用的。
數據分析有什麼用?
從工作流程的角度看,至少有5類分析經常做:
工作開始前策劃型分析:要分析一下哪些事情值得的做
工作開始前預測型分析:預測一下目前走勢,預計效果
工作中的監控型分析:監控指標走勢,發現問題
工作中的原因型分析:分析問題原因,找到對策
工作後的復盤型分析:積累經驗,總結教訓
❷ java培訓課程都有什麼內容
目前Java培訓內容包括:
1、HTML+CSS3+資料庫
2、Java SE(Java面向對象思想;設計模式、面向對象原則、Java高階API、線程、網路編程、反射、NIO)
3、Java web(Java web基礎、JS、DOM操作、JSP/Servlet、第三方工具包、Tomcat...)
4、框架(網路原理、HTTP協議、Linux操作系統、雲服務搭建、SSM框架應用、Oracle應用、Spring JPA、Hibernate...)
5、高可用、高並發、高擴展(SpringBoot、緩存、分布式、插件、全文索引、服務中間件、消息中間件、雲伺服器、雲存儲、雲資料庫、域名服務...)
6、微服務、大數據
以下是我們2020年更新的課程,您可以了解一下!
如想學習,可在我們官網了解詳情。
如果想要自學,可私信我獲取學習資料。免費提供
希望我的回答對你有所幫助,望採納~
❸ 大數據培訓課程大綱要學什麼課程
首先我們要了解Java語言和Linux操作系統,這兩個是學習大數據的基礎,學習的順序不分前後。
Java :只要了解一些基礎即可,做大數據不需要很深的Java 技術,學java SE 就相當於有學習大數據基礎。
Linux:因為大數據相關軟體都是在Linux上運行的,所以Linux要學習的扎實一些,學好Linux對你快速掌握大數據相關技術會有很大的幫助,能讓你更好的理解hadoop、hive、hbase、spark等大數據軟體的運行環境和網路環境配置,能少踩很多坑,學會shell就能看懂腳本這樣能更容易理解和配置大數據集群。還能讓你對以後新出的大數據技術學習起來更快。
Hadoop:這是現在流行的大數據處理平台幾乎已經成為大數據的代名詞,所以這個是必學的。Hadoop裡麵包括幾個組件HDFS、MapRece和YARN,HDFS是存儲數據的地方就像我們電腦的硬碟一樣文件都存儲在這個上面,MapRece是對數據進行處理計算的,它有個特點就是不管多大的數據只要給它時間它就能把數據跑完,但是時間可能不是很快所以它叫數據的批處理。
Zookeeper:這是個萬金油,安裝Hadoop的HA的時候就會用到它,以後的Hbase也會用到它。它一般用來存放一些相互協作的信息,這些信息比較小一般不會超過1M,都是使用它的軟體對它有依賴,對於我們個人來講只需要把它安裝正確,讓它正常的run起來就可以了。
Mysql:我們學習完大數據的處理了,接下來學習學習小數據的處理工具mysql資料庫,因為一會裝hive的時候要用到,mysql需要掌握到什麼層度那?你能在塵瞎Linux上把它安裝好,運行起來,會配置簡單的許可權,修改root的密碼,創建資料庫。這里主要的是學習SQL的語法,因為hive的語法和這個非常相似。
Sqoop:這個是用於把Mysql里的數據導入到Hadoop里的。當然你也可以不用這個,直接把Mysql數據表導出成文件再放到HDFS上也是一樣的,當然生產環境中使用要注意Mysql的壓力。
Hive:這個東西對於會SQL語法的來說就是神器,它能讓你處理大數據變的很簡單,不會再費勁的編寫MapRece程序。有的人說Pig那?它和Pig差不多掌握一個就可以了。
Oozie:既然學會Hive了,我相信你一定需要這個東西,它可以幫你管理你的Hive或者MapRece、Spark腳本,還能檢查你的程序是否執行正確,出錯了給你發報警並能幫你重試程序,最重要的是還能幫你配置任務的依賴關系。我相信你一定會喜歡上它的,不然你看著那一大堆腳本,和密密麻麻的crond是不是有種想屎的感覺。
Hbase:這是Hadoop生態體系中的NOSQL資料庫,他的數據是按照key和value的形式存儲的並且首冊key是唯一的,所以它能用來做數據的排重,它與MYSQL相比能存儲的數據量大很多。所以他常被用於大數據處理完成之後的存儲目的地。
Kafka:這是個比較好用的隊列工具,隊列是干嗎的?排隊買票你知道不?數據多了同樣也需要排隊處理,這樣與你協作的其它同學不會叫起來,你干嗎給我這么多的數據(比如好幾百G的文件)我怎麼處理得過來,你別怪他因為他不是搞大數據的,你可以跟他講我把數據放在隊列里你使用的時候一個個拿,這樣他就不在抱怨了馬上灰流流的去優化他的程序去了,因為處理不過來就是他的事情。而不是你給的問題。當然我們也可以利用這個工具來做線上實時數據的入庫或入HDFS,這時你可以與一個叫Flume的工具配合使用,它是專門用來提供對數據進行簡單處理,並寫到各種數據接受方(比如Kafka)的。
Spark:它是用來彌補基於MapRece處理數據速度上的缺點,它的特點是把數據裝載到內存中計算而不是去讀慢的者兄宏要死進化還特別慢的硬碟。特別適合做迭代運算,所以演算法流們特別稀飯它。它是用scala編寫的。Java語言或者Scala都可以操作它,因為它們都是用JVM的。
❹ 我去面試,很多地方問我EMC,這是什麼,用到些什麼知識
EMC 合同能源管理機制
合同能源管理(ENERGY MANAGEMENT CONTRACT ,簡稱EMC)是70年代在西方發達國家開始發展起來一種基於市場運作的全新的節能新機制。合同能源管理不是推銷產品或技術,而是推銷一種減少能源成本的財務管理方法。EMC公司的經營機制是一種節能投資服務管理;客戶見到節能效益後,EMC公司才與客戶一起共同分享節能成果,取得雙嬴的效果。基於這種機制運作、以贏利為直接目的的專業化「節能服務公司」(在國外簡稱ESCO,國內簡稱EMC公司)的發展亦十分迅速,尤其是在美國、加拿大和歐洲,ESCO 已發展成為一種新興的節能產業。
合同能源管理是EMC公司通過與客戶簽訂節能服務合同,為客戶提供包括:能源審計、項目設計、項目融資、設備采購、工程施工、設備安裝調試、人員培訓、節能量確認和保證等一整套的節能服務,並從客戶進行節能改造後獲得的節能效益中收回投資和取得利潤的一種商業運作模式。
EMC公司服務的客戶不需要承擔節能實施的資金、技術及風險,並且可以更快的降低能源成本,獲得實施節能後帶來的收益,並可以獲取EMC公司提供的設備。
二、合同能源管理項目特點:
· 節能效率高
項目的節能率一般在10%-40%,最高可達50%。
· 客戶零模攔投資
全部設計、審計、融資、采購、施工監測等均由EMC公司負責,不需要客戶投資。
· 節能有保證
EMC公司可以向用戶承諾節能量,保證客戶可以馬上實現能源成本下降。
· 投資回收短
項目投資額較大,投資回收期短,從已經實施的項目來看回收期平均為1-3年。
· 節能更專業
EMC公司提供能源診斷、改善方案評估、工程設計、工程施工、監造管理、資金與財務計劃等全面性服務,全面負責能源管理。
· 技術更先進
EMC公司背後有國內外最新、最先進的節能技術和產品作支持,並且專門用於節能促進項目。
· 客戶風險低
客戶無須投資大筆資金即可導入節能產品及技術,專業化服務,風險很低。
· 改善現金流
客戶藉助EMC公司實施節能服務,可以改善現金流量,把有限的資金投資在其他更優先的投資領域。
· 提升競爭力
客戶實施節能改進,節約能源,減少能源成本支出,改善環境品質,建立綠色企業形象,增強市場競爭優勢。 文章來自中國· 管理更科學
客戶藉助EMC公司實施節能服務,可以獲得專業節能資訊和能源管理經驗,提升管理人員素質,促進內部管理科學化。
二、合同能源管理務范圍:
EMC能源服務業,廣義來說,業務范圍包括能源的買賣、供應、管理;節能改善工程的施實;節能績效保證合同的統包承攬;耗能設施的運轉維護與管理;節約能源診斷與顧問咨詢等。
EMC公司提供能源用戶能源審計診斷評估、改善方案規老碼埋劃、改善工程設計、工程施工、監理,到資金籌集的財務計劃及投資回收保證的等全面性服務;採用適當的方法或程序驗證評價節能效益,為能源用戶提供節能績效保證,再以項目自償方式由節約的能源費用償還節能改善工程所需的投資費用。
EMC公司是實現節約能源,提供「能源利用效率全方位改善服務」的一種業態,針對商業大樓及耗能企業的照明、空調、耗能設備等實施節能診斷,同時提供新型節能高效設備,提供具體的節能系統方案,其服務費用由節約下來的能源費用分攤侍螞,為「節能績效保證合同」業務最大的特徵。此外,節能效益所省下的費用也用來作為節能項目的投資回收。
❺ 如何進行數據採集以及數據分析
首先,大數據分析技術總共就四個步驟:數據採集、數據存儲、數據分析、數據挖掘,一般來說廣義上的數據採集可以分為採集和預處理兩個部分,這里說的就只是狹隘的數據採集。我們進行數據採集的目的就是解決數據孤島,不管你是結構化的數據、還是非結構化的,沒有數據採集,這些各種來源的數據就只能是互相獨立的,沒有什麼意義。
數據採集就是將這些數據寫入數據倉庫中,把零散的數據整合在一起,然後才能對這些數據綜合分析。根據數據來源進行分類,數據採集可以大體三類:系統文件日誌的採集、網路大數據採集、應用程序接入。需要一定的專業知識和專業軟體、平台的應用能力。
❻ 九章雲極公司怎麼樣公司產品目前盈利狀況如何剛拿到offer
北京九章雲極科技有限公司成立於2013年。專注於大數據核心技術的研發,致力建設最高性能的智能數據處理平台,為企業用戶提供端到端的大數據解決方案,幫助企業快速具備大數據分析能力。
目標客戶主要集中在金融,旅遊、教育,交通等簡兆大數據集中的行業。
010-62668563
2017年,首席數據官聯盟發布的《中國大數據企業排行榜》中,九章雲極的演算法模型排名第二、開源技術服
務排名第二;在《第一屆大數據優秀案例》評選中,榮獲旅遊行業大數據優秀案例獎。
2016年,九章雲極榮獲中國大數據領域「最具成長力企業獎」和「優秀創新產品獎」。DataCanvas集成數據平台針對國內大數據應用的現狀和痛點,以企業需求為導向,幫助企業進行數據基礎架構的遷移,並同時提供全能的數據分析平台,一站式解決數據存儲和分析的難題,讓數據存儲、查詢、分析和可視化形成閉環並快速落地,讓企業在未來數據競爭的時代奪得先機。
'
'
'
...............................................
······································
丟失前需要開啟「查找我的iphone」功能才可以,找回方法:
1.首先要進入iPhone手機的「設置」菜單,之後選擇「iCloud」,進入「iCloud」後向下拉菜單找到「查找我的iPhone」打開。
2.接下來需要用PC或者Mac來登陸,網址輸入完之後需要用自己的AppleID和密碼登陸,登陸之後找到「查找我的iPhone」選項。
3.點擊進入「查找我的iPhone」後系統會自動定位地理位置,這時需要點擊頂部菜單,在裡面選擇想要設置「丟失模式」的設備。
4.當選擇好要設置的設備後,系統會跳出一個菜單,這時繼續點擊「丟失模式」。
5.點擊之後,如果此前沒有設置過密碼,這時系腔咐基統會提示要輸入密碼鎖定設備。反之,系統會提示輸入手機號碼。輸入完手機號碼之後點擊下一步,這時系統會讓輸入一段文字,輸入的文字會和剛才的電話號碼一起顯示在手機上,設置完後點擊完成。
6.當設置完後,iPhone手機就會收到剛剛設置的號碼和簡訊,這時如果遇到好心伍謹人就會給回撥電話了。
在前面有關恆星演化的理論中已談到,當一個大質量的恆星在其生命最後階段會因自身的引力而坍縮。它自身的引力是如此之強,以致它的核坍塌直至成為一個沒有大小、密度極大的數學上的點。圍繞這個點有一個直徑只有幾公里被稱為視界的區域,這里引力強得使任何東西、甚至於連光都不能逃逸出去,這就是黑洞。其實,除此之外,黑洞還有一種成因:就是在宇宙大爆炸的早期,宇宙的壓力和能量是如此之強,使無限大一瞬壓縮成為不同尺度和無限多質量堅決一點的太初黑洞。通常,對一個物體的完整描述需要很多參量,而黑洞只需用質量、角動量和電荷三個參量描述第一時間裡面所有物質都壓成粉碎角動量質量和重量和電荷描述拉近一點形成黑洞只有四種類型:最簡化的無電荷、無轉動的球對稱黑洞-----史瓦西黑洞;有電荷、無轉動的球對稱黑洞;無電荷但有轉動的黑洞;以及又帶電荷又有轉動的黑洞
早期宇宙物質的分布相對集中,彼此之間相隔的距離不遠,在各處飄盪著的黑洞很有可能相互遭遇,導致兩個具有強大引力場的天體發生劇烈的碰撞,然後合而為一。此外,在一些星系內部,星系中心的強引力會使鄰近的恆星及星際物質更加趨向中心,當聚集在一起的質量大到一定程度的時候,就會坍縮成黑洞。或者,星系中心區域的一些大質量恆星死亡後坍縮成小黑洞,它們有許多機會相互碰撞而形成更大的黑洞。在我們的銀河系中心和類星體中心都有這種超級大黑洞。
黑洞宿命有他的質量決定一般為20億年到40億年如果有公生體可以到40億80億年,一般認為,黑洞一旦形成就不會轉化為別的什麼東西。黑洞的質量只會因吸進外界的物質而增加,絕不會因逃脫物質而減少。也就是說,按照經典物理學,黑洞是不能向外發出輻射的。但霍金認為,按照量子力學,可以允許粒子從黑洞中逃逸出來。
❼ 零基礎如何學習Java
零基礎要怎麼學Java?相信這是很多初學者入門Java都需要考慮擔心的問題,根據我自己過來的學習經驗,我的看法是這樣的:
?
一:先作為初學者,我們要了解Java能做什麼?1、web開發,應用場景最多的一個分支。具體有哪些呢,最常見的就是淘寶,京東等等
2、安研發,應用排行第二。具體的應用有哪些?所有的安手機上的app應用。
3、桌面應用開發,應用場景第三。具體的有哪些呢?你們現在用的eclipse就是。當然也有其他的比如,大數據,但用在大數據上非常少,沒一門語言有他的優勢,也有他的不足,沒有任何事情是完美的嘛。
?
二.作為-個Java初學者,應該怎麼學Java??
我給出的ava學習路線是這樣的:JavaSE/資料庫/Jdbc/前端基礎/Javaweb/Spring/Mybatis/Maven/Springboot/Reids/Springcloud/Linux/Git.JavaSE:java基礎,既然是基礎,那肯定是最重要的,所以學習的時候也是需要重點學習的地方。
資料庫:為什麼要學資料庫呢,因為我們的web數據需要持久化到磁碟上統一管理,而資料庫無疑就是最好工具。目前主流的關系型資料庫有mysql和oracle。我建議先學mysql。為什麼呢mysql相比Oracle難度要低,而在國內應用場景又最多的。
?
?
?
學會了mysq可以開發出一一個完整的產品了,再學oracle都可以的。前端基礎:既然是做-一個網站,那肯定不能是後台的兄肆數據,這樣用戶也是沒辦法看的,所以需要學習前端知識,把數據展示到頁面上,而對於後台人員來說,學習階段只需要學習前端基礎就可以了。Html、js、CSs、jquery就可以了。當然到離開後期你也可以學學專門為後端人員定製的前端框架,比如,layui,easyui。如果還覺得羨培轎不夠可以學學前端專用框架。比如vueelement,但是大前提是把自己的後台學到位了再學其他的。
Javaweb:?jsp、servlet。為什麼用了html還要學jsp呢。因為jsp和Java是無縫連接的。
學了javaweb以後就可以自己做一個項目出來了,比如你想做一個個人網站。你可以給你們學校做一個教務管理系統都是可以的。
Spring:後台框架。為什麼要用框架呢,可以快速開發,粗降低了耦合。Spring的AOP支持允許將一些通用任務如安全、務、日誌等進行集中式管理,從而提供了更好的復用,Spring的ORM和DAO提供了與第三方持久層框架的良好整合,並簡化了底層的資料庫訪問。
Mybatis:持久層框架,當然持久層還有一個框架應用也很廣的,那就是hibernate,-個是半自動的一個是全自動,而在國內應用最多的是mybatis,在國外用得最多的是hibernate,具體原因,大家可以網路查查。持久層框架有什麼好處呢?如果你用原始的jdbc做開發,那你得自己來管理每一個連接,連接的打開和關閉,都是有開發人員來操作的,且jdbc也沒有實體的映射,需要我們寫代碼把值set進去,而用了框架這些都交給框架去做了。
Maven:?mavne是個工具,他的核心是pom.xml,這個配置文件,pom的全英文是projectobjectmodel,意思是對象管理模型,也就是把項目也看成一個對象來操作了。給我們帶來最直觀的好處就是依賴問題,以前我們需要自己下載jar包,在構建到項目中,但是有了maven只需要寫jar的中燃依賴就可以自動給我們下載了。
Springboot:?springboot是基於maven的,springboot最明顯的特點就是開箱即用,也就是構建了一個springboot項目直接就可以做開發了,而不需要像我們自己配一個springmvc的框架一樣的需要去配置大量的xml文件。讓我們開發人員更著重於業務上的開發。
Redis:前面的mysql,oracle是關系型資料庫,什麼是關系型呢,就是一對一-對多多對多。有表與表之間有這些關系在,所以就叫關系型資料庫,而redis就是非關系型資料庫,也就是他存儲數據之間是沒有這些關系,他是以鍵值對listset方式存儲的。
Springcloud:微服務框架,什麼是微服務呢,就是把我們傳統的單體服務拆分開了,就是將一個單體架構的應用按業務劃分為-一個個的獨立運行的程序即服務,微服務架構其實就是一個分布式架構,具體的就不詳細的講了,因為這裡面牽涉到的解決方案是靈活的。
Linux:?linux的應用通常都是在底層,那我們上層開發人員為什麼也要學它呢,實我們的主要應用是在伺服器上,也就是伺服器的系統。當然系統也有Windows的,而Windows的和Linux的區別就是Windows伺服器有問題是微軟來解決,很方便:別人替你做,但也不方便:你遇到問題都得讓他官方來解決漏洞,但是Linux就不--樣,他是完全開源的,有問題自嗎上就可以解決,只要開發人員能力夠硬去改內核都是可以的。
Git:版本管理工具,與之對應的還有svn,最大的區別在於git是分布式系統,而svn不是分布式的,因為你們進企業以後都是協同開發也就是一個項目小組裡面幾個小夥伴-起開發一個項目,所以就要有一一個代碼的管理工具來保證你們做的不同模塊可以整合,所以說git也是需要學的。
?
三.作為一個Java初學者,正確的Java學習方式。
1、首先要有吃苦耐勞的精神,因為學習編程不是看小說,完就大概明白是什麼意思,就可以給別
人講故事了,你得敲大量的代碼,從實踐中才能對Java有一個真正的認識,才能讓自己在開發中得心應手。舉例高博威。
2、學習知識要持之以恆,不要三天打魚兩天曬網的,學習要形成一個習慣,如果你學了幾天又玩了幾天,那前幾天的可能就會忘記。這樣學習的效率和進度都非常低了。
3、學習要大膽,不要因為沒有接觸過的不知道怎麼下手就不做,人都有對陌生事物的恐懼感,但是咱們要剋制他,無論通過任何渠道,任何方式都要把問題解決了。送你們一句話:會做的事就好好做,不會做的就亂做,做多了自然就會了,但是前提是你要去做。當然是自學的同學,在我手裡面學的同學就不用去亂做,我會告訴你該怎麼做的。
?
在入門學習Java的過程當中缺乏基礎入門的視頻教程,都可以相互交流學習,可以加我的技術討論自學資料qun:前面是926:中間是452:最後是303知識體系整理好(源碼,筆記,PDF教程,學習視頻)免費領取
以上內容均由本人手寫而成,完全站在Java初學者的角度來說,就是希望能用通俗易懂的語讓大家清晰的明白學習Java全面系統的學習內容,及應該達到什麼程度才能拿到-份Java.工作的offer,希望可以給大家帶來幫助。
❽ Deplication介紹
是一種運行在數據存儲服務設備上的後處理去重。它對普通文件或者數據好陪塊進行分友盯蠢區,使用HASH方法進行識別,並使用inode級別的文件系統操作指向合並後數據塊。
WAFL的文件處理方法:
數據去重的最佳體驗:
備份伺服器發送數據,HyperFactor過濾重復塊,磁碟陣列存儲新塊至倉庫
VTL概念則汪:
OST概念:
ProtecTIER can be accessed as a Virtual Tap Library(VTL), like a gateway or disk-based appliance. I offers global deplication across domain or backup servers, applications and disks. Tivoli Storage Manager works effectively with ProtecTIER and exploit ProtecTIER's efficient network replication capability.
Tivoli Storage Manager Version 6 provides storage pool deplication, which can rection of backup and archive data.
N series storage systems offer native, block-level, file-level, application-level, OS-level, protocol-agnostic postprocess data deplication.
Chunking refers to breaking data into standardized units that can be examined for plicates.
分區處理的兩種主流方式:
數據分區塊方法,分區方法不同會影響去重的效率:
Processing識別處理:
Each chunk of data must be identified in a way that is easily comparable.
識別處理方法
Consolidation合並重組:
After plicate chunks have been compared and identified, the pointers to those chunks must
be changed so they point to a single unique rather than multiple plicate chunks.
去重發生情況:
❾ hadoop和spark的區別
1、解決問題的層面不一樣
首先,Hadoop和Apache Spark兩者都是大數據框架,但是各自存在的目的不盡相同。Hadoop實質上更多是一個分布式數據基礎設施:它將巨大的數據集分派到一個由普通計算機組成的集群中的多個節點進行存儲,意味著您不需要購買和維護昂貴的伺服器硬體。
同時,Hadoop還會索引和跟蹤這些數據,讓大數據處理和分析效率達到前所未有的高度。Spark,則是那麼一個專門用來對那些分布式存儲的大數據進行處理的工具,它並不會進行分布式數據的存儲。
2、兩者可合可分
Hadoop除了提供為大家所共識的HDFS分布式數據存儲功能之外,還提供了叫做MapRece的數據處理功能。所以這里我們完全可以拋開Spark,使用Hadoop自身的MapRece來完成數據的處理。
相反,Spark也不是非要依附在Hadoop身上才能生存。但如上所述,畢竟它沒有提供文件管理系統,所以,它必須和其他的分布式文件系統進行集成才能運作。這里我們可以選擇Hadoop的HDFS,也可以選擇其他的基於雲的數據系統平台。但Spark默認來說還是被用在Hadoop上面的,畢竟,大家都認為它們的結合是最好的。
以下是從網上摘錄的對MapRece的最簡潔明了的解析:
我們要數圖書館中的所有書。你數1號書架,我數2號書架。這就是「Map」。我們人越多,數書就更快。
現在我們到一起,把所有人的統計數加在一起。這就是「Rece」。
3、Spark數據處理速度秒殺MapRece
Spark因為其處理數據的方式不一樣,會比MapRece快上很多。MapRece是分步對數據進行處理的: 」從集群中讀取數據,進行一次處理,將結果寫到集群,從集群中讀取更新後的數據,進行下一次的處理,將結果寫到集群,等等…「 Booz Allen Hamilton的數據科學家Kirk Borne如此解析。
反觀Spark,它會在內存中以接近「實時」的時間完成所有的數據分析:「從集群中讀取數據,完成所有必須的分析處理,將結果寫回集群,完成,」 Born說道。Spark的批處理速度比MapRece快近10倍,內存中的數據分析速度則快近100倍。
如果需要處理的數據和結果需求大部分情況下是靜態的,且你也有耐心等待批處理的完成的話,MapRece的處理方式也是完全可以接受的。
但如果你需要對流數據進行分析,比如那些來自於工廠的感測器收集回來的數據,又或者說你的應用是需要多重數據處理的,那麼你也許更應該使用Spark進行處理。
大部分機器學習演算法都是需要多重數據處理的。此外,通常會用到Spark的應用場景有以下方面:實時的市場活動,在線產品推薦,網路安全分析,機器日記監控等。
4、災難恢復
兩者的災難恢復方式迥異,但是都很不錯。因為Hadoop將每次處理後的數據都寫入到磁碟上,所以其天生就能很有彈性的對系統錯誤進行處理。
Spark的數據對象存儲在分布於數據集群中的叫做彈性分布式數據集(RDD: Resilient Distributed Dataset)中。這些數據對象既可以放在內存,也可以放在磁碟,所以RDD同樣也可以提供完成的災難恢復功能。