『壹』 華為 fusion cube 存儲虛擬化用的是什麼技術
OpenStack峰會在法國巴黎如期舉行,各界共商雲軟體的未來。OpenStack會執行總監Jonathan Bryce提到「被動的技術應用已經成為歷史,取而代之的是由軟體定義的存儲、網路及數據中心」。這一簡短有力的發言引起了強烈的共鳴和反響。
Jonathan Bryce的主題發言的指出了一個不可否認的事實,即:越來越多的企業使用了按需分配資源的雲系統。軟體帶來了經濟的不斷發展,創新不再是掌握所有權的大型機構的專利了,而真正的創新是來自不同國家的數百家公司成千上萬的人一起合作的成果。
Openstack提供開源軟體的框架,簡化了基於雲系統的管理模式。雖然只有短短四年,但無論是從齊聚巴黎分享優秀實踐的峰會創下與會人數的歷史記錄——4,600開發者及用戶,還是將首個Superuser大獎授予了CERN——World Wide Web的創始者,用3000個伺服器7萬核組成了全球最大的OpenStack集群,這些無一不證明了OpenStack的成功。顯然,企業用戶已經認識到了這一點,並利用OpenStack來實現企業規則的改革。
基於OpenStack的FusionSphere
華為是應用OpenStack架構的公司之一,而且OpenStack已經被深度融合進華為的一系列IT產品。 OpenStack滿足了雲時代這類公司針對日益靈活的IT系統的管理需求。在步入雲計算領域時面對系統日益靈活的管理需求。
華為雲計算產品線營銷總監張建華提到「隨著計算能力、存儲及網路對硬體的依賴性下降,我們正在創建我們自己的軟體來滿足基於軟體定義資源的需求。」
他指出,Openstack雖然可以像膠水一樣將整個系統粘合在一起,但它只是個基礎。華為FusionSphere雲操作系統產品在OpenStack框架的基礎上還增加了不同的安全級別,並且使用戶能充分利用OpenStack提供的互通特性最新的FusionSphere 5.0還允許私有雲用戶連接像亞馬遜這樣的公共雲。
通過使用OpenStack,華為FusionSphere能夠管理來自不同廠家的虛擬伺服器、存儲、網路資源以及虛擬安全與負載均衡等設備。FusionSphere可以兼容作為雲計算基礎的異構虛擬化層,且物理伺服器虛擬化使FusionSphere能夠根據企業當前的需求完成不同的任務。如hypervisor,一個虛擬化多個物理系統的虛擬化層軟體,可以由不同供應商提供,使FusionSphere能夠很好地與已有設備或軟體配合完成相應任務。
軟體定義的基礎設施
和傳統的基於硬體的系統相比,軟體定義的數據中心具有很多優勢。軟體定義數據中心可以分解為軟體定義計算、軟體定義存儲和軟體定義網路。例如,軟體定義網路將網路的管理和只能路由功能抽取到軟體實體中,並且提供API供用戶按照應用的需要對網路進行編程,從而實現業務驅動網路;而實際數據交換功能則交付給專用的數據交換硬體設備,交換設備只專注於數據交換,這樣大大提高了數據交換的效率。軟體定義的數據中心具備很強的系統自愈能力。
那些對上述雲計算的保障機制需求強烈的企業,軟體定義的數據中心無疑具有強烈的吸引力。張建華還提到了電信運營商,「通常,這些公司很依賴硬線技術,但是目前的大量流量都不是通過傳統的電信網路傳輸。運營商需要改變來提供更多的IP服務」。Openstack與FusionSphere提供了像互聯網一樣的架構,從而能夠解決這些問題。他還補充到「運營商需要一個既懂得傳統架構又懂得新模式的合作夥伴才能邁進新紀元。他們還需要開放架構的解決方案,以避免受限於某一單一模式。」
OpenStack實現電信NFV變革
Telefonica意識到華為正是這樣的合作夥伴。因為這個原因,電信巨頭Telefonica決定採用華為FusionSphere集中管理其軟體、硬體以及數據中心。鑒於FusionSphere的統一調度與管理優勢,Telefonica在英國的運營商O2,在部署FusionSphere後的TCO大幅降低了約30%。FusionSphere通過三個方面實現客戶價值:運營維護(O&M)、業務管理、以及業務控制。另外,FusionSphere架構也將支持Telefonica的後續升級。
另外一個電信巨頭,沃達豐,也部署了FusionSphere來管理其基於PLEX系統的數據中心,以便管理不同廠商的資源和未被充分利用的資源,降低操作維護費用。公有雲和私有雲都在以這種模式進行管理,資源按需求動態分配,必要時業務也可以跨雲遷移。
除了電信領域外,OpenStack也為其他領域帶來了好處。匯港資訊有限公司採用華為OpenStack連通了香港經紀人與上海證券交易所。中國的一些政府部門的業務系統也通過部署華為雲產品,體驗到了這種IT架構的優勢,華為的雲產品可以為其消減成本、提高效率。
在OpenStack 峰會最後,華為的雲計算產品線首席技術官,王海鷹,上台分享了華為成為OpenStack會金牌會員的前景。他講到「從長遠看,華為將會繼續促進OpenStack與NFV的融合。我們也希望與所有領域夥伴合作構建一個健康的OpenStack系統」。我們正在進步。OpenStack已經有17,141個個人會員,432個支撐公司,以及兩千萬行代碼,這也證明了企業已經准備好迎接更敏捷的IT方案。這個方案將不僅能夠滿足當前需求,而且能夠靈活地控制未來的方案。華為FusionSphere,FusionCube(軟硬體雲管理一體機)以及其他的雲產品正是這樣一套既適應今天又能管理未來的強大的工具。
評論
請先登錄,再發表評論
敬請讀者發表評論,本站保留刪除與本文無關和不雅評論的權力。
OpenStack開發雲計算
OpenStack目標:解決實施中的瓶頸問題
OpenStack Neutron:雲服務中的開放網路
Salesforce或「登陸」OpenStack
Gartner分析師再次抨擊OpenStack「太嫩」
紅帽:Havana增強OpenStack的開發動力
雲計算疆場烽煙:OpenStack叫板Amazon
OpenStack你了解生態系統的價值嗎?
企業對OpenStack Havana熱情高漲 期待Icehouse
OpenStack是否已為IPv6做好准備?
OpenStack Havana新增雲網路功能
企業部署OpenStack:該做與不該做的事
DIY雲計算:OpenStack當積木
OpenStack私有雲滿足高IO需求
OpenStack互操作駕到:開源雲平台選擇更自由
失敗案例!OpenStack沒你想的那麼簡單!
SUSE OpenStack Cloud 5簡化私有雲管理
如何構建OpenStack存儲雲
企業用戶為何選擇OpenStack
使用OpenStack能開發企業私有雲嗎?
OpenStack在混合雲戰略中位置在哪?
OpenStack雲功能激發廠商支持
雲計算開源運動:廠商爭先公開源代碼
OpenStack私有雲DR的益處比其TCO更顯而易見
OpenStack企業~~進程舉步維艱
EMC收購Cloudscaling對OpenStack應用意義何在?
紅帽1.75億美元收購Inktank
紅帽 9,500萬美元收購eNovance
思科收購Metacloud
惠普1億美元收購Eucalytpus
EMC 5,000萬美元收購Cloudscaling
2014 OpenStack收購案盤點
華為持續重磅投入OpenStack 巴黎峰會全面展示開放雲
誰還敢於挑戰OpenStack的權威?出列!
預測到2018年OpenStack市場規模將達到33億美元
網易OpenStack部署運維實戰
紅帽公司發布 OpenStack Platform 5
開源雲平台:頂級OpenStack廠商一覽
OpenStack為技術宅提供了「拯救世界」的平台
OpenStack之小企業使用技巧
OpenStack現狀:四年後仍「不溫不火」
小型企業如何成功牽手OpenStack?
OpenStack:叫好不叫座
IBM Cloud Manager將OpenStack與伺服器關聯
OpenStack現在可配置NoSQL
雲計算戰爭OpenStack vs VMware:設計與功能
雲操作系統OpenStack:優勢與問題並存
Riverbed加入OpenStack社區:協作開發基於開源標准雲解決方案的優化先鋒
Rackspace將拆分開源雲計算軟體OpenStack
如何使用Puppet安裝OpenStack Nova雲?
Cloud.com將要合並OpenStack代碼庫
如何建立高可用OpenStack雲?
OpenStack里的三種存儲
OpenStack Grizzly發布 推進可擴展性和高可用性
OpenStack最新版本Grizzly新增部分功能一覽
面對雲鎖定的抉擇:OpenStack還是專有雲平台?
四種方案將OpenStack部署到Hadoop
如何成功實施OpenStack和CloudStack項目
Mark Collier:OpenStack API兼容AWS
三載風雨鑄就Openstack今日輝煌
『貳』 雲存儲的核心技術:虛擬化存儲,究竟虛擬是怎樣實現的
虛擬化改變了計算機使用存儲的方式。就像物理機器抽象成虛擬機(VM:Virtual Machine)一樣,物理存儲設備也被抽象成虛擬磁碟(Virtual Disk)。今天我們就來聊聊虛擬化存儲(Storage Virtualization)技術,究竟虛擬磁碟是怎樣實現的?
虛擬磁碟的實現
我們知道,伺服器擴展存儲的手段主要有直連存儲(DAS)、存儲區域網路(SAN)和網路附加存儲(NAS)這三種類型。那麼哪種存儲類型可以用來實現虛擬磁碟呢?
在虛擬化環境中,類似VMWare這樣的虛擬機管理程序hypervisor,要同時給很多VM分配存儲空間。這個過程中,我們需要先把物理存儲資源重新劃分成虛擬磁碟,然後再分配給VM。
顯然我們不能用DAS方式把物理磁碟直連到VM上,如果這樣,需要的物理磁碟就太多了。SAN是以邏輯單元(LUN:Logic Unit)的形式提供存儲資源,但是虛擬環境中VM的數量是很大的,而且倫的數量不足以支持這么多虛擬磁碟。
更重要的是,虛擬磁碟是為大量VM共享的,由於VM需要隨時創建、刪除或遷移,所以需要在遷移VM時共享存儲空間,只有原始數據不會丟失。DAS還是SAN,都不適合共享存儲。
考慮到資源分配以及共享的問題,虛擬機管理程序以NAS的方式實現虛擬磁碟。VMware通常使用VMFS(虛擬機文件系統)或NFS協議實現虛擬磁碟,VMFS文件系統是專門針對虛擬機環境協議。
每一個虛擬機的數據實際上是一堆文件,及最重要的文件的虛擬磁碟文件(VMDK文件),也有交換分區文件(VSWP文件,等價交換),非易失性存儲器(NVRAM的文件相當於BIOS),等等。每個VM對虛擬磁碟的IO操作實際上是對虛擬磁碟文件的讀寫操作。
設計、施工、和虛擬伺服器環境和優化,允許多個虛擬機訪問集成的集群存儲池,從而大大提高了資源的利用率。使用和實現資源共享,管理員可以直接從更高的效率和存儲利用率中獲益。
那麼我們如何在雲計算中使用虛擬磁碟呢?
實例存儲
最主要的一種使用虛擬磁碟的方式就是實例存儲,每個VM都是虛擬機的一個實例,虛擬機管理程序在每個實例中提供一個模擬硬體環境,它包括CPU、內存和磁碟。這樣,虛擬磁碟就是虛擬機實例的一部分,就像物質世界。刪除VM後,虛擬磁碟也將被刪除。
在這個實例存儲模型中,虛擬磁碟與虛擬機之間的存儲關系,事實上,它是DAS存儲。但是虛擬磁碟的底層實現,我們說,它是以NAS的方式實現的。虛擬機管理程序的作用是存儲VM層的存儲模型,這是從實施協議分離(VMFS或NFS)的虛擬機的低層。
VMFS協議實現了存儲資源的虛擬化,再分配各VMs
卷存儲
實例存儲有它的限制,開發人員通常希望分離實例數據,例如OS和安裝的一些伺服器應用程序和用戶數據,這樣重建VM的時候可以保留用戶的數據。
這個需求衍生出另外一種存儲模型:卷存儲。卷是存儲的主要單元,相當於虛擬磁碟分區。它不是虛擬機實例的一部分,它可以被認為是虛擬機的外部存儲設備。
該卷可以從一個VM卸載,然後附加到另一個VM。通過這種方式,我們實現了實例數據與用戶數據的分離。OpenStack的煤渣是一個體積存儲的實現。
除了實例存儲和卷存儲之外,最後我們還提到另一種特殊的虛擬存儲:對象存儲。
對象存儲
很多雲應用需要在不同的VM之間共享數據,它常常需要跨越多個數據中心,而對象存儲可以解決這個問題。在前一篇文章中的雲計算IaaS管理平台的基本功能是什麼?》中曾經提到過對象存儲。
在對象存儲模型中,數據存儲在存儲段(bucket)中,桶也可以被稱為「水桶」,因為它字面意思。我們可以用硬碟來類推,對象像一個文件,而存儲段就像一個文件夾(或目錄)。可以通過統一資源標識符(URI:統一資源標識符)找到對象和存儲段。
對象存儲的核心設計思想實際上是虛擬化,它是文件的物理存儲位置,如卷、目錄、磁碟等,虛擬化是木桶,它將文件虛擬化為對象。對於應用層,簡化了對數據訪問的訪問,屏蔽了底層存儲技術的異構性和復雜性。
對象存儲模型
NAS與對象存儲各有所長
當然你也許會問,NAS存儲技術也是一個可以解決數據共享的問題嗎?由於對象存儲的大小和成本優勢,許多雲環境使用對象存儲而不是NAS。
因為對象存儲將跨多個節點傳播,最新數據並不總是可用的 因此,對象存儲的數據一致性不強。如果有強一致性的要求,然後你可以使用NAS。目前,在雲計算環境中,NAS和對象存儲是共存的。
和NAS一樣,對象存儲也是軟體體系結構,而不是硬體體系結構。應用程序通過REST API直接訪問對象存儲。公共對象存儲包括:Amazon S3和OpenStack的Swift。
結語
在實際的雲平台應用中,我們需要根據自己的實際情況來合理運用不同的虛擬化存儲技術。
對於非結構化的靜態數據文件,如音視頻、圖片等,我們一般使用對象存儲。
對於系統鏡像以及應用程序,我們需要使用雲主機實例存儲或者卷存儲。
對於應用產生的動態數據,我們一般還需要利用雲資料庫來對數據進行管理。
『叄』 存儲虛擬化的概念是什麼
對於用戶來說,虛擬化的存儲資源就像是一個巨大的「存儲池」,用戶不會看到具體的磁碟、磁帶,也不必關心自己的數據經過哪一條路徑通往哪一個具體的存儲設備。從管理的角度來看,虛擬存儲池是採取集中化的管理,並根據具體的需求把存儲資源動態地分配給各個應用。值得特別指出的是,利用虛擬化技術,可以用磁碟陣列模擬磁帶庫,為應用提供速度像磁碟一樣快、容量卻像磁帶庫一樣大的存儲資源,這就是當今應用越來越廣泛的虛擬磁帶庫(VTL,VirtualTapeLibrary),在當今企業存儲系統中扮演著越來越重要的角色。
『肆』 存儲虛擬化是什麼集群存儲又是什麼
存儲虛擬化廣義上來說,就是通過映射或抽象的方式屏蔽物理設備復雜性,增加一個管理層面,激活一種資源並使之更易於透明控制。
存儲虛擬化(Storage Virtualization)最通俗的理解就是對存儲硬體資源進行抽象化表現。通過將一個(或多個)目標(Target)服務或功能與其它附加的功能集成,統一提供有用的全面功能服務。
集群存儲是指:由若干個「通用存儲設備」組成的用於存儲的集群,組成集群存儲的每個存儲系統的性能和容量均可通過「集群」的方式得以疊加和擴展。
『伍』 存儲虛擬化的目前狀況
存儲的虛擬化技術自本世紀初誕生以來,歷經了十餘年的技術演進與市場考驗。發生變化的不僅是技術本身,而更多的是用戶的實際應用需求。早期存儲虛擬化技術出現的主要目的是為了幫助用戶對異構存儲資源進行池化和整合,提高使用和管理效率,合理降低TCO。而近年來基於SAN的存儲虛擬化技術越來越多被應用於有效提升核心生產系統的業務連續性,數據安全性以及平滑的跨存儲陣列的數據遷移能力
盡管關於虛擬化的宣傳鋪天蓋地,企業界採用虛擬存儲技術的腳步還是頗為緩慢。根據IDC對269名來自不同規模的公司的IT經理的調查,僅僅只有8%的企業正在應用任何一種形式的虛擬化。並且僅有平均23%的企業表示計劃將在未來12個月里嘗試實施一定程度的存儲虛擬化。
中端存儲用戶主要期望用於對數據遷移進行管理,減輕管理負擔;大型企業則主要期望將虛擬存儲中的數據復制、卷管理用於存儲預備。不管是哪個虛擬化陣營的廠商都面臨著不同的壓力,並有待在真實環境中接受考驗。
用戶在對存儲子系統升級擴容時,不僅把性能與容量指標作為首要考慮對象,對於整個生產存儲系統的高可用性,以及業務連續性保障能力的要求也逐漸成為規劃建設初期進行考慮的重點!為了有效實現業務連續性保障目標,解決存儲子系統的單點故障問題,合理引入存儲虛擬化技術已經成為最為行之有效的手段之一,比如通過存儲虛擬化技術實現不同品牌型號陣列間的實時鏡像,幫助用戶實現存儲子系統的冗餘能力。這一點在VMware虛擬化環境中幾乎變成唯一可行的存儲系統高可用性解決方案;又比如通過精簡帶寬的遠程復制,數據錄像或密集時間點的可恢復快照功能,來有效實現對於邏輯故障的防禦,控制運維成本投入等。最終,通過一套統一的系統功能來實現對生產系統的業務連續性保障,方便,簡單,大大減少了運維人員的壓力。
近來,兼容異構存儲 ,同時具備完整數據保護和管理功能的成熟存儲虛擬化產品也被廣泛應用於兩地三中心容災以及雙活數據中心的建設當中,作為一種積極的,可靠的技術手段有效提升用戶原有生產系統對各類型災難的防禦能力。
目前而言沒有任何一家已經穩固佔領了市場,迄今為止,IBM似乎有最高的銷售記錄,但也僅僅只是接近於領導地位。IBM SVC於2004年左右上市,從某種維度上看SVC 似乎與飛康的NSS形態和設計都很類似,都是基於Linux內核和x86工業標准伺服器。IBM基於SVC的I/O GROUP引擎開發出了其目前整個V系列的存儲產品線,比如常見的v7000系列存儲系統 。SVC早起存儲虛擬化功能較為單一,僅支持對異構存儲的基本管理和池化,所以IBM曾經視圖收購飛康,未果後也與2010年左右升級了其SVC 軟體版本,逐漸提供了一些相應的高級功能。
另一個就是飛康 NSS,作為存儲虛擬化技術的先驅之一,飛康的IPStor/NSS 存儲虛擬化產品在2001年就已經出現在市場上,截止2014年已經正式發布了其第七代存儲虛擬化產品,技術成熟度和廣泛的應用范圍都具備良好的可參考性。自創立以來,一直堅持開放硬體的態度,獲得眾多用戶和第三方存儲廠商的青睞,很多國內外存儲廠商的技術人員都曾經接觸過該產品。飛康官方宣稱,以OEM方式或自主品牌銷售的NSS產品安裝量已超過數萬套。豐富而實用的功能設計以及長期經受市場考驗的產品穩定性和可靠性,應該是飛康IPStor/NSS產品的主要特點。
根據企業策略集團公司(ESG)的建立人,高級分析師SteveDuplessie的報告,SVC已完成1500多套系統的售出。該數據還被英國一家調研公司所證實。Cisco系統公司最近收購了ToPSPin公司,於是也擁有了把伺服器虛擬化、存儲虛擬化和網路虛擬化連接起來的能力。Topsin的虛擬化核心技術能夠給Cisco帶來大筆的技術財富,如果Cisco公司在收購它之後選擇全力實現虛擬性能,結果勢必令人矚目。盡管已經取得了不小的成就和地位,但在存儲領域Cisco仍然是一個玩票性質的參與者。Cisco面臨的挑戰在於所有的數據復制,存儲預備以及其他核心存儲功能的知識產權都在存儲供應商手中,Cisco要想占優勢,除了自身產品的研發與市場以外,還需要加強和這些主流存儲系統廠商的合作與溝通。
在這場大賽中還有一個低調的實力派就是微軟。微軟在過去的兩年裡已默默地把自身建設成一支存儲領域的強大軍隊,並且最近還克服了一些阻礙發展虛擬化的許可證等問題。在這場虛擬化的混戰中,微軟也許有些姍姍來遲,但憑借微軟在軟體領域的絕對地位,微軟很可能會爆出一些驚人的技術,也許會把虛擬化變為伺服器操作系統的一部分。
eG Innovations創始人兼總裁兼首席執行官Srinivas Ramanathan表示從存儲虛擬化格局改變的角度來看,他認為存儲虛擬化將走伺服器虛擬化所走過的路。Ramanathan解釋道:幾年前,伺服器虛擬化的焦點還在虛擬機管理器。現在,虛擬機管理器已經變成商品。所有的虛擬化公司都在關注管理性,以便為虛擬化客戶提供成本節約和靈敏性。在我看來,幾年後,存儲虛擬化也將接著伺服器虛擬化進入成熟期。
盡管伺服器虛擬化已經成為主流,但是Ramanathan表示存儲虛擬化離主流還有一定距離。他表示:現在的主要焦點是證明這個技術是有效的。幾年後,管理性將更加重要--如何充分利用現有的硬體,如何在不同主機上動態遷移VM(虛擬機)等。
Infortrend Technology副總監Galvin Chang表示存儲虛擬化的第一階段是要能夠整合和處理來自不同廠商的存儲硬體的I/O命令。Chang表示,在存儲虛擬化的下一階段,下列這些問題將變得更加重要:向外擴展存儲,分層和虛擬化存儲,針對雲數據中心的虛擬化存儲,以及負載均衡。
根據Chang的說法,在虛擬化環境中使用向上擴展存儲只會增加容量和導致不必要的資源浪費;只有向外擴展架構可以提高存儲性能和獲取來自虛擬化的好處。Chang還表示虛擬化存儲可以提供不同層次的存儲管理服務,包括SSD、SAS、SATA甚至VTL(虛擬磁帶庫)。
至於雲服務要求,Chang認為虛擬化的存儲可以提供不同的好處,包括可擴展性、無宕機數據管理以及更低的成本。他表示另一個關鍵問題將是當多個存儲控制器引入一個虛擬化存儲池的時候如何平衡控制器工作負荷和主機帶寬。Chang指出:廠商們可以部署智能主機代理端或利用網路層協議來進行負載共享。
『陸』 國內外的Hadoop應用現狀
文 | 翟周偉
本文節選自《Hadoop核心技術》一書。
Hadoop是一個開源的高效雲計算基礎架構平台,其不僅僅在雲計算領域用途廣泛,還可以支撐搜索引擎服務,作為搜索引擎底層的基礎架構系統,同時在海量數據處理、數據挖掘、機器學習、科學計算等領域都越來越受到青睞。本文將講述國內外的hadoop應用現狀。
國外Hadoop的應用現狀
1.Yahoo
Yahoo是Hadoop的最大支持者,截至2012年,Yahoo的Hadoop機器總節點數目超過42?000個,有超過10萬的核心CPU在運行Hadoop。最大的一個單Master節點集群有4500個節點(每個節點雙路4核心CPUboxesw,4×1TB磁碟,16GBRAM)。總的集群存儲容量大於350PB,每月提交的作業數目超過1000萬個,在Pig中超過60%的Hadoop作業是使用Pig編寫提交的。
Yahoo的Hadoop應用主要包括以下幾個方面:
支持廣告系統
用戶行為分析
支持Web搜索
反垃圾郵件系統
會員反濫用
內容敏捷
個性化推薦
同時Pig研究並測試支持超大規模節點集群的Hadoop系統。
2.Facebook
Facebook使用Hadoop存儲內部日誌與多維數據,並以此作為報告、分析和機器學習的數據源。目前Hadoop集群的機器節點超過1400台,共計11?200個核心CPU,超過15PB原始存儲容量,每個商用機器節點配置了8核CPU,12TB數據存儲,主要使用StreamingAPI和JavaAPI編程介面。Facebook同時在Hadoop基礎上建立了一個名為Hive的高級數據倉庫框架,Hive已經正式成為基於Hadoop的Apache一級項目。此外,還開發了HDFS上的FUSE實現。
3.A9.com
A9.com為Amazon使用Hadoop構建了商品搜索索引,主要使用StreamingAPI以及C++、Perl和Python工具,同時使用Java和StreamingAPI分析處理每日數以百萬計的會話。A9.com為Amazon構建的索引服務運行在100節點左右的Hadoop集群上。
4.Adobe
Adobe主要使用Hadoop及HBase,同於支撐社會服務計算,以及結構化的數據存儲和處理。大約有超過30個節點的Hadoop-HBase生產集群。Adobe將數據直接持續地存儲在HBase中,並以HBase作為數據源運行MapRece作業處理,然後將其運行結果直接存到HBase或外部系統。Adobe在2008年10月就已經將Hadoop和HBase應用於生產集群。
5.CbIR
自2008年4月以來,日本的CbIR(Content-basedInformationRetrieval)公司在AmazonEC2上使用Hadoop來構建圖像處理環境,用於圖像產品推薦系統。使用Hadoop環境生成源資料庫,便於Web應用對其快速訪問,同時使用Hadoop分析用戶行為的相似性。
6.Datagraph
Datagraph主要使用Hadoop批量處理大量的RDF數據集,尤其是利用Hadoop對RDF數據建立索引。Datagraph也使用Hadoop為客戶執行長時間運行的離線SPARQL查詢。Datagraph是使用AmazonS3和Cassandra存儲RDF數據輸入和輸出文件的,並已經開發了一個基於MapRece處理RDF數據的Ruby框架——RDFgrid。
Datagraph主要使用Ruby、RDF.rb以及自己開發的RDFgrid框架來處理RDF數據,主要使用HadoopStreaming介面。
7.EBay
單集群超過532節點集群,單節點8核心CPU,容量超過5.3PB存儲。大量使用的MapRece的Java介面、Pig、Hive來處理大規模的數據,還使用HBase進行搜索優化和研究。
8.IBM
IBM藍雲也利用Hadoop來構建雲基礎設施。IBM藍雲使用的技術包括:Xen和PowerVM虛擬化的Linux操作系統映像及Hadoop並行工作量調度,並發布了自己的Hadoop發行版及大數據解決方案。
9.Last.Fm
Last.Fm主要用於圖表計算、專利申報、日誌分析、A/B測試、數據集合並等,也使用Hadoop對超過百萬的曲目進行大規模的音頻特徵分析。
節點超過100台機器,集群節點配置雙四核[email protected]@2.13GHz,24GB內存,8TB(4×2TB)存儲。
10.LinkedIn
LinkedIn有多種硬體配置的Hadoop集群,主要集群配置如下:
800節點集群,基於Westmere的惠普SL170X與2×4的核心,24GB內存,6×2TBSATA。
1900節點集群,基於Westmere的超微-HX8DTT,與2×6的核心,24GB內存,6×2TBSATA。
1400節點集群,基於SandyBridge超微與2×6的核心,32GB內存,6×2TBSATA。
使用的軟體如下:
操作系統使用RHEL6.3。
JDK使用SUNJDK1.6.0_32。
Apache的Hadoop0.20.2的補丁和ApacheHadoop的1.0.4補丁。
Azkaban和Azkaban用於作業調度。
Hive、Avro、Kafka等。
11.MobileAnalytic.TV
主要使用Hadoop應用在並行化演算法領域,涉及的MapRece應用演算法如下。
信息檢索和分析。
機器生成的內容——文檔、文本、音頻、視頻。
自然語言處理。
項目組合包括:
移動社交網路。
網路爬蟲。
文本到語音轉化。
音頻和視頻自動生成。
12.Openstat
主要利用Hadoop定製一個網路日誌分析並生成報告,其生產環境下超過50個節點集群(雙路四核Xeon處理器,16GB的RAM,4~6硬碟驅動器),還有兩個相對小的集群用於個性化分析,每天處理約500萬的事件,每月15億美元的交易數據,集群每天產生大約25GB的報告。
使用的技術主要包括:CDH、Cascading、Janino。
13.Quantcast
3000個CPU核心,3500TB存儲,每日處理1PB以上的數據,使用完全自定義的數據路徑和排序器的Hadoop調度器,對KFS文件系統有突出貢獻。
14.Rapleaf
超過80個節點的集群(每個節點有2個雙核CPU,2TB×8存儲,16GBRAM內存);主要使用Hadoop、Hive處理Web上關聯到個人的數據,並引入Cascading簡化數據流穿過各種處理階段。
15.WorldLingo
硬體上超過44台伺服器(每台有2個雙核CPU,2TB存儲,8GB內存),每台伺服器均運行Xen,啟動一個虛擬機實例運行Hadoop/HBase,再啟動一個虛擬機實例運行Web或應用程序伺服器,即有88台可用的虛擬機;運行兩套獨立的Hadoop/HBase機群,它們各自擁有22個節點。Hadoop主要用於運行HBase和MapRece作業,掃描HBase的數據表,執行特定的任務。HBase作為一種可擴展的、快速的存儲後端,用於保存數以百萬的文檔。目前存儲了1200萬篇文檔,近期的目標是存儲4.5億篇文檔。
16.格拉斯哥大學的TerrierTeam
超過30個節點的實驗集群(每節點配置XeonQuadCore2.4GHz,4GB內存,1TB存儲)。使用Hadoop促進信息檢索研究和試驗,特別是用於TREC,用於TerrierIR平台。Terrier的開源發行版中包含了基於HadoopMapRece的大規模分布式索引。
17.內布拉斯加大學的HollandComputingCenter
運行一個中等規模的Hadoop機群(共計1.6PB存儲)用於存儲和提供物理數據,以支持緊湊型μ子螺旋型磁譜儀(CompactMuonSolenoid,CMS)實驗的計算。這需要一類能夠以幾Gbps的速度下載數據,並以更高的速度處理數據的文件系統的支持。
18.VisibleMeasures
將Hadoop作為可擴展數據流水線的一個組件,最終用於VisibleSuite等產品。使用Hadoop匯總、存儲和分析與網路視頻觀眾收看行為相關的數據流。目前的網格包括超過128個CPU核心,超過100TB的存儲,並計劃大幅擴容。
國內Hadoop的應用現狀
Hadoop在國內的應用主要以互聯網公司為主,下面主要介紹大規模使用Hadoop或研究Hadoop的公司。
1.網路
網路在2006年就開始關注Hadoop並開始調研和使用,在2012年其總的集群規模達到近十個,單集群超過2800台機器節點,Hadoop機器總數有上萬台機器,總的存儲容量超過100PB,已經使用的超過74PB,每天提交的作業數目有數千個之多,每天的輸入數據量已經超過7500TB,輸出超過1700TB。
網路的Hadoop集群為整個公司的數據團隊、大搜索團隊、社區產品團隊、廣告團隊,以及LBS團體提供統一的計算和存儲服務,主要應用包括:
數據挖掘與分析。
日誌分析平台。
數據倉庫系統。
推薦引擎系統。
用戶行為分析系統。
同時網路在Hadoop的基礎上還開發了自己的日誌分析平台、數據倉庫系統,以及統一的C++編程介面,並對Hadoop進行深度改造,開發了HadoopC++擴展HCE系統。
2.阿里巴巴
阿里巴巴的Hadoop集群截至2012年大約有3200台伺服器,大約30?000物理CPU核心,總內存100TB,總的存儲容量超過60PB,每天的作業數目超過150?000個,每天hivequery查詢大於6000個,每天掃描數據量約為7.5PB,每天掃描文件數約為4億,存儲利用率大約為80%,CPU利用率平均為65%,峰值可以達到80%。阿里巴巴的Hadoop集群擁有150個用戶組、4500個集群用戶,為淘寶、天貓、一淘、聚劃算、CBU、支付寶提供底層的基礎計算和存儲服務,主要應用包括:
數據平台系統。
搜索支撐。
廣告系統。
數據魔方。
量子統計。
淘數據。
推薦引擎系統。
搜索排行榜。
為了便於開發,其還開發了WebIDE繼承開發環境,使用的相關系統包括:Hive、Pig、Mahout、Hbase等。
3.騰訊
騰訊也是使用Hadoop最早的中國互聯網公司之一,截至2012年年底,騰訊的Hadoop集群機器總量超過5000台,最大單集群約為2000個節點,並利用Hadoop-Hive構建了自己的數據倉庫系統TDW,同時還開發了自己的TDW-IDE基礎開發環境。騰訊的Hadoop為騰訊各個產品線提供基礎雲計算和雲存儲服務,其支持以下產品:
騰訊社交廣告平台。
搜搜(SOSO)。
拍拍網。
騰訊微博。
騰訊羅盤。
QQ會員。
騰訊游戲支撐。
QQ空間。
朋友網。
騰訊開放平台。
財付通。
手機QQ。
QQ音樂。
4.奇虎360
奇虎360主要使用Hadoop-HBase作為其搜索引擎so.com的底層網頁存儲架構系統,360搜索的網頁可到千億記錄,數據量在PB級別。截至2012年年底,其HBase集群規模超過300節點,region個數大於10萬個,使用的平台版本如下。
HBase版本:facebook0.89-fb。
HDFS版本:facebookHadoop-20。
奇虎360在Hadoop-HBase方面的工作主要為了優化減少HBase集群的啟停時間,並優化減少RS異常退出後的恢復時間。
5.華為
華為公司也是Hadoop主要做出貢獻的公司之一,排在Google和Cisco的前面,華為對Hadoop的HA方案,以及HBase領域有深入研究,並已經向業界推出了自己的基於Hadoop的大數據解決方案。
6.中國移動
中國移動於2010年5月正式推出大雲BigCloud1.0,集群節點達到了1024。中國移動的大雲基於Hadoop的MapRece實現了分布式計算,並利用了HDFS來實現分布式存儲,並開發了基於Hadoop的數據倉庫系統HugeTable,並行數據挖掘工具集BC-PDM,以及並行數據抽取轉化BC-ETL,對象存儲系統BC-ONestd等系統,並開源了自己的BC-Hadoop版本。
中國移動主要在電信領域應用Hadoop,其規劃的應用領域包括:
經分KPI集中運算。
經分系統ETL/DM。
結算系統。
信令系統。
雲計算資源池系統。
物聯網應用系統。
E-mail。
IDC服務等。
7.盤古搜索
盤古搜索(目前已和即刻搜索合並為中國搜索)主要使用Hadoop集群作為搜索引擎的基礎架構支撐系統,截至2013年年初,集群中機器數量總計超過380台,存儲總量總計3.66PB,主要包括的應用如下。
網頁存儲。
網頁解析。
建索引。
Pagerank計算。
日誌統計分析。
推薦引擎等。
即刻搜索(人民搜索)
即刻搜索(目前已與盤古搜索合並為中國搜索)也使用Hadoop作為其搜索引擎的支撐系統,截至2013年,其Hadoop集群規模總計超過500台節點,配置為雙路6核心CPU,48G內存,11×2T存儲,集群總容量超過10PB,使用率在78%左右,每天處理讀取的數據量約為500TB,峰值大於1P,平均約為300TB。
即刻搜索在搜索引擎中使用sstable格式存儲網頁並直接將sstable文件存儲在HDFS上面,主要使用HadoopPipes編程介面進行後續處理,也使用Streaming介面處理數據,主要的應用包括:
網頁存儲。
解析。
建索引。
推薦引擎。
end
『柒』 誰能介紹一下存儲虛擬化技術優勢
飛康 NSS SED (Service-Enabled Devices)作為存儲虛擬化技術的先驅之一,飛康的IPStor/NSS 存儲虛擬化產品在2001年就已經出現在市場上,截止2014年已經正式發布了其第七代存儲虛擬化產品,技術成熟度和廣泛的應用范圍都具備良好的可參考性。飛康自創立以來,一直堅持開放硬體的態度,獲得眾多用戶和第三方存儲廠商的親睞,很多國內外存儲廠商的技術人員都曾經接觸過該產品。飛康官方宣稱,以OEM方式或自主品牌銷售的NSS產品安裝量已超過數萬套。豐富而實用的功能設計以及長期經受市場考驗的產品穩定性和可靠性,應該是飛康IPStor/NSS產品的主要特點。
飛康 NSS 存儲虛擬化接入技術原理非常便於理解。飛康 NSS 在接管底層存儲子系統的磁碟卷時,可以採用兩種方式來實現接入:一種是將底層磁碟卷直接虛擬化為Virtual Disk(虛擬磁碟)以供NSS管理和分配;另一種可將磁碟卷轉換為SED(Service-Enabled Devices)磁碟設備以供NSS管理和分配。當轉換為SED設備時,磁碟卷原有數據不會被修改,可以快速通過NSS分配給主機系統,整個接入過程非常簡單,不需要數據遷移,停機時間很少,當然也可以實現快速回退,磁碟重新分配給原主機系統,可以被正確識別和使用。