‘壹’ 华为 fusion cube 存储虚拟化用的是什么技术
OpenStack峰会在法国巴黎如期举行,各界共商云软件的未来。OpenStack会执行总监Jonathan Bryce提到“被动的技术应用已经成为历史,取而代之的是由软件定义的存储、网络及数据中心”。这一简短有力的发言引起了强烈的共鸣和反响。
Jonathan Bryce的主题发言的指出了一个不可否认的事实,即:越来越多的企业使用了按需分配资源的云系统。软件带来了经济的不断发展,创新不再是掌握所有权的大型机构的专利了,而真正的创新是来自不同国家的数百家公司成千上万的人一起合作的成果。
Openstack提供开源软件的框架,简化了基于云系统的管理模式。虽然只有短短四年,但无论是从齐聚巴黎分享优秀实践的峰会创下与会人数的历史记录——4,600开发者及用户,还是将首个Superuser大奖授予了CERN——World Wide Web的创始者,用3000个服务器7万核组成了全球最大的OpenStack集群,这些无一不证明了OpenStack的成功。显然,企业用户已经认识到了这一点,并利用OpenStack来实现企业规则的改革。
基于OpenStack的FusionSphere
华为是应用OpenStack架构的公司之一,而且OpenStack已经被深度融合进华为的一系列IT产品。 OpenStack满足了云时代这类公司针对日益灵活的IT系统的管理需求。在步入云计算领域时面对系统日益灵活的管理需求。
华为云计算产品线营销总监张建华提到“随着计算能力、存储及网络对硬件的依赖性下降,我们正在创建我们自己的软件来满足基于软件定义资源的需求。”
他指出,Openstack虽然可以像胶水一样将整个系统粘合在一起,但它只是个基础。华为FusionSphere云操作系统产品在OpenStack框架的基础上还增加了不同的安全级别,并且使用户能充分利用OpenStack提供的互通特性最新的FusionSphere 5.0还允许私有云用户连接像亚马逊这样的公共云。
通过使用OpenStack,华为FusionSphere能够管理来自不同厂家的虚拟服务器、存储、网络资源以及虚拟安全与负载均衡等设备。FusionSphere可以兼容作为云计算基础的异构虚拟化层,且物理服务器虚拟化使FusionSphere能够根据企业当前的需求完成不同的任务。如hypervisor,一个虚拟化多个物理系统的虚拟化层软件,可以由不同供应商提供,使FusionSphere能够很好地与已有设备或软件配合完成相应任务。
软件定义的基础设施
和传统的基于硬件的系统相比,软件定义的数据中心具有很多优势。软件定义数据中心可以分解为软件定义计算、软件定义存储和软件定义网络。例如,软件定义网络将网络的管理和只能路由功能抽取到软件实体中,并且提供API供用户按照应用的需要对网络进行编程,从而实现业务驱动网络;而实际数据交换功能则交付给专用的数据交换硬件设备,交换设备只专注于数据交换,这样大大提高了数据交换的效率。软件定义的数据中心具备很强的系统自愈能力。
那些对上述云计算的保障机制需求强烈的企业,软件定义的数据中心无疑具有强烈的吸引力。张建华还提到了电信运营商,“通常,这些公司很依赖硬线技术,但是目前的大量流量都不是通过传统的电信网络传输。运营商需要改变来提供更多的IP服务”。Openstack与FusionSphere提供了像互联网一样的架构,从而能够解决这些问题。他还补充到“运营商需要一个既懂得传统架构又懂得新模式的合作伙伴才能迈进新纪元。他们还需要开放架构的解决方案,以避免受限于某一单一模式。”
OpenStack实现电信NFV变革
Telefonica意识到华为正是这样的合作伙伴。因为这个原因,电信巨头Telefonica决定采用华为FusionSphere集中管理其软件、硬件以及数据中心。鉴于FusionSphere的统一调度与管理优势,Telefonica在英国的运营商O2,在部署FusionSphere后的TCO大幅降低了约30%。FusionSphere通过三个方面实现客户价值:运营维护(O&M)、业务管理、以及业务控制。另外,FusionSphere架构也将支持Telefonica的后续升级。
另外一个电信巨头,沃达丰,也部署了FusionSphere来管理其基于PLEX系统的数据中心,以便管理不同厂商的资源和未被充分利用的资源,降低操作维护费用。公有云和私有云都在以这种模式进行管理,资源按需求动态分配,必要时业务也可以跨云迁移。
除了电信领域外,OpenStack也为其他领域带来了好处。汇港资讯有限公司采用华为OpenStack连通了香港经纪人与上海证券交易所。中国的一些政府部门的业务系统也通过部署华为云产品,体验到了这种IT架构的优势,华为的云产品可以为其消减成本、提高效率。
在OpenStack 峰会最后,华为的云计算产品线首席技术官,王海鹰,上台分享了华为成为OpenStack会金牌会员的前景。他讲到“从长远看,华为将会继续促进OpenStack与NFV的融合。我们也希望与所有领域伙伴合作构建一个健康的OpenStack系统”。我们正在进步。OpenStack已经有17,141个个人会员,432个支撑公司,以及两千万行代码,这也证明了企业已经准备好迎接更敏捷的IT方案。这个方案将不仅能够满足当前需求,而且能够灵活地控制未来的方案。华为FusionSphere,FusionCube(软硬件云管理一体机)以及其他的云产品正是这样一套既适应今天又能管理未来的强大的工具。
评论
请先登录,再发表评论
敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。
OpenStack开发云计算
OpenStack目标:解决实施中的瓶颈问题
OpenStack Neutron:云服务中的开放网络
Salesforce或“登陆”OpenStack
Gartner分析师再次抨击OpenStack“太嫩”
红帽:Havana增强OpenStack的开发动力
云计算疆场烽烟:OpenStack叫板Amazon
OpenStack你了解生态系统的价值吗?
企业对OpenStack Havana热情高涨 期待Icehouse
OpenStack是否已为IPv6做好准备?
OpenStack Havana新增云网络功能
企业部署OpenStack:该做与不该做的事
DIY云计算:OpenStack当积木
OpenStack私有云满足高IO需求
OpenStack互操作驾到:开源云平台选择更自由
失败案例!OpenStack没你想的那么简单!
SUSE OpenStack Cloud 5简化私有云管理
如何构建OpenStack存储云
企业用户为何选择OpenStack
使用OpenStack能开发企业私有云吗?
OpenStack在混合云战略中位置在哪?
OpenStack云功能激发厂商支持
云计算开源运动:厂商争先公开源代码
OpenStack私有云DR的益处比其TCO更显而易见
OpenStack企业~~进程举步维艰
EMC收购Cloudscaling对OpenStack应用意义何在?
红帽1.75亿美元收购Inktank
红帽 9,500万美元收购eNovance
思科收购Metacloud
惠普1亿美元收购Eucalytpus
EMC 5,000万美元收购Cloudscaling
2014 OpenStack收购案盘点
华为持续重磅投入OpenStack 巴黎峰会全面展示开放云
谁还敢于挑战OpenStack的权威?出列!
预测到2018年OpenStack市场规模将达到33亿美元
网易OpenStack部署运维实战
红帽公司发布 OpenStack Platform 5
开源云平台:顶级OpenStack厂商一览
OpenStack为技术宅提供了“拯救世界”的平台
OpenStack之小企业使用技巧
OpenStack现状:四年后仍“不温不火”
小型企业如何成功牵手OpenStack?
OpenStack:叫好不叫座
IBM Cloud Manager将OpenStack与服务器关联
OpenStack现在可配置NoSQL
云计算战争OpenStack vs VMware:设计与功能
云操作系统OpenStack:优势与问题并存
Riverbed加入OpenStack社区:协作开发基于开源标准云解决方案的优化先锋
Rackspace将拆分开源云计算软件OpenStack
如何使用Puppet安装OpenStack Nova云?
Cloud.com将要合并OpenStack代码库
如何建立高可用OpenStack云?
OpenStack里的三种存储
OpenStack Grizzly发布 推进可扩展性和高可用性
OpenStack最新版本Grizzly新增部分功能一览
面对云锁定的抉择:OpenStack还是专有云平台?
四种方案将OpenStack部署到Hadoop
如何成功实施OpenStack和CloudStack项目
Mark Collier:OpenStack API兼容AWS
三载风雨铸就Openstack今日辉煌
‘贰’ 云存储的核心技术:虚拟化存储,究竟虚拟是怎样实现的
虚拟化改变了计算机使用存储的方式。就像物理机器抽象成虚拟机(VM:Virtual Machine)一样,物理存储设备也被抽象成虚拟磁盘(Virtual Disk)。今天我们就来聊聊虚拟化存储(Storage Virtualization)技术,究竟虚拟磁盘是怎样实现的?
虚拟磁盘的实现
我们知道,服务器扩展存储的手段主要有直连存储(DAS)、存储区域网络(SAN)和网络附加存储(NAS)这三种类型。那么哪种存储类型可以用来实现虚拟磁盘呢?
在虚拟化环境中,类似VMWare这样的虚拟机管理程序hypervisor,要同时给很多VM分配存储空间。这个过程中,我们需要先把物理存储资源重新划分成虚拟磁盘,然后再分配给VM。
显然我们不能用DAS方式把物理磁盘直连到VM上,如果这样,需要的物理磁盘就太多了。SAN是以逻辑单元(LUN:Logic Unit)的形式提供存储资源,但是虚拟环境中VM的数量是很大的,而且伦的数量不足以支持这么多虚拟磁盘。
更重要的是,虚拟磁盘是为大量VM共享的,由于VM需要随时创建、删除或迁移,所以需要在迁移VM时共享存储空间,只有原始数据不会丢失。DAS还是SAN,都不适合共享存储。
考虑到资源分配以及共享的问题,虚拟机管理程序以NAS的方式实现虚拟磁盘。VMware通常使用VMFS(虚拟机文件系统)或NFS协议实现虚拟磁盘,VMFS文件系统是专门针对虚拟机环境协议。
每一个虚拟机的数据实际上是一堆文件,及最重要的文件的虚拟磁盘文件(VMDK文件),也有交换分区文件(VSWP文件,等价交换),非易失性存储器(NVRAM的文件相当于BIOS),等等。每个VM对虚拟磁盘的IO操作实际上是对虚拟磁盘文件的读写操作。
设计、施工、和虚拟服务器环境和优化,允许多个虚拟机访问集成的集群存储池,从而大大提高了资源的利用率。使用和实现资源共享,管理员可以直接从更高的效率和存储利用率中获益。
那么我们如何在云计算中使用虚拟磁盘呢?
实例存储
最主要的一种使用虚拟磁盘的方式就是实例存储,每个VM都是虚拟机的一个实例,虚拟机管理程序在每个实例中提供一个仿真硬件环境,它包括CPU、内存和磁盘。这样,虚拟磁盘就是虚拟机实例的一部分,就像物质世界。删除VM后,虚拟磁盘也将被删除。
在这个实例存储模型中,虚拟磁盘与虚拟机之间的存储关系,事实上,它是DAS存储。但是虚拟磁盘的底层实现,我们说,它是以NAS的方式实现的。虚拟机管理程序的作用是存储VM层的存储模型,这是从实施协议分离(VMFS或NFS)的虚拟机的低层。
VMFS协议实现了存储资源的虚拟化,再分配各VMs
卷存储
实例存储有它的限制,开发人员通常希望分离实例数据,例如OS和安装的一些服务器应用程序和用户数据,这样重建VM的时候可以保留用户的数据。
这个需求衍生出另外一种存储模型:卷存储。卷是存储的主要单元,相当于虚拟磁盘分区。它不是虚拟机实例的一部分,它可以被认为是虚拟机的外部存储设备。
该卷可以从一个VM卸载,然后附加到另一个VM。通过这种方式,我们实现了实例数据与用户数据的分离。OpenStack的煤渣是一个体积存储的实现。
除了实例存储和卷存储之外,最后我们还提到另一种特殊的虚拟存储:对象存储。
对象存储
很多云应用需要在不同的VM之间共享数据,它常常需要跨越多个数据中心,而对象存储可以解决这个问题。在前一篇文章中的云计算IaaS管理平台的基本功能是什么?》中曾经提到过对象存储。
在对象存储模型中,数据存储在存储段(bucket)中,桶也可以被称为“水桶”,因为它字面意思。我们可以用硬盘来类推,对象像一个文件,而存储段就像一个文件夹(或目录)。可以通过统一资源标识符(URI:统一资源标识符)找到对象和存储段。
对象存储的核心设计思想实际上是虚拟化,它是文件的物理存储位置,如卷、目录、磁盘等,虚拟化是木桶,它将文件虚拟化为对象。对于应用层,简化了对数据访问的访问,屏蔽了底层存储技术的异构性和复杂性。
对象存储模型
NAS与对象存储各有所长
当然你也许会问,NAS存储技术也是一个可以解决数据共享的问题吗?由于对象存储的大小和成本优势,许多云环境使用对象存储而不是NAS。
因为对象存储将跨多个节点传播,最新数据并不总是可用的 因此,对象存储的数据一致性不强。如果有强一致性的要求,然后你可以使用NAS。目前,在云计算环境中,NAS和对象存储是共存的。
和NAS一样,对象存储也是软件体系结构,而不是硬件体系结构。应用程序通过REST API直接访问对象存储。公共对象存储包括:Amazon S3和OpenStack的Swift。
结语
在实际的云平台应用中,我们需要根据自己的实际情况来合理运用不同的虚拟化存储技术。
对于非结构化的静态数据文件,如音视频、图片等,我们一般使用对象存储。
对于系统镜像以及应用程序,我们需要使用云主机实例存储或者卷存储。
对于应用产生的动态数据,我们一般还需要利用云数据库来对数据进行管理。
‘叁’ 存储虚拟化的概念是什么
对于用户来说,虚拟化的存储资源就像是一个巨大的“存储池”,用户不会看到具体的磁盘、磁带,也不必关心自己的数据经过哪一条路径通往哪一个具体的存储设备。从管理的角度来看,虚拟存储池是采取集中化的管理,并根据具体的需求把存储资源动态地分配给各个应用。值得特别指出的是,利用虚拟化技术,可以用磁盘阵列模拟磁带库,为应用提供速度像磁盘一样快、容量却像磁带库一样大的存储资源,这就是当今应用越来越广泛的虚拟磁带库(VTL,VirtualTapeLibrary),在当今企业存储系统中扮演着越来越重要的角色。
‘肆’ 存储虚拟化是什么集群存储又是什么
存储虚拟化广义上来说,就是通过映射或抽象的方式屏蔽物理设备复杂性,增加一个管理层面,激活一种资源并使之更易于透明控制。
存储虚拟化(Storage Virtualization)最通俗的理解就是对存储硬件资源进行抽象化表现。通过将一个(或多个)目标(Target)服务或功能与其它附加的功能集成,统一提供有用的全面功能服务。
集群存储是指:由若干个“通用存储设备”组成的用于存储的集群,组成集群存储的每个存储系统的性能和容量均可通过“集群”的方式得以叠加和扩展。
‘伍’ 存储虚拟化的目前状况
存储的虚拟化技术自本世纪初诞生以来,历经了十余年的技术演进与市场考验。发生变化的不仅是技术本身,而更多的是用户的实际应用需求。早期存储虚拟化技术出现的主要目的是为了帮助用户对异构存储资源进行池化和整合,提高使用和管理效率,合理降低TCO。而近年来基于SAN的存储虚拟化技术越来越多被应用于有效提升核心生产系统的业务连续性,数据安全性以及平滑的跨存储阵列的数据迁移能力
尽管关于虚拟化的宣传铺天盖地,企业界采用虚拟存储技术的脚步还是颇为缓慢。根据IDC对269名来自不同规模的公司的IT经理的调查,仅仅只有8%的企业正在应用任何一种形式的虚拟化。并且仅有平均23%的企业表示计划将在未来12个月里尝试实施一定程度的存储虚拟化。
中端存储用户主要期望用于对数据迁移进行管理,减轻管理负担;大型企业则主要期望将虚拟存储中的数据复制、卷管理用于存储预备。不管是哪个虚拟化阵营的厂商都面临着不同的压力,并有待在真实环境中接受考验。
用户在对存储子系统升级扩容时,不仅把性能与容量指标作为首要考虑对象,对于整个生产存储系统的高可用性,以及业务连续性保障能力的要求也逐渐成为规划建设初期进行考虑的重点!为了有效实现业务连续性保障目标,解决存储子系统的单点故障问题,合理引入存储虚拟化技术已经成为最为行之有效的手段之一,比如通过存储虚拟化技术实现不同品牌型号阵列间的实时镜像,帮助用户实现存储子系统的冗余能力。这一点在VMware虚拟化环境中几乎变成唯一可行的存储系统高可用性解决方案;又比如通过精简带宽的远程复制,数据录像或密集时间点的可恢复快照功能,来有效实现对于逻辑故障的防御,控制运维成本投入等。最终,通过一套统一的系统功能来实现对生产系统的业务连续性保障,方便,简单,大大减少了运维人员的压力。
近来,兼容异构存储 ,同时具备完整数据保护和管理功能的成熟存储虚拟化产品也被广泛应用于两地三中心容灾以及双活数据中心的建设当中,作为一种积极的,可靠的技术手段有效提升用户原有生产系统对各类型灾难的防御能力。
目前而言没有任何一家已经稳固占领了市场,迄今为止,IBM似乎有最高的销售记录,但也仅仅只是接近于领导地位。IBM SVC于2004年左右上市,从某种维度上看SVC 似乎与飞康的NSS形态和设计都很类似,都是基于Linux内核和x86工业标准服务器。IBM基于SVC的I/O GROUP引擎开发出了其目前整个V系列的存储产品线,比如常见的v7000系列存储系统 。SVC早起存储虚拟化功能较为单一,仅支持对异构存储的基本管理和池化,所以IBM曾经视图收购飞康,未果后也与2010年左右升级了其SVC 软件版本,逐渐提供了一些相应的高级功能。
另一个就是飞康 NSS,作为存储虚拟化技术的先驱之一,飞康的IPStor/NSS 存储虚拟化产品在2001年就已经出现在市场上,截止2014年已经正式发布了其第七代存储虚拟化产品,技术成熟度和广泛的应用范围都具备良好的可参考性。自创立以来,一直坚持开放硬件的态度,获得众多用户和第三方存储厂商的青睐,很多国内外存储厂商的技术人员都曾经接触过该产品。飞康官方宣称,以OEM方式或自主品牌销售的NSS产品安装量已超过数万套。丰富而实用的功能设计以及长期经受市场考验的产品稳定性和可靠性,应该是飞康IPStor/NSS产品的主要特点。
根据企业策略集团公司(ESG)的建立人,高级分析师SteveDuplessie的报告,SVC已完成1500多套系统的售出。该数据还被英国一家调研公司所证实。Cisco系统公司最近收购了ToPSPin公司,于是也拥有了把服务器虚拟化、存储虚拟化和网络虚拟化连接起来的能力。Topsin的虚拟化核心技术能够给Cisco带来大笔的技术财富,如果Cisco公司在收购它之后选择全力实现虚拟性能,结果势必令人瞩目。尽管已经取得了不小的成就和地位,但在存储领域Cisco仍然是一个玩票性质的参与者。Cisco面临的挑战在于所有的数据复制,存储预备以及其他核心存储功能的知识产权都在存储供应商手中,Cisco要想占优势,除了自身产品的研发与市场以外,还需要加强和这些主流存储系统厂商的合作与沟通。
在这场大赛中还有一个低调的实力派就是微软。微软在过去的两年里已默默地把自身建设成一支存储领域的强大军队,并且最近还克服了一些阻碍发展虚拟化的许可证等问题。在这场虚拟化的混战中,微软也许有些姗姗来迟,但凭借微软在软件领域的绝对地位,微软很可能会爆出一些惊人的技术,也许会把虚拟化变为服务器操作系统的一部分。
eG Innovations创始人兼总裁兼首席执行官Srinivas Ramanathan表示从存储虚拟化格局改变的角度来看,他认为存储虚拟化将走服务器虚拟化所走过的路。Ramanathan解释道:几年前,服务器虚拟化的焦点还在虚拟机管理器。现在,虚拟机管理器已经变成商品。所有的虚拟化公司都在关注管理性,以便为虚拟化客户提供成本节约和灵敏性。在我看来,几年后,存储虚拟化也将接着服务器虚拟化进入成熟期。
尽管服务器虚拟化已经成为主流,但是Ramanathan表示存储虚拟化离主流还有一定距离。他表示:现在的主要焦点是证明这个技术是有效的。几年后,管理性将更加重要--如何充分利用现有的硬件,如何在不同主机上动态迁移VM(虚拟机)等。
Infortrend Technology副总监Galvin Chang表示存储虚拟化的第一阶段是要能够整合和处理来自不同厂商的存储硬件的I/O命令。Chang表示,在存储虚拟化的下一阶段,下列这些问题将变得更加重要:向外扩展存储,分层和虚拟化存储,针对云数据中心的虚拟化存储,以及负载均衡。
根据Chang的说法,在虚拟化环境中使用向上扩展存储只会增加容量和导致不必要的资源浪费;只有向外扩展架构可以提高存储性能和获取来自虚拟化的好处。Chang还表示虚拟化存储可以提供不同层次的存储管理服务,包括SSD、SAS、SATA甚至VTL(虚拟磁带库)。
至于云服务要求,Chang认为虚拟化的存储可以提供不同的好处,包括可扩展性、无宕机数据管理以及更低的成本。他表示另一个关键问题将是当多个存储控制器引入一个虚拟化存储池的时候如何平衡控制器工作负荷和主机带宽。Chang指出:厂商们可以部署智能主机代理端或利用网络层协议来进行负载共享。
‘陆’ 国内外的Hadoop应用现状
文 | 翟周伟
本文节选自《Hadoop核心技术》一书。
Hadoop是一个开源的高效云计算基础架构平台,其不仅仅在云计算领域用途广泛,还可以支撑搜索引擎服务,作为搜索引擎底层的基础架构系统,同时在海量数据处理、数据挖掘、机器学习、科学计算等领域都越来越受到青睐。本文将讲述国内外的hadoop应用现状。
国外Hadoop的应用现状
1.Yahoo
Yahoo是Hadoop的最大支持者,截至2012年,Yahoo的Hadoop机器总节点数目超过42?000个,有超过10万的核心CPU在运行Hadoop。最大的一个单Master节点集群有4500个节点(每个节点双路4核心CPUboxesw,4×1TB磁盘,16GBRAM)。总的集群存储容量大于350PB,每月提交的作业数目超过1000万个,在Pig中超过60%的Hadoop作业是使用Pig编写提交的。
Yahoo的Hadoop应用主要包括以下几个方面:
支持广告系统
用户行为分析
支持Web搜索
反垃圾邮件系统
会员反滥用
内容敏捷
个性化推荐
同时Pig研究并测试支持超大规模节点集群的Hadoop系统。
2.Facebook
Facebook使用Hadoop存储内部日志与多维数据,并以此作为报告、分析和机器学习的数据源。目前Hadoop集群的机器节点超过1400台,共计11?200个核心CPU,超过15PB原始存储容量,每个商用机器节点配置了8核CPU,12TB数据存储,主要使用StreamingAPI和JavaAPI编程接口。Facebook同时在Hadoop基础上建立了一个名为Hive的高级数据仓库框架,Hive已经正式成为基于Hadoop的Apache一级项目。此外,还开发了HDFS上的FUSE实现。
3.A9.com
A9.com为Amazon使用Hadoop构建了商品搜索索引,主要使用StreamingAPI以及C++、Perl和Python工具,同时使用Java和StreamingAPI分析处理每日数以百万计的会话。A9.com为Amazon构建的索引服务运行在100节点左右的Hadoop集群上。
4.Adobe
Adobe主要使用Hadoop及HBase,同于支撑社会服务计算,以及结构化的数据存储和处理。大约有超过30个节点的Hadoop-HBase生产集群。Adobe将数据直接持续地存储在HBase中,并以HBase作为数据源运行MapRece作业处理,然后将其运行结果直接存到HBase或外部系统。Adobe在2008年10月就已经将Hadoop和HBase应用于生产集群。
5.CbIR
自2008年4月以来,日本的CbIR(Content-basedInformationRetrieval)公司在AmazonEC2上使用Hadoop来构建图像处理环境,用于图像产品推荐系统。使用Hadoop环境生成源数据库,便于Web应用对其快速访问,同时使用Hadoop分析用户行为的相似性。
6.Datagraph
Datagraph主要使用Hadoop批量处理大量的RDF数据集,尤其是利用Hadoop对RDF数据建立索引。Datagraph也使用Hadoop为客户执行长时间运行的离线SPARQL查询。Datagraph是使用AmazonS3和Cassandra存储RDF数据输入和输出文件的,并已经开发了一个基于MapRece处理RDF数据的Ruby框架——RDFgrid。
Datagraph主要使用Ruby、RDF.rb以及自己开发的RDFgrid框架来处理RDF数据,主要使用HadoopStreaming接口。
7.EBay
单集群超过532节点集群,单节点8核心CPU,容量超过5.3PB存储。大量使用的MapRece的Java接口、Pig、Hive来处理大规模的数据,还使用HBase进行搜索优化和研究。
8.IBM
IBM蓝云也利用Hadoop来构建云基础设施。IBM蓝云使用的技术包括:Xen和PowerVM虚拟化的Linux操作系统映像及Hadoop并行工作量调度,并发布了自己的Hadoop发行版及大数据解决方案。
9.Last.Fm
Last.Fm主要用于图表计算、专利申报、日志分析、A/B测试、数据集合并等,也使用Hadoop对超过百万的曲目进行大规模的音频特征分析。
节点超过100台机器,集群节点配置双四核[email protected]@2.13GHz,24GB内存,8TB(4×2TB)存储。
10.LinkedIn
LinkedIn有多种硬件配置的Hadoop集群,主要集群配置如下:
800节点集群,基于Westmere的惠普SL170X与2×4的核心,24GB内存,6×2TBSATA。
1900节点集群,基于Westmere的超微-HX8DTT,与2×6的核心,24GB内存,6×2TBSATA。
1400节点集群,基于SandyBridge超微与2×6的核心,32GB内存,6×2TBSATA。
使用的软件如下:
操作系统使用RHEL6.3。
JDK使用SUNJDK1.6.0_32。
Apache的Hadoop0.20.2的补丁和ApacheHadoop的1.0.4补丁。
Azkaban和Azkaban用于作业调度。
Hive、Avro、Kafka等。
11.MobileAnalytic.TV
主要使用Hadoop应用在并行化算法领域,涉及的MapRece应用算法如下。
信息检索和分析。
机器生成的内容——文档、文本、音频、视频。
自然语言处理。
项目组合包括:
移动社交网络。
网络爬虫。
文本到语音转化。
音频和视频自动生成。
12.Openstat
主要利用Hadoop定制一个网络日志分析并生成报告,其生产环境下超过50个节点集群(双路四核Xeon处理器,16GB的RAM,4~6硬盘驱动器),还有两个相对小的集群用于个性化分析,每天处理约500万的事件,每月15亿美元的交易数据,集群每天产生大约25GB的报告。
使用的技术主要包括:CDH、Cascading、Janino。
13.Quantcast
3000个CPU核心,3500TB存储,每日处理1PB以上的数据,使用完全自定义的数据路径和排序器的Hadoop调度器,对KFS文件系统有突出贡献。
14.Rapleaf
超过80个节点的集群(每个节点有2个双核CPU,2TB×8存储,16GBRAM内存);主要使用Hadoop、Hive处理Web上关联到个人的数据,并引入Cascading简化数据流穿过各种处理阶段。
15.WorldLingo
硬件上超过44台服务器(每台有2个双核CPU,2TB存储,8GB内存),每台服务器均运行Xen,启动一个虚拟机实例运行Hadoop/HBase,再启动一个虚拟机实例运行Web或应用程序服务器,即有88台可用的虚拟机;运行两套独立的Hadoop/HBase机群,它们各自拥有22个节点。Hadoop主要用于运行HBase和MapRece作业,扫描HBase的数据表,执行特定的任务。HBase作为一种可扩展的、快速的存储后端,用于保存数以百万的文档。目前存储了1200万篇文档,近期的目标是存储4.5亿篇文档。
16.格拉斯哥大学的TerrierTeam
超过30个节点的实验集群(每节点配置XeonQuadCore2.4GHz,4GB内存,1TB存储)。使用Hadoop促进信息检索研究和试验,特别是用于TREC,用于TerrierIR平台。Terrier的开源发行版中包含了基于HadoopMapRece的大规模分布式索引。
17.内布拉斯加大学的HollandComputingCenter
运行一个中等规模的Hadoop机群(共计1.6PB存储)用于存储和提供物理数据,以支持紧凑型μ子螺旋型磁谱仪(CompactMuonSolenoid,CMS)实验的计算。这需要一类能够以几Gbps的速度下载数据,并以更高的速度处理数据的文件系统的支持。
18.VisibleMeasures
将Hadoop作为可扩展数据流水线的一个组件,最终用于VisibleSuite等产品。使用Hadoop汇总、存储和分析与网络视频观众收看行为相关的数据流。目前的网格包括超过128个CPU核心,超过100TB的存储,并计划大幅扩容。
国内Hadoop的应用现状
Hadoop在国内的应用主要以互联网公司为主,下面主要介绍大规模使用Hadoop或研究Hadoop的公司。
1.网络
网络在2006年就开始关注Hadoop并开始调研和使用,在2012年其总的集群规模达到近十个,单集群超过2800台机器节点,Hadoop机器总数有上万台机器,总的存储容量超过100PB,已经使用的超过74PB,每天提交的作业数目有数千个之多,每天的输入数据量已经超过7500TB,输出超过1700TB。
网络的Hadoop集群为整个公司的数据团队、大搜索团队、社区产品团队、广告团队,以及LBS团体提供统一的计算和存储服务,主要应用包括:
数据挖掘与分析。
日志分析平台。
数据仓库系统。
推荐引擎系统。
用户行为分析系统。
同时网络在Hadoop的基础上还开发了自己的日志分析平台、数据仓库系统,以及统一的C++编程接口,并对Hadoop进行深度改造,开发了HadoopC++扩展HCE系统。
2.阿里巴巴
阿里巴巴的Hadoop集群截至2012年大约有3200台服务器,大约30?000物理CPU核心,总内存100TB,总的存储容量超过60PB,每天的作业数目超过150?000个,每天hivequery查询大于6000个,每天扫描数据量约为7.5PB,每天扫描文件数约为4亿,存储利用率大约为80%,CPU利用率平均为65%,峰值可以达到80%。阿里巴巴的Hadoop集群拥有150个用户组、4500个集群用户,为淘宝、天猫、一淘、聚划算、CBU、支付宝提供底层的基础计算和存储服务,主要应用包括:
数据平台系统。
搜索支撑。
广告系统。
数据魔方。
量子统计。
淘数据。
推荐引擎系统。
搜索排行榜。
为了便于开发,其还开发了WebIDE继承开发环境,使用的相关系统包括:Hive、Pig、Mahout、Hbase等。
3.腾讯
腾讯也是使用Hadoop最早的中国互联网公司之一,截至2012年年底,腾讯的Hadoop集群机器总量超过5000台,最大单集群约为2000个节点,并利用Hadoop-Hive构建了自己的数据仓库系统TDW,同时还开发了自己的TDW-IDE基础开发环境。腾讯的Hadoop为腾讯各个产品线提供基础云计算和云存储服务,其支持以下产品:
腾讯社交广告平台。
搜搜(SOSO)。
拍拍网。
腾讯微博。
腾讯罗盘。
QQ会员。
腾讯游戏支撑。
QQ空间。
朋友网。
腾讯开放平台。
财付通。
手机QQ。
QQ音乐。
4.奇虎360
奇虎360主要使用Hadoop-HBase作为其搜索引擎so.com的底层网页存储架构系统,360搜索的网页可到千亿记录,数据量在PB级别。截至2012年年底,其HBase集群规模超过300节点,region个数大于10万个,使用的平台版本如下。
HBase版本:facebook0.89-fb。
HDFS版本:facebookHadoop-20。
奇虎360在Hadoop-HBase方面的工作主要为了优化减少HBase集群的启停时间,并优化减少RS异常退出后的恢复时间。
5.华为
华为公司也是Hadoop主要做出贡献的公司之一,排在Google和Cisco的前面,华为对Hadoop的HA方案,以及HBase领域有深入研究,并已经向业界推出了自己的基于Hadoop的大数据解决方案。
6.中国移动
中国移动于2010年5月正式推出大云BigCloud1.0,集群节点达到了1024。中国移动的大云基于Hadoop的MapRece实现了分布式计算,并利用了HDFS来实现分布式存储,并开发了基于Hadoop的数据仓库系统HugeTable,并行数据挖掘工具集BC-PDM,以及并行数据抽取转化BC-ETL,对象存储系统BC-ONestd等系统,并开源了自己的BC-Hadoop版本。
中国移动主要在电信领域应用Hadoop,其规划的应用领域包括:
经分KPI集中运算。
经分系统ETL/DM。
结算系统。
信令系统。
云计算资源池系统。
物联网应用系统。
E-mail。
IDC服务等。
7.盘古搜索
盘古搜索(目前已和即刻搜索合并为中国搜索)主要使用Hadoop集群作为搜索引擎的基础架构支撑系统,截至2013年年初,集群中机器数量总计超过380台,存储总量总计3.66PB,主要包括的应用如下。
网页存储。
网页解析。
建索引。
Pagerank计算。
日志统计分析。
推荐引擎等。
即刻搜索(人民搜索)
即刻搜索(目前已与盘古搜索合并为中国搜索)也使用Hadoop作为其搜索引擎的支撑系统,截至2013年,其Hadoop集群规模总计超过500台节点,配置为双路6核心CPU,48G内存,11×2T存储,集群总容量超过10PB,使用率在78%左右,每天处理读取的数据量约为500TB,峰值大于1P,平均约为300TB。
即刻搜索在搜索引擎中使用sstable格式存储网页并直接将sstable文件存储在HDFS上面,主要使用HadoopPipes编程接口进行后续处理,也使用Streaming接口处理数据,主要的应用包括:
网页存储。
解析。
建索引。
推荐引擎。
end
‘柒’ 谁能介绍一下存储虚拟化技术优势
飞康 NSS SED (Service-Enabled Devices)作为存储虚拟化技术的先驱之一,飞康的IPStor/NSS 存储虚拟化产品在2001年就已经出现在市场上,截止2014年已经正式发布了其第七代存储虚拟化产品,技术成熟度和广泛的应用范围都具备良好的可参考性。飞康自创立以来,一直坚持开放硬件的态度,获得众多用户和第三方存储厂商的亲睐,很多国内外存储厂商的技术人员都曾经接触过该产品。飞康官方宣称,以OEM方式或自主品牌销售的NSS产品安装量已超过数万套。丰富而实用的功能设计以及长期经受市场考验的产品稳定性和可靠性,应该是飞康IPStor/NSS产品的主要特点。
飞康 NSS 存储虚拟化接入技术原理非常便于理解。飞康 NSS 在接管底层存储子系统的磁盘卷时,可以采用两种方式来实现接入:一种是将底层磁盘卷直接虚拟化为Virtual Disk(虚拟磁盘)以供NSS管理和分配;另一种可将磁盘卷转换为SED(Service-Enabled Devices)磁盘设备以供NSS管理和分配。当转换为SED设备时,磁盘卷原有数据不会被修改,可以快速通过NSS分配给主机系统,整个接入过程非常简单,不需要数据迁移,停机时间很少,当然也可以实现快速回退,磁盘重新分配给原主机系统,可以被正确识别和使用。