㈠ 国内外的Hadoop应用现状
文 | 翟周伟
本文节选自《Hadoop核心技术》一书。
Hadoop是一个开源的高效云计算基础架构平台,其不仅仅在云计算领域用途广泛,还可以支撑搜索引擎服务,作为搜索引擎底层的基础架构系统,同时在海量数据处理、数据挖掘、机器学习、科学计算等领域都越来越受到青睐。本文将讲述国内外的hadoop应用现状。
国外Hadoop的应用现状
1.Yahoo
Yahoo是Hadoop的最大支持者,截至2012年,Yahoo的Hadoop机器总节点数目超过42?000个,有超过10万的核心CPU在运行Hadoop。最大的一个单Master节点集群有4500个节点(每个节点双路4核心CPUboxesw,4×1TB磁盘,16GBRAM)。总的集群存储容量大于350PB,每月提交的作业数目超过1000万个,在Pig中超过60%的Hadoop作业是使用Pig编写提交的。
Yahoo的Hadoop应用主要包括以下几个方面:
支持广告系统
用户行为分析
支持Web搜索
反垃圾邮件系统
会员反滥用
内容敏捷
个性化推荐
同时Pig研究并测试支持超大规模节点集群的Hadoop系统。
2.Facebook
Facebook使用Hadoop存储内部日志与多维数据,并以此作为报告、分析和机器学习的数据源。目前Hadoop集群的机器节点超过1400台,共计11?200个核心CPU,超过15PB原始存储容量,每个商用机器节点配置了8核CPU,12TB数据存储,主要使用StreamingAPI和JavaAPI编程接口。Facebook同时在Hadoop基础上建立了一个名为Hive的高级数据仓库框架,Hive已经正式成为基于Hadoop的Apache一级项目。此外,还开发了HDFS上的FUSE实现。
3.A9.com
A9.com为Amazon使用Hadoop构建了商品搜索索引,主要使用StreamingAPI以及C++、Perl和Python工具,同时使用Java和StreamingAPI分析处理每日数以百万计的会话。A9.com为Amazon构建的索引服务运行在100节点左右的Hadoop集群上。
4.Adobe
Adobe主要使用Hadoop及HBase,同于支撑社会服务计算,以及结构化的数据存储和处理。大约有超过30个节点的Hadoop-HBase生产集群。Adobe将数据直接持续地存储在HBase中,并以HBase作为数据源运行MapRece作业处理,然后将其运行结果直接存到HBase或外部系统。Adobe在2008年10月就已经将Hadoop和HBase应用于生产集群。
5.CbIR
自2008年4月以来,日本的CbIR(Content-basedInformationRetrieval)公司在AmazonEC2上使用Hadoop来构建图像处理环境,用于图像产品推荐系统。使用Hadoop环境生成源数据库,便于Web应用对其快速访问,同时使用Hadoop分析用户行为的相似性。
6.Datagraph
Datagraph主要使用Hadoop批量处理大量的RDF数据集,尤其是利用Hadoop对RDF数据建立索引。Datagraph也使用Hadoop为客户执行长时间运行的离线SPARQL查询。Datagraph是使用AmazonS3和Cassandra存储RDF数据输入和输出文件的,并已经开发了一个基于MapRece处理RDF数据的Ruby框架——RDFgrid。
Datagraph主要使用Ruby、RDF.rb以及自己开发的RDFgrid框架来处理RDF数据,主要使用HadoopStreaming接口。
7.EBay
单集群超过532节点集群,单节点8核心CPU,容量超过5.3PB存储。大量使用的MapRece的Java接口、Pig、Hive来处理大规模的数据,还使用HBase进行搜索优化和研究。
8.IBM
IBM蓝云也利用Hadoop来构建云基础设施。IBM蓝云使用的技术包括:Xen和PowerVM虚拟化的Linux操作系统映像及Hadoop并行工作量调度,并发布了自己的Hadoop发行版及大数据解决方案。
9.Last.Fm
Last.Fm主要用于图表计算、专利申报、日志分析、A/B测试、数据集合并等,也使用Hadoop对超过百万的曲目进行大规模的音频特征分析。
节点超过100台机器,集群节点配置双四核[email protected]@2.13GHz,24GB内存,8TB(4×2TB)存储。
10.LinkedIn
LinkedIn有多种硬件配置的Hadoop集群,主要集群配置如下:
800节点集群,基于Westmere的惠普SL170X与2×4的核心,24GB内存,6×2TBSATA。
1900节点集群,基于Westmere的超微-HX8DTT,与2×6的核心,24GB内存,6×2TBSATA。
1400节点集群,基于SandyBridge超微与2×6的核心,32GB内存,6×2TBSATA。
使用的软件如下:
操作系统使用RHEL6.3。
JDK使用SUNJDK1.6.0_32。
Apache的Hadoop0.20.2的补丁和ApacheHadoop的1.0.4补丁。
Azkaban和Azkaban用于作业调度。
Hive、Avro、Kafka等。
11.MobileAnalytic.TV
主要使用Hadoop应用在并行化算法领域,涉及的MapRece应用算法如下。
信息检索和分析。
机器生成的内容——文档、文本、音频、视频。
自然语言处理。
项目组合包括:
移动社交网络。
网络爬虫。
文本到语音转化。
音频和视频自动生成。
12.Openstat
主要利用Hadoop定制一个网络日志分析并生成报告,其生产环境下超过50个节点集群(双路四核Xeon处理器,16GB的RAM,4~6硬盘驱动器),还有两个相对小的集群用于个性化分析,每天处理约500万的事件,每月15亿美元的交易数据,集群每天产生大约25GB的报告。
使用的技术主要包括:CDH、Cascading、Janino。
13.Quantcast
3000个CPU核心,3500TB存储,每日处理1PB以上的数据,使用完全自定义的数据路径和排序器的Hadoop调度器,对KFS文件系统有突出贡献。
14.Rapleaf
超过80个节点的集群(每个节点有2个双核CPU,2TB×8存储,16GBRAM内存);主要使用Hadoop、Hive处理Web上关联到个人的数据,并引入Cascading简化数据流穿过各种处理阶段。
15.WorldLingo
硬件上超过44台服务器(每台有2个双核CPU,2TB存储,8GB内存),每台服务器均运行Xen,启动一个虚拟机实例运行Hadoop/HBase,再启动一个虚拟机实例运行Web或应用程序服务器,即有88台可用的虚拟机;运行两套独立的Hadoop/HBase机群,它们各自拥有22个节点。Hadoop主要用于运行HBase和MapRece作业,扫描HBase的数据表,执行特定的任务。HBase作为一种可扩展的、快速的存储后端,用于保存数以百万的文档。目前存储了1200万篇文档,近期的目标是存储4.5亿篇文档。
16.格拉斯哥大学的TerrierTeam
超过30个节点的实验集群(每节点配置XeonQuadCore2.4GHz,4GB内存,1TB存储)。使用Hadoop促进信息检索研究和试验,特别是用于TREC,用于TerrierIR平台。Terrier的开源发行版中包含了基于HadoopMapRece的大规模分布式索引。
17.内布拉斯加大学的HollandComputingCenter
运行一个中等规模的Hadoop机群(共计1.6PB存储)用于存储和提供物理数据,以支持紧凑型μ子螺旋型磁谱仪(CompactMuonSolenoid,CMS)实验的计算。这需要一类能够以几Gbps的速度下载数据,并以更高的速度处理数据的文件系统的支持。
18.VisibleMeasures
将Hadoop作为可扩展数据流水线的一个组件,最终用于VisibleSuite等产品。使用Hadoop汇总、存储和分析与网络视频观众收看行为相关的数据流。目前的网格包括超过128个CPU核心,超过100TB的存储,并计划大幅扩容。
国内Hadoop的应用现状
Hadoop在国内的应用主要以互联网公司为主,下面主要介绍大规模使用Hadoop或研究Hadoop的公司。
1.网络
网络在2006年就开始关注Hadoop并开始调研和使用,在2012年其总的集群规模达到近十个,单集群超过2800台机器节点,Hadoop机器总数有上万台机器,总的存储容量超过100PB,已经使用的超过74PB,每天提交的作业数目有数千个之多,每天的输入数据量已经超过7500TB,输出超过1700TB。
网络的Hadoop集群为整个公司的数据团队、大搜索团队、社区产品团队、广告团队,以及LBS团体提供统一的计算和存储服务,主要应用包括:
数据挖掘与分析。
日志分析平台。
数据仓库系统。
推荐引擎系统。
用户行为分析系统。
同时网络在Hadoop的基础上还开发了自己的日志分析平台、数据仓库系统,以及统一的C++编程接口,并对Hadoop进行深度改造,开发了HadoopC++扩展HCE系统。
2.阿里巴巴
阿里巴巴的Hadoop集群截至2012年大约有3200台服务器,大约30?000物理CPU核心,总内存100TB,总的存储容量超过60PB,每天的作业数目超过150?000个,每天hivequery查询大于6000个,每天扫描数据量约为7.5PB,每天扫描文件数约为4亿,存储利用率大约为80%,CPU利用率平均为65%,峰值可以达到80%。阿里巴巴的Hadoop集群拥有150个用户组、4500个集群用户,为淘宝、天猫、一淘、聚划算、CBU、支付宝提供底层的基础计算和存储服务,主要应用包括:
数据平台系统。
搜索支撑。
广告系统。
数据魔方。
量子统计。
淘数据。
推荐引擎系统。
搜索排行榜。
为了便于开发,其还开发了WebIDE继承开发环境,使用的相关系统包括:Hive、Pig、Mahout、Hbase等。
3.腾讯
腾讯也是使用Hadoop最早的中国互联网公司之一,截至2012年年底,腾讯的Hadoop集群机器总量超过5000台,最大单集群约为2000个节点,并利用Hadoop-Hive构建了自己的数据仓库系统TDW,同时还开发了自己的TDW-IDE基础开发环境。腾讯的Hadoop为腾讯各个产品线提供基础云计算和云存储服务,其支持以下产品:
腾讯社交广告平台。
搜搜(SOSO)。
拍拍网。
腾讯微博。
腾讯罗盘。
QQ会员。
腾讯游戏支撑。
QQ空间。
朋友网。
腾讯开放平台。
财付通。
手机QQ。
QQ音乐。
4.奇虎360
奇虎360主要使用Hadoop-HBase作为其搜索引擎so.com的底层网页存储架构系统,360搜索的网页可到千亿记录,数据量在PB级别。截至2012年年底,其HBase集群规模超过300节点,region个数大于10万个,使用的平台版本如下。
HBase版本:facebook0.89-fb。
HDFS版本:facebookHadoop-20。
奇虎360在Hadoop-HBase方面的工作主要为了优化减少HBase集群的启停时间,并优化减少RS异常退出后的恢复时间。
5.华为
华为公司也是Hadoop主要做出贡献的公司之一,排在Google和Cisco的前面,华为对Hadoop的HA方案,以及HBase领域有深入研究,并已经向业界推出了自己的基于Hadoop的大数据解决方案。
6.中国移动
中国移动于2010年5月正式推出大云BigCloud1.0,集群节点达到了1024。中国移动的大云基于Hadoop的MapRece实现了分布式计算,并利用了HDFS来实现分布式存储,并开发了基于Hadoop的数据仓库系统HugeTable,并行数据挖掘工具集BC-PDM,以及并行数据抽取转化BC-ETL,对象存储系统BC-ONestd等系统,并开源了自己的BC-Hadoop版本。
中国移动主要在电信领域应用Hadoop,其规划的应用领域包括:
经分KPI集中运算。
经分系统ETL/DM。
结算系统。
信令系统。
云计算资源池系统。
物联网应用系统。
E-mail。
IDC服务等。
7.盘古搜索
盘古搜索(目前已和即刻搜索合并为中国搜索)主要使用Hadoop集群作为搜索引擎的基础架构支撑系统,截至2013年年初,集群中机器数量总计超过380台,存储总量总计3.66PB,主要包括的应用如下。
网页存储。
网页解析。
建索引。
Pagerank计算。
日志统计分析。
推荐引擎等。
即刻搜索(人民搜索)
即刻搜索(目前已与盘古搜索合并为中国搜索)也使用Hadoop作为其搜索引擎的支撑系统,截至2013年,其Hadoop集群规模总计超过500台节点,配置为双路6核心CPU,48G内存,11×2T存储,集群总容量超过10PB,使用率在78%左右,每天处理读取的数据量约为500TB,峰值大于1P,平均约为300TB。
即刻搜索在搜索引擎中使用sstable格式存储网页并直接将sstable文件存储在HDFS上面,主要使用HadoopPipes编程接口进行后续处理,也使用Streaming接口处理数据,主要的应用包括:
网页存储。
解析。
建索引。
推荐引擎。
end
㈡ 云计算有怎样的发展前景
中国云计算行业发展前景及趋势分析
——发展趋势:助力“新基建”及企业数字化转型
2020年是又一个新十年的开端,无论是如火如荼的“新基建”、稳步推进的企业数字化转型,还是突如其来的疫情,都将云计算发展推向了一个新的高度。未来十年,云计算将进入全新发展阶段,具体表现为:
——更多数据来请参考前瞻产业研究院《中国云计算产业发展前景预测与投资战略规划分析报告》。
㈢ 目前市场上的云存储解决方案有哪些有哪些提供商
目前比较好的云存储解决方案可多了,但是有的软件的数据安全性还有待考证呢!我个人觉得网络、华为、联想、中国移动、115之类的云存储软件都是可以的!但是总是用着不放心,我们公司用的是南京云创存储开发的Minicloud迷你云软件,我感觉用着挺好的,文件数据块始终以双副本方式在不同节点上存放,绝不丢失数据,既可作为应用软件(如邮箱、视频监控)的海量存储空间,又可作为员工的私密存储空间,还可以作为数据共享空间等,大家可以试试看!
南京云创存储科技有限公司与CETC32所携手Intel联合开发的全球首款超低功耗、高密度的云存储产品——基于英特尔 凌动 处理器产品家族的云存储一体机。由CETC32所基于Intel Atom Processor for Storage开发的64位低功耗硬件平台,与云创存储自主创新核心产品cStor云存储系统完全结合的云存储一体机,全面展现了新一代高密度云存储产品超高容量、超高性能、节能环保的绿色魅力。与传统云存储产品相比,该产品可搭载总存储容量高达1824TB,单存储节点峰值功耗低于0.15KW,比传统云存储产品节能3倍,诸多优势完胜传统存储产品。
每节点主板功耗25W,单机架总功耗5700W,与传统云存储系统相比,节能3倍。系统采用了集中式直流供电,减少了电源逆变次数,提高电源效率。同时系统采用RMC智能管理模块对所有风扇进行管理,可根据系统局部温度变化调节风扇转速,达到节能效果。
㈣ 云存储技术的发展所面临的瓶颈
存储空间的安全性顾虑 目前,绝大部分企业或部门还不是很情愿地把单位的重要数据保存到“云”里去,究其原因还是对数据安全性的忧虑。而个人用户同样担心的是其隐私数据的泄露。 可以说,安全问题是对云存储服务的最大挑战。这一问题直接关系到云存储市场的生死存亡。从客户的角度分析,既然把重要数据交给第三方托管,自然希望SSP能够确保数据的不被篡改、不丢失、不被非法访问或任意窃取。而且上传和下载的速度不能太慢,最好能够提供实时高带宽的传输服务,这就给SSP们出了一道市场考题。 网络带宽的瓶颈 当我们保存备份重要数据的时候,当然都不希望太慢,也就是上传下载的速度要快,而且服务器要能及时接纳大量的数据流。这就对网速的分配、网络设备的性能和SSP的管理机制带来了极大挑战。毕竟作为云存储的客户,谁愿意为了备份一段录像而等待几十分钟的时间呢? 国内网络带宽的现状极大限制了用户对云存储的热情,对于国内的网速和价格,大家更是感同身受。 创作平台的限制 各大SSP云存储服务供应商都试图打造自己的垂直整合技术,但我们也注意到:随之而来的内容存储也就很难、甚至无法突破创作平台的限制。因此,各自为战的科技公司必然会带来一种断裂和碎片化的生态系统。 盈利魔咒 导致云存储行业竞争混乱的最根本因素是盈利模式的迷茫。云存储是一个很大的市场,也是很有潜力的市场,可以说,谁赢得云存储,谁就赢得未来。为了吸引更多的用户,云存储服务商必须提供更多的免费存储空间。但随着存储空间的增大,付费升级的用户就会减少。一些无其他收入来源的小型服务商势必将无法承担如此大的投入,它们不得不寻找其他的营收来源。SSP作为企业,它的最终目标就是盈利赚钱,而客户则希望获得更多、更好、低廉、甚至免费的服务。目前,企业只有采用增加广告,降低用户负担的方式了,至于其他的增值服务,目前也是处于开拓阶段,暂时还找不出更好的出路。 云存储技术的不确定性对市场的影响 海啸、地震等自然灾害或战争等人为因素会给云存储的发展带来众多不确定的因素,而在国内虽然不必过多担心战争等人为因素,但各方面的审核和对一些敏感内容的屏蔽等因素,也增加了云存储的时间成本和不确定性。
㈤ idc行业的发展现状,规模以及趋势
IDC行业是什么行业。
㈥ 云存储的隐患
从功能实现上来讲,异地文件存取与文件分享共步技术早在互联网形成之初就已经得到应用,上个世纪互联网刚刚进入国内时就有厂商提供过网盘服务,当时所谓的网盘并不是大家所熟知的网络虚拟磁盘,当时的网盘更像是一个SVN 或FTP 的客户端,而今十多年的发展以后,融入了移动互联网营销理念与新技术的“网盘”被包装成了“云存储”高调的出现在大众面前,据相关统计数据显示国内一线的云存储服务商每天的用户数据新增量已经达PB为单位,可见每天都有数以亿计的用户正在向自己云存储空间中上传下载着各种文件,在这种环境下排除网络带宽消耗之外,我们是否应该反思一下云存储下的未来隐患。 从数据安全上分两个方面分析,
1.用户的操作安全:大多数的云存储都设计了多客户端数据同步机制,一般以最后一次更新为标准,其他客户端开启时自动同步,这点与SVN的设计有很大的差别,当一个用户在公司编辑某个文件后,回到家中再次编辑,那么当他再次回到公司时文件已是昨晚在家更新过的,这是理想状态下的,在很多时候用户编辑一个文件后,会发现编辑有误,想取回存在公司的文件版本时,可能在没有支持版本管理云存储中你的附本也已经被错误的更新了,同样的道理你删除一个文件时候,如果没有额外的备份,也许你到网盘回收站中再找了,版本管理技术上并不存在问题,但是会加大用户的操作难度,云存储服务商只有少数的私有云提供商有限的支持,多数情况下这种覆盖是时常发生的。
2.服务端的安全操作:云存储服务器早已经成为了黑客入侵的目标,因为服务器上不仅有无穷用户数据,对此类大用户群服务的劫持更加是黑色收入的重要来源,也就是说服务器的安全性直接影响着用户上传数据的安全,在服务器虚拟化技术的支撑下V2V迁移的可靠性相当高,多数的云存储厂商都预备安全防护方案,但是不能忽视的永远人的操作。 自动同步
Windows客户端在指定目录下添加、修改、删除文件或目录,这种状态将会自动同步到云端。如果云端任意一个文件被添加、修改、删除,也会自动同步到当前Windows电脑。
选择性同步
用户不需要把云端所有的文件都同步到Windows电脑中,可根据需要,在Windows客户端进行选择性同步。选择一个或多个子目录进行同步。
文件共享
提供目录共享,企业成员可在共享目录编辑文件后,可自动同步到对方目录中。提供文件外链与文件分享,成员可将文件进行外部分享。
快速部署
通过单一安装文件完成,自动获取安装所需信息,无需用户干预。
历史版本恢复.
用户多次编辑文件后,可根据时间找到以前的版本,并可恢复。 软件架构
采用元/流分开技术模型,原数据存储在数据库中、流数据加密并混淆存在的硬盘介质上和信云盘采用Nginx服务器负载均衡方案以及Mysql冗余备份方案,确保系统高可靠性与数据库的高可用性。
多终端支持
提供多终端支持,包括:Windows PC客户端、Android手机客户端、iPhone手机客户端、适配多款浏览器等。
完善后台管理
提供完善的管理后台。包括系统是否开放注册、Logo修改、用户管理、文件管理、用户统计、文件统计等操作。
运行环境
具有很好的兼容性和信云存储支持主流机型。包括:Windows XP、Windows 7、Android手机、iPhone手机、IE8浏览器、Chrome浏览器、Firefox浏览器等。
节点配置
CPU 支持ACPI规范中P-State,内存1G以上,硬盘空余空间1G以上,百兆及以上以太网,显示器屏幕分辩率1024×768及以上,使用IE 8和Firefox 4.0及更高版本的浏览器。
性能
千兆网络情况下,每秒可达50M传输速度。单节点数据规模达到1千万,系统可正常运转。
结合等保管理的需求,在私有云存储的设计,还应该考虑到员工个人私钥加解密的功能,即员工根据工作权限分级的不同存放在企业私云上的文件应该是加密保存的,信息管理人员无法直接从服务端数据库中获取到明文的文件,只有分发了特定密钥的客户端下载文件后,才能在系统后台完成透明还原。 1、节约成本
云存储从短期和长期来看,最大的特点就是可以为小企业减少成本。因为如果小企业想要放在他们自己的服务器上存储,那就必须购买硬件和软件,要知道它是多么昂贵的。接着,企业还要聘请专业的IT人士,管理这些硬件和软件的维护工作,并且还要更新这些设备和软件。
通过云存储,服务器商可以服务成千上万的中小企业,并可以划分不同消费群体服务。它可以担负起一个初创公司拥有最新、最好的存储成一部分成本,来帮助初创公司减少不必要的成本预算。相比传统的存储扩容,云存储架构采用的是并行扩容方式,当客户需要增加容量时,可按照需求采购服务器,简单增加即可实现容量的扩展:新设备仅需安装操作系统及云存储软件后,打开电源接上网络,云存储系统便能自动识别,自动把容量加入存储池中完成扩展。扩容环节无任何限制。
2、更好的备份本地数据并可以异地处理日常数据
如果你的所在办公场所发生自然灾害,由于你的数据是异地存储,因此是它非常安全的。即使自然灾害让你不能通过网络访问到数据,但是数据依然存在。如果问题只出现在你的办公室或者你所在的公司,那么可以你可以随便去一个地方用你的笔记本来访问重要数据和更新数据。它可以让你保持在恶劣条件下依然让你保持工作。
在以往的存储系统管理中,管理人员需要面对不同的存储设备,不同厂商的设备均有不同的管理界面,使得管理人员要了解每个存储的使用状况(容量、负载等)的工作复杂而繁重。而且,传统的存储在硬盘或是存储服务器损坏时,可能会造成数据丢失,而云存储则不会,如果硬盘坏掉,数据会自动迁移到别的硬盘,大大减轻了管理人员的工作负担。对云存储来说,再多的存储服务器,在管理人员眼中也只是一台存储器,每台存储服务器的使用状况,通过一个统一管理界面监控,使得维护变得简单和易操作。
当然,这不是意味你应该忘记备份数据。云存储提供给大多数的公司备份自己重要数据和保护个人数据。
3、更多的访问和更好的竞争
公司员工不在需要通过本地网络来访问公司信息。这就可以让公司员工甚至是合作商在任何地方访问他们需要的数据。
因为中小企业不需要花费上千万美元来打造最新技术和最新应用来创造最好的系统,所以云存储为中小企业和大公司竞争铺平道路。事实上,对于很多企业来说,云存储利于小企业比大企业更多,原因就是大企业已经花重金打造自己的数据存储中心。