‘壹’ 大数据的预测功能是增值服务的核心
大数据的预测功能是增值服务的核心
从走在大数据发展前沿的互联网新兴行业,到与人类生活息息相关的医疗保健、电力、通信等传统行业,大数据浪潮无时无刻不在改变着人们的生产和生活方式。大数据时代的到来,给国内外各行各业带来诸多的变革动力和巨大价值。
最新发布的报告称,全球大数据市场规模将在未来五年内迎来高达26%的年复合增长率——从今年的148.7亿美元增长到2018年的463.4亿美元。全球各大公司、企业和研究机构对大数据商业模式进行了广泛地探索和尝试,虽然仍旧有许多模式尚不明朗,但是也逐渐形成了一些成熟的商业模式。
两种存储模式为主
互联网上的每一个网页、每一张图片、每一封邮件,通信行业每一条短消息、每一通电话,电力行业每一户用电数据等等,这些足迹都以“数据”的形式被记录下来,并以几何量级的速度增长。这就是大数据时代带给我们最直观的冲击。
正因为数据量之大,数据多为非结构化,现有的诸多存储介质和系统极大地限制着大数据的挖掘和发展。为更好地解决大数据存储问题,国内外各大企业和研究机构做了许许多多的尝试和努力,并不断摸索其商业化前景,目前形成了如下两种比较成熟的商业模式:
可扩展的存储解决方案。该存储解决方案可帮助政府、企业对存储的内容进行分类和确定优先级,高效安全地存储到适当存储介质中。而以存储区域网络(SAN)、统一存储、文件整合/网络连接存储(NAS)的传统存储解决方案,无法提供和扩展处理大数据所需要的灵活性。而以Intel、Oracle、华为、中兴等为代表的新一代存储解决方案提供商提供的适用于大、中小企业级的全系存储解决方案,通过标准化IT基础架构、自动化流程和高扩展性,来满足大数据多种应用需求。
云存储。云存储是一个以数据存储和管理为核心的云计算系统,其结构模型一般由存储层、基础管理、应用接口和访问层四层组成。通过易于使用的API,方便用户将各种数据放到云存储里面,然后像使用水电一样按用量进行收费。用户不用关心数据的存储介质、网络状况以及安全性的管理,只需按需向提供方购买空间。
源数据价值水涨船高
在红红火火的大数据时代,随着数据的累积,数据本身的价值也在不断升值,这种情况很好地反应了事物由量变到质变的规律。例如有一种罕见的疾病,得病率为十万分之一,如果从小样本数据来看非常罕见,但是扩大到全世界70亿人,那么数量就非常庞大。以前技术落后,不能将该病情数字化集中研究,所以很难攻克。但是,我们现在把各种各样的数据案例搜集起来统一分析,我们很快就能攻克很多以前想象不到的科学难题。类似的例子,不胜枚举。
正是由于可以通过大数据挖掘到很多看不见的价值,源数据本身的价值也水涨船高。一些掌握海量有效数据的公司和企业找到了一条行之有效的商业路径:对源数据直接或者经过简单封装销售。在互联网领域,以Facebook、twitter、微博为代表的社交网站拥有大量的用户和用户关系数据,这些网站正尝试以各种方式对该源数据进行商业化销售,Google、Yahoo!、网络[微博]等搜索公司拥有大量的搜索轨迹数据以及网页数据,他们可以通过简单API提供给第三方并从中盈利;在传统行业中,中国联通[微博](3.44, 0.03, 0.88%)、中国电信[微博]等运营商拥有大量的底层用户资料,可以通过简单地去隐私化,然后进行销售盈利。
各大公司或者企业通过提供海量数据服务来支撑公司发展,同时以免费的服务补偿用户,这种成熟的商业模式经受住了时间的考验。但是对于任何用户数据的买卖,还需处理好用户隐私信息,通过去隐私化方式,来保护好用户隐私。
预测是增值服务的核心
在大数据基础上进行深度挖掘,所衍生出来的增值服务,是大数据领域最具想象空间的商业模式。大数据增值服务的核心是什么?预测!大数据引发了商业分析模式转变,从过去的样本模式到现在的全数据模式,从过去的小概率到现在的大概率,从而能够得到比以前更准确的预测。目前形成了如下几种比较成熟的商业模式。
个性化的精准营销。一提起“垃圾短信”,大家都很厌烦,这是因为本来在营销方看来是有价值的、“对”的信息,发到了“错”的用户手里。通过对用户的大量的行为数据进行详细分析,深度挖掘之后,能够实现给“对”的用户发送“对”的信息。比如大型商场可以对会员的购买记录进行深度分析,发掘用户和品牌之间的关联。然后,当某个品牌的忠实用户收到该品牌打折促销的短信之后,一定不是厌烦,而是欣喜。如优捷信达、中科嘉速等拥有强大数据处理技术的公司在数据挖掘、精准广告分析等方面拥有丰富的经验。
企业经营的决策指导。针对大量的用户数据,运用成熟的数据挖掘技术,分析得到企业运营的各种趋势,从而给企业的决策提供强有力的指导。例如,汽车销售公司,可以通过对网络上用户的大量评论进行分析,得到用户最关心和最不满意的功能,然后对自己的下一代产品进行有针对性的改进,以提升消费者的满意度。
总体来说,从宏观层面来看,大数据是我们未来社会的新能源;从企业微观层面来看,大数据分析和运用能力正成为企业的核心竞争力。深入研究和积极探索大数据的商业模式,对企业的未来发展有至关重要的意义。
‘贰’ 求帮助写一篇分布式计算云计算论文
首先介绍下云计算,的发展历史,他的前身,现在的应用,然后在介绍现在计算机的应用,在应用之中的不足,然后,着重阐述云计算的优势,我这里有一份关于这方面的对比及心得,发给你,希望能帮到你。
云计算简史
着名的美国计算机科学家、 图灵奖 (Turing Award) 得主麦卡锡 (John McCarthy,1927-) 在半个世纪前就曾思考过这个问题。 1961 年, 他在麻省理工学院 (MIT) 的百年纪念活动中做了一个演讲。 在那次演讲中, 他提出了象使用其它资源一样使用计算资源的想法,这就是时下 IT 界的时髦术语 “云计算” (Cloud Computing) 的核心想法。云计算中的这个 “云” 字虽然是后人所用的词汇, 但却颇有历史渊源。 早年的电信技术人员在画电话网络的示意图时, 一涉及到不必交待细节的部分, 就会画一团 “云” 来搪塞。 计算机网络的技术人员将这一偷懒的传统发扬光大, 就成为了云计算中的这个 “云” 字, 它泛指互联网上的某些 “云深不知处” 的部分, 是云计算中 “计算” 的实现场所。 而云计算中的这个 “计算” 也是泛指, 它几乎涵盖了计算机所能提供的一切资源。麦卡锡的这种想法在提出之初曾经风靡过一阵, 但真正的实现却是在互联网日益普及的上世纪末。 这其中一家具有先驱意义的公司是甲骨文 (Oracle) 前执行官贝尼奥夫 (Marc Benioff, 1964-) 创立的 Salesforce 公司。 1999 年, 这家公司开始将一种客户关系管理软件作为服务提供给用户, 很多用户在使用这项服务后提出了购买软件的意向, 该公司却死活不干, 坚持只作为服务提供, 这是云计算的一种典型模式, 叫做 “软件即服务” (Software as a Service, 简称 SaaS)。 这种模式的另一个例子, 是我们熟悉的网络电子邮箱 (因此读者哪怕是第一次听到 “云计算” 这个术语, 也不必有陌生感, 因为您多半已是它的老客户了)。 除了 “软件即服务” 外, 云计算还有其它几种典型模式, 比如向用户提供开发平台的 “平台即服务” (Platform as a Service, 简称 PaaS), 其典型例子是谷歌公司 (Google) 的应用程序引擎 (Google App Engine), 它能让用户创建自己的网络程序。 还有一种模式更彻底, 干脆向用户提供虚拟硬件, 叫做 “基础设施即服务” (Infrastructure as a Service, 简称 IaaS), 其典型例子是亚马逊公司 (Amazon) 的弹性计算云 (Amazon Elastic Compute Cloud, 简称 EC2), 它向用户提供虚拟主机, 用户具有管理员权限, 爱干啥就干啥, 跟使用自家机器一样。
1.2云计算的概念
狭义云计算是指计算机基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需的资源(硬件、平台、软件)。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。
广义云计算是指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需的服务。这种服务可以是计算机和软件、互联网相关的,也可以是其他的服务。云计算是并行计算(Parallel Computing)、分布式计算(Distributed Computing)和网格计算(Grid Computing)的发展,或者说是这些计算机科学概念的商业实现。云计算是虚拟化(Virtualization)、效用计算(Utility Computing)、IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS(软件即服务)等概念混合演进并跃升的结果。
1.3云计算的特点和优势
(一)超大规模性。“云”具有相当的规模,Google云计算已经拥有100多万台服务器,Amazon、IBM、微软、Yahoo等的“云”均拥有几十万台服务器。企业私有云一般拥有数百上千台服务器。“云”能赋予用户前所未有的计算能力。
(二)虚拟化。云计算支持用户在任意位置、使用各种终端获取应用服务。所请求的资源来自“云”,而不是固定的有形的实体。应用在“云”中某处运行,但实际上用户无需了解、也不用担心应用运行的具体位置。只需要一台笔记本或者一个手机,就可以通过网络服务来实现用户需要的一切,甚至包括超级计算这样的任务。[2]
(三)高可靠性。“云”使用了数据多副本容错、计算节点同构可互换等措施来保障服务的高可靠性,使用云计算比使用本地计算机可靠。
(四)通用性。云计算不针对特定的应用,在“云”的支撑下可以构造出千变万化的应用,同一个“云”可以同时支撑不同的应用运行。
(五)高可扩展性。“云”的规模可以动态伸缩,满足应用和用户规模增长的需要。
(六)价格合适。由于“云”的特殊容错措施可以采用具有经济性的节点来构成“云”,“云”的自动化集中式管理使大量企业无需负担日益高昂的数据中心管理成本,“云”的通用性使资源的利用率较之传统系统大幅提升,因此用户可以充分享受“云”的低成本优势,经常只要花费几百美元、几天时间就能完成以前需要数万美元、数月时间才能完成的任务。
云计算作为一种技术,与其它一些依赖互联网的技术——比如网格计算 (Grid Computing)——有一定的相似之处,但不可混为一谈。拿网格计算来说, 科学爱好者比较熟悉的例子是 SETI@Home,那是一个利用互联网上计算机的冗余计算能力搜索地外文明的计算项目,目前约有来自两百多个国家和地区的两百多万台计算机参与。它在 2009 年底的运算能力相当于当时全世界最快的超级计算机运算能力的三分之一。有些读者可能还知道另外一个例子:ZetaGrid,那是一个研究黎曼 ζ 函数零点分布的计算项目, 曾有过一万多台计算机参与 (但现在已经终止了,原因可参阅拙作 超越 ZetaGrid)。从这两个着名例子中我们可以看到网格计算的特点,那就是计算性质单一,但运算量巨大 (甚至永无尽头,比如 ZetaGrid)。而云计算的特点恰好相反,是计算性质五花八门,但运算量不大[注三],这是它们的本质区别,也是云计算能够面向大众成为服务的根本原因。云计算能够流行,它到底有什么优点呢? 我们举个例子来说明,设想你要开一家网络公司。按传统方法,你得有一大笔启动资金, 因为你要购买计算机和软件,你要租用机房,你还要雇专人来管理和维护计算机。 当你的公司运作起来时,业务总难免会时好时坏,为了在业务好的时候也能正常运转, 你的人力和硬件都要有一定的超前配置, 这也要花钱。 更要命的是, 无论硬件还是软件厂商都会频繁推出新版本, 你若不想被技术前沿抛弃, 就得花钱费力不断更新 (当然, 也别怪人家, 你的公司运作起来后没准也得这么赚别人的钱)。如果用云计算, 情况就不一样了: 计算机和软件都可以用云计算, 业务好的时候多用一点, 业务坏的时候少用一点, 费用就跟结算煤气费一样按实际用量来算, 无需任何超前配置[注四]。 一台虚拟服务器只需鼠标轻点几下就能到位, 不象实体机器, 从下定单, 到进货, 再到调试, 忙得四脚朝天不说, 起码得好几天的时间。虚拟服务器一旦不需要了, 鼠标一点就可以让它从你眼前 (以及账单里)消失。至于软硬件的升级换代,服务器的维护管理等,那都是云计算服务商的事,跟你没半毛钱的关系。更重要的是,开公司总是有风险的, 如果你试了一两个月后发现行不通,在关门大吉的时候,假如你用的是云计算,那你只需支付实际使用过的资源。假如你走的是传统路子,买了硬件、软件,雇了专人,那很多投资可就打水漂了。
1.4浅谈云计算的一个核心理念
大规模消息通信:云计算的一个核心理念就是资源和软件功能都是以服务的形式进行发布的,不同服务之间经常需要通过消息通信进行协助。由于同步消息通信的低效率,我们只考虑异步通信。如Java Message Service是J2EE平台上的一个消息通信标准,J2EE应用程序可以通过JMS来创建,发送,接收,阅读消息。异步消息通信已经成为面向服务架构中组件解耦合及业务集成的重要技术。
大规模分布式存储:分布式存储的目标是利用多台服务器的存储资源来满足单台服务器所不能满足的存储需求。分布式存储要求存储资源能够被抽象表示和统一管理,并且能够保证数据读写操作的安全性,可靠性,性能等各方面要求。下面是几个典型的分布式文件系统:
◆Frangipani是一个可伸缩性很好的高兴能分布式文件系统,采用两层的服务体系架构:底层是一个分布式存储服务,该服务能够自动管理可伸缩,高可用的虚拟磁盘;上层运行着Frangipani分布式文件系统。
◆JetFile是一个基于P2P的主播技术,支持在Internet这样的异构环境中分享文件的分布式文件系统。
◆Ceph是一个高性能并且可靠地分布式文件系统,它通过把数据和对数据的管理在最大程度上分开来获取极佳的I/O性能。
◆Google File System(GFS)是Google公司设计的可伸缩的分布式文件系统。GFS能够很好的支持大规模海量数据处理应用程序。
在云计算环境中,数据的存储和操作都是以服务的形式提供的;数据的类型多种多样;必须满足数据操作对性能,可靠性,安全性和简单性的要求。在云计算环境下的大规模分布式存储方向,BigTable是Google公司设计的用来存储海量结构化数据的分布式存储系统;Dynamo是Amazon公司设计的一种基于键值对的分布式存储系统,它能提供非常高的可用性;Amazon公司的Simple Storage Service(S3)是一个支持大规模存储多媒体这样的二进制文件的云计算存储服务;Amazon公司的SimpleDB是建立在S3和Amazon EC2之上的用来存储结构化数据的云计算服务。
许可证管理与计费:目前比较成熟的云环境计费模型是Amazon公司提供的Elastic Compute Cloud(EC2)和Simple Storage Service(S3)的按量计费模型,用户按占用的虚拟机单元,IP地址,带宽和存储空间付费。
1.5云计算的现状
云计算是个热度很高的新名词。由于它是多种技术混合演进的结果,其成熟度较高,又有大公司推动,发展极为迅速。Amazon、Google、IBM、微软和Yahoo等大公司是云计算的先行者。云计算领域的众多成功公司还包括Salesforce、Facebook、Youtube、Myspace等。Amazon使用弹性计算云(EC2)和简单存储服务(S3)为企业提供计算和存储服务。收费的服务项目包括存储服务器、带宽、CPU资源以及月租费。月租费与电话月租费类似,存储服务器、带宽按容量收费,CPU根据时长(小时)运算量收费。Amazon把云计算做成一个大生意没有花太长的时间:不到两年时间,Amazon上的注册开发人员达44万人,还有为数众多的企业级用户。有第三方统计机构提供的数据显示,Amazon与云计算相关的业务收入已达1亿美元。云计算是Amazon增长最快的业务之一。Google当数最大的云计算的使用者。Google搜索引擎就建立在分布在200多个地点、超过100万台服务器的支撑之上,这些设施的数量正在迅猛增长。Google地球、地图、Gmail、Docs等也同样使用了这些基础设施。采用Google Docs之类的应用,用户数据会保存在互联网上的某个位置,可以通过任何一个与互联网相连的系统十分便利地访问这些数据。目前,Google已经允许第三方在Google的云计算中通过Google App Engine运行大型并行应用程序。Google值得称颂的是它不保守。它早已以发表学术论文的形式公开其云计算三大法宝:GFS、MapRece和BigTable,并在美国、中国等高校开设如何进行云计算编程的课程。IBM在2007年11月推出了“改变游戏规则”的“蓝云”计算平台,为客户带来即买即用的云计算平台。它包括一系列的自动化、自我管理和自我修复的虚拟化云计算软件,使来自全球的应用可以访问分布式的大型服务器池。使得数据中心在类似于互联网的环境下运行计算。IBM正在与17个欧洲组织合作开展云计算项目。欧盟提供了1.7亿欧元做为部分资金。该计划名为RESERVOIR,以“无障碍的资源和服务虚拟化”为口号。2008年8月, IBM宣布将投资约4亿美元用于其设在北卡罗来纳州和日本东京的云计算数据中心改造。IBM计划在2009年在10个国家投资3亿美元建13个云计算中心。
微软紧跟云计算步伐,于2008年10月推出了Windows Azure操作系统。Azure(译为“蓝天”)是继Windows取代DOS之后,微软的又一次颠覆性转型——通过在互联网架构上打造新云计算平台,让Windows真正由PC延伸到“蓝天”上。微软拥有全世界数以亿计的Windows用户桌面和浏览器,现在它将它们连接到“蓝天”上。Azure的底层是微软全球基础服务系统,由遍布全球的第四代数据中心构成。
云计算的新颖之处在于它几乎可以提供无限的廉价存储和计算能力。纽约一家名为Animoto的创业企业已证明云计算的强大能力(此案例引自和讯网维维编译《纽约时报》2008年5月25日报道)。Animoto允许用户上传图片和音乐,自动生成基于网络的视频演讲稿,并且能够与好友分享。该网站目前向注册用户提供免费服务。2008年年初,网站每天用户数约为5000人。4月中旬,由于Facebook用户开始使用Animoto服务,该网站在三天内的用户数大幅上升至75万人。Animoto联合创始人Stevie Clifton表示,为了满足用户需求的上升,该公司需要将服务器能力提高100倍,但是该网站既没有资金,也没有能力建立规模如此巨大的计算能力。因此,该网站与云计算服务公司RightScale合作,设计能够在亚马逊的网云中使用的应用程序。通过这一举措,该网站大大提高了计算能力,而费用只有每服务器每小时10美分。这样的方式也加强创业企业的灵活性。当需求下降时,Animoto只需减少所使用的服务器数量就可以降低服务器支出。
在我国,云计算发展也非常迅猛。2008年5月10日,IBM在中国无锡太湖新城科教产业园建立的中国第一个云计算中心投入运营。2008年6月24日,IBM在北京IBM中国创新中心成立了第二家中国的云计算中心——IBM大中华区云计算中心;2008年11月28日,广东电子工业研究院与东莞松山湖科技产业园管委会签约,广东电子工业研究院将在东莞松山湖投资2亿元建立云计算平台;2008年12月30日,阿里巴巴集团旗下子公司阿里软件与江苏省南京市政府正式签订了2009年战略合作框架协议,计划于2009年初在南京建立国内首个“电子商务云计算中心”,首期投资额将达上亿元人民币;世纪互联推出了CloudEx产品线,包括完整的互联网主机服务"CloudEx Computing Service", 基于在线存储虚拟化的"CloudEx Storage Service",供个人及企业进行互联网云端备份的数据保全服务等等系列互联网云计算服务;中国移动研究院做云计算的探索起步较早,已经完成了云计算中心试验。中移动董事长兼CEO王建宙认为云计算和互联网的移动化是未来发展方向。
我国企业创造的“云安全”概念,在国际云计算领域独树一帜。云安全通过网状的大量客户端对网络中软件行为的异常监测,获取互联网中木马、恶意程序的最新信息,推送到服务端进行自动分析和处理,再把病毒和木马的解决方案分发到每一个客户端。云安全的策略构想是:使用者越多,每个使用者就越安全,因为如此庞大的用户群,足以覆盖互联网的每个角落,只要某个网站被挂马或某个新木马病毒出现,就会立刻被截获。云安全的发展像一阵风,瑞星、趋势、卡巴斯基、MCAFEE、SYMANTEC、江民科技、PANDA、金山、360安全卫士、卡卡上网安全助手等都推出了云安全解决方案。瑞星基于云安全策略开发的2009新品,每天拦截数百万次木马攻击,其中1月8日更是达到了765万余次。势科技云安全已经在全球建立了5大数据中心,几万部在线服务器。据悉,云安全可以支持平均每天55亿条点击查询,每天收集分析2.5亿个样本,资料库第一次命中率就可以达到99%。借助云安全,趋势科技现在每天阻断的病毒感染最高达1000万次。
值得一提的是,云安全的核心思想,与刘鹏早在2003年就提出的反垃圾邮件网格非常接近[1][2]。刘鹏当时认为,垃圾邮件泛滥而无法用技术手段很好地自动过滤,是因为所依赖的人工智能方法不是成熟技术。垃圾邮件的最大的特征是:它会将相同的内容发送给数以百万计的接收者。为此,可以建立一个分布式统计和学习平台,以大规模用户的协同计算来过滤垃圾邮件:首先,用户安装客户端,为收到的每一封邮件计算出一个唯一的“指纹”,通过比对“指纹”可以统计相似邮件的副本数,当副本数达到一定数量,就可以判定邮件是垃圾邮件;其次,由于互联网上多台计算机比一台计算机掌握的信息更多,因而可以采用分布式贝叶斯学习算法,在成百上千的客户端机器上实现协同学习过程,收集、分析并共享最新的信息。反垃圾邮件网格体现了真正的网格思想,每个加入系统的用户既是服务的对象,也是完成分布式统计功能的一个信息节点,随着系统规模的不断扩大,系统过滤垃圾邮件的准确性也会随之提高。用大规模统计方法来过滤垃圾邮件的做法比用人工智能的方法更成熟,不容易出现误判假阳性的情况,实用性很强。反垃圾邮件网格就是利用分布互联网里的千百万台主机的协同工作,来构建一道拦截垃圾邮件的“天网”。反垃圾邮件网格思想提出后,被IEEE Cluster 2003国际会议选为杰出网格项目在香港作了现场演示,在2004年网格计算国际研讨会上作了专题报告和现场演示,引起较为广泛的关注,受到了中国最大邮件服务提供商网易公司创办人丁磊等的重视。既然垃圾邮件可以如此处理,病毒、木马等亦然,这与云安全的思想就相去不远了。
http://wenku..com/view/6ea1435d3b3567ec102d8ae8.html
2008年11月25日,中国电子学会专门成立了云计算专家委员会,聘任中国工程院院士李德毅为主任委员,聘任IBM大中华区首席技术总裁叶天正、中国电子科技集团公司第十五研究所所长刘爱民、中国工程院院士张尧学、Google全球副总裁/中国区总裁李开复、中国工程院院士倪光南、中国移动通信研究院院长黄晓庆六位专家为副主任委员,聘任国内外30多位知名专家学者为专家委员会委员。2009年5月22日,中国电子学会将于在北京中国大饭店隆重举办首届中国云计算大会。