㈠ 大数据未来的发展前景怎么样
产业发展现状
1、行业整体情况:大数据产业规模维持高速增长 主要应用于互联网与政务领域
——大数据产业规模:2020年超过6000亿元,未来将保持高速增长
中国大数据产业联盟发布的《2021中国大数据产业发展地图暨中国大数据产业发展白皮书》指出,2018年以来,大数据技术的快速发展,以及大数据与人工智能、VR、5G、区块链、边缘智能等新技术的交汇融合,持续加速技术创新。与此同时,伴随新型智慧城市和数字城市建设热潮,各地与大数据相关的园区加速落地,大数据产业持续增长。
白皮书中赛迪顾问的数据显示,2020年中国大数据产业规模达6388亿元,同比增长18.6%,预计未来三年保持15%以上的年均增速,到2023年产业规模超过10000亿元。
㈡ 大数据市场有多大 怎么利用大数据赚钱
大数据市场有多大 怎么利用大数据赚钱
“大数据的市场规模没有天花板。”国务院发展研究中心信息中心研究处处长李广乾认为。不过细想,这正是目前各大企业和资本疯狂追逐大数据产业的重要原因。
“单独讨论大数据意义不大,它是依附于具体业务,和各个行业密切相关的。”李广乾认为,大数据产业规模和两大因素相关:一是经济发展水平,需要大数据的业务越多,市场体量就越大;二是信息化发展水平,能够产生数据的终端越多,数据就会越聚越多,而数据的生产是没有上限的。目前,大数据的金矿还仅是开挖了“冰山一角”。全球来看,Gartner2016年最新的技术成熟度曲线显示,大数据作为新兴领域,已经进入应用发展阶段,基础设施建设带来的规模性高速增长出现逐步放缓的趋势,技术创新和商业模式创新推动各行业应用逐步成熟,应用创造的价值在市场规模中的比重日益增大,并成为新的增长动力。从总体规模看,2016年,全球大数据市场规模实现16.5%的增长,预计将连续3年保持增速在15%左右。同时,大数据成为全球IT支出新的增长点,2016年,有近40%的企业正在实施和扩大大数据技术的应用,另有30%计划在未来12个月内应用大数据。“说大数据产业是一张画得很大的饼显然是片面的。”工信部赛迪研究院软件所所长潘文预测,包括大数据硬件、大数据软件、大数据服务等在内的大数据核心产业环节,2016年达到3100亿元,将在2020年超过1万亿元;大数据关联产业规模2016年超过5万亿元,将在2020年超过10万亿元;大数据融合产业规模2016年达到3.5万亿元,将在2020年超过20万亿元。“从大数据核心产业结构看,基于大数据的服务是大数据核心产业的主体,其规模约占大数据核心产业规模的90%,未来,服务也将是大数据产业的最核心部分。”潘文说。做数据“搬运工”目前国内大数据公司分为两类:一类是已有获取大数据能力的公司,如网络、腾讯、阿里巴巴等互联网巨头及华为、浪潮、中兴等企业,涵盖了数据采集、数据存储、数据分析、数据可视化及数据安全等领域;另一类则是初创大数据公司,依靠大数据工具,针对市场需求,为市场带来创新方案并推动技术发展。不同的大数据公司,盈利模式也不相同。如果把大数据产业比作房地产开发,那么海量数据就是地产开发时的土地资源,数据挖掘开发就是地产搭建盖楼。大数据主要的盈利模式也是围绕这两方面展开,一是通过直接“搬运”数据赚钱,二是通过数据加工分析盈利。“我们就像一个自来水厂一样,用户要你提供干净的自来水,对方可能是酒厂、饭店、饮料厂,他把你的水做成饮料或酒。”聚合数据就是一家主要依靠为客户提供数据盈利的公司,公司创始人左磊对其商业模式作了一个形象的比喻。在开发APP应用过程中,左磊发现客户对于数据的需求非常大,但他们本身却没有能力去做这些事情。聚合数据的主营业务,就是整合市面上有价值的数据源,从车辆违章信息、航班火车查询、全国加油站实时油价,到在线试题、电影、股票,做成标准化的API(应用程序编程接口),开放给开发者、企业及微信公众号用户等使用,为他们免除数据收集、维护等环节。简言之,聚合数据是一家数据源公司,充当的是数据“搬运工”的角色。在变现模式上,针对一些本身成本不高的服务,聚合数据会对用户实行免费,而对一些成本相对高的服务,会按照每个接口或服务的成本收取不同的费用。2016年,聚合数据光API接口一项营收就超过1000万元。聚合数据的盈利模式是数据买卖市场一个有代表性的类型。另一个代表性类型是,国内乃至全球第一家大数据交易所——贵阳大数据交易所,自2015年4月正式挂牌运营以来,仅用两年多时间,就实现了可交易数据总量超过150PB,内容涵盖政府、金融、交通等30大类领域,并于今年上半年实现正现金流,预计今年底累计交易流水将突破2亿元人民币。数据的“消化”和“利用”如果说搬运数据是秀肌肉的“体力活”,那么分析数据并提供解决方案就是拼智商的“脑力活”,相当于把收集来的数据“消化”“利用”好。直接售卖数据是比较底层的盈利方式,而对数据进行处理加工则在商业模式上具备更多的想象空间。数据分析可大致分为直接提供数据分析工具和输出解决方案两种模式。潘文说,数据分析工具通常可以实现情报挖掘、舆情分析、销售追踪、精准营销、个性化推荐、网站/APP分析等功能,收费方式采取按需购买,部分功能服务免费,部分功能服务收费。阿里云的“数加”平台就是典型的数据工具盈利模式。阿里云大数据事业部总监徐常亮表示,阿里云“数加”平台,承载着阿里巴巴集团、蚂蚁金服的数据,可提供一站式的数据计算、加工、处理等服务,用户不用自建计算平台。此外,基于“数加”平台,阿里云还提供数十款应用工具,覆盖数据采集、计算引擎、数据加工、数据分析、机器学习、数据应用等数据生产全链条。计算引擎之上,“数加”平台提供了最丰富的云端数据开发套件,包括数据集成、数据开发、调度系统、数据管理、运维视屏、数据质量、任务监控。在数据分析方面,通过移动数据分析产品,开发者可快速搭建日志采集、分析系统;通过“数加”平台BI报表产品,3分钟即可完成海量数据的分析报告。在机器学习方面,“数加”平台发布的机器学习工具,可基于海量数据实现对用户行为、行业走势、天气、交通等的预测。大数据公司百分点的展厅内有一面弧形墙,可以24小时实时更新数据资料和图谱。这面墙上有全网当日产品销售统计和热销产品榜单,每一个产品都有详情介绍。百分点研发总监苏海波介绍,5.5亿用户的“画像”汇总于此,包括购物偏好、网购金额变化趋势、阅读兴趣等。用户的任何网上行为都会成为大数据的一部分,经过筛选加入到用户的数据中。通过与百分点合作,商户可以根据用户消费偏好,定向推送商品;旅行社可以定向推送旅游行程信息和报价;新闻资讯APP则可以推送用户感兴趣的信息。在输出解决方案上,大数据还可以应用到医疗、教育、零售、通信等传统行业。通过大数据产生更多收益,节约成本,优化原有行业,衍生出新的商业模式。
㈢ 大数据爆发性增长 存储技术面临难题
大数据爆发性增长 存储技术面临难题
随着大数据应用的爆发性增长,大数据已经衍生出了自己独特的架构,而且也直接推动了存储、网络以及计算技术的发展。毕竟处理大数据这种特殊的需求是一个新的挑战。硬件的发展最终还是由软件需求推动的。大数据本身意味着非常多需要使用标准存储技术来处理的数据。大数据可能由TB级(或者甚至PB级)信息组成,既包括结构化数据(数据库、日志、SQL等)以及非结构化数据(社交媒体帖子、传感器、多媒体数据)。此外,大部分这些数据缺乏索引或者其他组织结构,可能由很多不同文件类型组成。从目前技术发展的情况来看,大数据存储技术的发展正面临着以下几个难题:
1、容量问题
这里所说的“大容量”通常可达到PB级的数据规模,因此,海量数据存储系统也一定要有相应等级的扩展能力。与此同时,存储系统的扩展一定要简便,可以通过增加模块或磁盘柜来增加容量,甚至不需要停机。
“大数据”应用除了数据规模巨大之外,还意味着拥有庞大的文件数量。因此如何管理文件系统层累积的元数据是一个难题,处理不当的话会影响到系统的扩展能力和性能,而传统的NAS系统就存在这一瓶颈。所幸的是,基于对象的存储架构就不存在这个问题,它可以在一个系统中管理十亿级别的文件数量,而且还不会像传统存储一样遭遇元数据管理的困扰。基于对象的存储系统还具有广域扩展能力,可以在多个不同的地点部署并组成一个跨区域的大型存储基础架构。
2、延迟问题
“大数据”应用还存在实时性的问题。有很多“大数据”应用环境需要较高的IOPS性能,比如HPC高性能计算。此外,服务器虚拟化的普及也导致了对高IOPS的需求,正如它改变了传统IT环境一样。为了迎接这些挑战,各种模式的固态存储设备应运而生,小到简单的在服务器内部做高速缓存,大到全固态介质的可扩展存储系统等等都在蓬勃发展。
3、并发访问
一旦企业认识到大数据分析应用的潜在价值,他们就会将更多的数据集纳入系统进行比较,同时让更多的人分享并使用这些数据。为了创造更多的商业价值,企业往往会综合分析那些来自不同平台下的多种数据对象。包括全局文件系统在内的存储基础设施就能够帮助用户解决数据访问的问题,全局文件系统允许多个主机上的多个用户并发访问文件数据,而这些数据则可能存储在多个地点的多种不同类型的存储设备上。
4、安全问题
某些特殊行业的应用,比如金融数据、医疗信息以及政府情报等都有自己的安全标准和保密性需求。虽然对于IT管理者来说这些并没有什么不同,而且都是必须遵从的,但是,大数据分析往往需要多类数据相互参考,而在过去并不会有这种数据混合访问的情况,因此大数据应用也催生出一些新的、需要考虑的安全性问题。
5、成本问题
成本问题“大”,也可能意味着代价不菲。而对于那些正在使用大数据环境的企业来说,成本控制是关键的问题。想控制成本,就意味着我们要让每一台设备都实现更高的“效率”,同时还要减少那些昂贵的部件。
对成本控制影响最大的因素是那些商业化的硬件设备。因此,很多初次进入这一领域的用户以及那些应用规模最大的用户都会定制他们自己的“硬件平台”而不是用现成的商业产品,这一举措可以用来平衡他们在业务扩展过程中的成本控制战略。为了适应这一需求,现在越来越多的存储产品都提供纯软件的形式,可以直接安装在用户已有的、通用的或者现成的硬件设备上。此外,很多存储软件公司还在销售以软件产品为核心的软硬一体化装置,或者与硬件厂商结盟,推出合作型产品。
6、数据的积累
许多大数据应用都会涉及到法规遵从问题,这些法规通常要求数据要保存几年或者几十年。比如医疗信息通常是为了保证患者的生命安全,而财务信息通常要保存7年。而有些使用大数据存储的用户却希望数据能够保存更长的时间,因为任何数据都是历史记录的一部分,而且数据的分析大都是基于时间段进行的。要实现长期的数据保存,就要求存储厂商开发出能够持续进行数据一致性检测的功能以及其他保证长期高可用的特性。同时还要实现数据直接在原位更新的功能需求。
7、数据的灵活性
大数据存储系统的基础设施规模通常都很大,因此必须经过仔细设计,才能保证存储系统的灵活性,使其能够随着应用分析软件一起扩容及扩展。在大数据存储环境中,已经没有必要再做数据迁移了,因为数据会同时保存在多个部署站点。一个大型的数据存储基础设施一旦开始投入使用,就很难再调整了,因此它必须能够适应各种不同的应用类型和数据场景。
存储介质正在改变,云计算倍受青睐
存储之于安防的地位,其已经不仅是一个设备而已,而是已经升华到了一个解决方案平台的地步。作为图像数据和报警事件记录的载体,存储的重要性是不言而喻的。
安防监控应用对存储的需求是什么?首先,海量存储的需求。其次,性能的要求。第三,价格的敏感度。第四,集中管理的要求。第五,网络化要求。安防监控技术发展到今天经历了三个阶段,即:模拟化、数字化、网络化。与之相适应,监控数据存储也经历了多个阶段,即:VCR模拟数据存储、DVR数字数据存储,到现在的集中网络存储,以及发展到云存储阶段,正是在一步步迎合这种市场需求。在未来,安防监控随着高清化,网络化,智能化的不断发展,将对现有存储方案带来不断挑战,包括容量、带宽的扩展问题和管理问题。那么,基于大数据战略的海量存储系统--云存储就倍受青睐了。
基于大数据战略的安防存储优势明显
当前社会对于数据的依赖是前所未有的,数据已变成与硬资产和人同等重要的重要资料。如何存好、保护好、使用好这些海量的大数据,是安防行业面临的重要问题之一。那么基于大数据战略的安防存储其优势何在?
目前的存储市场上,原有的视频监控方案容量、带宽难以扩展。客户往往需要采购更多更高端的设备来扩充容量,提高性能,随之带来的是成本的急剧增长以及系统复杂性的激增。同时,传统的存储模式很难在完全没有业务停顿的情况下进行升级,扩容会对业务带来巨大影响。其次,传统的视频监控方案难于管理。由于视频监控系统一般规模较大,分布特征明显,大多独立管理,这样就把整个系统分割成了多个管理孤岛,相互之间通信困难,难以协调工作,以提高整体性能。除此之外,绿色、安全等也是传统视频监控方案所面临的突出问题。
基于大数据战略的云存储技术与生俱来的高扩展、易管理、高安全等特性为传统存储面临的问题带来了解决的契机。利用云存储,用户可以方便的进行容量、带宽扩展,而不必停止业务,或改变系统架构。同时,云存储还具有高安全、低成本、绿色节能等特点。基于云存储的视频监控解决方案是客户应对挑战很好的选择。王宇说,进入二十一世纪,云存储作为一种新的存储架构,已逐步走入应用阶段,云存储不仅轻松突破了SAN的性能瓶颈,而且可以实现性能与容量的线性扩展,这对于拥有大量数据的安防监控用户来说是一个新选择。
以英特尔推出的Hadoop分布式文件系统(HDFS)为例,其提供了一个高度容错性和高吞吐量的海量数据存储解决方案。目前已经在各种大型在线服务和大型存储系统中得到广泛应用,已经成为海量数据存储的事实标准。
随着信息系统的快速发展,海量的信息需要可靠存储的同时,还能被大量的使用者快速地访问。传统的存储方案已经从构架上越来越难以适应近几年来的信息系统业务的飞速发展,成为了业务发展的瓶颈和障碍。HDFS通过一个高效的分布式算法,将数据的访问和存储分布在大量服务器之中,在可靠地多备份存储的同时还能将访问分布在集群中的各个服务器之上,是传统存储构架的一个颠覆性的发展。最重要的是,其可以满足以下特性:可自我修复的分布式文件存储系统,高可扩展性,无需停机动态扩容,高可靠性,数据自动检测和复制,高吞吐量访问,消除访问瓶颈,使用低成本存储和服务器构建。
以上是小编为大家分享的关于大数据爆发性增长 存储技术面临难题的相关内容,更多信息可以关注环球青藤分享更多干货
㈣ 2021年值得关注的存储和磁盘阵列
【51CTO.com快译】 众所周知,存储阵列需要巨大的存储容量和高速的网络连接,并在数据中心中扮演着重要的角色。尽管云存储越来越受欢迎,但存储阵列(尤其是全闪存阵列)是许多企业存储基础设施的重要组成部分。而顶级的存储阵列可以提供广泛的数据存储,并允许用户将关键业务工作负载存储到更能支持他们开展业务的位置。
存储阵列可以在两个或多个存储设备上保存块存储、文件存储或对象存储数据。这些设备还可以连接到网络,而存储阵列由控制器管理。
存储区域网络(SAN)连接数据中心或其他本地区域中的多个存储设备,其中包括存储阵列。存储区域网络(SAN)阵列在存储行业中的地位仍在上升,尤其是那些具有高速连接(例如光纤通道)并支持NVMe的阵列。存储区域网络(SAN)可以满足低延迟连接数据中心的需求,并在互联网中连接数据存储。
独立磁盘冗余阵列(RAID)是一种用于HDD磁盘和SSD磁盘的冗余和备份技术。RAID使用几种不同的方法来复制或保留数据,其中包括镜像(将数据准确复制到存储阵列中的下一个磁盘驱动器)和奇偶校验(重新计算丢失数据的一种数学方法)。
最常见的RAID级别是:
一些存储专业人士不再将RAID视为一种可靠的备份或保护技术,因为它容错率低,尤其是在具有更多磁盘的阵列中。RAID 5和RAID 6是具有最佳保护的级别,无法满足当前数据中心环境中理想的备份需求。
NVMe(非易失性存储器快速)是一种SSD技术,它创建与计算机中央处理单元的直接连接。通过绕过SATA使用的控制器并连接到PCIe总线,可以更快、更高效地处理数据。NVMe的速度远远超过其他SSD技术(例如SATA)。
用于数据中心的NVMe-oF使存储的数据可以应用在网络,而不是只在一台计算机或服务器上可用。这对于需要在数据中心内部提供存储数据而不是只是某个硬件上使用的企业来说特别有用。提供NVMe-oF技术的存储阵列仍然很少见;NVMe-oF技术更大程度地利用了NVMe更高的数据处理速率。
数据存储阵列在大小、硬盘驱动器支持以及专业化方面各不相同。有一些支持HDD磁盘,而另一些只支持闪存。以下的大多数存储阵列都将采用闪存存储,这突出了闪存在未来关键工作负载的数据存储中的重要性。
在企业选择存储阵列时,需要考虑以下问题:
以下一些存储阵列是来自五个供应商的存储解决方案。这些包括NAS、全闪存和非结构化数据的首选方案。这个列表中的某些条目涵盖来自同一供应商的多个类似解决方案。
FlashArray适用于需要最佳速度和最高质量的企业。
FlashArray包括用于关键企业工作负载的FlashArray//X和用于非密集型工作负载的FlashArray//C,它提供了令人难以置信的性能,并与其他主要的供应商竞争(该产品2011年推出)。用户可以通过托管目录监控闪存阵列性能,可以选择单个文件系统根目录、每个用户的目录或每个业务部门的目录。
FlashArray为数据库提供快速备份和操作,为具有大量SQL和Oracle数据库需求的企业提供支持。其升级通常不会导致停机,更新也不需要Pure Storage用户进行大量IT管理。而用户也对Pure Storage团队的支持感到满意。虽然FlashArray并不是Hyper-V环境的一个完美解决方案,但很多用户发现在他们的虚拟机上表现良好。
Pure Storage公司在存储行业意识到全闪存系统的重要性之前就推出了全闪存系统,现在他们从中受益匪浅。FlashArray是存储市场上的顶级阵列之一,在存储速度和用户支持方面领先于其他供应商的产品。
由于其极快的速度,FlashArray并不是冷数据或存档数据的理想选择,而是需要极低延迟的工作负载的理想选择。快速访问存储通常比归档存储的成本要昂贵得多,而FlashArray作为冷存储解决方案将会浪费企业的预算。
NetApp AFF适用于需要同时存储冷热数据的用户。
NetApp All-Flash FAS是用于关键工作负载的全闪存存储区域网络(AFF)。AFF相对容易实现,可以处理多个大型工作负载,尤其是数据库、高性能应用程序和虚拟机,同时保持高速存储。
NetApp AFF支持iSCSI和光纤通道网络以及通过光纤通道连接的NVMe。AFF可以为数据备份创建快照。Snap Mirror是一种数据复制和灾难恢复技术,可在灾难破坏初始副本的时候创建数据的异地复制。
AFF的主要优势之一是其使用Fabric Pool技术,NetApp阵列会自动将非活动数据发送到成本较低的对象存储。分层取决于数据的状态(冷数据或热数据)。如果不需要定期的低延迟访问,Fabric Pool可以通过将数据传输到成本更低的存储平台来节省成本。Fabric Pool支持Microsoft Azure Blob、阿里云和IBMCloud等对象存储平台。
HPE Nimble适用于需要内置智能的企业。
HPE公司的全闪存阵列是在2017年HPE公司收购存储提供商Nimble公司时收购的,可以提供可扩展的混合云存储。Nimble公司使用HPE公司的dHCI(分解的超融合基础设施)。dHCI并不是一种完全融合或超融合的基础设施,它允许用户在需要时扩展他们想要的资源(例如存储、计算或网络)。
用户还可以利用智能预测平台HPE InfoSight,该平台会在出现问题、应用程序出现故障或阵列需要扩展以满足需求时通知用户。HPE InfoSight直接连接到dHCI堆栈。
Nimble提供灾难恢复复制快照,包括针对Hyper-V虚拟机的快照。而复制快照可以扩展到其他物理位置的存储阵列。
尽管与Nimble公司相比,一些用户对HPE公司的支持可用性有所不满,但表示HPE公司可以为新用户提供培训和支持。
FlashSystem是IBM公司的全闪存阵列,通过Red Hat和Kubernetes容器存储接口支持容器环境。如果初始硬件出现故障,FlashSystem用户可以使用IBM HyperSwap进行故障转移。
FlashSystem 5200是最新的存储阵列之一,提供NVMe全闪存和超过PB的可用存储容量。FlashSystem还包括IBM公司的新CloudSatellite,它允许用户灵活地管理和部署云计算环境以用于他们的存储。CloudSatellite还兼容各种供应商提供的云平台,以便用户可以选择他们需要的公有云、私有云、内部部署或混合部署环境。
IBM公司提供了有关性能和容量的Storage Insights,用户可以通过管理平台进行管理。Storage Insights还提供智能分析,可以确定问题和优化领域。
FlashSystem最有前途的一个功能可能是其利用NVMe over Fabrics的能力。虽然是一项新的数据中心技术,但NVMe-oF非常具有前途:它将NVMe闪存速度(当今可用的最高持久内存速度)扩展到整个数据中心。这些存储不仅限于一台计算机或设备使用,还可以通过光纤通道或InfiniBand等技术跨整个网络访问。包括NVMe-oF功能是主要存储阵列供应商的一个具有先见之明的决定,它是FlashSystem的突出元素之一。
Synology DiskStation和FlashStation适用于大量使用NAS的企业。
Synology公司是网络附加存储领域的佼佼者。对于小型企业来说,DiskStation系列NAS设备提供可靠性、容量和DiskStation Manager软件,该软件为所有SynologyDS设备提供一种操作系统。许多DiskStation设备还具有NVMe端口,但并非所有企业级NAS硬件都有这样的端口。RX、RS和DX系列也面向中小型企业。
Synology FlashStation(FS)专供企业使用,拥有全闪存的24托盘阵列。Synology还提供扩展单元,例如24托盘Fx2421可以用于通过FlashStation扩展存储。
FlashStation FS6400是Synology公司推出的最新阵列之一,其备份和数据保护功能尤其引人注目。DiskStation Manager提供了对虚拟化的支持,提供用于运行虚拟机和创建备份快照的虚拟机管理器。
FS6400运行iSCSI协议,还支持虚拟环境,如VMWareVSphere和MicrosoftHyper-V。虽然它不提供用于速度更快SSD连接的NVME端口,但它确实有两个千兆以太网端口。对于仍然依赖网络附加存储和SATASSD(仍然是一种低成本、低延迟的选择)的中型企业和企业来说,Synology FlashStation是一种理想的选择。
Dell EMC PowerScale适用于希望将非结构化数据存储在网络附加存储(NAS)中的企业。
PowerScale是戴尔公司最新推出的网络附加存储(NAS)解决方案之一。该阵列将数据存储在一个巨大的数据湖中,旨在通过将所有数据分组到一个地方来减少或消除企业的数据孤岛。
非结构化数据(尤其是对象存储数据)的数量和流行度都在飙升,PowerScale为正在成为大多数业务数据的数据提供存储。用户可以通过简单地添加更多节点来扩展,这样不会降低速度或性能。PowerScale适用于云平台和内部部署设施运行的工作负载。
PowerScale的成本很高昂,就像这一列表中的许多其他解决方案一样,并不是块存储的理想选择。然而,在需要时轻松扩展的能力使其成为需要灵活NAS和增长空间的企业的解决方案。
由于可以容纳大量的非结构化数据,PowerScale是存储大型媒体文件的合适选择。
Pure Storage FlashBlade 适用于具有最高速度和勒索软件保护的本地存储。
Pure Storage公司再次出现的理由很充分:其相对较早的全闪存数据中心存储方法产生了多种出色的产品。FlashBlade与FlashArray的方法不同,它是一种存储解决方案,旨在将公共云级别的功能引入本地存储。FlashBlade可创建易于扩展的存储(如果想要增加存储容量,用户只需添加更多FlashBlade即可)。
FlashBlade旨在存储文件和对象数据,这是数据中心优先考虑对象存储数据的重要一步。对象存储为构成企业数据的很大一部分的非结构化数据提供了无限的存储空间。通过提供对象存储阵列解决方案,Pure Storage公司改进了其产品。
FlashBlade提供文件和对象复制以及快速恢复,这是一个与数据保护供应商集成的程序。用户可以在FlashBlade中获取数据快照,并使用快照执行备份,这是一种旨在防止勒索软件攻击的策略(网络攻击者不能使用快照来索要赎金)。
原文标题:Best Storage and Disk Arrays 2021,作者:Jenna Phipps
【51CTO译稿,合作站点转载请注明原文译者和出处为51CTO.com】
㈤ 大数据发展前景怎么样 这个行业有前途吗
大数据技术是一种新一代技术和构架,它以成本较低、以快速的采集、处理和分析技术,从各种超大规模的数据中提取价值。大数据技术不断涌现和发展,让我们处理海量数据更加容易、更加便宜和迅速,成为利用数据的好助手,甚至可以改变许多行业的商业模式。
大数据(big data)是这样的数据集合:数据量增长速度极快,用常规的数据工具无法在一定的时间内进行采集、处理、存储和计算的数据集合。
大数据产业蓬勃发展
2015 年,全球大数据产业市场规模为1403 亿美元,预计到2020 年将达到10270 亿美元,2014-2020 年间CAGR 高达49%;
2015 年,我国大数据产业市场规模为1692 亿元,预计到2020 年将达到13626 亿元,2014-2020 年间CAGR
高达53%。大数据行业的高速发展引起的巨大的数据存储需求,将给传统IT基础设施架构带来巨大压力,为超融合带来发展良机。
企业数据规模
从数据规模的角度来说,近55.03%的企业数据规模已经超过1TB,超过样本总量的一半。其中34%的企业数据规模在1TB-10TB,11.19%的企业数据规模在10TB-50TB,9.9%的企业数据规模在50TB以上,而剩余的44.97%的企业数据规模也在500GB-1TB之间。这其中,随着大量的中小型企业快速扩张,也会有越来越多的企业数据量将迈入TB时代。
大数据细分市场份额
前瞻产业研究院据数据统计,目前全球大数据市场中,行业解决方案、计算分析服务、存储服务、数据库服务和大数据应用为市场份额排名最靠前的细分市场,分别占据35.40%、17.30%、14.70%、12.50%和7.90%的市场份额。
大数据产业发展趋势
开源成为技术创新主要模式
经过多年来的高速发展,大数据相关的数据采集、存储、分析、可视化等多个基础性技术领域已经取得较大的突破,形成了实用性强、稳定度高的技术能力,大数据整体技术体系已初步构建完成,未来大数据技术的发展方向将主要集中在非结构化数据的价值提取方面。
从大数据技术的发展历程上可以看出,大数据核心技术如分布式存储、云端分布式及网格计算均是依赖于开源模式,即通过开放式的平台,吸引全球开发者通过开源社区来进行代码的开发、维护和完善,从而集全球智慧推动大数据技术的不断进步,当前全球各大企业加大了对开源社区的赞助和智力投入,开源社区在大数据技术进步中将占据核心地位,开源模式将成为大数据技术创新的主要途径。
同时,大数据的技术发展与物联网、云计算、人工智能等新技术领域的联系将更加紧密,物联网的发展将极大提高数据的获取能力,云计算与人工智能将深刻地融入数据分析体系,开源模式在新技术的发展中举足轻重。
大数据细分市场规模进一步增大
大数据相关技术的发展,将会创造出一些新的细分市场。例如,以数据分析和处理为主的高级数据服务、基于社交网络的社交大数据分析等。
大数据分析的革命性方法出现
今年,大数据分析将出现革命性的新方法,从前的很多算法和基础理论可能会产生理论级别的突破。机器学习继续成为大数据智能分析的核心技术;人工智能和脑科学相结合,成为大数据分析领域的热点。金融、互联网电子商务、健康医疗、城镇化智慧城市领域的应用令人瞩目。
大数据与云计算将深度融合
云计算为大数据提供弹性可扩展的基础设施支撑环境以及数据服务的高效模式,大数据则为云计算提供新的商业价值,大数据技术与云计算技术必有更完美的结合。阿里云计算有限公司总裁胡晓明表示,2018年将是云计算与产业深度结合的元年。人们将看到各国的基础设施越来越紧密地和云计算结合起来,更多的制造企业和金融机构开始用“云”,云计算将促进科技金融提高效益。
㈥ 数据挖掘中数据存储的重要性
随着互联网的蓬勃兴起,物联网,云计算,大数据,人工智能在大众视野出现的越来越频繁了。
云计算相当于人的大脑,是物联网的神经中枢。云计算是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。
大数据相当于人的大脑从小学到大学记忆和存储的海量知识,这些知识只有通过消化,吸收、再造才能创造出更大的价值。
人工智能打个比喻为一个人吸收了人类大量的知识(数据),不断的深度学习、进化成为一方高人。人工智能离不开大数据,更是基于云计算平台完成深度学习进化。
而物联网是互联网的应用拓展,类似以前的“互联网+”,也就是结合互联网的业务和应用,核心是以用户体验为核心的应用创新。
我们主要讲一下其中的“大数据”。
大数据的定义
在 2001 年左右,Gartner 就大数据提出了如下定义(目前仍是关于大数据的权威解释):大数据指高速 (Velocity) 涌现的大量 (Volume) 的多样化 (Variety) 数据。这一定义表明大数据具有 3V 特性。
简而言之,大数据指越来越庞大、越来越复杂的数据集,特别是来自全新数据源的数据集,其规模之大令传统数据处理软件束手无策,却能帮助我们解决以往非常棘手的业务难题。
大数据的价值和真实性
在过去几年里,大数据的定义又新增加了两个 "V":价值 (Value) 和 真实性 (Veracity)。
首先,数据固然蕴含着价值,但是如果不通过适当方法将其价值挖掘出来,数据就毫无用处。其次,只有真实、可靠的数据才有意义。
如今,大数据已成为一种资本,全球各个大型技术公司无不基于大数据工作原理,在各种大数据用例中通过持续分析数据提高运营效率,促进新产品研发,他们所创造的大部分价值无不来自于他们掌握的数据。
目前,众多前沿技术突破令数据存储和计算成本呈指数级下降。相比过去,企业能够以更低的经济投入更轻松地存储更多数据,而凭借经济、易于访问的海量大数据,您可以轻松做出更准确、更精准的业务决策。
然而,从大数据工作原理角度来讲,大数据价值挖掘是一个完整的探索过程而不仅仅是数据分析,它需要富有洞察力的分析师、业务用户和管理人员在大数据用例中有针对性地提出有效问题、识别数据模式、提出合理假设并准确开展行为预测。
大数据的历史
虽然大数据这个概念是最近才提出的,但大型数据集的起源却可追溯至 1960 - 70 年代。当时数据世界正处于萌芽阶段,全球第一批数据中心和首个关系数据库便是在那个时代出现的。
2005 年左右,人们开始意识到用户在使用 Facebook、YouTube 以及其他在线服务时生成了海量数据。同一年,专为存储和分析大型数据集而开发的开源框架 Hadoop 问世,NoSQL 也在同一时期开始慢慢普及开来。
Hadoop 及后来 Spark 等开源框架的问世对于大数据的发展具有重要意义,正是它们降低了数据存储成本,让大数据更易于使用。在随后几年里,大数据数量进一步呈爆炸式增长。时至今日,全世界的“用户”— 不仅有人,还有机器 — 仍在持续生成海量数据。
随着物联网 (IoT) 的兴起,如今越来越多的设备接入了互联网,它们大量收集客户的使用模式和产品性能数据,而机器学习的出现也进一步加速了数据量的增长。
然而,尽管已经出现了很长一段时间,人们对大数据的利用才刚刚开始。今天,云计算进一步释放了大数据的潜力,通过提供真正的弹性 / 可扩展性,它让开发人员能够轻松启动 Ad Hoc 集群来测试数据子集。
大数据和数据分析的优势:
1.大数据意味着更多信息,可为您提供更全面的洞察。
2.更全面的洞察意味着更高的可靠性,有助于您开发全新解决方案。
其次,大数据还具有大量、高速、多样化、密度低四大特性。
大量性:大数据与传统数据最大的差异在于资料量,资料量远大于传统数据,例如抖音数据流、网络点击流,面对的是海量低密度的数据,大数据的数据量通常高达数十PB。也因为资料量大,无法以传统的方式储存处理,因此衍生出大数据这一新兴科学。
高速性:大数据与传统数据最大的不同点,就是生成速度快。由于网际网路兴起与资讯设备普及,以用户突破20亿人的脸书为例,如果每个用户每天发一条消息,就会有20亿笔资料。每一个人随时随地都可以创造数据,数据生成的速度已非过去可比拟。
多样性:多样化是指可用的数据类型众多,随着大数据的兴起,文本、音频和视频等数据类型不断涌现,它们需要经过额外的预处理操作才能真正提供洞察和支持性元数据。由于形式多元复杂,大数据储存也需要不同于传统数据的储存技术。
密度低:数据价值密度相对较低,随着互联网以及物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低。以视频为例,一小时的视频,在不间断的监控过程中,可能有用的数据仅仅只有一两秒。
大数据的挑战
1.安全挑战
尽管大数据由于应用范围广泛,已成为各领域的发展趋势,但数据的公布有时会伴随使用者隐私的曝光,比如FaceBook资料外泄、Google+个人外泄风波等因数据外泄而引发隐私问题的事件层出不穷。用户的哪些数据是可以获取、哪些是不允许读取,始终存在侵犯用户隐私的法律风险。
2..技术创新
大数据需要从底层芯片到基础软件再到应用分析软件等信息产业全产业链的支撑,无论是新型计算平台、分布式计算架构,还是大数据处理、分析和呈现方面与国外均存在较大差距,对开源技术和相关生态系统的影响力仍然较弱,总体上难以满足各行各业大数据应用需求。
3.成本过高
运营商需要处理的数据量巨大,基本都是以PB为单位,处理这些数据需要巨大的投入。
4.实时性
具有实时性的数据才有价值,存储的数据数据时间越长,数据的价值就越低。在如今这个快节奏的社会,每一天的市场都瞬息万变,品牌商通过大数据分析用户的需求,如果得到的用户数据太过陈旧,参考这些数据来规划产品的方向,可能会对企业的发展造成毁灭性的打击。
无论哪个行业,想要在当今的形势下取得成功,都必须能够不断地从数据中挖掘业务价值,因此数据的保护离不开存储器,当下市面上用于大数据的存储器主要有固态硬盘,混合硬盘,传统硬盘。
固态硬盘(SSD),由控制单元和存储单元,组成。固态硬盘的接口规格、定义、功能和用途与普通硬盘相同,形状和尺寸也与普通硬盘相同。广泛应用于军事、车辆、工业控制、视频监控、网络监控、网络终端、电力、医疗、航空、导航设备等领域。
优点:读写速度快;震动;低功耗。无噪音;工作温度范围广;缺点:容量小;寿命有限;价格高。
混合硬盘是一种由传统硬盘和闪存模块组成的大容量存储设备。闪存处理存储器中最常写入或恢复的数据。许多公司都在提供不同的技术,他们希望这些技术能在高端系统中流行起来,特别是笔记本电脑和掌上电脑。
与传统硬盘相比,混合硬盘具有许多优势:更快的数据存储和恢复应用程序,如文字处理器;缩短系统启动时间;降低功耗;减少热量产生;延长硬盘寿命;笔记本电脑和笔记本电脑电池寿命;降低噪音水平:
传统硬盘指的是机械硬盘(HDD),电脑最基本的内存,我们常说电脑硬盘C盘,D盘是磁盘分区,属于硬盘。目前普通硬盘的容量有80G、128g、160g、256g、320g、500g、750g、1TB、2TB等,按容量可分为3.5英寸、2.5英寸、1.8英寸、5400rpm/7200rpm/10000rpm等。
通过物联网产生、收集海量的数据存储于云平台,再通过大数据分析,甚至更高形式的人工智能为人类的生产活动,生活所需提供更好的服务,这一切所产生的数据承载者——存储器,在第四次工业革命进化的方向中,存储行业也将是一颗亮眼的星。
㈦ 小企业如何选购自己需要的数据存储设备
随着数据量的几何级数增长以及信息化的深入,小企业和小型组织购买专用数据存储设备的需求越来越迫切。例如:刚刚开始创业的小公司,大企业的分支机构或一个大量产生数据并需要长期保存的公司(如设计公司,软件公司等);还有政府机关的处室,大学的教研室,研究所的研究室以及这些单位的财务或后勤部门等。大多数小企业已经认识到日常的工作数据的共享和合作越来越重要,而把本小企业或本部门的数据随时备份起来已经是不得不拥有的一个信息化基本功能。尽管数据存储设备价格不断走低,但面对错综复杂的存储市场,小企业该如何选择呢?最好像家电一样简单易用数据存储设备的使用越来越复杂,存储应用需求也不断提高,这已经成为小企业使用存储的一个门槛。另外,如何有效利用存储软件资源,象数据存储设备管理和数据存储设备资源共享等对一个小企业或小组织几乎是一个复杂的技术问题。通常,小企业或组织既不可能拥有自己的专职信息化工作人员,也不可能使用非常复杂的信息化设备(如服务器等)。大多说情况下,只是通过一台ADSL接入宽带,外接一台交换机连接到所有桌面电脑,即构成了小企业网络。简单易行、即插即用和便于企业负责人(小企业的经理,政府的处长或大学的教授)直接使用和管理,是小企业的典型需求。所以,小企业需要的是一个入门级网络数据存储设备。尤其在亚洲,小型办公环境、网吧、多媒体教室等只有几十个人使用的一个小型局域网环境下,是一个使用廉价高效的共享存储的拥护环境。业界曾有公司指出:“许多在欧美家用产品的IT设备,在亚洲往往被作为中小企业办公设备使用;而在欧美当做中小企业办公设备的产品,在亚洲却往往因为价格和使用复杂度等因素被弃用。”。因此,象家用设备那样简单的数据存储设备在亚太地区是有一个相当的市场容量的。网络存储是首选根据Gartner Inc.公司的副总裁Craig Stanley的研究,平均起来,一个公司每两年的存储需求将增加一倍。而当拥有了廉价易用的小型存储后,需要存储和备份的数据就会成几何级数的增长。由于小型企业或组织拥有良好的本地网络环境,而服务器需要有懂IT的员工去安装,调试,维护和升级换代,移动硬盘又很难做到共享和给组织内提供备份功能,所以,小企业和小组织正在日益转向使用网络存储,以帮助他们更好的管理猛烈的存储需求。网络存储(NAS)无疑是小企业存储最简单的数据存储设备,因为每个小企业和组织不可能没有自己的局域网系统,所以网路存储是小企业使用存储的首选。数据共享和备份小企业对存储的最基本要求就是能够让每个员工有一个更大的存储空间去共享和备份数据。所以小企业或小组织的负责人需要做的无非是在该数据存储设备上给每个部门和员工设置使用权限,以向本组织的所有工作人员提供访问存储的用户空间。有了自己的存储空间后,每个员工就可以把自己台式机或便携机的数据按文件方式,系统方式或增量方式等备份在数据存储设备中。共享是小企业和组织另外一个经常用到的功能。每个部门无疑在该部门的员工之间一定要有共享空间,以分享该部门需要的资料、信息和各种数据(如试验数据,市场调研数据等)。除此之外,每个企业和组织都需要建立组织临时的跨部门机构以协力完成一个工作任务。如,景观设计公司承接一个用户项目,它需要设计师,工程部和预算部等的员工组成一个小组完成该项目的设计工作。而政府部门的任务,如质监局质量处解决一个品牌商品的质量问题,也需要该处室几个公务员协同调查,分析取证等。这也需要在该组公务员中建立共享区以利于大家协同工作和未来的分析报告。大学的一个科研项目则更需要建立共享去以便在教授(学术带头人),教师,研究生,本科生和实验室工作人员中为该项目建立一个共享区,共同完成科研项目。小企业和组织另外一个需要简单存储的领域是数据备份。当今,人类已经离不开计算机去完成日常工作,但计算机被病毒侵蚀,被丢失和偷盗,被损坏已经是家常便饭了。既然如此,数据备份就成为各种组织所不得不采取的防范措施。对于小企业和组织,简单的数据备份就能使他保证该组织工作的连续性。无论是前述例子中的公司的设计人物、政府的调查分析取证和报告还是高校的科研项目,一旦数据丢失,哪怕只是参加该工作的一个成员都会对该任务的进程带来不可估量的影响。尤其是如果这些工作带有设计的创意性,或数据的采集分析结果,或科研的实验室试验数据,甚至是不可恢复的。所以数据备份就成为该小企业或组织的必须。既然小企业和组织的小型存储是必须的数据存储设备,磁盘备份就是他不得不考虑的一个功能。即存在小型存储器的数据,如果该存储器的硬盘出现故障应该如何处理。磁盘备份就是小企业和组织所可以选用的功能。在一个有四个盘位的小型存储器中,可以将它设置成能够磁盘备份的模式。
㈧ 数字经济时代,高性能数据分析存储迎来新机遇
数字经济时代,数据已成为新的核心生产要素,其重要战略资源地位和核心科学决策作用已日渐凸显。数据潜能的激发,有赖于数据的采集、存储、计算、管理和应用,其中,作为数据采集后进行处理的第一道关口,数据存储无疑是数字经济最重要的“底盘”。
海量数据爆发,数据存储成关键
当前,数据呈现指数级增长,数据规模已经从之前的GB、TB、PB,上升到EB级、甚至ZB级。据Hyperion预测,到2025年,全球数据空间将增长到163ZB,这是2011年HPC产生数据16.1ZB的10倍。爆炸式增长的数据,哺育了数字技术发展和应用,但是同时也对计算和存储提出了更高的要求。
在高性能计算(HPDA)中,计算、存储、网络三大部件缺一不可。以前,产业创新的焦点都在追求更高的算力。而随着大数据、多样性算力等相关技术的快速发展,高性能计算的重心开始从以计算为核心,向以数据为中心的计算演进;传统HPC开始向高性能数据分析(HPDA)方向演进。据IDC统计,全球67%的高性能计算中心(HPC)已经在使用AI、大数据相关技术,HPC与AI、大数据加速融合,走向以数据密集型为典型特征的高性能数据分析HPDA时代。
HPDA时代下,各行业数据量迎来了井喷式增长。地震勘探从二维向三维的演进中,数据量增加了10-20倍;电影渲染从2K升级到8K的革命中,数据量增长16倍;卫星测绘领域,探测精准度由20米缩小到2米,数据量同比增长近70倍。
数据规模激增之外,业务模型复杂以及分析效率较低等挑战,也都在呼唤着更高效率的存储。
存储作为数据的承载者,逐步成为推动HPC产业发展的新动能。然而,传统的HPC存储在混合负载性能、成本、跨协议访问等多方面存在壁垒,无法匹配HPDA场景的需求。如何打破存储性能、成本、效率的限制,充分释放数据潜能,成为制约HPC产业升级换代的掣肘。
高性能数据分析存储,加速HPC产业发展
当前,作为数据应用和数据分析的支撑平台,以及 科技 强国的关键基础设施,数据存储已成为国之重器,在金融核心交易、新型油气勘探、基因测序、自动驾驶、气象预测、宇宙 探索 等领域发挥重要作用。数据的存储与处理能力已经成为提升政府管理水平、提高企业经营效率、增强企业发展韧性的关键,数据存储正成为加速数字化转型的坚实底座。
新的产业变化以及数据存储的重要地位,对高端存储提出了新的挑战,同时也在加速存储技术的革新——从HPC部分场景向HPC/HPDA全场景扩展,存储开始承担起加速产业向“数据密集型”转型的重任。根据国际权威分析师机构Hyperion Research 2020年针对HPC市场空间的数据显示,数据存储的增速第一,远高于整体市场平均增速。
高性能数据分析(HPDA)存储,能够匹配各HPDA场景的高端存储,可以让基因测序、气象海洋、超算中心、能源勘探、科研与工业创新、智能医疗、深度学习、人脸识别等数据密集型HPDA应用场景,在效率、品质、性价比等方面实现飞跃式提升。
值得注意的是,华为OceanStor Pacific系列下一代高性能数据分析(HPDA)存储,可以高效应对超高密设计、混合负载设计以及多协议互通上的关键挑战,推动HPC产业向数据密集型升级。目前已经成功应用于自动驾驶、基因测序、气象预测、卫星遥感等众多国内外高性能计算场景企业及机构。
存储作为高性能数据分析的重要引擎,正全面释放HPC的应用价值,驱动着HPC产业不断进步,跨越“计算密集型”到“数据密集型”的鸿沟,持续推动人类 社会 繁荣 健康 发展。
㈨ 开展微型数据存储技术创新研发抢占未来大数据存储技术高地的建议
我国数据存储核心技术长期落后,大数据中心按照传统的 科技 房地产的思路将面临资源约束。为了防止我国存储技术“卡脖子”,节省未来海量数据存储占地空间,系统化整合资源解决当前中国大数据存储技术产品的容量问题,建议国家立项 开展微型数据存储技术创新研发 。
我国数据储存的现状和面临的问题
计算机数据存储技术是信息技术应用的核心。一切计算机应用数据都需要由物理设备来存储,以便计算机系统进行读写等处理,数据应用与数据存储恰似树干与树根的密切关系。伴随着信息技术应用的持续高速发展,可以预见未来的数据量必将呈现爆炸式增长,随之而来的海量数据存储瓶颈问题必然日趋严重,加剧着数据存储领域长期面临的容量、安全、性能、扩充、维护、灾备、监管等诸多挑战。其中,容量困境,首当其冲。
当前痛点。 为了满足数据存储容量日益增长的需求,大数据存储中心建设必不可少。放眼当下全国各地的大数据存储中心建设,由于数据存储基础核心技术缺位,流行的模式是不可持续的“ 科技 房地产”,即单纯拓展占地面积盖楼建设数据中心,进而耗费宝贵自然资源。目前我国城市监控视频图像数据受限于数据中心存储容量空间,一般只能保留一个月左右,相关的数据应用严重受制。
应用基石。 底层数据存储是信息产业发展的基石,数据存储技术产品是信息应用系统的架构基础,也是我国的关键行业技术短板。有效的数据存储技术产品涉及到所有信息技术应用场景:人工智能,信息安全,智慧城市,大数据,云计算,区块链,城市大脑,雪亮工程,城市管理视频监控,医学影像识别,等等。
严峻局面。 追溯信息技术百年来的发展轨迹,中国在数据存储基础技术领域的贡献几乎为零。国内数据存储行业主要擅长于市场侧的商业应用创新,数据存储底层管理的核心技术研发严重依赖国外的开源开放。缺乏基础研发梯队,没有关键理论 探索 ;沿袭陈旧的发展思路,习于外购器件设备;底层技术积累短缺,核心创新能力薄弱;严峻的局面至今没有重大改变。
危情险势。 中国在核心存储产品、底层支撑技术、商业应用理念上长期跟跑,遭受外部势力釜底抽薪式的“存储底层关键核心技术精准打击”的隐患和风险极大。面对复杂多变的国际环境,一旦遭遇卡脖子,如外购存储产品断货或核心技术交流封锁,举国上下所有涉及信息技术应用的行业领域都必然窒息。从而直接降低相关产业迭代发展速度,掣肘 社会 前进步伐,削弱国家治理能力,进而危及影响到国家的政治和 社会 稳定。
时不我待。 我们需要立即行动起来,通过立项开展微型数据存储技术创新研发,凝聚国内外数据存储领域资源力量,构建数据存储专业核心技术团队;从研发软件定义的存储(数据去重)技术产品入手,填补国内技术产品领域空白;启动研发微型化(原子级)数据存储设备,抢占未来数据存储领域的制高点。这项举措也是解除我国数据存储技术产品创新研发“卡脖子”危机的最佳途径。
开展微型数据存储技术创新研发的思路
我国应抓住当前数据应用驱动信息技术升级换代的大数据发展 历史 契机,凝聚国内外资源力量,构建中国数据存储专业核心技术团队。近期:研发部署模块化数据去重技术产品,压缩海量数据存储空间需求,填补国内底层数据存储管理技术空白。远期:启动研发微型数据存储设备,抢占未来数据存储技术领域的制高点。
从开展微型数据存储技术创新研发入手,聚焦国际存储技术领域的战略性前沿技术趋势;联手科研院所、高等院校、生产企业、大型用户的资源,建设国家级核心技术团队;积极引进/培养数据存储技术人才,研发自主可控系列产品。
1.近期跟踪行业动态
对标国际顶级数据存储技术产品,砥砺学习底层模块级数据存储去重技术,压缩海量数据存储空间需求,实现自主可控国产数据存储技术管理软件产品的商务应用。基本原理是首先识别出重复的数据模块,然后优化存储多个重复数据模块中的单一模块,以及同其它重复模块的链接关系。进而减少企业级客户存储数据所需的物理空间占有量,降低采购部署数据存储设备的增量。
2.远期重点突出推进
探索 下一代数据存储技术,整合跨学科资源启动开展研发微型存储器,力图将现有基于磁盘/光盘/磁带的计算机数据存储器,转化为未来基于原子/电子运动状态的微型化数字信息采集与存取机制。其原理是将现在耗费数百万个原子的材料介质所表征的一位“0”或“1”二进制计算机数据,试图由单个原子状态变化来表征。于是,可以将现有数据存储设备体积缩小数十万乃至百万倍,最终将占地约足球场面积的大数据存储仓库缩小为便携式器件。
3.研发工作开展建议
开展微型数据存储技术创新研发应该建设成为国内领先、国际一流的数据存储技术研究机构、产业孵化温室、以及人才培养基地。
延揽数据存储技术专家领衔担纲咨询顾问。全球招聘在世界顶级数据存储公司工作多年的业界精英加盟指导。
构建中国数据存储技术研发团队。采用引进师资/开设培训课程等有效方式,积累培育国内数据存储技术力量。
结盟硅谷存储技术研究院。依托美国硅谷地区的数据存储实体公司,共享数据存储底层技术知识。
注册成立企业运营机构。开发软件定义存储(数据去重)技术产品,服务数据用户市场,遵循商务运作规律。
融资涵盖多种基金渠道。申报获取国家重大专项基础项目研发资金,吸引专业投资基金加盟。首期投资约需10亿元人民币(参考国际相关工程估值:美国IBM公司同类项目投资约600亿美元/10年)。
推动微型数据存储技术创新研发的建议
我国在开展新型基础设施建设的同时,应当抓住当前数据计算应用驱动信息技术升级换代的大数据发展 历史 契机,建立数据存储技术的自主知识产权体系,填补国内空白,保障数字中国建设长远规划实施,推进国产数据存储产品崛起,为相关产业发展铺路。
2.建议远期紧跟世界主流研发创新步伐,聚焦研发原子级微型化数据存储技术产品(2020-2040年),在2040年前研发出原子级大数据存储技术,并逐步实现产业化。
3.建议将微型化数据存储技术创新作为国家战略。搭建政产学研用共建共治共享的中国数据存储技术联合创新平台,建设国家级重点实验室。依托科研院所/高等院校/相关企业,奠定从微型数据存储理论、硬件设计、软件开发、结构设计、系统集成等一整套原子级微型数据存储技术研发工作的基础。
4.建议国家相关部委给予配套资金支持。加快推进原子级大数据存储技术研发和产业化转化。支持申报重大 科技 项目和专项扶持资金。
5.建议形成能够长期从事数据存储技术创新的人才队伍。借鉴全球数据存储技术创新研发经验,引进海内外数据存储技术领域顶尖科学家和工程师。在高等院校与科研院所开设数据存储技术专业课程,搭建完善的国内人才培养体系。
6.建议立项过程不宜采用常规项目申报、审批流程,亟需特事特办予以批准。主要是有鉴于本项目相关的科研生产领域中,国内现有技术力量薄弱分散,评估体系资源匮乏。
7.建议项目推进应当低调快速务实:不重造势,不扬虚名,不谋近利。主要是基于当前复杂敏感的国际政治经济形势,预计本项目势将关联国家核心产业战略布局,影响未来数十年中国数字经济命脉与发展。
作 者:中央 财经 大学中国互联网经济研究院研究员 欧阳日辉
通讯员:李 翀
战略性新兴产业专题报道 办事,“刷脸”就行
张家口敢闯敢试、先行先试,积极 探索 氢能产业创新发展的有益路径
“东数西算”正式启动,枢纽网络如何建设?
“十四五”浪潮下如何构建城市数据中心网络?
“我为群众办实事”北京市发展改革委发布第三批政策工具应用指南
大美密云 助推新兴产业发展
东方测控:打造智能制造示范工厂,引领矿山行业新未来
㈩ 大数据时代,我国数据量究竟有多大
从2013年初开始,对于大数据爆发的焦虑感,紧迫感,不由自主地被卷入的甚至无力的感觉,驱动众多行业、企业和团体去关注和开始接触和了解大 数据,自觉或不自觉的,主动或不得已地去融入这波洪流。但是,真的说到大数据,我们中国到底有多少数据量,它们都分布在哪些行业,哪些数据是目 前可用的,哪些行业已经在使用数据,进入产业互联网和数据引导的变革了?
可能看到的版图依旧模糊。因此,我们怀抱很好的希望,以第一个吃螃蟹并期待来自行业的矫正和拍砖的态度,首先尝试对于国内各个领域,行业以 及机构的数据拥有情况,使用情况以及未来路径做一个粗犷地调研、梳理和判断,对大数据时代我国各个领域数据资产的拥有和使用情况,也就是我们数 据资产的家底做个盘点,也对各个行业、系统进军大数据,以及拥抱产业互联网的进度和未来做个简单判断。事实上,大数据之题无疑繁若星辰,然而只 有在相对完整的视图下,繁星若尘,我们才可得以一窥天机。
从我们手头掌握的数据来看,2013年度,中国存储市场出货容量超过1个EB(1EB=多少),存储总量而IDC曾经发布的预测表明在未来的3-4年,中国存储总 容量可能达到18个EB。从数据存储市场的需求来看,互联网、医疗健康、通信、公共安全以及军工等行业的需求是主要的,且上升态势明显。
鉴于存储和服务器的紧密相关,我们从已经获得的资料可以知道,目前全球运行的服务器总量超过5000万台,美国国内运行的服务器总体容量接近 1000万台。从各种市场公开数据来看,2013年中国内地服务器销售总数接近为100万台。大体估算,截止到2013年底,中国内地整体在运行的服务器总数 量在300万台以上。
从现有存储容量看,中国目前可存储数据容量大约在8EB-10EB左右,现有的可以保存下来的数据容量大约在5EB左右,且每两年左右会翻上一倍。这些 被存储数据的大体分布为:媒体/互联网占据现有容量的1/3,政府部门/电信企业占据1/3,其他的金融、教育、制造、服务业各部分占据剩余1/3数据量 。
公开数据显示,互联网搜索巨头网络2013年拥有数据量接近EB级别、阿里、腾讯声明自己存储的数据总量都达到了百PB以上。此外,电信、医疗、金 融、公共安全、交通、气象等各个方面保存的数据量也都达到数十或者上百PB级别。
在目前被广泛引用的IDC和EMC联合发布的“2020年的数字宇宙”报告 预测到2020年,全球数字宇宙将会膨胀到40ZB,均摊每个人身上是5200GB以上,这个量将会如何被有效存储和应用,我们眼下还很难想象。然而我们 看到该报告指出,从现在起到2020年,全球数字宇宙的膨胀率大约为每两年翻一番。事实上,根据上述调查结论和服务器容量调查,我们也能做出个相对 合理的推断:目前,全球产生的数据量中仅有1%左右的数据能够被保存下来,也就是说今天全球能够被保存下来的数据也就是在50EB左右,而其中被标记 并用于分析的数据更是不到10%。
作为全球人口和计算设备保有量的大国,我国每年所能产生的数据量也极为庞大,有数据说2014年甚至可能达到ZB级别,但是真正被有效存储下来的 数据仅仅是其中极微少部分,中国保存下来数据占全球数据的比例大约在10%左右,也就是上面说的5EB。这些数据中,目前已被标记并用于分析的数据仅 达到500PB左右,也是接近10%的一个比例。
伴随着云计算迅速普及和各行业,各企业和部门对于数据资产保存和利用意识的增强,以及通过互联网、大数据对产业进行变革的意愿,未来2-3年一 定会有越来越多的行业、大企业步入到PB、百PB、甚至EB级别数据俱乐部,未来3-3年中国的数据总量也将呈翻倍上升态势,我们预测2015年中国就可能 突破10EB数据保有量,被标签和分析利用数据量也将上升到EB级别,这些数据增长中互联网、政务、医疗、教育、安全等行业和领域所做贡献最大,而相 对传统的物流、生产制造、甚至农业等领域数据拥有量的增长将更加明显。