‘壹’ 海量信息存储的发展历程
我也是她班的~~~~档案的。。。。
在各种应用系统的存储设备上,信息正以数据存储的方式高速增长着,不断推进着全球信息化的进程。随之而来的是海量信息存储的需求不断增加。虽然文件服务器和数据库服务器的存储容量在不断扩充,可还是会碰到空间在成倍增长,用户仍会抱怨容量不足的情况,也正是用户对存储空间需求的不断增加,推动海量信息存储技术的不断变化。
海量信息存储早期采用大型服务器存储,基本都是以服务器为中心的处理模式,使用直连存储(Direct Attached Storage),存储设备(包括磁盘阵列,磁带库,光盘库等)作为服务器的外设使用。随着网络技术的发展,服务器之间交换数据或向磁盘库等存储设备备份时,都是通过局域网进行,这是主要应用网络附加存储(Network Attached Storage)技术来实现网络存储,但这将占用大量的网络开销,严重影响网络的整体性能。为了能够共享打容量,高速度存储设备,并且不占用局域网资源的海量信息传输和备份,就需要专用存储网络来实现。
‘贰’ 计算机存储系统发展的研究方向有哪些
1)内存储器与外存储器(或主存储器与辅助存储器):
2)cpu——cache
存储层次:由于主存储器的读写速度低于cpu的速度,而cpu每执行一条指令都要访问内存储器,所以cpu总是处于等待状态,严重降低了系统的效率。引入cache后,在cache内保存着主存储器内容的部分副本,cpu在读写数据时首先访问cache。由于cache的速度与cpu相同,因此cpu就能在零等待状态下迅速地完成数据的读写。
3)、cache——内存储器存储层次:当cache中不含有cpu所需的数据时,cpu才去访问内存储器。此时用一个存储器读取周期的时间从内存中读出这个数据后送到cpu,并且,把含有这个数据的整个数据块从内存送到cache中。
4)、内存储器——外存储器存储层次:当一个程序需要执行时,计算机必须将其程序通过一定的调度算法从外存调入内存。cache-
>内存储器-
>外存储器:其容量越来越大,但读写速度越来越低。
‘叁’ 油气田地震勘探资料存储的实践与应用
李红霞1 符京生1 张永胜2 惠玉凤2
(1.中石油长庆油田公司档案馆;2.中石油东方公司研究院长庆分院)
摘要 为抢救和保护地震勘探数据磁带档案,改变长期以来地震磁带容量利用率低,保管成本高的现状,长庆油田应用地震资料全容量存储技术,完成了地震勘探数据载体的转换,实现了地震磁带全容量存储,有效解决地震勘探数据保存和再组织问题,效果显着。本文介绍了长庆油田地震资料全容量存储技术开发的背景、研究成果及应用实施情况。
关键词 地震勘探数据 磁带存储 容量利用率 测线标签 磁带操作程序
地震勘探数据磁带是油气勘探的重要资料,是地震勘探工程施工成果的载体,是物探科技工作者智慧的结晶,是企业的宝贵财富。石油天然气行业标准亦规定磁带为地震勘探数据成果长期和永久保存介质,这一管理形式在油田企业一直沿用至今。近年来,随着地震勘探技术水平的发展,施工设备的更新换代,存储技术的不断发展,传统的保管利用模式已无法适应现代化办公条件下生产科研工作的需求,加之所保存的地震勘探资料时空跨度大,严重制约着磁带档案的规范化、标准化、现代化管理水平的发展,潜藏着因历史资料载体到期老化等因素致使数据无法正常读取和使用的巨大风险。基于此,长庆油田开展了将库存地震勘探数据由低密度磁带向新型高密度磁带的数据转储工作,探索出地震勘探数据磁带全容量存储技术,从根本上解决了地震勘探数据磁带档案管理中的诸多问题。
1 长庆油田地震勘探数据磁带管理现状
长庆油田档案馆保存着迄今为止30多年来在鄂尔多斯盆地及其周边地区采集的全部地震勘探原始及成果数据磁带,是长庆油田唯一的地震勘探档案集中保管地,库存各类地震磁带9万多盘。近年来,随着档案管理系统的推广应用,狠抓了地震勘探数据磁带档案基础业务,实现了磁带档案目录的电子化,其中成果磁带采取了案卷级和文件级相结合的编目规则,利用效率得以有效提升。然而磁带这一载体的特殊性,影响着磁带的安全管理,制约着磁带管理水平的进一步提高,主要表现在以下几个方面:
一是磁带数量大、型号繁杂,部分已到保管期限。现库存磁带包括3480、3490、3590、3592及九轨半英寸磁带共5种,其中3480、3490、九轨半英寸磁带占库存总量的97.45%,库存一半的磁带已到规定的保管期限,加之磁带机对不同型号磁带的互不兼容性,导致部分陈旧磁带数据随着相应磁带机生产下线而无法正常读取使用。
二是数据格式多样,不便利用和管理。其中大部分为SEG-D格式,部分是TIPEX、TAR格式,现阶段已无与之匹配的操作系统,数据无法读取,这种多格式共存给地震勘探数据的标准化、规范化管理也带来不便。
三是磁带容量利用率低,增加了保管成本。传统磁带管理因受磁带物理标签及现场施工方式的影响,通常磁带容量利用率仅有21%,容量空置率高,造成磁带数量的无谓增加和成本的极大浪费。
四是利用效率低。一直以来,长庆油田采用磁带对磁带一对一拷贝,通过复制归档磁带数据开展对外提供利用工作,这一管理方式在确保管理安全方面效果显着,但利用效率却大受影响,在面对利用量小且任务较分散的利用工作时,这一方式基本能够满足,也未突显明显矛盾,然而面对近几年油田勘探生产任务的大量攀升,经常面临集中大量的数据利用工作,即使工作人员24小时不停歇加班加点,但因这种传统数据拷贝速度受限于设备数量、设备运转情况的影响,常常很难满足实际工作的需要。所以对地震勘探数据开展抢救式介质转换、升级,探索改进地震勘探数据磁带档案管理已迫在眉睫。
2 地震资料全容量存储的目的
1)抢救和保护油田勘探资料,确保资料信息随时代发展、软硬件条件进步,能得到完整保护。
2)采用国际国内通用格式形式加以转录、存储,使不同设备不同时期地震勘探资料得以通用性识别。
3)大容量存储的应用,保证地震资料信息完整,今后复制、抢救数据更加高效,便于长期安全性保存。
4)便于高效服务油田勘探开发,由于油田勘探程度愈来愈高,隐蔽性、小型性、复杂性油气藏也成为勘探的主要目标,对地震资料的进一步应用也愈来愈多。
3 地震资料全容量存储技术
3.1 地震资料全容量存储技术概述
地震资料全容量存储是采取标准的SEGY磁带格式,将包含地震测线的关键标识性信息(包括测线名称、地区等)和档案管理重要元素(包括全宗、目录号、保管号等)组成的具有重要识别性质的简单的测线编码电子标签,记录在SEGY卷头未定义区域,通过地震数据磁带操作程序,独立完成地震测线数据的卸带和磁带检索。将测线数据及相应的电子标签一同写入直至记满一盘3592磁带为止。
地震资料全容量存储理论上是对历史地震勘探数据载体的升级转换,是对数据格式和载体型号的统一规范;这一技术的核心是使得地震勘探数据存储不再受限于磁带物理标签限制,而是取决于磁带本身的存储量,可将传统磁带容量提高至98%左右,这对于磁带档案保管的集中地——档案部门来说,将有效减少磁带数量,降低管理成本,缓解库存压力;同时这一技术符合地震磁带标准格式,形成的存储磁带能够在GeoEAST、CGG等处理系统中直接读出,便于利用和管理。
3.2 测线标签和磁带标签目录
测线标签和磁带标签目录是一行限长EBCDIC码字符串,包含卷盘号、卷内序号、测线名、成果类型、队号、数据范围、工区、生产年度、数据来源等测线标示信息(表1),与测线SEGY数据文件一一对应。将一盘地震SEGY磁带的测线标签顺序存放,形成磁带标签目录文本文件。
表1 测线数据文件与测线数据标签
3.3 地震资料全容量存储操作程序
地震数据的SEGY格式,实际上是一种特殊的加密格式,通常只能由理解SEGY格式的软件来读取,如GeoEAST、PROMAX、CGG等,且须有地震资料数据处理背景的人员操作完成。在Linux系统下,使用C语言编制一组SEGY格式磁带专用程序,根据磁带标签目录,脱离通用处理系统直接驱动磁带机,完成标准地震SEGY格式磁带的写入、读出和磁带扫描。
3.3.1 磁带机工作特点
与磁盘直接访问不同,磁带是一种流式数据设备,只能顺序访问。磁带基本读写单位为块(BLOCK),块与块间有一物理间隙(GAP),用于磁头定位。SEGY磁带数据文件有若干块组成,文件尾有一特殊数据标志EOF标示文件结束,而双EOF通常表示磁带数据结束。程序设计中,通过系统调用磁带设备数据结构,完成磁带的寻块和读写EOF等控制操作。
3.3.2 写磁带
程序功能是将磁带标签目录文件所列的测线SEGY磁盘文件及其测线标签,顺序写入一盘磁带(图1)。写带前应先用tpsize命令估算写带容量,以确保磁带全容量存储。有记带日志帮助确定写带正确。实际应用中,譬如在提供磁带拷贝记带时,测线标签可以选择空白。
3.3.3 读磁带
程序功能是从一盘磁带中顺序卸出全部或指定序号的SEGY文件到磁盘(图2)。查询标签目录获得卸带文件号。有读带日志帮助确定读带正确。
图1 写磁带流程
图2 读磁带流程
3.3.4 磁带扫描
程序功能是扫描一盘地震成果磁带,列出全部SEGY文件标签和卷头及道头信息,检查SEGY数据磁带或SEGY数据文件的合规性。
4 地震资料全容量存储的应用
4.1 应用方案
1)将多格式数据向SEGY格式转换。
2)转储数据编目规则,采用档案着录规则与物探技术规则相结合,包含卷盘号、卷内序号、测线名、成果类型、队号、数据范围、工区、生产年度、数据来源等信息内容。
3)数据采用磁带加磁盘双模式存储,其中磁带采用近年通用、普通的350 GB容量的3592磁带,这种新型的高密度磁带可大幅度减少磁带数量,便于保管和保护;磁盘采用RAID6冗余技术方式,便于日常频繁大量的数据利用。
4.2 应用实例
长庆油田利用上述技术历时两年半完成了1980~2010年共9万多盘各类地震勘探数据(包含原始与成果)的转储,共形成转储磁带90多盘,存储量40TB。特别是档案目录中的原始测线,全部得到样本保存,实现并保证了长庆油田地震历史成果的永久保存。
4.3 应用效果
4.3.1 磁带数量大幅减少,有效缓解了库存压力
转储前,9万多盘不同种类不同型号磁带共占用两个库房320平方米存放空间,转储后,同样的数据量只形成了90多盘3592磁带(350GB),仅用了一个资料柜的1/3。
4.3.2 抢救保护了地震勘探数据,保证资料持续可用
通过转储,抢救恢复了无法读取的TIPX格式和掉粉损坏磁带的地震勘探数据,保证了所有地震数据的有效性,同时也为下一步确定4万多盘已到保管期限的九轨半英寸磁带鉴定处置方案提供了可靠依据。
4.3.3 实现了标准化、规范化,便于管理和利用
通过地震资料全容量转储,长庆油田所有不同历史时期不同格式地震勘探数据全部实现了以国际通用的3592高密度数字磁带为载体,数据格式为SEG-Y的标准存储模式,便于硬件设施的配备及日常维护工作的开展,使管理更加便捷,利用更加顺畅。
4.3.4 提高检索效率,全面提升了地震勘探数据的利用服务水平
检索效率大幅提升。通过集中统一更改、补充、完善,规范和丰富了长庆油田30多年来的地震勘探数据及目录信息,提高了检索的准确性;完善了地震勘探磁带管理信息电子编码技术规则,制定了由卷盘号、卷内顺序号、测线名、队号、工区等10个信息因素组成的具有地震测线和档案目录独特识别信息的地震勘探磁带测线信息电子编码和档案编目、着录规则,用以地震勘探数据库的检索;形成了以档案目录号、保管号为内容的互见目录,可实现磁带测线信息电子编码标签与档案测线目录的双向信息查询,提高了检索效率。
利用服务方式有了突破性发展。本次转储除采用传统的磁带存储外,开创了磁盘阵列备份存储的新模式,实现了地震勘探磁带数据的数字化管理,实现了从目录检索到数据直接拷贝的系统管理操作,改变了传统通过目录检索获得实物档号,取出实体采取磁带对磁带的一对一拷贝的半信息化操作,在提高利用效率的同时,也为快速高效地开展地震勘探数据的再组织奠定了基础,开启了地震数据管理利用新篇章。
4.3.5 提高了工作效率,降低了劳动强度
以3490磁带为例,一天按8小时工作时间计算,在机器运转良好,工作人员不间断工作的情况下,每天一台3490磁带机最多能完成30多盘磁带数据的拷贝,若一条测线原始数据磁带350盘左右,存储量约150GB,采用传统地震数据磁带拷贝,用一台机器拷贝最快10天,而通过磁盘阵列数据拷贝仅用2个多小时即可完成。据初步测试,完成1TB数据量拷贝需18个小时左右。经转储整理后,在实现高效率数据拷贝和再组织的同时,大大降低了劳动强度,解放了人力。也符合大数据时代快速、高效生产科研工作的需要。
4.3.6 两种存储互为补充,提升了地震勘探数据的安全有效性
采取磁带和磁盘阵列两种方式存储,可根据实际需要相互转换,互为补充,降低了保管风险,最大限度地维护了企业的利益;降低了对磁带数据的重复利用次数,有效地保护了存储介质及地震勘探数据;历史数据载体的升级转换,是一次全面地毯式的核查,是对过去收集检验工作的又一次复核、巩固和补充,是对存放多年数据有效性的全面检验,是做好数据档案保护工作的又一举措,对于档案保管部门意义重大。
5 结束语
地震资料全容量存储成果在实际工作中的应用证明,其提高磁带容量,减少库藏量,降低管理成本效果显着,规范标准化程度高,适合地震勘探数据信息化数字化管理;磁带及磁盘阵列双模式存储在有效降低保管风险,实现方便灵活利用及数据再组织等功能方面,得到相关科研生产部门的一致认同。地震资料全容量存储技术适合地震勘探数据磁带档案管理或地震勘探数据信息的集中管理部门,且数据量越大,效果也越明显。该技术不仅解决了传统地震勘探数据磁带档案管理中的诸多问题,而且使地震勘探数据磁带档案迈上数字化管理新台阶,将更好地服务于油气田的勘探开发与科研工作。
‘肆’ 简要介绍下计算机存储器的发展
计算机怎么是这样一个惊人的小配件? 对许多人他们可以 t是,因此惊奇关于怎样计算机改变了我们居住的方式。 计算机在许多大小和形状可能现在被发现。 几乎每家电似乎有他们被找出的自己的微型计算机某处。 从汽车到大厦对几乎每个小配件有,每一个大多时间有计算机工作做他们跑和改变我们居住生活的方式。
首要,计算机的最重要的组分是它的处理器。 它被认为做所有计算和处理计算机的心脏。 但与所有处理的那计算和,计算机赢取了 t是这样一个卓越的小配件如果不为它惊人的记忆。 计算机存储器使成为可能保留重要信息关于计算机。 可以再次使用这样数据和被检索当有些存储的数据是需要的时。 不用计算机存储器,处理器在哪里不会有设施存放它的,从而使他们的重要演算和过程无用。
有分配的计算机存储器的不同的类型存放数据的不同的类型。 当它来到存放必要的数据在计算机里面时,他们也有不同的能力和专业。 最响誉的计算机存储器是RAM,否则通认作为随机存取存储器。 它称随机存取,因为所有存储的数据可以直接地访问,如果您知道相交某一存储单元的确切的列和专栏。 在计算机存储器的这个类型,数据可以按任何顺序访问。 RAM s确切在对面称SAM或串行存取记忆,存放数据参加一系列存储单元可能按顺序只访问。 它经营很象盒式磁带,您必须审阅其他存储单元在访问您寻找的数据之前。
计算机存储器的其他类型包括ROM或只读存储器。 ROM是集成电路已经编程以不可能修改或改变的具体数据,因此仅命名读的。 也有计算机存储器叫的虚拟内存的另一个类型。 记忆的这个类型是一个共同的组分在多数操作系统和桌面。 它帮助计算机RAM释放以未使用的应用做方式为装载使用的当前应用。 它在计算机 s硬盘简单地运作在检查在RAM存放的数据旁边最近不使用并且安排它被存放,从而释放可贵的空间在RAM为装载其他应用。 一个虚拟内存将做一台计算机认为它有几乎无限的RAM在它里面。
的计算机存储器的另一个类型使计算机处理任务更加快速是什么称高速缓冲存储器。 高速缓冲存储器简单地运作在有旁边当前应用、在它的记忆存放的演算和过程而不是直接地到主要储藏区域。 当某一过程是需要早先半新的数据,它首先将设法访问高速缓冲存储器,如果这样数据在访问中央记忆贮存区之前被存放那里。 这从寻找数据在一个更大和更大的记忆贮存区释放计算机并且使数据提取更加快速。 计算机存储器在发展一个恒定的状态,当技术越来越被开发。 谁知道,计算机存储器也许为人的消耗量也在不久将来可能适合。
‘伍’ 存储服务器的应用包括哪些
应用一、存储和调用数据兼重的应用 如视频服务器,用户数据库服务器,社交网络服务器,短信和聊天服务器,网游服务器等等。存储服务器DIY组装时,考虑到应用的不同,需要采用不同的服务器架构,以方便将来的实际工作,切不可组装时省钱应用起来耗时耗功。中高端存储服务器一般采用主流的双路服务器主板,配合RAID磁盘备份,软件系统尽可能精减,并安装思创科达SDBS8.0等数据备份软件,以方便网络管理人员的操作管理。
应用二、以单纯存储数据为主的应用 偶尔有数据查询和调用的,这多用低端服务器配合海量硬盘,如单路服务器和大量硬盘,比如安全视频监控所用服务器,企业生产数据备份服务器等等。这类单路存储服务器可以使用英特尔单路服务器主板,并配合Xeon3400/3200系列多核处理器,并配合RAID使用,主板如Intel S3420GPLC/Intel S3200SH等都是不错的选择。当然有人使用高端台式机主板,这并不是一个负责任的选择,试想万一主板损坏,一二天不能做数据备份损失并不是一块主板的钱可以弥补的。
‘陆’ 大数据存储技术都有哪些
1. 数据采集:在大数据的生命周期中,数据采集是第一个环节。按照MapRece应用系统的分类,大数据采集主要来自四个来源:管理信息系统、web信息系统、物理信息系统和科学实验系统。
2. 数据访问:大数据的存储和删除采用不同的技术路线,大致可分为三类。第一类主要面向大规模结构化数据。第二类主要面向半结构化和非结构化数据。第三类是面对结构化和非结构化的混合大数据,
3。基础设施:云存储、分布式文件存储等。数据处理:对于收集到的不同数据集,可能会有不同的结构和模式,如文件、XML树、关系表等,表现出数据的异构性。对于多个异构数据集,需要进行进一步的集成或集成处理。在对不同数据集的数据进行收集、排序、清理和转换后,生成一个新的数据集,为后续的查询和分析处理提供统一的数据视图。
5. 统计分析:假设检验、显着性检验、差异分析、相关分析、t检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测、残差分析,岭回归、logistic回归、曲线估计、因子分析、聚类分析、主成分分析等方法介绍了聚类分析、因子分析、快速聚类与聚类、判别分析、对应分析等方法,多元对应分析(最优尺度分析)、bootstrap技术等。
6. 数据挖掘:目前需要改进现有的数据挖掘和机器学习技术;开发数据网络挖掘、特殊群挖掘、图挖掘等新的数据挖掘技术;突破基于对象的数据连接、相似性连接等大数据融合技术;突破面向领域的大数据挖掘技术如用户兴趣分析、网络行为分析、情感语义分析等挖掘技术。
7. 模型预测:预测模型、机器学习、建模与仿真。
8. 结果:云计算、标签云、关系图等。
关于大数据存储技术都有哪些,青藤小编就和您分享到这里了。如果您对大数据工程有浓厚的兴趣,希望这篇文章可以为您提供帮助。如果您还想了解更多关于数据分析师、大数据工程师的技巧及素材等内容,可以点击本站的其他文章进行学习。
‘柒’ 大数据存储与应用特点及技术路线分析
大数据存储与应用特点及技术路线分析
大数据时代,数据呈爆炸式增长。从存储服务的发展趋势来看,一方面,对数据的存储量的需求越来越大;另一方面,对数据的有效管理提出了更高的要求。大数据对存储设备的容量、读写性能、可靠性、扩展性等都提出了更高的要求,需要充分考虑功能集成度、数据安全性、数据稳定性,系统可扩展性、性能及成本各方面因素。
大数据存储与应用的特点分析
“大数据”是由数量巨大、结构复杂、类型众多数据构成的数据集合,是基于云计算的数据处理与应用模式,通过数据的整合共享,交叉复用形成的智力资源和知识服务能力。其常见特点可以概括为3V:Volume、Velocity、Variety(规模大、速度快、多样性)。
大数据具有数据规模大(Volume)且增长速度快的特性,其数据规模已经从PB级别增长到EB级别,并且仍在不断地根据实际应用的需求和企业的再发展继续扩容,飞速向着ZB(ZETA-BYTE)的规模进军。以国内最大的电子商务企业淘宝为例,根据淘宝网的数据显示,至2011年底,淘宝网最高单日独立用户访问量超过1.2亿人,比2010年同期增长120%,注册用户数量超过4亿,在线商品数量达到8亿,页面浏览量达到20亿规模,淘宝网每天产生4亿条产品信息,每天活跃数据量已经超过50TB.所以大数据的存储或者处理系统不仅能够满足当前数据规模需求,更需要有很强的可扩展性以满足快速增长的需求。
(1)大数据的存储及处理不仅在于规模之大,更加要求其传输及处理的响应速度快(Velocity)。
相对于以往较小规模的数据处理,在数据中心处理大规模数据时,需要服务集群有很高的吞吐量才能够让巨量的数据在应用开发人员“可接受”的时间内完成任务。这不仅是对于各种应用层面的计算性能要求,更加是对大数据存储管理系统的读写吞吐量的要求。例如个人用户在网站选购自己感兴趣的货物,网站则根据用户的购买或者浏览网页行为实时进行相关广告的推荐,这需要应用的实时反馈;又例如电子商务网站的数据分析师根据购物者在当季搜索较为热门的关键词,为商家提供推荐的货物关键字,面对每日上亿的访问记录要求机器学习算法在几天内给出较为准确的推荐,否则就丢失了其失效性;更或者是出租车行驶在城市的道路上,通过GPS反馈的信息及监控设备实时路况信息,大数据处理系统需要不断地给出较为便捷路径的选择。这些都要求大数据的应用层可以最快的速度,最高的带宽从存储介质中获得相关海量的数据。另外一方面,海量数据存储管理系统与传统的数据库管理系统,或者基于磁带的备份系统之间也在发生数据交换,虽然这种交换实时性不高可以离线完成,但是由于数据规模的庞大,较低的数据传输带宽也会降低数据传输的效率,而造成数据迁移瓶颈。因此大数据的存储与处理的速度或是带宽是其性能上的重要指标。
(2)大数据由于其来源的不同,具有数据多样性的特点。
所谓多样性,一是指数据结构化程度,二是指存储格式,三是存储介质多样性。对于传统的数据库,其存储的数据都是结构化数据,格式规整,相反大数据来源于日志、历史数据、用户行为记录等等,有的是结构化数据,而更多的是半结构化或者非结构化数据,这也正是传统数据库存储技术无法适应大数据存储的重要原因之一。所谓存储格式,也正是由于其数据来源不同,应用算法繁多,数据结构化程度不同,其格式也多种多样。例如有的是以文本文件格式存储,有的则是网页文件,有的是一些被序列化后的比特流文件等等。所谓存储介质多样性是指硬件的兼容,大数据应用需要满足不同的响应速度需求,因此其数据管理提倡分层管理机制,例如较为实时或者流数据的响应可以直接从内存或者Flash(SSD)中存取,而离线的批处理可以建立在带有多块磁盘的存储服务器上,有的可以存放在传统的SAN或者NAS网络存储设备上,而备份数据甚至可以存放在磁带机上。因而大数据的存储或者处理系统必须对多种数据及软硬件平台有较好的兼容性来适应各种应用算法或者数据提取转换与加载(ETL)。
大数据存储技术路线最典型的共有三种:
第一种是采用MPP架构的新型数据库集群,重点面向行业大数据,采用Shared Nothing架构,通过列存储、粗粒度索引等多项大数据处理技术,再结合MPP架构高效的分布式计算模式,完成对分析类应用的支撑,运行环境多为低成本 PC Server,具有高性能和高扩展性的特点,在企业分析类应用领域获得极其广泛的应用。
这类MPP产品可以有效支撑PB级别的结构化数据分析,这是传统数据库技术无法胜任的。对于企业新一代的数据仓库和结构化数据分析,目前最佳选择是MPP数据库。
第二种是基于Hadoop的技术扩展和封装,围绕Hadoop衍生出相关的大数据技术,应对传统关系型数据库较难处理的数据和场景,例如针对非结构化数据的存储和计算等,充分利用Hadoop开源的优势,伴随相关技术的不断进步,其应用场景也将逐步扩大,目前最为典型的应用场景就是通过扩展和封装 Hadoop来实现对互联网大数据存储、分析的支撑。这里面有几十种NoSQL技术,也在进一步的细分。对于非结构、半结构化数据处理、复杂的ETL流程、复杂的数据挖掘和计算模型,Hadoop平台更擅长。
第三种是大数据一体机,这是一种专为大数据的分析处理而设计的软、硬件结合的产品,由一组集成的服务器、存储设备、操作系统、数据库管理系统以及为数据查询、处理、分析用途而特别预先安装及优化的软件组成,高性能大数据一体机具有良好的稳定性和纵向扩展性。
以上是小编为大家分享的关于大数据存储与应用特点及技术路线分析的相关内容,更多信息可以关注环球青藤分享更多干货
‘捌’ 信息存储技术的背景 应用 发展以及趋势
信息存储技术作为信息技术的核心之一,一直伴随着、同时推动着IT业各方面技术的协同发展,是当今IT领域中少数发展最为迅速的热点之一。纸的发明记载了人类的历史和文明,现代信息存储技术则大大超越了纸张记录的含义。21世纪是数字化和多媒体化的信息时代,现代信息社会和经济的发展,所产生的信息量每年以指数方式上升,出现了信息爆炸的态势。据UC Berkley 2001年公布的数据显示,未来3年内所产生的数据将超过过去4万年中产生数据的总和,而且93%的新生成的信息为数字形式。当上世纪50年代计算机技术初现时,存储容量还只是以千位字节计…http://www.cnki.com.cn/Article/CJFD2006-CXJL200605012.htm
‘玖’ 存储器的发展史
存储器设备发展
1.存储器设备发展之汞延迟线
汞延迟线是基于汞在室温时是液体,同时又是导体,每比特数据用机械波的波峰(1)和波谷(0)表示。机械波从汞柱的一端开始,一定厚度的熔融态金属汞通过一振动膜片沿着纵向从一端传到另一端,这样就得名“汞延迟线”。在管的另一端,一传感器得到每一比特的信息,并反馈到起点。设想是汞获取并延迟这些数据,这样它们便能存储了。这个过程是机械和电子的奇妙结合。缺点是由于环境条件的限制,这种存储器方式会受各种环境因素影响而不精确。
1950年,世界上第一台具有存储程序功能的计算机EDVAC由冯.诺依曼博士领导设计。它的主要特点是采用二进制,使用汞延迟线作存储器,指令和程序可存入计算机中。
1951年3月,由ENIAC的主要设计者莫克利和埃克特设计的第一台通用自动计算机UNIVAC-I交付使用。它不仅能作科学计算,而且能作数据处理。
2.存储器设备发展之磁带
UNIVAC-I第一次采用磁带机作外存储器,首先用奇偶校验方法和双重运算线路来提高系统的可靠性,并最先进行了自动编程的试验。
磁带是所有存储器设备发展中单位存储信息成本最低、容量最大、标准化程度最高的常用存储介质之一。它互换性好、易于保存,近年来,由于采用了具有高纠错能力的编码技术和即写即读的通道技术,大大提高了磁带存储的可靠性和读写速度。根据读写磁带的工作原理可分为螺旋扫描技术、线性记录(数据流)技术、DLT技术以及比较先进的LTO技术。
根据读写磁带的工作原理,磁带机可以分为六种规格。其中两种采用螺旋扫描读写方式的是面向工作组级的DAT(4mm)磁带机和面向部门级的8mm磁带机,另外四种则是选用数据流存储技术设计的设备,它们分别是采用单磁头读写方式、磁带宽度为1/4英寸、面向低端应用的Travan和DC系列,以及采用多磁头读写方式、磁带宽度均为1/2英寸、面向高端应用的DLT和IBM的3480/3490/3590系列等。
磁带库是基于磁带的备份系统,它能够提供同样的基本自动备份和数据恢复功能,但同时具有更先进的技术特点。它的存储容量可达到数百PB,可以实现连续备份、自动搜索磁带,也可以在驱动管理软件控制下实现智能恢复、实时监控和统计,整个数据存储备份过程完全摆脱了人工干涉。
磁带库不仅数据存储量大得多,而且在备份效率和人工占用方面拥有无可比拟的优势。在网络系统中,磁带库通过SAN(Storage Area Network,存储区域网络)系统可形成网络存储系统,为企业存储提供有力保障,很容易完成远程数据访问、数据存储备份或通过磁带镜像技术实现多磁带库备份,无疑是数据仓库、ERP等大型网络应用的良好存储设备。
3.存储器设备发展之磁鼓
1953年,随着存储器设备发展,第一台磁鼓应用于IBM 701,它是作为内存储器使用的。磁鼓是利用铝鼓筒表面涂覆的磁性材料来存储数据的。鼓筒旋转速度很高,因此存取速度快。它采用饱和磁记录,从固定式磁头发展到浮动式磁头,从采用磁胶发展到采用电镀的连续磁介质。这些都为后来的磁盘存储器打下了基础。
磁鼓最大的缺点是利用率不高, 一个大圆柱体只有表面一层用于存储,而磁盘的两面都利用来存储,显然利用率要高得多。 因此,当磁盘出现后,磁鼓就被淘汰了。
4.存储器设备发展之磁芯
美国物理学家王安1950年提出了利用磁性材料制造存储器的思想。福雷斯特则将这一思想变成了现实。
为了实现磁芯存储,福雷斯特需要一种物质,这种物质应该有一个非常明确的磁化阈值。他找到在新泽西生产电视机用铁氧体变换器的一家公司的德国老陶瓷专家,利用熔化铁矿和氧化物获取了特定的磁性质。
对磁化有明确阈值是设计的关键。这种电线的网格和芯子织在电线网上,被人称为芯子存储,它的有关专利对发展计算机非常关键。这个方案可靠并且稳定。磁化相对来说是永久的,所以在系统的电源关闭后,存储的数据仍然保留着。既然磁场能以电子的速度来阅读,这使交互式计算有了可能。更进一步,因为是电线网格,存储阵列的任何部分都能访问,也就是说,不同的数据可以存储在电线网的不同位置,并且阅读所在位置的一束比特就能立即存取。这称为随机存取存储器(RAM),在存储器设备发展历程中它是交互式计算的革新概念。福雷斯特把这些专利转让给麻省理工学院,学院每年靠这些专利收到1500万~2000万美元。
最先获得这些专利许可证的是IBM,IBM最终获得了在北美防卫军事基地安装“旋风”的商业合同。更重要的是,自20世纪50年代以来,所有大型和中型计算机也采用了这一系统。磁芯存储从20世纪50年代、60年代,直至70年代初,一直是计算机主存的标准方式。
5.存储器设备发展之磁盘
世界第一台硬盘存储器是由IBM公司在1956年发明的,其型号为IBM 350 RAMAC(Random Access Method of Accounting and Control)。这套系统的总容量只有5MB,共使用了50个直径为24英寸的磁盘。1968年,IBM公司提出“温彻斯特/Winchester”技术,其要点是将高速旋转的磁盘、磁头及其寻道机构等全部密封在一个无尘的封闭体中,形成一个头盘组合件(HDA),与外界环境隔绝,避免了灰尘的污染,并采用小型化轻浮力的磁头浮动块,盘片表面涂润滑剂,实行接触起停,这是现代绝大多数硬盘的原型。1979年,IBM发明了薄膜磁头,进一步减轻了磁头重量,使更快的存取速度、更高的存储密度成为可能。20世纪80年代末期,IBM公司又对存储器设备发展作出一项重大贡献,发明了MR(Magneto Resistive)磁阻磁头,这种磁头在读取数据时对信号变化相当敏感,使得盘片的存储密度比以往提高了数十倍。1991年,IBM生产的3.5英寸硬盘使用了MR磁头,使硬盘的容量首次达到了1GB,从此,硬盘容量开始进入了GB数量级。IBM还发明了PRML(Partial Response Maximum Likelihood)的信号读取技术,使信号检测的灵敏度大幅度提高,从而可以大幅度提高记录密度。
目前,硬盘的面密度已经达到每平方英寸100Gb以上,是容量、性价比最大的一种存储设备。因而,在计算机的外存储设备中,还没有一种其他的存储设备能够在最近几年中对其统治地位产生挑战。硬盘不仅用于各种计算机和服务器中,在磁盘阵列和各种网络存储系统中,它也是基本的存储单元。值得注意的是,近年来微硬盘的出现和快速发展为移动存储提供了一种较为理想的存储介质。在闪存芯片难以承担的大容量移动存储领域,微硬盘可大显身手。目前尺寸为1英寸的硬盘,存储容量已达4GB,10GB容量的1英寸硬盘不久也会面世。微硬盘广泛应用于数码相机、MP3设备和各种手持电子类设备。
另一种磁盘存储设备是软盘,从早期的8英寸软盘、5.25英寸软盘到3.5英寸软盘,主要为数据交换和小容量备份之用。其中,3.5英寸1.44MB软盘占据计算机的标准配置地位近20年之久,之后出现过24MB、100MB、200MB的高密度过渡性软盘和软驱产品。然而,由于USB接口的闪存出现,软盘作为数据交换和小容量备份的统治地位已经动摇,不久会退出存储器设备发展历史舞台。
6. 存储器设备发展之光盘
光盘主要分为只读型光盘和读写型光盘。只读型指光盘上的内容是固定的,不能写入、修改,只能读取其中的内容。读写型则允许人们对光盘内容进行修改,可以抹去原来的内容,写入新的内容。用于微型计算机的光盘主要有CD-ROM、CD-R/W和DVD-ROM等几种。
上世纪60年代,荷兰飞利浦公司的研究人员开始使用激光光束进行记录和重放信息的研究。1972年,他们的研究获得了成功,1978年投放市场。最初的产品就是大家所熟知的激光视盘(LD,Laser Vision Disc)系统。
从LD的诞生至计算机用的CD-ROM,经历了三个阶段,即LD-激光视盘、CD-DA激光唱盘、CD-ROM。下面简单介绍这三个存储器设备发展阶段性的产品特点。
LD-激光视盘,就是通常所说的LCD,直径较大,为12英寸,两面都可以记录信息,但是它记录的信号是模拟信号。模拟信号的处理机制是指,模拟的电视图像信号和模拟的声音信号都要经过FM(Frequency Molation)频率调制、线性叠加,然后进行限幅放大。限幅后的信号以0.5微米宽的凹坑长短来表示。
CD-DA激光唱盘 LD虽然取得了成功,但由于事先没有制定统一的标准,使它的开发和制作一开始就陷入昂贵的资金投入中。1982年,由飞利浦公司和索尼公司制定了CD-DA激光唱盘的红皮书(Red Book)标准。由此,一种新型的激光唱盘诞生了。CD-DA激光唱盘记录音响的方法与LD系统不同,CD-DA激光唱盘系统首先把模拟的音响信号进行PCM(脉冲编码调制)数字化处理,再经过EMF(8~14位调制)编码之后记录到盘上。数字记录代替模拟记录的好处是,对干扰和噪声不敏感,由于盘本身的缺陷、划伤或沾污而引起的错误可以校正。
CD-DA系统取得成功以后,使飞利浦公司和索尼公司很自然地想到利用CD-DA作为计算机的大容量只读存储器。但要把CD-DA作为计算机的存储器,还必须解决两个重要问题,即建立适合于计算机读写的盘的数据结构,以及CD-DA误码率必须从现有的10-9降低到10-12以下,由此就产生了CD-ROM的黄皮书(Yellow Book)标准。这个标准的核心思想是,盘上的数据以数据块的形式来组织,每块都要有地址,这样一来,盘上的数据就能从几百兆字节的存储空间上被迅速找到。为了降低误码率,采用增加一种错误检测和错误校正的方案。错误检测采用了循环冗余检测码,即所谓CRC,错误校正采用里德-索洛蒙(Reed Solomon)码。黄皮书确立了CD-ROM的物理结构,而为了使其能在计算机上完全兼容,后来又制定了CD-ROM的文件系统标准,即ISO 9660。
在上世纪80年代中期,光盘存储器设备发展速度非常快,先后推出了WORM光盘、磁光盘(MO)、相变光盘(Phase Change Disk,PCD)等新品种。20世纪90年代,DVD-ROM、CD-R、CD-R/W等开始出现和普及,目前已成为计算机的标准存储设备。
光盘技术进一步向高密度发展,蓝光光盘是不久将推出的下一代高密度光盘。多层多阶光盘和全息存储光盘正在实验室研究之中,可望在5年之内推向市场。
7.存储器设备发展之纳米存储
纳米是一种长度单位,符号为nm。1纳米=1毫微米,约为10个原子的长度。假设一根头发的直径为0.05毫米,把它径向平均剖成5万根,每根的厚度即约为1纳米。与纳米存储有关的主要进展有如下内容。
1998年,美国明尼苏达大学和普林斯顿大学制备成功量子磁盘,这种磁盘是由磁性纳米棒组成的纳米阵列体系。一个量子磁盘相当于我们现在的10万~100万个磁盘,而能源消耗却降低了1万倍。
1988年,法国人首先发现了巨磁电阻效应,到1997年,采用巨磁电阻原理的纳米结构器件已在美国问世,它在磁存储、磁记忆和计算机读写磁头等方面均有广阔的应用前景。
2002年9月,美国威斯康星州大学的科研小组宣布,他们在室温条件下通过操纵单个原子,研制出原子级的硅记忆材料,其存储信息的密度是目前光盘的100万倍。这是纳米存储材料技术研究的一大进展。该小组发表在《纳米技术》杂志上的研究报告称,新的记忆材料构建在硅材料表面上。研究人员首先使金元素在硅材料表面升华,形成精确的原子轨道;然后再使硅元素升华,使其按上述原子轨道进行排列;最后,借助于扫瞄隧道显微镜的探针,从这些排列整齐的硅原子中间隔抽出硅原子,被抽空的部分代表“0”,余下的硅原子则代表“1”,这就形成了相当于计算机晶体管功能的原子级记忆材料。整个试验研究在室温条件下进行。研究小组负责人赫姆萨尔教授说,在室温条件下,一次操纵一批原子进行排列并不容易。更为重要的是,记忆材料中硅原子排列线内的间隔是一个原子大小。这保证了记忆材料的原子级水平。赫姆萨尔教授说,新的硅记忆材料与目前硅存储材料存储功能相同,而不同之处在于,前者为原子级体积,利用其制造的计算机存储材料体积更小、密度更大。这可使未来计算机微型化,且存储信息的功能更为强大。
以上就是本文向大家介绍的存储器设备发展历程的7个关键时期