① 浅析云存储系统的几种形式
如果数据是动态的就会被迁移到靠上的存储层,最终保存在某种固态盘(SSD)中。自动分层系统有很多种,其中影响最小也是最安全的使用方式就是将其作为保存动态数据的缓存。特别是,这些系统将帮助云存储迈向主流。
缓存类型的自动分层系统将动态数据从传统机械存储中拷贝到基于高速内存的缓存(RAM或者闪存固态盘)中。在这种拷贝模式中,自动分层系统被用作一个大型的读取缓存,几乎不保留数据的唯一副本。即使当他们通过缓存入站写入的写入加速器,保留唯一数据副本也仅仅需要几分钟的时间。在这些模式下,这些系统可以帮助云存储技术为更主流的存储要求提供服务。
云存储系统也分为几种形式。比较常见的一种是作为NAS存储型的“价值层”,具有极高的成本效益和高度可扩展性。但是这种成本效益和可扩展性通常是以牺牲性能为代价的,使得基于云的存储系统无法被更多地用于主流的存储资源。很多用户和提供商希望能够更广泛地部署云存储,并利用自动分层系统来填补这个空白。
然而,当被用于更主流的用途时,云存储系统将带来一个挑战,那就是他们通常是软件解决方案,有时候采用了提供给用户的通用硬件和磁盘驱动器。这使得成本降低下来,因为数据集被分布到多个类型的存储应健中。现在主要的存储制造商都将精力放在了交付用于他们一级存储平台的自动分层系统上,在提升性能的同时控制住成本。然而一级存储并不常用于云存储部署中,而且主要的存储制造商也都坚持在他们的低端存储系统中提供自动分层系统技术,防止这些性能升级的系统影响到他们的一级存储市场。
自动分层系统解决方案部署就绪之后,所有网络传输都将通过这个系统。自动分层系统设备会对存储传输进行分析,然后根据它的访问特性,将动态数据块保存在高速存储层中——通常是RAM或者SSD,也可能是高速SAS。因为对这些数据的读取操作来自于高速存储区,因此可以快速地交付给用户或者应用。
在基于NAS的云存储中,有很多中应用实例是要求有更高的性能。首先是安装一个比传统NAS成本更低、可扩展性更高的NAS云存储系统;一个内部私有云存储系统。在这种应用实例中,不可避免地需要比云存储系统本身设计交付更高的性能。向云存储前端添加自动分层系统往往可以解决大多数性能问题。
第二个使用实例就是更经典的“云存储提供商”模式。如果一个提供商的某些用户拥有一些突然变得非常动态的数据,那么这些数据就可以被迁移到自动分层系统中。尽管这些数据的大多数请求可能是从一个速度较低的连接访问这些数据,但是1000个用户的访问合起来就可能导致存储方面的瓶颈。
大多数云存储系统是“松散集群的”,这意味着单个节点的性能会成为瓶颈,因为数据并没有像和紧密配对的集群一样被分布到节点中。结果是,如果一个文件被频繁访问,那么每次它只能从一个节点被读取。解决方法就是,将这个文件拷贝到集群中的多个节点,然后改变应用以了解还有谁需要这个文件。除此之外,如果对这个文件的访问频率降低下来,则需要找到这个文件的冗余副本并进行删除。在大多数情况下,最后一个步骤很少发生,这就导致大量的空间浪费。这样就要求存储管理员付出更多额外的管理时间。
另外一个更简便且更有效的解决方案就是添加自动分层系统。系统分层系统会将访问频繁的文件(或者文件片段) 迁移到RAM或者基于固态盘的缓存区中。然后,当文件被频繁访问的时候,系统就会从高速存储区提供这个文件。这种方法不需要对环境进行变动(或者变动有限),当文件被频繁访问的时候可以被识别出来并迁移到高速存储中。然后,随着访问频率降低,文件将被自动迁移到缓存中。因此,存储就变成可自主管理和自主调节的存储。
自动分层系统解决方案通常被用于加速高端NAS。这些系统已经拥有高速磁盘子系统和多个高速网络连接。高端NAS被用于交付机械驱动器所能提供的最佳性能。在更换整个存储阵列之前,自动分层系统往往被作为最后一种解决方法。
另一方面,NAS云存储系统并不一定具有和传统NAS相同的性能水平。正如前面所说,重点往往是成本削减和可扩展性,以牺牲性能为代价。随着云存储环境的扩展——或者随着云存储被更多地用于主流应用中,原始存储性能的欠缺迫使存储经理考虑选择更传统的解决方案。他们可以考虑的选择之一就是不限制存储的自动分层应用。这两种技术的结合将提供更高的性能,同时保持了成本和可扩展性方面的优势。
② 什么是信息系统的完整性、保密性、可用性、可控性和不可否认性
1、保密性。
也称机密性,是不将有用信息泄漏给非授权用户的特性。可以通过信息加密、身份认证、访问控制、安全通信协议等技术实现,信息加密是防止信息非法泄露的最基本手段,主要强调有用信息只被授权对象使用的特征。
2、完整性。
是指信息在传输、交换、存储和处理过程中,保持信息不被破坏或修改、不丢失和信息未经授权不能改变的特性谨仔,也是最基本的安全特征。
3、可用性。
也称有效性,指信息资源可被授权实体按要求访问、正常使用或在非正常情况下能恢复使用的特性(系统面向用户服务的安全特性)。在系统运行时正确存取所需信息,当系统遭受意外攻击或破坏时,可以迅速恢复并能投入使用。是衡量网络信息系统面向用户的一种安全性能,以保障为用户提供服务。
4、可控性。
指网络系统和信息在传输范围和存放空间内的可控程度。是对网络系统和信息传输的控制能力特性。
5、不可否认性。
又称拒绝否认性、抗抵赖性,指网络通信双方在信息交互过程中,确信参与者本身和所提供的信息真实同一性,即所有参与者不可否认或抵赖本人的真实身份,以及提供信息的原样性和完成的操作与承诺。
(2)系统的存储性扩展阅读
信息系统的五个基本功能:输入、存储、处理、输出和控制。
输入功能:信息系统的输入功能决定于系统所要达到的目的及系统的能力和信息环境的许可。
存储功能:存储功能指的是系统存储各种信息资料和历带数据的能力。
处理功能:基于肢晌芦数据仓库技术的联机分析处理(OLAP)和数据挖掘(DM)技术。
输出功能:信息系统的各种功能都是为了保证最终实现最佳的输出功能。
控制功能:对构成系统的各种信息处理设备进行控制和管理,对整个信息加工、处理、传输、输出等环节通过各种程序进行控制。
③ 用户如何提高存储性能有哪些解决方案
何提高网速 电脑运行速度显卡关内存关 杀毒软件突打
:数据存储备份存储管理源于世纪70代终端/主机计算模式由于数据集主机易管理海量存储设备——磁带库必备设备80代由于PC发展尤其90代应用广客户机/服务器模式普及及互联网迅猛发展使存储容量、存储模式存储要求都发根本性变化些新兴存储技术迅速崛起构建更安全信息代提供更选择
编者按何确保所数据能够靠备份及进行灾难恢复存储管理软件核任务外存储管理软件存些基本功能诸改进系统应用I/O性能及存储管理能力提高数据应用系统高用性减少由于各种原断数据存取或者应用系统宕机间实现技术级存储管理(HSM)、ClusterServer(集群服务器)等
首先能提供些识别析存储访问模式VolumeManager工具VolumeManager通复杂磁盘配置能均衡I/O负载影响应用同能够优化应用数据布局数据条形散放物理盘提高性能同具断应用情况识别消除性能瓶颈能力增强系统应用性能另外VolumeManager减少系统断间、增加数据完整性等面俗表现允许磁盘进行线管理更改配置减少系统产极影响停机间同利用冗余技术提高数据用性防止数据丢失破坏
其非重要快速恢复志式文件系统FileSystem能间断数据访问条件文件作线备份并系统重启或崩溃前允许访问数据并恢复文件提高用户管理员产效率FileSystem系统崩溃前能未完数据记录事件志利用恢复程序重现保持数据完整性
VolumeManagerFileSystem都工作操作系统级实现集群与故障恢复、自管理、备份与HSM及基于浏览器远程管理等两者机结合利用双特磁盘数据管理能力能给企业系统提供尽能高性能、用性及管理性
基础便整存储管理核任务——备份技术
数据存储备份技术般包含硬件技术及软件技术等硬件技术主要磁带机技术软件技术主要通用专用备份软件技术等我主要软件技术面加讨论备份软件技术整数据存储备份程具相重要性仅关系否支持磁带各种先进功能且程度决定着备份效率备份软件定操作系统所提供备份功能厂商都提供许专业备份软件专业备份软件能通优化数据传输率即自较高传输率进行数据传输仅能缩短备份间、提高数据存储备份速度且磁带机设备本身处另外专业备份软件支持新磁带机技术HPTapeAlert技术差所主流专业备份软件均提供支持
于存储模式说比较见DAS、NASSAN等DAS(DirectAttachedStorage-直接连接存储)指存储设备通SCSI接口或光纤通道直接连接台计算机服务器理比较散、难通远程连接进行互连直接连接存储比较解决案直接连接存储帮助企业继续保留已传输速率并高网络系统
网络主要信息处理模式需要存储数据量增加数据作取竞争优势战略性资产其重要性增加目前发展趋势NASSAN现响应点NAS网络连接存储即存储设备通标准网络拓扑结构(例太网)连接群计算机重点于帮助工作组部门级机构解决迅速增加存储容量需求种两面改善数据用性第即使相应应用服务器再工作仍读数据第二简易服务器本身崩溃避免引起服务器崩溃首要原即应用软件引起问题另外NAS产品真即插即用产品其设备物理位置非灵
SAN(存储区域网络)通光纤通道连接群计算机该网络提供主机连接并非通标准网络拓扑并且通同物理通道支持广泛使用SCSIIP协议结构允许任何服务器连接任何存储阵列管数据置放哪服务器都直接存取所需数据SAN解决案基本功能剥离存储功能所运行备份操作需考虑网络总体性能影响案使管理及集控制实现简化特别于全部存储设备都集群起候
集群通用于加强应用软件用性与扩展性某些集群架构技术加入单系统印象概念单点单系统式管理台计算机集群服务器支持达百台互相连接服务器结合松散结合单位执行作业保护彼应用软件免于故障由于集群服务器完全整合应用软件服务架构建置高效应用软件执行环境即使整系统现故障终端计算机都使用几乎所应用软件集群服务器软件包括引擎、编译器、负载计算器、代理、指令与图形化系统管理接口等组件集群化运算环境优势卓越数据处理能力原则任何类型重主机架构存储设备包括直接连接磁盘都用作集群数据存储设备求系统用性适合使用拥重主机存取路径容错或高用性存储系统
层管理式解决存储容量断增导致何效扩充容量问题情况更用于布式网络环境级其实意味着用同介质实现存储RAID系统、光存储设备、磁带等每种存储设备都其同物理特性同价格例要备份候备份文件般存储速度相比较慢、容量相比较、价格相比较低存储设备磁带做经济实用何实现级呢原理讲级存储线系统迁移数据种文件由HSM系统选择进行迁移拷贝HSM介质文件确拷贝原文件相同名字标志文件创建占用比原文件磁盘空间用户访问标志文件HSM系统能原始文件确介质恢复级存储同实施式HSM根据两级或三级体系态迁移/迁数据类实现级存储
存储应用深入必带整体解决案需求仅包括硬件包括相应软件及服务软硬件兼容融合应用环境势所趋比存储虚拟化提证明趋势利于提高存储利用率、简化管理降低本构建融合存储应用环境总随着网络技术发展、计算机能力断提高数据量断膨胀数据备份与恢复等存储技术面问题显越越重要存储管理技术发展必引起业界高度重视
相关链接:前主流存储介质
磁盘阵列、磁带库
磁盘阵列特点数据存取速度特别快其主要功能提高网络数据用性及存储容量并数据选择性布磁盘提高系统数据吞吐率另外磁盘阵列能够免除单块硬盘故障所带灾难通较容量硬盘连智能控制器增加存储容量磁盘阵列种高效、快速、易用网络存储备份设备
广义磁带库产品包括自加载磁带机磁带库自加载磁带机磁带库实际磁带磁带机机结合组自加载磁带机位于单机磁带驱器自磁带更换装置装盘磁带磁带匣拾取磁带并放入驱器或执行相反程自加载磁带机能够支持例行备份程自每备份工作装载新磁带拥工作组服务器公司或理处使用自加载磁带机自完备份工作
磁带库像自加载磁带机基于磁带备份系统能够提供同基本自备份数据恢复功能同具更先进技术特点存储容量达数百PB(1PB=100万GB)实现连续备份、自搜索磁带驱管理软件控制实现智能恢复、实监控统计整数据存储备份程完全摆脱工干涉磁带库仅数据存储量且备份效率工占用面拥比拟优势网络系统磁带库通SAN(存储局域网络)系统形网络存储系统企业存储提供力保障容易完远程数据访问、数据存储备份或通磁带镜像技术实现磁带库备份疑数据仓库、ERP等型网络应用良存储设备
光盘塔、光盘库光盘网络镜像服务器
光盘仅存储容量巨且本低、制作简单、体积更重要其信息保存100至300光盘塔由几台或十几台CD-ROM驱器并联构通软件控制某台光驱读写操作光盘塔同支持几十几百用户访问信息光盘库叫自换盘机利用机械手机柜选张光盘送驱器进行读写库容量极机柜放几十片甚至百片光盘光盘库特点:安装简单、使用便并支持几乎所见网络操作系统及各种用通信协议
光盘网络镜像服务器仅具型光盘库超存储容量且具与硬盘相同访问速度其单位存储本(摊每张光盘设备本)低于光盘库光盘塔光盘网络镜像服务器已始取代光盘库光盘塔逐渐光盘网络共享设备主流产品
④ 对象存储系统的特性
对象存储系统,可以在一个持久稳固且高度可用的系统中存储任意的对象,且独立于虚拟机实例之外。应用和用户可以在对象存储中使用简单的API访问数据;这些通常都基于表属性状态转移(REST)架构,但是也有面向编程语言的界面。
对象存储提供了数据上受限操作的访问控制。数据管理员可以在bucket层级上(类似于目录)或者对象层级上(类似目录中的文件)应用访问控制。存储对象的授权/认证通过云提供商的身份认证管理系统或者你的目录服务来管理。通过后者,可能有一个本地的目录,同基于云的目录服务同步,巩固所有的访问控制角色和进入单一注册库的特权。
⑤ 什么是分级的存储体系结构它主要解决了什么问题
分级存储是将数据采取不同的存储方式分别存储在不同性能的存储设备上,减少非重要性数据在一级本地磁盘所占用的空间,还可加快整个系统的存储性能。分级存储是根据数据的重要性、访问频率、保留时间、容量、性能等指标,将数据采取不同的存储方式分别存储在不同性能的存储设备上,通过分级存储管理实现数据客体在存储设备之间的自动迁移。
数据分级存储的工作原理是基于数据访问的局部性。通过将不经常访问的数据自动移到存储层次中较低的层次,释放出较高成本的存储空间给更频繁访问的数据,可以获得更好的性价比。这样,一方面可大大减少非重要性数据在一级本地磁盘所占用的空间,还可加快整个系统的存储性能。
(5)系统的存储性扩展阅读
在分级数据存储结构中,存储设备一般有磁带库、磁盘或磁盘阵列等,而磁盘又可以根据其性能分为FC磁盘、SCSI磁盘、SATA磁盘等多种,而闪存存储介质(非易失随机访问存储器(NVRAM))也因为较高的性能可以作为分级数据存储结构中较高的一级。一般,磁盘或磁盘阵列等成本高、速度快的设备,用来存储经常访问的重要信息,而磁带库等成本较低的存储资源用来存放访问频率较低的信息。
信息生命周期管理(Information Lifecycle Management,ILM)是StorageTek公司针对不断变化的存储环境推出的先进存储管理理念,ILM试图实现根据数据在整个生命周期过程中不断变化的数据访问需求而进行数据的动态分布。
分级存储和ILM在存储体系结构上基本相同,目标也都是使不同级别的数据在给定时间和不同级别的存储资源能够更好的匹配。二者本质差别是数据分级的标准不同:前者标准为数据近期被访问的概率;后者标准为数据近期对企业的价值。
⑥ 计算机组成原理(三)存储系统
辅存中的数据要调入主存后才能被CPU访问
按存储介质,存储器可分为磁表面存储器(磁盘、磁带)、磁心存储器半导体存储器(MOS型存储器、双极型存储器)和光存储器(光盘)。
随机存取存储器(RAM):读写任何一个存储单元所需时间都相同,与存储单元所在的物理位置无关,如内存条等
顺序存取存储器(SAM):读写一个存储单元所需时间取决于存储单元所在的物理位置,如磁盘等
直接存取存储器(DAM):既有随机存取特性,也有顺序存取特性。先直接选取信息所在区域,然后按顺序方式存取。如硬盘等
相联存储器,即可以按内容访问的存储器(CAM)可以按照内容检索到存储位置进行读写,“快表”就是一种相联存储器
读写存储器—即可读、也可写(如:磁盘、内存、Cache)
只读存储器—只能读,不能写(如:实体音乐专辑通常采用CD-ROM,实体电影采用蓝光光盘,BIOS通常写在ROM中)
断电后,存储信息消失的存储器——易失性存储器(主存、Cache)
断电后,存储信息依然保持的存储器——非易失性存储器(磁盘、光盘)
信息读出后,原存储信息被破坏——破坏性读出(如DRAM芯片,读出数据后要进行重写)
信息读出后,原存储信息不被破坏——非破坏性读出(如SRAM芯片、磁盘、光盘)
存储器芯片的基本电路如下
封装后如下图所示
图中的每条线都会对应一个金属引脚,另外还有供电引脚、接地引脚,故可以由此求引脚数目
n位地址对应2 n 个存储单元
假如有8k×8位的存储芯片,即
现代计算机通常按字节编址,即每个字节对应一个地址
但也支持按字节寻址、按字寻址、按半字寻址、按双字寻址
(Dynamic Random Access Memory,DRAM)即动态RAM,使用栅极电容存储信息
(Static Random Access Memory,SRAM)即静态RAM,使用双稳态触发器存储信息
DRAM用于主存、SRAM用于Cache,两者都属于易失性存储器
简单模型下需要有 根选通线,而行列地址下仅需 根选通线
ROM芯片具有非易失性,断电后数据不会丢失
主板上的BIOS芯片(ROM),存储了“自举装入程序”,负责引导装入操作系统(开机)。逻辑上,主存由 辅存RAM+ROM组成,且二者常统一编址
位扩展的连接方式是将多个存储芯片的地址端、片选端和读写控制端相应并联,数据端分别引出。
字扩展是指增加存储器中字的数量,而位数不变。字扩展将芯片的地址线、数据线、读写控制线相应并联,而由片选信号来区分各芯片的地址范围。
实际上,存储器往往需要同时扩充字和位。字位同时扩展是指既增加存储字的数量,又增加存储字长。
两个端口对同一主存操作有以下4种情况:
当出现(3)(4)时,置“忙”信号为0,由判断逻辑决定暂时关闭一个端口(即被延时),未被关闭的端口正常访问,被关闭的端口延长一个很短的时间段后再访问。
多体并行存储器由多体模块组成。每个模块都有相同的容量和存取速度,各模块都有独立的读写控制电路、地址寄存器和数据寄存器。它们既能并行工作,又能交义工作。多体并行存储器分为高位交叉编址(顺序方式)和低位交叉编址(交叉方式)两种.
①高位交叉编址
②低位交叉编址
采用“流水线”的方式并行存取(宏观上并行,微观上串行),连续取n个存储字耗时可缩短为
宏观上,一个存储周期内,m体交叉存储器可以提供的数据量为单个模块的m倍。存取周期为T,存取时间/总线传输周期为r,为了使流水线不间断,应保证模块数
单体多字系统的特点是存储器中只有一个存储体,每个存储单元存储m个字,总线宽度也为m个字。一次并行读出m个字,地址必须顺序排列并处于同一存储单元。
缺点:每次只能同时取m个字,不能单独取其中某个字;指令和数据在主存内必须是连续存放的
为便于Cache 和主存之间交换信息,Cache 和主存都被划分为相等的块,Cache 块又称Cache 行,每块由若干字节组成。块的长度称为块长(Cache 行长)。由于Cache 的容量远小于主存的容盘,所以Cache中的块数要远少于主存中的块数,它仅保存主存中最活跃的若干块的副本。因此 Cache 按照某种策略,预测CPU在未来一段时间内欲访存的数据,将其装入Cache.
将某些主存块复制到Cache中,缓和CPU与主存之间的速度矛盾
CPU欲访问的信息已在Cache中的比率称为命中率H。先访问Cache,若Cache未命中再访问主存,系统的平均访问时间t 为
同时访问Cache和主存,若Cache命中则立即停止访问主存系统的平均访问时间t 为
空间局部性:在最近的未来要用到的信息(指令和数据),很可能与现在正在使用的信息在存储空间上是邻近的
时间局部性:在最近的未来要用到的信息,很可能是现在正在使用的信息
基于局部性原理,不难想到,可以把CPU目前访问的地址“周围”的部分数据放到Cache中
直接映射方式不需要考虑替换算法,仅全相联映射和组相联映射需要考虑
①随机算法(RAND):若Cache已满,则随机选择一块替换。实现简单,但完全没考虑局部性原理,命中率低,实际效果很不稳定
②先进先出算法(FIFO):若Cache已满,则替换最先被调入Cache的块。实现简单,依然没考虑局部性原理
③近期最少使用算法(LRU):为每一个Cache块设置一个“计数器”,用于记录每个Cache块已经有多久没被访问了。当Cache满后替换“计数器”最大的.基于“局部性原理”,LRU算法的实际运行效果优秀,Cache命中率高。
④最不经常使用算法(LFU):为每一个Cache块设置一个“计数器”,用于记录每个Cache块被访问过几次。当Cache满后替换“计数器”最小的.并没有很好地遵循局部性原理,因此实际运行效果不如LRU
现代计算机常采用多级Cache,各级Cache之间常采用“全写法+非写分配法”;Cache-主存之间常采用“写回法+写分配法”
写回法(write-back):当CPU对Cache写命中时,只修改Cache的内容,而不立即写入主存,只有当此块被换出时才写回主存。减少了访存次数,但存在数据不一致的隐患。
全写法(写直通法,write-through):当CPU对Cache写命中时,必须把数据同时写入Cache和主存,一般使用写缓冲(write buffer)。使用写缓冲,CPU写的速度很快,若写操作不频繁,则效果很好。若写操作很频繁,可能会因为写缓冲饱和而发生阻塞访存次数增加,速度变慢,但更能保证数据一致性
写分配法(write-allocate):当CPU对Cache写不命中时,把主存中的块调入Cache,在Cache中修改。通常搭配写回法使用。
非写分配法(not-write-allocate):当CPU对Cache写不命中时只写入主存,不调入Cache。搭配全写法使用。
页式存储系统:一个程序(进程)在逻辑上被分为若干个大小相等的“页面”, “页面”大小与“块”的大小相同 。每个页面可以离散地放入不同的主存块中。CPU执行的机器指令中,使用的是“逻辑地址”,因此需要通“页表”将逻辑地址转为物理地址。页表的作用:记录了每个逻辑页面存放在哪个主存块中
逻辑地址(虚地址):程序员视角看到的地址
物理地址(实地址):实际在主存中的地址
快表是一种“相联存储器”,可以按内容寻访,表中存储的是页表项的副本;Cache中存储的是主存块的副本
地址映射表中每一行都有对应的标记项
主存-辅存:实现虚拟存储系统,解决了主存容量不够的问题
Cache-主存:解决了主存与CPU速度不匹配的问题
⑦ 存储性能和空间利用率哪个重要
最大限度地挖掘存储系统的性能潜力是用户永远的追求,但是,面对众多性能优化技术,我们还必须考虑到底是性能重要还是空间利用率重要。在当前经济形势低迷的大背景下,挖掘现有存储系统的性能潜力成为用户的必然选择,不过追求性能只是一个方面。我们看到的现象是大多数存储系统的空间利用率还不到50%,而且存储控制器的处理能力也只用到一小部分,这些都是让用户不可接受的事实。在数据中心应用领域,通过服务器整合以及虚拟化技术,物理服务器的资源已经被最大化的利用起来,与此相反的是,存储效率低下的问题却成为用户的痛点。若要实现服务器虚拟化的高效率,存储系统就必须跟得上,这是一个必要的前提,因此服务器虚拟化应用推动着存储技术向更高效的方向发展。在虚拟化环境中,当前端服务器数量不断增加,后端存储阵列的不足便暴露出来,尤其表现在缺乏细粒度的分配和调动空间资源的能力方面。因此,如果用户希望对数据中心进行高度整合,那么服务器虚拟化技术和高效的存储技术二者缺一不可。存储效率是一个综合性的指标,实现最佳的存储效率意味着要在有效存储空间以及可用处理资源两方面都有出色表现,通常也是各产品之间相互竞争的重点。StorageIO高级分析师Greg Schulz说,“为了达到应用所需的IOPS能力,有些存储系统被设计得很大,通过大量磁盘的并发来提升IOPS,可是空间利用率却非常低,反之,追求空间利用率的最大化往往需要借助存储精简技术,比如压缩和重复数据删除等等,但是这些功能会对系统性能带来负面的影响“。因此,达成高效的存储就需要在容量和性能之间寻找一个平衡点,根据应用需求的不同,对容量、处理能力、性能以及成本进行控制和优化。保证存储效率有哪些基本条件优化存储系统的性能,本质上就是要尽可能地提高存储处理资源的利用率,同时尽量消除系统的瓶颈或阻塞。随着处理资源利用率的增加,剩余的处理资源以及响应额外处理请求的能力相应的就会降低。而且如果缓冲区太小的话,那么系统达到性能上限(瓶颈)的可能性就非常大。举个例子来说,一个平均处理资源利用率在 50%的磁盘阵列不太可能触及性能上限(瓶颈),而对于一个利用率达到80%的系统来说,这个可能性就要大得多。高效存储技术及其对性能、容量和成本的影响由存储厂商或第三方公司提供的内嵌在存储系统内部或在外部附加的运行报告、监控以及存储分析功能是十分重要的,它们可以帮助用户更好的了解系统的运行情况,避免系统过度(过高)配置,并减少很多后期维护工作。尤其是当用户需要优化性能或者按需增加处理资源时,这些组件的作用就会体现的非常明显。对此,StorageIO高级分析师Greg Schulz评价道:“无论是性能问题还是容量问题,好好利用存储厂商或第三方公司提供的工具都是十分重要的。”这些工具不仅能够帮助用户定位性能的问题,更重要的方面在于它们可以帮助用户选择出最恰当的解决方案。衡量一套存储系统的性能并不能依赖某个单一指标,而要考虑多种组合因素,它们每一项都对应用程序访问数据的速度有所影响。其中,IOPS、吞吐带宽和访问延迟这三项指标是最关键的。 不过,指标数据究竟是好是坏还要考虑应用环境的差异,包括工作负载的类型(随机请求或者顺序请求)、数据块的大小、交易类型(读或是写),以及其他相关的能够影响性能的因素都依赖于应用程序本身的特点。比方说,如果是流媒体视频应用,那么大文件快速顺序读性能和大数据块是最重要的;而如果是虚拟化应用环境,那么随机读性能通常是最主要的考察指标。下面的部分,我们将纵览那些可以优化性能并且提高存储资源利用率的技术,这里没有独门秘籍,因为每一种方法都有其优点和缺点。通过堆砌磁盘数量来提高性能磁盘驱动器是一种机械装置,读写磁头通过在高速旋转盘片的内道和外道之间往复移动来寻找并读写数据。即使是转速最快的15000转磁盘,其磁头机械臂的重定位时间延迟都会有数毫秒之多,因此每个磁盘的IOPS值最多只有几百个,吞吐带宽则局限在100MB/秒以内。通过将数据分布在多个磁盘上,然后对多个磁盘同步进行读写访问是一种常见的扩展性能的方法。通过增加磁盘的个数,系统整体的IOPS和带宽值也会等比例提升。加之,有些存储厂商还提供short stroking这样的可以缩短磁头机械臂移动距离的技术。此类技术可以将数据集中放置在磁盘盘片的外道区域,结果是磁头移动的距离大大缩短,对数据访问的性能具有十分明显的提升作用。可是,当我们通过利用大量的磁盘并发以及short-stroking磁头短距离移动技术达成既定的性能目标之后,我们会发现其代价是非常高昂的,此外,由于仅仅使用了盘片的外道空间,所以存储的空间利用率会非常差。早在SSD固态盘技术出现之前,利用大量的磁盘并发以及 short-stroking磁头短距离移动技术来满足应用的性能要求是最普遍的办法,即使在今天,这种方案依然被大量使用,原因是SSD固态盘的成本太高,所以用户依然青睐磁盘而不是SSD。NatApp技术和战略总监Mike Riley就说:“对于顺序访问大数据块和大文件这样的应用,使用磁盘通常性价比更高。”RAID 及wide-striping技术对效率的影响很多用户容易忽视一点,即RAID和RAID级别其实都会对性能和容量产生影响。通过改变RAID级别来提升存储性能或者空间的利用率是一种很现实的选择。校验盘的数量、条带的大小、RAID组的尺寸以及RAID组内数据块大小都会影响性能和容量。RAID技术对性能和容量的影响我们都熟悉那些常见的RAID级别及其特点,但还有一些不常见的技术趋势值得我们关注,这些都与我们讨论的存储效率有关。首先,RAID组的尺寸会影响性能、可用性以及容量。通常,大的RAID组包含的磁盘数量更多,速度也更快,但是,当出现磁盘故障后,大RAID组也需要更多的时间用来重建。每隔几年,磁盘的容量都会翻一番,其结果是RAID重建的时间也相应变的更长,在数据重建期间出现其他磁盘故障的风险也变得更大。即使是带有双校验机制,允许两块磁盘同时出现故障的RAID 6也存在风险增加的问题,况且,RAID 6对性能的影响还比较大。有一个更好的办法是完全打破传统RAID组和私有校验盘的概念,比如,NetApp的Dynamic Disk Pools (DDP)技术,该技术将数据、校验信息以及闲置空间块分散放置在一个磁盘池中,池中所有的磁盘会并发处理RAID重建工作。另一个有代表性的产品是HP的 3PAR存储系统,3PAR采用了一种叫做wide striping的技术,将数据条块化之后散布在一大堆磁盘上,同时磁盘自身的裸容量又细分成若干小的存储块(chunklet)。3PAR的卷管理器将这些小的chunklet组织起来形成若干个micro-RAID(微型RAID组),每个微型RAID组都有自己的校验块。对于每一个单独的微型 RAID组来说,其成员块(chunklet)都分布在不同的磁盘上,而且chunklet的尺寸也很小,因此数据重建时对性能的冲击和风险都是最小的。固态存储毫无疑问,SSD固态存储的出现是一件划时代的“大事儿“,对于存储厂商来说,在优化性能和容量这两个方面,SSD技术都是一种全新的选择。与传统的磁盘技术相比,SSD固态盘在延迟指标方面有数量级上的优势(微秒 对 毫秒),而在IOPS性能上,SSD的优势甚至达到了多个数量级(10000以上 对 数百)。Flash技术(更多的时候是磁盘与flash的结合)为存储管理员提供了一种更具性价比的解决方案,我们不必像过去那样,为了满足应用对性能的高要求而不得不部署大批量的磁盘,然后再将数据分散在磁盘上并发处理。SSD固态盘最佳的适用场景是大量数据的随机读操作,比如虚拟化 hypervisor,但如果是大数据块和大文件的连续访问请求,SSD的优势就没有那么明显了。EMC统一存储部门负责产品管理与市场的高级副总裁Eric Herzog说:“Flash的价格仍然10倍于最高端的磁盘,因此,用户只能酌情使用,而且要用在刀刃上。”目前,固态存储有三种不同的使用方式:第一种方式,用SSD固态盘完全代替机械磁盘。用SSD替换传统的磁盘是最简单的提升存储系统性能的方法。如果选择这个方案,关键的一点是用户要协同存储厂商来验证SSD固态盘的效果,并且遵循厂商提供的建议。如果存储系统自身的处理能力无法承载固态存储的高性能,那么SSD有可能会将整个系统拖垮。因为,如果SSD的速度超出了存储控制器的承受范围,那么很容易出现性能(I/O阻塞)问题,而且会越来越糟。另一个问题涉及到数据移动的机制,即我们的数据在什么时候、以何种方式迁移到固态存储上,或从固态存储上移走。最简单但也最不可取的方法是人工指定,比如我们通过手动设定将数据库的日志文件固定存放在SSD固态存储空间,对于比较老的存储系统来说,这也许是唯一的方式。在这里我们推荐用户使用那些自动化的数据分层移动技术,比如EMC的 FAST(Fully Automated Storage Tiering)。第二种方式,用Flash(固态存储芯片)作为存储系统的缓存。传统意义上的DRAM 高速缓存容量太小,因此我们可以用Flash作为DRAM的外围扩展,而这种利用Flash的方式较之第一种可能更容易实现一些。Flash缓存本身是系统架构的一个组成部分,即使容量再大,也是由存储控制器直接管理。而用Flash作缓存的设计也很容易解决数据分层的难题,根据一般的定义,最活跃的数据会一直放置在高速缓存里,而过期的数据则驻留在机械磁盘上。与第一种方式比较,存储系统里所有的数据都有可能借助Flash高速缓存来提升访问性能,而第一种方式下,只有存放在SSD固态盘中的数据才能获得高性能。初看起来,用Flash做高速缓存的方案几乎没有缺陷,可问题是只有新型的存储系统才支持这种特性,而且是选件,因此这种模式的发展受到一定的制约。与此相反,我们看到用Flash做大容量磁盘的高速缓存(而不是系统的高速缓存)反而成为更普遍的存储架构设计选择,因为它可以将高容量和高性能更好的融合。IBM存储软件业务经理Ron Riffe说:“在一套磁盘阵列中,只需要增加2-3%的固态存储空间,几乎就可以让吞吐带宽提高一倍。”在服务器中使用Flash存储卡。数据的位置离CPU和内存越近,存储性能也就越好。在服务器中插入PCIe Flash存储卡,比如Fusion-IO,就可以获得最佳的存储性能。不太有利的一面是,内置的Flash存储卡无法在多台服务器之间共享,只有单台服务器上的应用程序才能享受这一好处,而且价格非常昂贵。尽管如此,仍然有两个厂商对此比较热衷,他们都希望将自己的存储系统功能向服务器内部扩展。一个是 NetApp,正在使其核心软件Data Ontap能够在虚拟机hypervisor上运行;另一个是EMC,推出的功能叫做VFCache(原名叫Project Lightning)。显而易见,这两家公司的目标是通过提供服务器端的Flash存储分级获得高性能,而这种方式又能让用户的服务器与他们提供的外部存储系统无缝集成。存储加速装置存储加速装置一般部署在服务器和存储系统之间,既可以提高存储访问性能,又可以提供附加的存储功能服务,比如存储虚拟化等等。多数情况下,存储加速装置后端连接的都是用户已有的异构存储系统,包括各种各样的型号和品牌。异构环境的问题是当面临存储效率低下或者性能不佳的困扰时,分析与评估的过程就比较复杂。然而,存储加速装置能够帮助已有磁盘阵列改善性能,并将各种异构的存储系统纳入一个统一的存储池,这不但可以提升整个存储环境的整体性能、降低存储成本,而且还可以延长已有存储的服役时间。最近由IBM发布的 SmartCloud Virtual Storage Center是此类产品的代表,它将IBM的存储虚拟化软件SVC(SAN Volume Controller)以及存储分析和管理工具集成在一个单独的产品中。SmartCloud Virtual Storage Center可以将各种异构的物理存储阵列纳入到一个虚拟存储池中,在这个池之上创建的卷还支持自动精简配置。该装置不但可以管理连接在其后的存储阵列中的Flash固态存储空间,而且SmartCloud Virtual Storage Center自身内部也可以安装Flash固态存储组件。通过实时存储分析功能,SmartCloud Virtual Storage Center能够识别出I/O访问频繁的数据以及热点区域,并能够自动地将数据从磁盘迁移到Flash固态存储上,反向亦然。用户可以借助 SmartCloud Virtual Storage Center的这些功能大幅度的提高现有的异构混合存储系统环境的性能和空间利用率。与IBM SmartCloud Virtual Storage Center类似的产品还有Alacritech和Avere,它们都是基于块或基于文件的存储加速设备。日益增加的存储空间利用率利用存储精简技术,我们可以最大化的利用起可用的磁盘空间,存储精简技术包括自动精简配置、瘦克隆、压缩以及重复数据删除等等。这些技术都有一个共同的目标,即最大程度的引用已经存在的数据块,消除或避免存储重复的数据。然而存储精简技术对系统的性能稍有影响,所以对于用户来说,只有在明确了性能影响程度并且能够接受这种影响的前提下,才应该启动重复数据删除或数据压缩的功能。性能和容量:密不可分存储系统的性能和空间利用率是紧密相关的一对参数,提升或改进其中的一个,往往会给另一个带来负面的影响。因此,只有好好的利用存储分析和报表工具,我们才能了解存储的真实性能表现,进而发现系统瓶颈并采取适当的补救措施,这是必要的前提。总之,提高存储效率的工作其实就是在性能需求和存储成本之间不断的寻找平衡。
⑧ XFS分布式存储系统的特性有那些
主要特性包括以下几点:
1、数据完全性
采用XFS文件系统,当意想不到的宕机发生后,首先,由于文件系统开启了日志功能,所以你磁盘上的文件不再会意外宕机而遭到破坏了。不论目前文件系统上存储的文件与数据有多少,文件系统都可以根据所记录的日志在很短的时间内迅速恢复磁盘文件内容。
2、传输特性
XFS文件系统采用优化算法,日志记录对整体文件操作影响非常小。XFS查询与分配存储空间非常快。xfs文件系统能连续提供快速的反应时间。
3、可扩展性
XFS 是一个全64-bit的文件系统,它可以支持上百万T字节的存储空间。对特大文件及小尺寸文件的支持都表现出众,支持特大数量的目录。最大可支持的文件大小为263 = 9 x 1018 = 9 exabytes,最大文件系统尺寸为18 exabytes。
4、数据结构
XFS使用高效的表结构(B+树),保证了文件系统可以快速搜索与快速空间分配。XFS能够持续提供高速操作,文件系统的性能不受目录中目录及文件数量的限制。
5、传输带宽
XFS 能以接近裸设备I/O的性能存储数据。在单个文件系统的测试中,其吞吐量最高可达7GB每秒,对单个文件的读写操作,其吞吐量可达4GB每秒。