① 电脑是什么呀
电脑就是计算机
电子计算机是一种根据一系列指令来对数据进行处理的机器。所相关的技术研究叫计算机科学,由数据为核心的研究称信息技术。
计算机种类繁多。实际来看,计算机总体上是处理信息的工具。根据图灵机理论,一部具有最基本功能的计算机应当能够完成任何其它计算机能做的事情。因此,只要不考虑时间和存储因素,从个人数码助理(PDA)到超级计算机都应该可以完成同样的作业。即是说,即使是设计完全相同的计算机,只要经过相应改装,就应该可以被用于从公司薪金管理到无人驾驶飞船操控在内的各种任务。由于科技的飞速进步,下一代计算机总是在性能上能够显着地超过其前一代,这一现象有时被称作“摩尔定律”。
计算机在组成上形式不一。早期计算机的体积足有一间房屋大小,而今天某些嵌入式计算机可能比一副扑克牌还小。当然,即使在今天,依然有大量体积庞大的巨型计算机为特别的科学计算或面向大型组织的事务处理需求服务。比较小的,为个人应用而设计的计算机称为微型计算机,简称微机。我们今天在日常使用“计算机”一词时通常也是指此。不过,现在计算机最为普遍的应用形式却是嵌入式的。嵌入式计算机通常相对简单,体积小,并被用来控制其它设备—无论是飞机,工业机器人还是数码相机。
上述对于电子计算机的定义包括了许多能计算或是只有有限功能的特定用途的设备。然而当说到现代的电子计算机,其最重要的特征是,只要给予正确的指示,任何一台电子计算机都可以模拟其他任何计算机的行为(只受限于电子计算机本身的存储容量和执行的速度)。据此,现代电子计算机相对于早期的电子计算机也被称为通用型电子计算机。
历史
ENIAC是电脑发展史上的一个里程碑本来,计算机的英文原词“computer”是指从事数据计算的人。而他们往往都需要借助某些机械计算设备或模拟计算机。这些早期计算设备的祖先包括有算盘,以及可以追溯到公元前87年的被古希腊人用于计算行星移动的安提基特拉机制。随着中世纪末期欧洲数学与工程学的再次繁荣,1623年由Wilhelm Schickard率先研制出了欧洲第一台计算设备,这是一个能进行六位以内数加减法,并能通过铃声输出答案的“计算钟”。使用转动齿轮来进行操作。
1642年法国数学家Pascal 在WILLIAM Oughtred计算尺的基础上,将计算尺加以改进,能进行八位计算。还卖出了许多制品,成为当时一种时髦的商品。
1801年,Joseph Marie Jacquard对织布机的设计进行了改进,其中他使用了一系列打孔的纸卡片来作为编织复杂图案的程序。Jacquard式织布机,尽管并不被认为是一台真正的计算机,但是它的出现确实是现代计算机发展过程中重要的一步。
查尔斯・巴比奇(Charles Babbage)是构想和设计一台完全可编程计算机的第一人,当时是1820年。但由于技术条件,经费限制,以及无法忍耐对设计不停的修补,这台计算机在他有生之年始终未能问世。约到19世纪晚期,许多后来被证明对计算机科学有着重大意义的技术相继出现,包括打孔卡片以及真空管。Hermann Hollerith设计了一台制表用的机器,就实现了应用打孔卡片的大规模自动数据处理。
在20世纪前半叶,为了迎合科学计算的需要,许许多多单一用途的并不断深化复杂的模拟计算机被研制出来。这些计算机都是用它们所针对的特定问题的机械或电子模型作为计算基础。20世纪三四十年代,计算机的性能逐渐强大并且通用性得到提升,现代计算机的关键特色被不断地加入进来。
1937年由克劳德·艾尔伍德·香农(Claude Shannon)发表了他的伟大论文《对继电器和开关电路中的符号分析》,文中首次提及数字电子技术的应用。他向人们展示了如何使用开关来实现逻辑和数学运算。此后,他通过研究Vannevar Bush的微分模拟器进一步巩固了他的想法。这是一个标志着二进制电子电路设计和逻辑门应用开始的重要时刻,而作为这些关键思想诞生的先驱,应当包括:Almon Strowger,他为一个含有逻辑门电路的设备申请了专利;尼古拉・特斯拉(Nikola Tesla),他早在1898年就曾申请含有逻辑门的电路设备;Lee De Forest,于1907年他用真空管代替了继电器。
Commodore公司在20世纪八十年代生产的Amiga 500电脑沿着这样一条上下求索的漫漫长途去定义所谓的“第一台电子计算机”可谓相当困难。1941年5月12日,Konrad Zuse完成了他的机电共享设备“Z3”,这是第一台具有自动二进制数学计算特色以及可行的编程功能的计算机,但还不是“电子”计算机。此外,其他值得注意的成就主要有:1941年夏天诞生的阿塔纳索夫-贝瑞计算机是世界上第一台电子计算机,它使用了真空管计算器,二进制数值,可复用内存;在英国于1943年被展示的神秘的巨像计算机(Colossus computer),尽管编程能力极其有限,但是它的的确确告诉了人们使用真空管既值得信赖又能实现电气化的再编程;哈佛大学的Harvard Mark I;以及基于二进制的“埃尼阿克”(ENIAC,1944年),这是第一台通用意图的计算机,但由于其结构设计不够弹性化,导致对它的每一次再编程都意味着电气物理线路的再连接。
开发埃尼爱克的小组针对其缺陷又进一步完善了设计,并最终呈现出今天我们所熟知的冯·诺伊曼结构(程序存储体系结构)。这个体系是当今所有计算机的基础。20世纪40年代中晚期,大批基于此一体系的计算机开始被研制,其中以英国最早。尽管第一台研制完成并投入运转的是“小规模实验机”(Small-Scale Experimental Machine,SSEM),但真正被开发出来的实用机很可能是EDSAC。
在整个20世纪50年代,真空管计算机居于统治地位。1958年 9月12日 在Robert Noyce(INTEL公司的创始人)的领导下,发明了集成电路。不久又推出了微处理器。1959年到1964年间设计的计算机一般被称为第二代计算机。
到了60年代,晶体管计算机将其取而代之。晶体管体积更小,速度更快,价格更加低廉,性能更加可靠,这使得它们可以被商品化生产。1964年到1972年的计算机一般被称为第三代计算机。大量使用集成电路,典型的机型是IBM360系列。
到了70年代,集成电路技术的引入极大地降低了计算机生产成本,计算机也从此开始走向千家万户。1972年以后的计算机习惯上被称为第四代计算机。基于大规模集成电路,及后来的超大规模集成电路。1972年4月1日 INTEL推出8008微处理器。1976年Stephen Wozinak和Stephen Jobs创办苹果计算机公司。并推出其Apple I 计算机。1977年5月 Apple II 型计算机发布。1979年6月1日 INTEL发布了8位元的8088微处理器。
1982年,微电脑开始普及,大量进入学校和家庭。1982年1月Commodore 64计算机发布,价格:595美元。 1982 年2月80286发布。时钟频率提高到20MHz,并增加了保护模式,可访问16M内存。支持1GB以上的虚拟内存。每秒执行270万条指令,集成了134000个晶体管。
1990年11月: 第一代MPC (多媒体个人电脑标准)发布。处理器至少80286/12MHz,后来增加到80386SX/16 MHz ,及一个光驱,至少150 KB/sec的传输率。1994年10月10日 Intel 发布75 MHz Pentium处理器。1995年11月1日Pentium Pro发布。主频可达200 MHz ,每秒钟完成4.4亿条指令,集成了550万个晶体管。1997年1月8日Intel发布Pentium MMX。对游戏和多媒体功能进行了增强。
此后计算机的变化日新月异,1965年发表的摩尔定律发表不断被应证,预测在未来10~15年仍依然适用。
原理
个人电脑的主要结构:
显示器
主板
CPU (中央处理器)
主要储存器 (内存)
扩充卡
电源供应器
光驱
次要储存器 (硬盘)
键盘
鼠标
尽管计算机技术自20世纪40年代第一台电子通用计算机诞生以来以来有了令人目眩的飞速发展,但是今天计算机仍然基本上采用的是存储程序结构,即冯·诺伊曼结构。这个结构实现了实用化的通用计算机。
存储程序结构间将一台计算机描述成四个主要部分:算术逻辑单元(ALU),控制电路,存储器,以及输入输出设备(I/O)。这些部件通过一组一组的排线连接(特别地,当一组线被用于多种不同意图的数据传输时又被称为总线),并且由一个时钟来驱动(当然某些其他事件也可能驱动控制电路)。
概念上讲,一部计算机的存储器可以被视为一组“细胞”单元。每一个“细胞”都有一个编号,称为地址;又都可以存储一个较小的定长信息。这个信息既可以是指令(告诉计算机去做什么),也可以是数据(指令的处理对象)。原则上,每一个“细胞”都是可以存储二者之任一的。
算术逻辑单元(ALU)可以被称作计算机的大脑。它可以做两类运算:第一类是算术运算,比如对两个数字进行加减法。算术运算部件的功能在ALU中是十分有限的,事实上,一些ALU根本不支持电路级的乘法和除法运算(由是使用者只能通过编程进行乘除法运算)。第二类是比较运算,即给定两个数,ALU对其进行比较以确定哪个更大一些。
输入输出系统是计算机从外部世界接收信息和向外部世界反馈运算结果的手段。对于一台标准的个人电脑,输入设备主要有键盘和鼠标,输出设备则是显示器,打印机以及其他许多后文将要讨论的可连接到计算机上的I/O设备。
控制系统将以上计算机各部分联系起来。它的功能是从存储器和输入输出设备中读取指令和数据,对指令进行解码,并向ALU交付符合指令要求的正确输入,告知ALU对这些数据做哪些运算并将结果数据返回到何处。控制系统中一个重要组件就是一个用来保持跟踪当前指令所在地址的计数器。通常这个计数器随着指令的执行而累加,但有时如果指令指示进行跳转则不依此规则。
20世纪80年代以来ALU和控制单元(二者合成中央处理器,CPU)逐渐被整合到一块集成电路上,称作微处理器。这类计算机的工作模式十分直观:在一个时钟周期内,计算机先从存储器中获取指令和数据,然后执行指令,存储数据,再获取下一条指令。这个过程被反复执行,直至得到一个终止指令。
由控制器解释,运算器执行的指令集是一个精心定义的数目十分有限的简单指令集合。一般可以分为四类:1)、数据移动(如:将一个数值从存储单元A拷贝到存储单元B)2)、数逻运算(如:计算存储单元A与存储单元B之和,结果返回存储单元C)3)、条件验证(如:如果存储单元A内数值为100,则下一条指令地址为存储单元F)4)、指令序列改易(如:下一条指令地址为存储单元F)
指令如同数据一样在计算机内部是以二进制来表示的。比如说,10110000就是一条Intel x86系列微处理器的拷贝指令代码。某一个计算机所支持的指令集就是该计算机的机器语言。因此,使用流行的机器语言将会使既成软件在一台新计算机上运行得更加容易。所以对于那些机型商业化软件开发的人来说,它们通常只会关注一种或几种不同的机器语言。
更加强大的小型计算机,大型计算机和服务器可能会与上述计算机有所不同。它们通常将任务分担给不同的CPU来执行。今天,微处理器和多核个人电脑也在朝这个方向发展。
超级计算机通常有着与基本的存储程序计算机显着区别的体系结构。它们通常有着数以千计的CPU,不过这些设计似乎只对特定任务有用。在各种计算机中,还有一些微控制器采用令程序和数据分离的哈佛架构(Harvard architecture)。
计算机的数字电路实现
以上所说的这些概念性设计的物理实现是多种多样的。如同我们前述所及,一台存储程序式计算机既可以是巴比奇的机械式的,也可以是基于数字电子的。但是,数字电路可以通过诸如继电器之类的电子控制开关来实现使用2进制数的算术和逻辑运算。香农的论文正是向我们展示了如何排列继电器来组成能够实现简单布尔运算的逻辑门。其他一些学者很快指出使用真空管可以代替继电器电路。真空管最初被用作无线电电路中的放大器,之后便开始被越来越多地用作数字电子电路中的快速开关。当电子管的一个针脚被通电后,电流就可以在另外两端间自由通过。
通过逻辑门的排列组合我们可以设计完成很多复杂的任务。举例而言,加法器就是其中之一。该器件在电子领域实现了两个数相加并将结果保存下来—在计算机科学中这样一个通过一组运算来实现某个特定意图的方法被称做一个算法。最终,人们通过数量可观的逻辑门电路组装成功了完整的ALU和控制器。说它数量可观,只需看一下CSIRAC这台可能是最小的实用化电子管计算机。该机含有2000个电子管,其中还有不少是双用器件,也即是说总计合有2000到4000个逻辑器件。
真空管对于制造规模庞大的门电路明显力不从心。昂贵,不稳(尤其是数量多时),臃肿,能耗高,并且速度也不够快—尽管远超机械开关电路。这一切导致20世纪60年代它们被晶体管取代。后者体积更小,易于操作,可靠性高,更省能耗,同时成本也更低。
集成电路是现今电子计算机的基础20世纪60年代后,晶体管开始逐渐为将大量晶体管、其他各种电器元件和连接导线安置在一片硅板上的集成电路所取代。70年代,ALU和控制器作为组成CPU的两大部分,开始被集成到一块芯片上,并称为“微处理器”。沿着集成电路的发展史,可以看到一片芯片上所集成器件的数量有了飞速增长。第一块集成电路只不过包含几十个部件,而到了2006年,一块Intel Core Duo处理器上的晶体管数目高达一亿五千一百万之巨。
无论是电子管,晶体管还是集成电路,它们都可以通过使用一种触发器设计机制来用作存储程序体系结构中的“存储”部件。而事实上触发器的确被用作小规模的超高速存储。但是,几乎没有任何计算机设计使用触发器来进行大规模数据存储。最早的计算机是使用Williams电子管向一个电视屏或若干条水银延迟线(声波通过这种线时的走行速度极为缓慢足够被认为是“存储”在了上面)发射电子束然后再来读取的方式来存储数据的。当然,这些尽管有效却不怎么优雅的方法最终还是被磁性存储取而代之。比如说磁芯存储器,代表信息的电流可在其中的铁质材料内制造恒久的弱磁场,当这个磁场再被读出时就实现了数据恢复。动态随机存储器(DRAM)亦被发明出来。它是一个包含大量电容的集成电路,而这些电容器件正是负责存储数据电荷—电荷的强度则被定义为数据的值。
输入输出设备
输入输出设备(I/O)是对将外部世界信息发送给计算机的设备和将处理结果返回给外部世界的设备的总称。这些返回结果可能是作为使用者能够视觉上体验的,或是作为该计算机所控制的其他设备的输入:对于一台机器人,控制计算机的输出基本上就是这台机器人本身,如做出各种行为。
第一代计算机的输入输出设备种类非常有限。通常的输入用设备是打孔卡片的读卡机,用来将指令和数据导入内存;而用于存储结果的输出设备则一般是磁带。随着科技的进步,输入输出设备的丰富性得到提高。以个人计算机为例:键盘和鼠标是用户向计算机直接输入信息的主要工具,而显示器、打印机、扩音器、耳机则返回处理结果。此外还有许多输入设备可以接受其他不同种类的信息,如数码相机可以输入图像。在输入输出设备中,有两类很值得注意:第一类是二级存储设备,如硬盘,光盘或其他速度缓慢但拥有很高容量的设备。第二个是计算机网络访问设备,通过他们而实现的计算机间直接数据传送极大地提升了计算机的价值。今天,国际互联网成就了数以千万计的计算机彼此间传送各种类型的数据。
程序
简单说,计算机程序就是计算机执行指令的一个序列。它既可以只是几条执行某个简单任务的指令,也可能是可能要操作巨大数据量的复杂指令队列。许多计算机程序包含有百万计的指令,而其中很多指令可能被反复执行。在2005年,一台典型的个人电脑可以每秒执行大约30亿条指令。计算机通常并不会执行一些很复杂的指令来获得额外的机能,更多地它们是在按照程序员的排列来运行那些较简单但为数众多的短指令。
一般情况下,程序员们是不会直接用机器语言来为计算机写入指令的。那么做的结果只能是费时费力、效率低下而且漏洞百出。所以,程序员一般通过“高级”一些的语言来写程序,然后再由某些特别的计算机程序,如解释器或编译器将之翻译成机器语言。一些编程语言看起来很接近机器语言,如汇编程序,被认为是低级语言。而另一些语言,如即如抽象原则的Prolog,则完全无视计算机实际运行的操作细节,可谓是高级语言。对于一项特定任务,应该根据其事务特点,程序员技能,可用工具和客户需求来选择相应的语言,其中又以客户需求最为重要(美国和中国军队的工程项目通常被要求使用Ada语言)。
计算机软件是与计算机程序并不相等的另一个词汇。计算机软件一个较为包容性较强的技术术语,它包含了用于完成任务的各种程序以及所有相关材料。举例说,一个视频游戏不但只包含程序本身,也包括图片、声音以及其他创造虚拟游戏环境的数据内容。在零售市场,在一台计算机上的某个应用程序只是一个面向大量用户的软件的一个副本。这里老生常谈的例子当然还是微软的office软件组,它包括一些列互相关联的、面向一般办公需求的程序。
利用那些极其简单的机器语言指令来实现无数功能强大的应用软件意味着其编程规模注定不小。Windows XP这个操作系统程序包含的C++高级语言源代码达到了4000万行。当然这还不是最大的。如此庞大的软件规模也显示了管理在开发过程中的重要性。实际编程时,程序会被细分到每一个程序员都可以在一个可接受的时长内完成的规模。
即便如此,软件开发的过程仍然进程缓慢,不可预见且遗漏多多。应运而生的软件工程学就重点面向如何加快作业进度和提高效率与质量。
库与操作系统
在计算机诞生后不久,人们发现某些特定作业在许多不同的程序中都要被实施,比如说计算某些标准数学函数。出于效率考量,这些程序的标准版本就被收集到一个“库”中以供各程序调用。许多任务经常要去额外处理种类繁多的输入输出接口,这时,用于连接的库就能派上用场。
20世纪60年代,随着计算机工业化普及,计算机越来越多地被用作一个组织内不同作业的处理。很快,能够自动安排作业时续和执行的特殊软件出现了。这些既控制硬件又负责作业时序安排的软件被称为“操作系统”。一个早期操作系统的例子是IBM的OS/360。
在不断地完善中,操作系统又引入了时间共享机制——并发。这使得多个不同用户可以“同时”地使用机器执行他们自己的程序,看起来就像是每个人都有一台自己的计算机。为此,操作系统需要像每个用户提供一台“虚拟机”来分离各个不同的程序。由于需要操作系统控制的设备也在不断增加,其中之一便是硬盘。因之,操作系统又引入了文件管理和目录管理(文件夹),大大简化了这类永久储存性设备的应用。此外,操作系统也负责安全控制,确保用户只能访问那些已获得允许的文件。
当然,到目前为止操作系统发展历程中最后一个重要步骤就是为程序提供标准图形用户界面(GUI)。尽管没有什么技术原因表明操作系统必须得提供这些界面,但操作系统供应商们总是希望并鼓励那些运行在其系统上的软件能够在外观和行为特征上与操作系统保持一致或相似。
除了以上这些核心功能,操作系统还封装了一系列其他常用工具。其中一些虽然对计算机管理并无重大意义,但是于用户而言很是有用。比如,苹果公司的Mac OS X就包含视频剪辑应用程序。
一些用于更小规模的计算机的操作系统可能没用如此众多的功能。早期的微型计算机由于记忆体和处理能力有限而不会提供额外功能,而嵌入式计算机则使用特定化了的操作系统或者干脆没有,它们往往通过应用程序直接代理操作系统的某些功能。
应用
由电脑控制的机械在工业中十分常见
很多现代大量生产的玩具,如Furby,是不能没有便宜的嵌入式处理器
起初,体积庞大而价格昂贵的数字计算机主要是用做执行科学计算,特别是军用课题。如ENIAC最早就是被用作火炮弹道计算和设计氢弹时计算断面中子密度的(如今许多超级计算机仍然在模拟核试验方面发挥着巨大作用)。澳大利亚设计的首台存储程序计算机CSIR Mk I型负责对水电工程中的集水地带的降雨情形进行评估。还有一些被用于解密,比如英国的“巨像”可编程计算机。除去这些早年的科学或军工应用,计算机在其他领域的推广亦十分迅速。
从一开始,存储程序计算机就与商业问题的解决息息相关。早在IBM的第一台商用计算机诞生之前,英国J. Lyons等就设计制造了LEO以进行资产管理或迎合其他商业用途。由于持续的体积与成本控制,计算机开始向更小型的组织内普及。加之20世纪70年代微处理器的发明,廉价计算机成为了现实。80年代,个人计算机全面流行,电子文档写作与印刷,计算预算和其他重复性的报表作业越来越多地开始依赖计算机。
随着计算机便宜起来,创作性的艺术工作也开始使用它们。人们利用合成器,计算机图形和动画来创作和修改声音,图像,视频。视频游戏的产业化也说明了计算机在娱乐方面也开创了新的历史。
计算机小型化以来,机械设备的控制也开始仰仗计算机的支持。其实,正是当年为了建造足够小的嵌入式计算机来控制阿波罗宇宙飞船才刺激了集成电路技术的跃进。今天想要找一台不被计算机控制的有源机械设备要比找一台哪怕是部分计算机控制的设备要难得多。可能最着名的计算机控制设备要非机器人莫属,这些机器有着或多或少人类的外表和并具备人类行为的某一子集。在批量生产中,工业机器人已是寻常之物。不过,完全的拟人机器人还只是停留在科幻小说或实验室之中。
机器人技术实质上是人工智能领域中的物理表达环节。所谓人工智能是一个定义模糊的概念但是可以肯定的是这门学科试图令计算机拥有目前它们还没有但作为人类却固有的能力。数年以来,不断有许多新方法被开发出来以允许计算机做那些之前被认为只有人才能做的事情。比如读书、下棋。然而,到目前为止,在研制具有人类的一般“整体性”智能的计算机方面,进展仍十分缓慢。
网络、国际互联网
20世纪50年代以来计算机开始用作协调来自不同地方之信息的工具,美国军方的贤者系统(SAGE)就是这方面第一个大规模系统。之后“军刀”等一系列特殊用途的商业系统也不断涌现出来。
② 亚马逊云科技的云存储,最应该知道的有这三点
传统存储在以各种方式对接公有云生态,公有云的云上服务类型也在不断完善,作为企业信息化负责人要做的是更多地了解公有云,然后,考虑如何充分利用公有云的优势。
本文通过介绍亚马逊云 科技 存储服务的三个关键点,带您认识云存储的现状。
正文:
乘着互联网产业的春风,云存储在过去近二十年走过了可遇不可求的发展历程。也让从90年代开始,就一直坐着冷板凳,负责数据归档的对象存储,一跃成为整个互联网数据的基石。
如今,绝大部分互联网上可访问的数据都靠对象存储来存,偶尔曝出的数据泄露事件也大多都跟对象存储有关,当然,问题不在于对象存储本身。
从2006年,亚马逊云 科技 的对象存储服务Amazon S3发布,到现在,算起来也有十六年的时间了,这也是亚马逊云 科技 推出的第一款云服务。
从市场表现来看,Amazon S3是非常成功的,前两年有人推测说,亚马逊云 科技 在存储方面的营收规模非常大,甚至被称作是全球最大的存储公司,Amazon S3无疑是功劳最大的一个。
有人说,许多亚马逊云 科技 用户使用的第一个产品就是Amazon S3对象存储,在所有亚马逊云 科技 的用户案例,在所有技术文档里,Amazon S3的出镜率都非常高。
云上原生存储Amazon S3的主线任务:不断降低成本
如果亚马逊云 科技 的用户没用过Amazon S3,就好比去包子铺吃饭没点包子,光顾烧烤店没吃烤串一样,令人费解。
Amazon S3的易用性高、可用性高,开发者很喜欢,Amazon S3几乎不丢数据的可靠性,稳定性也很高,运维管理人员很喜欢,Amazon S3在互联网应用场景被普遍应用。
如今,Amazon S3上存着超过100万亿个对象,每秒需要处理上千百万次请求。
Amazon S3一开始解决了可靠性和可用性以及安全方面的基本问题,性能也一直在提升,多年看下来,最大的工作重点就是不断降低成本。
亚马逊云 科技 大中华区产品部总经理 陈晓建介绍称,同样存储一份数据,如果2006年需要100块钱,而在2022年就只需要大概15块钱,16年间,Amazon S3的存储成本降低了大约7倍。
2021年12月,亚马逊云 科技 宣布在全球九大区域,将Amazon S3 Standard In Frequent Access和Amazon S3 One Zone In Frequent Access的价格降低了31%。
Amazon S3存储分了八个层级。
对于需要经常访问的数据,首选标准版的Amazon S3,它具有毫秒级的访问表现,而不太经常访问的数据就选Amazon S3 Standard-IA上,相较于前者能节省大概40%的费用。
而对于那些很少访问的数据,则可以选择放在Amazon S3 Glacier DeepArcihve上,它的成本非常低,大约1美刀1个TB,但代价是,想把数据拿回来就得多等等,大概需要12到48个小时。
有人觉得这等的时间也太长了,于是,亚马逊云 科技 又推出了Amazon S3 Glacier Flexible Retrieval,只需要等上几分钟到几小时。
就没有一种,既可以便宜,访问性能又高的存储吗?还真有。
这就是Amazon S3 Glacier Instant Retrieval,它是最新的一个存储层级,拿回数据的速度是毫秒级的,成本与Amazon S3 Glacier相当,适合每季度才访问一次、又需要毫秒级取回的海量数据。
另外,Amazon S3 One Zone-IA的成本也很低,顾名思义,数据只存在单个可用区上,而其他S3存储的数据都在多个可用区上存着好几分,相比之下,理论上丢数据的风险高了些。
最后,出于合规的要求,用户有些数据不能上云,亚马逊云 科技 可以提供Amazon Outposts,把云的硬件放到了用户的数据中心里。使用Amazon S3 on Outposts,就像在云上使用S3一样。
总的来说,Amazon S3的存储层级还是挺多的,但问题是,这给选型和管理也带来了负担。
为此,亚马逊云 科技 推出了Amazon S3 Intelligent-Tiering(智能分层),它会根据对象被访问的次数在多个存储层级间进行自动化迁移。
如果不能确定要选什么或者存储需求会变,那就选它,它不仅能解除选择困难症,还能避免用户自行管理数据分层的麻烦。
一家在东南亚和北美市场非常有影响力的互联网公司,在亚马逊云 科技 上存放了大约几十PB的数据,原本主要使用的是Amazon S3 Standard—IA,在使用Amazon S3智能分层后,没有进行任何额外操作,就将存储成本降低了62%。
亚马逊云 科技 最早在2018年就推出了Amazon S3智能分层功能,如今,Amazon S3智能分层已经涵盖了Amazon S3家族的几乎所有存储类别,最多可节省68%的成本。
不仅如此,如今数据分层还拓展到文件存储Amazon EFS,Amazon EFS提供四种文件存储等级,数据分层能节省高达72%的存储成本。
打通云应用与传统应用的隔阂:靠多种文件存储
如果说,对象存储是云存储的标配的话,那文件存储就是云存储连接本地存储的桥梁。
如今常见的应用分为两类。
一类是云原生的现代化应用,也就是在云上开发的、充分利用云架构优势的应用,比如电商、 游戏 、社交媒体等平台。对应需要的存储,大部分是对象存储Amazon S3来满足,少部分需要文件存储Amazon EFS。
另一类是传统企业应用,它诞生在公有云之前,常见的有高性能计算、EDA、视频渲染等场景,通常由本地的文件存储系统,比如NAS来支撑的,为提升安全性和可靠性,通常都带有快照、镜像、远程复制等功能特性。
这类工作负载并没有根据云架构的特点来设计,如果强行上云,不仅需要调整应用本身,而且还可能出现兼容性的问题,为了避免此类问题,亚马逊云 科技 推出了FSx文件存储家族。
从2018年开始,陆续推出了面向Windows环境的Amazon FSx for Windows,面向高性能计算场景的Amazon FSx for Lustre,面向大数据分析场景推出了Amazon FSx for OpenZFS。
金风慧能采用了亚马逊云 科技 构建HPC高性能计算系统,其中使用了Amazon FSx for Lustre共享存储系统,不仅使气象预测系统性能提升了10%,气象计算时间缩短了1/3,还将成本降低了70%,运维复杂度也大大降低。
此外,还与知名存储厂商NetApp合作推出了Amazon FSx for NetApp ONTAP,把NetApp的经典NAS文件存储系统NetApp ONTAP放到了公有云上。
NetApp在2015年就提出了Data Fabric的概念,大意就是想要实现数据在云上和云下的自由流动,是比较早积极拥抱混合云的存储厂商之一。
与一些存储厂商的云上托管服务不同,Amazon FSx for NetApp ONTAP没有删减任何功能,它是云上唯一完整且全托管的NetApp ONTAP文件存储系统,能够无缝地跟企业本地的ONTAP系统对接,所以,用户的IT系统不需要做任何改动,就能使用云上服务。
2019年,NetApp与联想成立合资公司——联想凌拓,联想凌拓在中国区提供相关服务,联想凌拓产品管理与营销高级总监林佑声表示,从发布到现在,Amazon FSx for NetApp ONTAP得到了非常多客户的认可,包括金融、医疗、石油以及高 科技 行业客户。
嘉里物流原本是本地存储NetApp ONTAP的用户,随着业务全球化发展,在数据扩容以及数据共享方面碰到的问题越来越多,通过使用亚马逊云 科技 提供的Amazon FSx for NetApp ONTAP,将数据从本地迁到云上,解决了这些问题。
上云之后,不仅可以使用原来NetApp ONTAP自带的快照和备份等功能,同时,还可以使用亚马逊云 科技 遍布全球的数据中心,实现跨区域的灾备。
补足数据保护方面的短板:Amazon Backup
一直以来,云存储被诟病的点还在于缺少数据灾备功能,在如何维持业务连续性方面有一些争议,而亚马逊云 科技 正在试着消除这一顾虑,这就是Amazon Backup。
由于缺少与业务价值的强关联性,数据保护经常容易被忽视,同时,由于数据保护系统本身很复杂,合规的要求还特别多,实践起来也特别麻烦,所以,数据保护的实践相对落后。
可能也是基于这样的考虑,亚马逊云 科技 的数据保护服务Amazon Backup才特别喜欢强调“一站式”“操作简单”的特点,让用户知道,数据保护也没有那么麻烦。
于是我们看到,Amazon Backup能覆盖旗下的几乎所有存储产品,包括块存储(Amazon EBS)、对象存储、文件存储、数据库,以及计算和存储网关等相关产品。
Amazon Backup的操作比较简单,通过图形的界面即可完成大部分操作,用户还可以通过预设的策略进行自动化的备份,降低手动备份带来的问题。
安全合规的问题让许多用户头疼,Amazon Backup深度集成了亚马逊云 科技 自带的KMS数据加密服务,整个备份操作权限、数据访问权限都可以用IAM进行细颗粒度监控,满足个人信息安全规范、信息安全等级保护等方面的合规要求。
Amazon Backup避免让数据保护带来太多的成本负担,因此也用上了智能分层技术,用户通过冷热分层策略可以有效降低约75%的成本。
澳大利亚石油天然气的供应商Santos要对Amazon EBS块存储做备份,原本都是用手动备份的方案,但随着业务量的发展,备份的出错率越来越高,成功率越来越低。
而在用了Amazon Backup后,平均备份任务用时和运营成本均有大幅降低,备份成功率到了100%,而且还完全做到企业数据合规。
结束语
确实如陈晓建所言,亚马逊云 科技 存储服务已经成为IT行业的“水”和“电”,让各行各业的业务都能从存储服务中获得价值。
亚马逊云 科技 的存储服务类型和存储的相关实践都非常有代表性,而且,很多做法已经成了上云的参考实践,企业用户应该多少了解亚马逊云 科技 的云存储,特别是有上云打算的企业。
当然,上云带来的便捷和灵活,稳定性和安全性,以及对运维的解放都很吸引人。
还有顾虑?据我个人了解,亚马逊云 科技 非常在意企业在云上的成功和成本节省,不仅会帮企业不断优化。除此之外,市场上有一些专门的服务,帮助企业做规划实施,让你充分利用云的优势。
③ 如何做好仓库存储的方案设计
存储业的重点在于仓库的管理,合理的仓库管理可以有效地缩短存取货物的时间,降低存储管理的成本。
由于货物要在仓库的不同区域和单位移动,企业在仓库管理上需要作出合适的方案来布置仓库,从而使仓库货物的搬运量达到最小。通常仓库寄存的货物有专门的存放点,每一个存放单位都是隔开的,便于货物的区分。所以一般情况下,货物的搬运都发生在出入口和货物区,并不存在各个货物单位之间的搬运工作。由此对于仓库仓储的设计会有两种方案可以借鉴。
第一种情况是在各种物品所需货区面积相同时,我们只需要把搬运次数最多的货物单位区布置在靠近出入口的地方,得到最小的总负荷数。
第二种情况是各种物品所需货区面积不同下,我们需要先将货物的搬运次数和所需货区数量之比计算出来,从中取比值最大者做为靠近出入口的货物放置点,并且依次往下排列。
以上两种情况仓库货区布置方法,都是以总负荷数最小为目标,设计简单而又科学。但是在实际的货物存储中,还要需要更多不同的仓库布置方案来解决每一货物存放的位置和途径。
就比如引入新技术可以让货物存放的位置更加准确,只要有计算机仓库管理系统,就可以让拣运人员快速知道货物的存放位置,并且为货物的出行路线提供最佳的方案给拣运人员做选择,加速了整个货物存取的工作效率和正确性,也节约了工作人员在确认货物区域上的时间。
④ 大数据下的地质资料信息存储架构设计
颉贵琴 胡晓琴
(甘肃省国土资源信息中心)
摘要 为推进我国地质资料信息服务集群化产业化工作,更大更好地发挥地质资料信息的价值,本文针对我国现有的地质资料信息集群化共享服务平台存在的缺陷和问题,基于现有系统的存储架构,设计了一种大数据下的地质资料信息存储架构,以便于我国地质资料信息服务集群化产业化工作能够适应大数据时代的数据存储。
关键词 大数据 地质资料 存储 NoSQL 双数据库
0 引言
新中国成立60多年来,我国形成了海量的地质资料信息,为国民经济和社会发展提供了重要支撑。但在地质资料管理方面长期存在资料信息分散、综合研究不够、数字化信息化程度不高、服务渠道不畅、服务能力不强等问题,使地质资料信息的巨大潜在价值未能得到充分发挥。为进一步提高地质工作服务国民经济和社会发展的能力,充分发挥地质资料信息的服务功能,扩大服务领域,国土资源部根据国内外地质工作的先进经验,做出了全面推进地质资料信息服务集群化产业化工作的部署。
目前,全国各省地质资料馆都在有条不紊地对本省成果、原始和实物地质资料进行清理,并对其中重要地质资料进行数字化和存储工作。然而,由于我国地质资源丰富,经过几十年的积累,已经形成了海量的地质资料,数据量早已经超过了几百太字节(TB)。在进行地质资料信息服务集群化工作中,随着共享数据量的不断增大,传统的数据存储方式和管理系统必然会展现出存储和检索方面的不足以及系统管理方面的缺陷。为了解决该问题,需要设计更加先进的数据存储架构来实现海量地质资料的存储。
而大数据(Big Data)作为近年来在云计算领域中出现的一种新型数据,科技工作者在不断的研究中,设计了适合大数据存储管理的非关系型数据库NoSQL进行大数据的存储和管理。本文将针对我国现有的地质资料信息集群化共享服务平台存在的缺陷和问题,利用大数据存储管理模式的思想,提出一种海量地质资料存储架构,改进现有系统存储架构,以便于我国全面推进地质资料信息服务集群化产业化工作。
1 工作现状
1.1 国内外地质资料信息的存储现状
在美国,主要有两大地质资料公共服务平台,分别是地球科学信息中心(ESIC)、地球资源观测和科学中心(EROS),其目的是通过为社会和政府提供更加便利、快速的地质信息服务。20世纪90年代初,澳大利亚出台了国家地球科学填图协议,采用先进的科学方法和技术进行数据存储,从而形成了第二代澳大利亚陆地地质图。
目前,我国地质资料信息服务集群化产业化工作刚刚起步,虽然国土资源部信息中心已经开发了地质资料信息集群化共享服务平台,并倡导各地方用户使用该系统。但由于各个地方早期的工作背景不一致,因此各地方所使用的存储系统也不尽相同,主要有Access、SQL Server、Oracle、MySQL等系统。本文以国土资源部信息中心开发的地质资料信息集群化共享服务平台的存储系统MySQL为例说明。该系统是基于关系数据库管理系统MySQL的一套分布式存储检索系统。该系统的部署使得我国地质资料信息服务集群化产业化工作取得了重大进展,同时也为我国建立标准统一的地质资料信息共享服务平台和互联互通的网络服务体系奠定了坚实的基础。然而,该系统的研发并没有考虑到地质资料信息进一步集群化以及在未来地质资料信息进入大数据时代的信息共享和存储管理问题,也没有给出明确的解决方案。
1.2 大数据的存储架构介绍
大数据是近年在云计算领域中出现的一种新型数据,具有数据量大、数据结构不固定、类型多样、查询分析复杂等特点。传统关系型数据库管理系统在数据存储规模、检索效率等方面已不再适合大数据存储。NoSQL(Not Only SQL)是与关系数据库相对的一类数据库的总称。这些数据库放弃了对关系数据库的支持,转而采用灵活的、分布式的数据存储方式管理数据,从而可以满足大数据存储和处理的需求。NoSQL基于非关系型数据存储的设计理念,以键值对进行存储,采用的数据字的结构不固定,每一个元组可以有不一样的字段,且每个元组可以根据自己的需要增加一些自己的键值对,可以减少一些检索时间和存储空间。目前,应用广泛的 NoSQL 数据库有 Google BigTable、HBase、MongoDB、Neo4 j、Infinite Graph等。
2 大数据下的地质资料信息存储架构设计
根据国土资源部做出的全面推进地质资料信息服务集群化产业化工作的部署,国土资源部倡导全国地质资料馆使用国土资源部信息中心开发的地质资料信息集群化共享服务平台,实现地质资料信息的存储和共享。该系统采用了数据库管理系统MySQL作为数据存储系统。
为了与现有系统和现有的工作进行对接,并为将来地质资料进入大数据时代后的存储工作做准备,本文设计了一种能用于海量地质资料信息存储并且兼容MySQL的分布式的数据存储架构(图1)。
整个系统可以根据不同的用户等级分为不同的用户管理层,由于图幅限制,在图1 中仅仅展示了3级:国家级管理层(即共享服务平台用户层)、省级管理层以及市级管理层(可根据实际需要延伸至县级)。
每级管理层的每个用户可以单独管理一个服务器。如国土资源部信息中心可以单独管理一个服务器;甘肃省国土资源信息中心可以单独管理一个服务器,陕西省国土资源信息中心可以单独管理一个服务器;甘肃的若干个市级国土资源局可以根据需要分别管理各自的服务器。
在服务器上分别安装两套数据库管理系统,一套是原有的MySQL数据库管理系统,另一套是为大数据存储而配备的NoSQL型数据库管理系统。在服务器上还专门开发一个数据库管理器中间件,用于进行用户层和数据库的通信以及两套数据库之间的通信。
由于各个管理层都各自维护自己的数据库和数据。当用户需要进行数据存储时,他所影响的数据库仅仅是本地数据库,存储效率较高;当用户需要从多个数据库读取数据时,顶层的共享服务平台会根据用户需求进行任务分解,将任务分发给下层的管理层进行数据库读取,由于各个数据库并行读取,从而提高了数据库读取效率。
图1 大数据下的地质资料信息存储架构框图
2.1 用户管理层
用户管理层根据权限范围,分为多层(本文以3层为例)。
位于顶层的国家级管理层(共享服务平台用户层)负责用户访问权限的分配、与其直接关联的数据库的访问、下级管理层任务的分配等工作。
用户访问权限的分配是指为访问本共享服务平台的个人用户和单位用户分配数据的使用权限、安全性的设计等。
与其直接关联的数据库访问是指直接存储在其本地数据库上的数据的访问。在该数据库中不仅要存储所需要的地质资料,还要存储注册用户信息等数据。
下级管理层任务分配是指如果用户需要访问多个下层数据库,用户只需要输入查询这几个下层数据库的命令,而如何查找下层数据库则由该功能来完成。例如某用户要查找甘肃、陕西、上海、北京的铁矿分布图,则用户只需要输入这几个地方及铁矿等查询条件,系统将自动把各个省的数据库查询任务分派到下级管理层。
同理,位于下层的省级管理层和市级管理层除了没有用户访问权限功能外,其余功能与国家级管理层是相同的。各层之间的数据库通过互联网相互连接成分布式的数据库系统。
2.2 MySQL和NoSQL的融合
MySQL是关系型数据库,它支持SQL查询语言,而NoSQL是非关系型数据库,它不支持SQL查询语言。用户要想透明地访问这两套数据库,必须要设计数据库管理器中间件,作为用户访问数据库的统一入口和两套数据库管理系统的通信平台。本文所设计的数据库管理器简单模型如图2所示。
图2 数据库管理器模型
服务器管理器通过用户程序接口与应用程序进行通讯,通过MySQL数据库接口与MySQL服务器通讯,通过NoSQL数据库接口与NoSQL数据库接口通讯。当应用程序接口接收到一条数据库访问命令之后,交由数据库访问命令解析器进行命令解析,从而形成MySQL访问命令或者NoSQL访问命令,通过相应的数据库接口访问数据库;数据库返回访问结果后经过汇总,由应用程序接口返回给应用程序。
两套数据库可以通过双数据库通信协议进行相互的通信和互访。此通信协议的建立便于地质工作人员将已经存入MySQL数据库的不适合结构化存储的数据转存到NoSQL数据库中,从而便于系统的升级和优化。
2.3 系统的存储和检索模式
在本存储框架设计中,系统采用分布式网络存储模式,即采用可扩展的存储结构,利用分散在全国各地的多台独立的服务器进行数据存储。这种方式不仅分担了服务器的存储压力,提高了系统的可靠性和可用性,还易于进行系统扩展。另外,由于地质资料信息存储的特殊性,各地方用户的数据存储工作基本都是在本地服务器进行,很少通过网络进行远程存储,所以数据存储效率较高。
在一台数据库服务器上安装有MySQL和NoSQL型两套数据库管理系统,分别用于存储地质资料信息中的结构化数据和非结构化数据。其中,NoSQL型数据库作为主数据库,用于存储一部分结构化数据和全部的非结构化数据;而MySQL数据库作为辅助数据库,用于存储一部分结构化的数据,以及旧系统中已经存储的数据。使用两套数据库不仅可以存储结构化数据而且还可以适用于大数据时代地质资料信息的存储,因此系统具有很好的适应性和灵活性。
2.4 安全性设计
地质资料信息是国家的机密,地质工作人员必须要保证它的安全。地质资料信息进入数字化时代之后,地质资料常常在计算机以及网络上进行传输,地质资料信息的安全传输和保存更是地质工作人员必须关注和解决的问题。在本存储架构的设计中设计的安全问题主要有数据库存储安全、数据传输安全、数据访问安全等问题。
数据库设计时采用多边安全模型和多级安全模型阻止数据库中信息和数据的泄露来提高数据库的安全性能,以保障地质信息在数据库中的存储安全;当用户登录系统访问数据库时,必须进行用户甄别和实名认证,这主要是对用户的身份进行有效的识别,防止非法用户访问数据库;在对地质资料进行网络传输时,应该首先将数据进行加密,然后再进行网络传输,以防止地质信息在传输过程中被窃取。
3 结语
提高地质资料数字化信息化水平,是国外地质工作强国的普遍做法。为推进我国地质资料信息服务集群化产业化工作,本文针对我国现有的地质资料信息集群化共享服务平台存在的缺陷和问题,利用大数据存储管理模式的思想,基于现有系统的存储架构,设计了一种大数据下的地质资料信息存储架构,以便于我国地质资料信息服务集群化产业化工作能够适应大数据时代的数据存储。该存储架构的设计只涉及了简单模型的构建,具体详细复杂的功能设计和软件实现还需要在进一步的研究工作中完成。
参考文献
[1]吴金朋.一种大数据存储模型的研究与应用[D].北京:北京邮电大学计算机学院,2012.
[2]吴广君,王树鹏,陈明,等.海量结构化数据存储检索系统[J].计算机研究与发展,2012,49(Suppl):1~5.
[3]黄
⑤ 科技大爆炸的今天,可不可以实现把夏天的热能储存到冬天用
在古代,人们会在冬天把冰块包裹稻草存在地窖里,然后在夏天拿出来消暑。但一个地窖只能开一次,开启后就不再具有保温性能了。对于存在温差的场合,可以使用斯特林发动机来获得能量,但以地球上的条件来说这种温差环境不太好找,且差值可产生的能量也不大。高温或低温其本身都不足以产生能量,只有温差才可以。
一年有365天,每天的温差即使按照貌不惊人的20度来计算,这座设施也更适合用昼夜温差来发电。这样即使季节温差高达60度,昼夜温差也可以用三四个发电周期将其秒杀。除了发电功能,该设施还可以用来从空气中凝结水分——夜间外界环境温度降低,但设施内的温度由于集热板继续散热的缘故仍然较高,因此热空气会在较冷的玻璃板(或框架上)冷凝形成水珠,然后水珠体积增大后因重力原因滑下,进入回收池提供人畜饮水或环境绿化。当然说得好不等于实际可行,大片的玻璃不但昂贵,而且在沙漠环境里也面临着维护清洁等一系列坑爹问题。大家看看就好,不要当真。个人以为利用温差发电多半还要等到我们到那些真正有温差的星球上才有实施的动力,就拿上面那个设施来说,在外星球还有空间隔绝的作用(当然气体得完全封闭运行),但该作用在地球上几乎没有价值。毕竟地球上的环境太过温柔,这点温差实在不够玩的。
⑥ 数据存储云存储的公司
1、阿里云
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。
⑦ 云存储为什么可以做到大容量
云存储实现技术(一)
——云存储理解
在当今风起“云”涌的时代,云存储作为“云”的基础架构和最广泛的应用得到了极大的重视。万丈高楼平地起,只有将底层的基础打牢,才有可能实现云中的摩天大楼。
实现的前提在于理解,到底应该如何理解云存储呢?没有一个放之四海皆准的概念,不同的角度,不同的背景得到的答案肯定不同。这里我想从广义和狭义的角度分别来理解。广义上来说,云存储发展于分布式存储,融合了并行与网格技术,延伸了虚拟化概念,通过对网络中大量异构存储设备的统一协调处理,最终实现了远程存储服务的提供。狭义上要从三种视角出发来理解:云制造商,云使用商,个人。
1.对于云制造商来说,云存储是一种架构。是对底层异构存储服务器的整合,对网络存储技术的创新,对硬件存储芯片升级。现在被各大厂商应用的底层云模式主要有两种:网络存储架构,分布式集群存储技术。
网络存储模式是在分散的基础存储设备上,实现一个统一管理存储设备系统。存储设备可以是FC光纤通道存储设备,可以是NAS和 iSCSI等IP存储设备,也可以是 SCSI或SAS等 DAS存储设备。而管理系统主要实现设备虚拟化管理,冗余链路管理,设备监控及安全备份处理。来看看IBM和色卡司公司提出的存储系统。色卡司推出的新一代的5-bay NAS,融合了NAS/DAS/iSCSI三为一体,提供iSCSI的堆叠扩充功能以及多重RAID技术,为底层存储提供了极大的应用弹性和数据保护机制。而IBM XIV存储系统则通过转架单个磁盘的转速瓶颈,将性能提升了一大步,但是基于硬件的网络存储模式终究还是存在容量与性能的扩展瓶颈。
分布式集群存储技术能够很好的解决上述瓶颈,不需要构建SAN模型,所依托的只是分布式文件系统,不但能够很好的支持异构机的搭建,还很容易扩充,高效的算法实现也带来了性能的突破。如Googal的GFS,Hadoop架构中的HDFS以及一些轻型的如FastDFS等。这种模型的前景一片明亮,只要人的脑袋足够聪明,高效的算法性能的提升终究要快于硬件的提升。
2.对于云使用商来说,云存储是一种服务。这里理解为提供服务与使用服务。提供的服务包括:原始的存储服务器,透明的大容量存储服务,存储机器与上层应用的综合体。相对于制造者而言,提供服务商亟需解决的是云服务的安全性,如何保证商业数据不泄密,如何实现企业数据冗余备份。还有一些细节方面的诸如可定制性,可扩展性,透明性,简易性,可靠性等都是云存储面临的困难。
对于使用服务者来说,云存储就是一个低成本,远端控制,安全的企业存储应用平台,他们不用再为高昂的硬件设备发愁,也不用为后期数据扩展空间担忧,只要专注与基于服务接口的开发即可。这里存储面对的最大问题是网络带宽与数据安全的问题。如何实现远端数据的高访问性,如何避免传输过程的数据损失及窃听。云存储需要的是各方面技术的支撑。
3.一切技术的发展都源于人对更高品质生活的需求,云存储也不例外。未来存储最大的应用应该是个人存储。即一切轻型移动设备之间信息互通,个人信息的最终云端化。最近UIT和Inter的合作也在向个人存储进军,通过与电信服务商的合作,将个人存储放在云上,实现随时随地的访问。可以想象不久的将来,信息的整合将在云中孕育。
云存储实现技术(二)
——云存储遐想
对于云存储来说,异构平台的的设备整合是最大的问题。既然称之为“云”,就不是某一单台服务器或一个机群提供的单一的硬盘数据存储功能。而是分布在全球多台设备之间的虚拟化管理。如何协调设备之间的统一部署,统一访问,这将成为巨大的瓶颈,如得不到实现,云将无法成型,终究只是广阔互联网中零星散落的水蒸气。现在的解决方案多是基于集群技术,分布式文件系统及网格计算技术。
如果不打破现有的观念,瓶颈终究是瓶颈,技术的发展也只是拖长了瓶颈的到来时间。以下让我们抛弃传统的架构模型,遐想下云存储。
1.高维度信息的存储
根据常识,我们在知道维度的大小可以决定存储容量的大小。传统我们对数据的存储都是基于二维结构的。现在我们跌入了二维瓶颈无法自拔,那么为何不放弃二维存储而转向高维呢?
维度的理解可以从宏观与微观两方面理解。
(1)微观方面,即存储介质本身的维扩展,令人欣喜的是澳大利亚科学家已经开发了一种新的能够感知激光波长和偏振材料,可以实现五个维度上的存储数据。这对于云存储容量扩展提供了不可估量的技术支持。
(2)宏观方面可以考虑存储数据的三维结构。可以这样理解,网络是种极其松散的空间拓扑结构,我们可以在其中设定一个笛卡儿坐标系,坐标中规定单位信息元数据。信息的存储就可以演变为坐标的存储。这里需要考虑的是单位数据的大小。对于结构数据,可以设置为一个字母,一个汉字或一个数据;对于非结构数据,可以是一个频繁词,一个tag 。但是对于庞大的信息而言,这又会造成更严重的维灾难。
考虑下我们现实世界中的信息冗余部分:
每一天,多少人在转载,复制,粘贴别人的信息。
每一分钟,有多少人在记录同一句话,计算同一数据。
以上这些占用了我们大量的存储设备而毫无意义。所以如何设置高效的单位元数据,如何利用已有的单位数据是亟需考虑的。
(3)笛卡儿坐标的引入对于数据安全方面也有所帮助,我们可以通过数据加密来改变每个用户的参考坐标系。
(4)在三维结构的基础上,我们还可以考虑引入时间的四维空间,因为计算机处理每个人的存储命令时间肯定是不同的,这一维的利用可以加快检索及访问速度。
2.人工智能的云存储
这里的人工智能是有别与冯诺依曼计算机体系的人工智能。
想想我们的大脑,一个1350立方米的空间容纳了无法估量的信息,仅这一条就足可以推翻容量与存储的关系。我们脑中的信息可以动态的加强和减弱(除了一些主观因素),可以快速检索而不需要索引表。这些靠的是什么?联想,记忆,信号的刺激与传导。那么我们是否可以考虑硬件的仿神经突触的设计。
我们好象也有过多的考虑冗余备份,在需要时,我们只需拿张纸记录就好。那么我们是否可以考虑减轻存储服务器的任务,将备份问题交给某些固定的外设就好。
人工智能这条路也许还有好长路要走,但我们坚信,创新就会有发展