存储与处理工程_大数据存储与应用特点及技术路线分析

A. 存储器的主要功能是什么为什么要把存储系统分成若干个不同层次

一、存储器的主要功能：

1、随机存取存储器（RAM）。

2、只读存储器（ROM）。

3、闪存（Flash Memory）。

4、先进先出存储器（FIFO）。

5、先进后出存储器（FILO）。

二、存储器分为若干个层次主要原因：

1、合理解决速度与成本的矛盾，以得到较高的性能价格比。

磁盘存储器价格较便宜，可以把容量做得很大，但存取速度较慢，因此用作存取次数较少，且需存放大量程序、原始数据（许多程序和数据是暂时不参加运算的）和运行结果的外存储器。

2、使用磁盘作为外存，不仅价格便宜，可以把存储容量做得很大，而且在断电时它所存放的信息也不丢失，可以长久保存，且复制、携带都很方便。

(1)存储与处理工程扩展阅读：

存储器可做处理器，未来装置有望更加轻薄短小：

有一群跨国研究团队做了实验，并真的成功运用存储器执行一般电脑芯片的运算任务，倘若技术成熟，将有望使手机与电脑等装置更加轻薄。

新加坡南洋理工大学、德国亚琛阿亨工业大学和欧洲最大的跨学科研究中心德国尤利希研究中心组成的研究团队发现，在调整算法后，存储器能如英特尔、高通等传统处理器一般，进行运算处理。

目前市面上的装置或电脑都是透过CPU从存储器提取资讯进行运算处理，以二进制0跟1来实现指令，如字母A是用“01000001”这样8位元的形式来处理或纪录。而存储器ReRAM透过不同电阻态代表0或1的数据状态储存资讯，其实还可实现更高基数的数据状态记录。

研究团队就将ReRAM原型（prototype）调整为0、1、2的三进制，透过这样的高基数运算系统可加速运算任务，并于存储器就可进行逻辑运算。也节省了处理器与存储器间数据传输的时间与功耗的消耗。

研究参与人之一、南洋理工大学资讯工程学系助理教授Chattopadhyay解释，这就像一段很长的会话却只用一个极小的翻译器来转换，是一段耗时且费力的过程，团队所做的就是增加这个小型翻译器的处理容量，使其能更有效的处理数据。

B. 大数据对存储平台有哪些特殊要求

伴随着安防大数据时代的来临，安防行业原有的存储技术已经无法满足行业发展新需求，尤其是公共安全视频监控建设联网应用工作对数据联网共享提出了更高的要求，同时以“实战”为根本的公安业务中，大数据深度挖掘极度依赖数据存储系统对非结构化数据分析再处理。云存储技术的出现，在安防行业大数据发展时代无异于革命性的应用，不断地解决了安防存储难题，同时也为视频监控的深度应用与发展提供强大的驱动力。

当今世界，每个人的一言一行都在产生着数据，并且被记录着。各行各业爆炸式增长的数据，正推动人类进入大数据时代。根据相关统计，2017年全球的数据总量为21.6ZB，目前全球数据的增长速度在每年40%左右，预计到2020年全球的数据总量将达到40ZB。数据增长在安防行业表现得尤为明显，在近两年“平安城市”、“ 智能交通”、“ 雪亮工程”等不断开展和深入的过程中，以视频监控为核心代表的行业发展正朝着超高清、智能化和融合应用的方向迈进，系统性工程中现有视频监控系统数据采集量正在呈线性增长。海量数据的出现对高效、及时的存储和处理的要求不断提升。

从目前行业来看，大数据时代的到来，系统性工程中视频监控系统对存储主要有以下几方面的需求：

一是海量数据及时高效存储，根据现行的技防法规及标准，一般应用领域视频监控系统数据采集是7x24小时不间断的，系统采集的音视频信息资料留存时限不得少于30日，针对案(事)件信息以及一些特殊应用领域视音频资料存放时间更长，甚至长期保留，数据量随时间增加呈线性增长。

二是监控数据存储系统需要具备可扩展性，不但满足海量数据持续增加，还需要满足采集更高分辨率或更多采集点的数据需要。

三是对存储系统的性能要求高。与其他领域不同，视频监控主要是视频码流的存储，在多路并发存储的情况下，对带宽、数据能力、缓存等都有很高的要求，需要有专门针对视频性能的优化处理。

四是大数据应用需要数据存储的集中管理分析。但现实情况却恰恰相反，一方面是系统性工程在分期建设的过程中，采购的设备并不能保证为同一品牌，实际项目中多种品牌、多种型号比比皆是，给视频监控的存储集中管理带来很大难度。同时，在一些大型的项目中，例如特大城市“天网工程”，高速公路中道路监控所跨区域较大，集中存储较为困难。另外，受网络带宽及老旧设备影响，系统难以形成统一存储、统一监控的中心体系架构，导致数据在应用中调取不及时。

总体来看，随着系统性安防项目的深入开展以及物联网建设初露峥嵘，大规模联网监控的建设和高清监控的逐步普及，海量视频数据已经呈现井喷式地增长，并冲击着传统的存储系统，遗憾的是原有的存储系统无法满足大数据时代提出的新要求，亟需新的存储技术支撑现有业务模式，同时为人工智能技术在安防领域施展拳脚拓展新的空间。

C. 芯片行业需要什么专业

芯片行业，属于高端科技行业，目前我国芯片产业还有很大的发展空间，相信很多人也关注到这个产业的现状。近年来，国家也在大力培养芯片人才，推进芯片自主研发进程，这给很多有梦想的考生提供了一个大学专业方向。
芯片”其实应该算是大部分电子信息类专业会涉及到的一个研究领域。如果要从中挑出最对口的话，应当是下面这几个了：

电子信息工程——研究信息的获取与处理

电子信息工程主要研究信息的获取与处理，电子设备与信息系统的设计、开发、应用和集成。是集现代电子技术、信息技术、通信技术于一体的专业。

电子信息工程专业培养具备电子技术和信息系统的基础知识与基本技能，侧重“信息”方面的硬件电路设计与软件编程，主要从事各类电子成套设备、信号信息系统、电子信息工程方面的研发、设计、制造、应用与管理工作的高级工程技术人才。

毕业生可在邮电、通信、金融、电力、电子信息、计算机软件等领域的高新技术企业与科研院所，主要从事各类电子成套设备、信息系统、电子信息工程方面的研发、设计、制造、应用与管理等工作。

本科阶段主要学习电路分析、电子技术基础、C语言、信息理论与编码、高频电子技术、通信技术、自动检测技术、网络与办公自动化技术、多媒体技术、电子系统设计工艺、电子设计自动化（EDA）技术、信号与系统、数字信号处理（DSP）技术、模拟电路、数字电路、微机原理、单片机原理及应用、ARM嵌入式系统、自动控制、电磁场理论、传感器原理与应用、数字图像处理等课程。

微电子科学与工程——电子产品的脑细胞

微电子科学与工程是物理学、电子学、材料科学、计算机科学、集成电路设计制造学等多个学科和超净、超纯、超精细加工技术基础上发展起来的一门新兴学科。

微电子科学与工程专业是“电子科学与技术”的重要分支与热门应用，主要培养具有扎实的数学、物理基础，掌握微电子、电路与系统、集成电路领域宽厚的专业基础知识和基本实验技能，侧重微电子芯片类的研究与开发，能在微电子科学与工程领域，从事科研教学、技术开发、工程设计、生产管理等工作的高级专门人才。

毕业生可到微电子类集成电路制造企业、集成电路设计中心、数字通信与信息科学等行业，从事微电子科学与微电子芯片类的科研教学、技术开发、工程设计、生产管理等工作。

本科阶段主要学习电路分析基础及实验、模拟电路及实验、C++语言、数字电路及实验、信号与系统及实验、半导体物理及实验、固体电子学、微电子器件、微电子集成电路、系统芯片设计、集成电路设计与制造、电子设计自动化、集成电路CAD、微电子技术专业实验等课程。

光电信息科学与工程——微电子之后的技术领跑者

光电信息技术是由光学、光电子、微电子等技术结合而成的多学科综合技术，涉及光信息的辐射、传输、探测以及光电信息的转换、存储、处理与显示等众多的内容。

光电信息技术专业将光、电信息科学融为一体，着重培养具备光电信号获取、光通信、光电信息处理、光存储、光显示、光电信息应用等方面的基础知识、基础理论、基本技能，能在工农业生产、国防军工、生物医疗、环境监测、文化娱乐、科学研究等领域相关的行业与部门，侧重从事光电信息技术与系统相关产品的设计、制造、开发、应用、研究、教学、管理、营销等方面工作的复合型高级专门人才。

毕业生可在工农业生产、国防军工、生物医疗、环境监测、文化娱乐、科学研究等领域相关的行业与部门，侧重从事光电信息技术与系统相关产品的设计、制造、开发、应用、研究、教学、管理、营销等方面工作。

本科阶段主要学习电路原理、模拟电子技术、数字电子技术、通信原理、信号与系统、数字信号处理、微机原理及应用、单片机、软件技术基础、物理光学、应用光学、信息光学、光电信息工程、信息处理基础、光电检测技术、近代光学量测技术、传感器原理、激光技术、光纤通信、光电子学、数字图像处理等课程。

D. 高分请教！存储器方面

第二章企业信息的储存和处理
信息时代的核心无疑是信息技术，而信息技术的核心则在于信息的处理与存储。

2.1 数据表示
2.1.1 信息、数字和字符的表示
1．信息表示
存储数据的逻辑部件有两种状态，即高电位和低电位,分别与"1"和"0"相对应。在计算机中，如果一种电位状态表示一个信息单元，那么一位二进制数可以表示两个信息单元。若使用2位二进制数，则可以表示4个信息单元；使用3位二进制数，可以表示8个信息单元。二进制数的位数和可以表示的信息单元之间存在着幂次数的关系。也就是说，当用n位二进制数时，可表示的不同信息单元个数为2 个。

反之，如果有18个信息单元需要表示，那么应该用几位二进制数呢？若用4位二进制数，可表示的信息单元为16个；若用5位二进制数，可表示的信息为32个单元。所以要表示18个信息单元的数据，至少需要用5位二进制数。

计算机在存储数据时，常常把8位二进制数看作一个存储单元，或称为一个字节。用2 来计算存储容量，把（即1024）个存储单元称为1K字节；把 K（即1024 K）个存储单元称为1M字节；把 M（即1024M）个存储单元称为1G字节。

2．数字表示
通过二进制格式来存储十进制数字，也即存储数值型数据。表示一个数值型数据，需要解决三个问题。

首先，要确定数的长度。在数学中，数的长度一般指它用十进制表示时的位数，例如258为3位数、124578为6位数等。在计算机中，数的长度按二进制位数来计算。但由于计算机的存储容量常以字节为计量单位，所以数据长度也常按字节计算。需要指出的是，在数学中数的长度参差不一，有多少位就写多少位。在计算机中，如果数据的长度也随数而异，长短不齐，无论存储或处理都很不便。所以在同一计算机中，数据的长度常常是统一的，不足的部分用"0" 填充。

其次，数有正负之分。在计算机中，总是用最高位的二进制数表示数的符号，并约定以"0"代表正数，以"1"代表负数，称为数符；其余仍表示数值。通常，把在机器内存放的正负号数码化的数称为机器数，把机器外部由正负号表示的数称为真值数。若一个数占8位，真值数为(-0101100)B,其机器数为10101100，存放在机器中的见图2.1.1

图2.1.1 存放在机器中的数
机器数表示的范围受到字长和数据的类型的限制。字长和数据类型确定了，机器数能表示的范围也定了。例如，若表示一个整数，字长为8位，最大值01111111，最高位为符号位，因此此数的最大值为127。若数值超出127，就要"溢出"。

再者是小数点的表示。在计算机中表示数值型数据，小数点的位置总是隐含的，以便节省存储空间。隐含的小数点位置可以是固定的，也可以是可变的。前者称为定点数，后者称为浮点数。

1) 定点数表示方法：
定点整数，即小数点位置约定在最低数值位的后面，用于表示整数。

整数分为带符号和不带符号的两类。对于为带符号的整数，符号位放在最高位。整数表示的数是精确的，但数的范围是有限的。根据存放的字长，它们可以用8、16、32位等表示，各自表示数的范围见表2.1.1。
表2.1.1 不同位数和数的表示范围
二进制位数无符号整数的表示范围有符号整数的表示范围
8
16
32

如果把有符号整数的长度扩充为4字节，则整数表示范围可从±32767扩大到±2147483647≈0.21×1010，即21亿多。但每个数占用的存储空间也增加了一倍。

定点小数，即小数点位置约定在最高数值位的前面，用于表示小于1的纯小数。

如用定点数表示十进制纯小数－0.6876，则为－0.101100000000011…。数字-0.6876的二进制数为无限小数，故存储时只能截取前15位，第16位开始略去。

若2个字节长度用来表示定点小数，则最低位的权值为2－15（在10－4 ~10－5之间），即至多准确到小数点后的第4至第5位（按十进制计算）。这样的范围和精度，即使在一般应用中也难以满足需要。为了表示较大或较小的数，用浮点数表示。

2）浮点数表示方法：
在科学计算中，为了能表示特大或特小的数，采用"浮点数"或称"科学表示法"表示实数，"浮点数"由两部分组成，即尾数和阶码。例如，，则0.23456为尾数，5是阶码。

在浮点表示方法中，小数点的位置是浮动的，阶码可取不同的数值。为了便于计算机中小数点的表示，规定将浮点数写成规格化的形式，即尾数的绝对值大于等于0.1并且小于1，从而唯一规定了小数点的位置。尾数的长度将影响数的精度，其符号将决定数的符号。浮点数的阶码相当于数学中的指数，其大小将决定数的表示范围。

同样，任意二进制规格化浮点数的表示形式为：

其中是尾数，前面的" "表示数符；是阶码，前面的" "表示阶符。它在计算机内的存储形式如图2.1.2所示。

阶符阶码数符尾数
图2.1.2 浮点数的存储格式
例如，设尾数为8位，阶码为6位；则二进制数，浮点数的存放形式见图2.1.3。

图2.1.3 的存放
3）原码、反码和补码表示法
"原码"编码方式
以上介绍的定点和浮点表示，都是用数据的第一位表示数的符号，用其后的各位表示数（包括尾数与阶码）的绝对值。这种方法简明易懂，但因运算器既要能作加法，又要能作减法，操作数中既有正数，又有负数，所以原码运算时常伴随许多判断。例如两数相加，若符号不同，实际要做减法；两数相减，若符号相异，实际要做加法，等等。其结果是，增加运算器的复杂性，并增加运算的时间。

"补码"和"反码"编码方式
怎样处理负数？由此提出了"补码"、"反码"等编码方法.补码运算的主要优点，是通过对负数的适当处理，把减法转化为加法。不论求和求差，也不论操作数为正为负，运算时一律只做加法，从而大大简化加减运算。补码运算通常通过反码运算实现。所以对算术运算的完整讨论不仅应包括数值，还应该包括码制（原、反、补码等）。

3．字符表示：
字符编码是指用一系列的二进制数来表示非数值型数据（如字符、标点符号等）的方法，简称为编码。表示26个英文字母，用5个二进制位已足够表示26个字符了。但是，每个英文字母有大小写之分，还有大量的标点符号和其他一些特殊符号（如$、#、@、&、+等）。把所有的符号计算在一起，总共有95个不同的字符需要表示。使用最广泛的三种编码方式是ASCII、ANSI和EBCDIC码，第四种编码方式Unicode码正在发展中。

1） ASCII（American Standard Code for Information Interchange,美国信息交换标准码）是使用最广的。使用ASCII码编码的文件称为ASCII文件。标准的ASCII编码使用7个二进制数来表示128个符号，包括英文大小写字母、标点符号、数字和特殊控制符。

2） ANSI（American National Institute,美国国家标准协会）编码使用8位二进制数来表示每个字符。8个二进制数能表示256个信息单元，因此，该编码可以对256个字符、符号等进行编码。ANSI开始的128个字符的编码和ASCII定义的一样，只是在最高位上加个0。例如，在ASCII编码中，字符"A"表示为1000001，而在ANSI编码中，则用01000001表示。除了表示ASCII编码中的128个字符外，ANSI编码还有128个符号可以表示，如版权符、英镑符、外国语言字符等。

3）EBCDIC（Extended Binary-Coded Decimal Interchange Code,扩展二、十进制交换码）是IBM公司为它的大型机开发的8位字符编码。值得注意的是，在EBCDIC编码开始的128个字符中，EBCDIC的编码和ASCII或ANSI的编码并不相同。

总的来说，标准的ASCII编码定义的128个字符，对于表示数字、字符、标点符号和特殊字符来说是足够了。ANSI编码表示了所有的ASCII编码所表示的128个字符，并且还表示了欧洲语言中的字符。EBCDIC编码表示了标准的字符和控制代码。但是，没有一种编码方案支持可选的字符集，也不支持非字母组合起来的语言，如汉语、日语等。

4）Unicode编码是一组16位编码，可以表示超过65000个不同的信息单元。从原理上讲，Unicode可以表示现在正在使用的、或者已经不再使用的任何语言中的字符。对于国际商业和通信来说，这种编码方式是非常有用的，因为在一个文件中可能需要包含有汉语、日语、英语等不同的语种。并且，Unicode编码还适用于软件的本地化，即可以针对特定的国家修改软件。另外，使用Unicode编码，软件开发人员可以修改屏幕的提示、菜单和错误信息提示等，来适用于不同国家的语言文字。

2.1.2图像数据和视频数据的表示
两种非常不同的图形编码方式，即位图编码和矢量编码方式。两种编码方式的不同，影响到图像的质量、存储图像的空间大小、图像传送的时间和修改图像的难易程度。视频是图像数据的一种，由若干有联系的图像数据连续播放而形成。人们一般讲的视频信号为电视信号，是模拟量；而计算机视频信号则是数字量。

1．位图图像：
位图图像是以屏幕上的像素点位置来存储图像的。最简单的位图图像是单色图像。单色图像只有黑白两种颜色，如果某像素点上对应的图像单元为黑色，则在计算机中用0来表示；如果对应的是白色，则在计算机中用1来表示。

对于单色图像，用来表示满屏图像的图像单元数正好与屏幕的像素数相等。如果水平分辨率为640，垂直分辨率为480，将屏幕的水平分辨率与垂直分辨率相乘： 640×480=307200，则屏幕的像素数为307200个，因为单色图像使用一位二进制数来表示一个像素，所以存储一幅满屏的位图图像的字节数也就能计算出来： 307200÷8=38400，因此分辨率为640×480的满屏单色图像需要38400个字节来存储，这个存储空间不算大。但是单色图像看起来不太真实，很少使用。

灰度图像要比单色图像看起来更真实些。灰度图像用灰色按比例显示图像，使用的灰度级越多，图像看起来越真实。通常计算机用256级灰度来显示图像。在256级灰度图像中，每个像素可以是白色、黑色或灰度中256级中的任何一个，也就是说，每个像素有256种信息表示的可能性。所以在灰度图像中，存储一个像素的图像需要256个信息单元，即需要一个字节的存储空间。因此，一幅分辨率为640×480、满屏的灰度图像需要307200个字节的存储空间。

计算机可以使用16、256或1,670万种颜色来显示彩色图像，用户将会得到更为真实的图像。

16色的图像中，每个像素可以有16种颜色。那么为了表示16个不同的信息单元，每个像素需要4位二进制数来存储信息。因此，一幅满屏的16色位图图像需要的存储容量为153600个字节。

256色的位图图像，每个像素可以有256种颜色。为了表示256个不同的信息单元，每个像素需要8位二进制数来存储信息，即一个字节。因此，一幅满屏的256色位图图像需要的存储容量为307200个字节，是16色的两倍，与256级灰度图像相同。

1,670万色的位图图像称为24位图像或真彩色图像。其每个像素可以有1.670万种颜色。为了表示这1,670万种不同的信息单元，每个像素需要24位二进制数来存储信息，即3个字节。显然，一幅满屏的真彩色图像需要的存储容量更大。

包含图像的文件都很大，需要很大容量的存储器来存储，并且传输和下载的时间也很长。例如，从因特网上下载一幅分辨率为640×480的256色图像至少需要1分钟；一幅16色的图像需要一半的时间；而一幅真彩色图像则会需要更多的时间。

有两种技术可以用来减少图像的存储空间和传输时间，即数据压缩技术和图像抖动技术。数据压缩技术随后介绍，而图像抖动技术主要是采用减少图像中的颜色数来减小文件存储容量的。抖动技术是根据人眼对颜色和阴影的分辨率，通过由两个或多个颜色组成的模式产生附加的颜色和阴影来实现。例如，256色图像上的一片琥珀色区域，可以通过抖动技术转换为16色图像上的黄红色小点模式。在因特网的Web页面上，抖动技术是用来减少图像存储容量的常用技术。

位图图像常用来表现现实图像，其适合于表现比较细致、层次和色彩比较丰富、包含大量细节的图像。例如扫描的图像，摄像机、数字照相机拍摄的图像，戓帧捕捉设备获得的数字化帧画面。经常使用的位图图像文件扩展名有：.bmp、.pcx、.tif、.jpg和.gif等。

由像素矩阵组成的位图图像可以修改戓编辑单个像素，即可以使用位图软件（也称照片编辑软件戓绘画软件）来修改位图文件。可用来修改戓编辑位图图像的软件如：Microsoft Paint、 PC Paintbrush、Adobe Photoshop、Micrografx Picture Publisher等，这些软件能够将图片的局部区域放大，而后进行修改。

2．矢量图像
矢量图像是由一组存储在计算机中，描述点、线、面等大小形状及其位置、维数的指令组成，而不是真正的图像。它是通过读取这些指令并将其转换为屏幕上所显示的形状和颜色的方式来显示图像的，矢量图像看起来没有位图图像真实。用来生成矢量图像的软件通常称为绘图软件，如常用的有：Micrographx Designer和CorelDRAW。

矢量图像的优缺点
优点：
存储空间比位图图像小。矢量图像的存储空间依赖于图像的复杂性，每条指令都需要存储空间，所以图像中的线条、图形、填充模式越多，需要的存储空间越大。但总的来说，由于矢量图像存储的是指令，要比位图图像文件小得多。

矢量图像可以分别控制处理图中的各个部分，即把图像的一部分当作一个单独的对象，单独加以拉伸、缩小、变形、移动和删除，而整体图像不失真。不同的物体还可以在屏幕上重叠并保持各自的特性，必要时仍可分开。所以，矢量图像主要用于线性图画、工程制图及美术字等。经常使用的矢量图像文件扩展名有：.wmf、.dxf、.mgx和.cgm等。

缺点：
处理起来比较复杂，用矢量图格式表示一复杂图形需花费程序员和计算机的大量时间，比较费时，所以通常先用矢量图形创建复杂的图，再将其转换为位图图像来进行处理。

位图图像和矢量图像的比较：
显示位图图像要比显示矢量图像快，但位图图像所要求的存储空间大，因为它要指明屏幕上每一个像素的信息。总之，矢量图像的关键技术是图形的制作和再现，而位图图像的关键技术则是图像的扫描、编辑、无失真压缩、快速解压和色彩一致性再现等。

3．数字视频：
视频信息实际上是由许多幅单个画面所构成的。电影、电视通过快速播放每帧画面，再加上人眼的视觉滞留效应便产生了连续运动的效果。视频信号的数字化是指在一定时间内以一定的速度对单帧视频信号进行捕获、处理以生成数字信息的过程。

与模拟视频相比，数字视频的优点为：
1）数字视频可以无失真地进行无限次拷贝，而模拟视频信息每转录一次，就会有一次误差积累，产生信息失真。

2）可以用许多新方法对数字视频进行创造性的编辑，如字幕、电视特技等。

3）使用数字视频可以用较少的时间和费用创作出用于培训教育的交互节目，可以真正实现将视频融进计算机系统中以及可以实现用计算机播放电影节目等。

数字视频的缺点为：
因为数字视频是由一系列的帧组成，每个帧是一幅静止的图像，并且图像也使用位图文件形式表示。通常，视频每秒钟需要显示30帧，所以数字视频需要巨大的存储容量。

例如：一幅全屏的、分辨率为640×480的256色图像需要有307200字节的存储容量。那么一秒钟数字视频需要的存储空间是30乘上这个数，即9216000个字节，约为9兆。两小时的电影需要66 355 200 000个字节，超过66G字节。这样大概只有使用超级计算机才能播放。所以在存储和传输数字视频过程中必须使用压缩编码。

2.1.3 声音数据的表示
计算机可以记录、存储和播放声音。在计算机中声音可分成数字音频文件和MIDI文件。

1．数字音频
复杂的声波由许许多多具有不同振幅和频率的正弦波组成，这些连续的模拟量不能由计算机直接处理，必须将其数字化才能被计算机存储和处理

计算机获取声音信息的过程就是声音信号的数字化处理过程。经过数字化处理之后的数字声音信息能够像文字和图像信息一样被计算机存储和处理。模拟声音信号转化为数字音频信号的大致过程：

用数字方式记录声音，首先需对声波进行采样。声波采样前后波形如图2.1.4所示（其中横轴表示时间，纵轴表示振幅）：

图2.1.4 声波采样前后波形
采样频率指的是在采样声音的过程中，每秒钟对声音测量的次数。采样频率以Hz为单位。如果提高采样频率，单位时间内所得到的振幅值就多，也即采样频率越高，对原声音曲线的模拟就越精确。然后再把足够多的振幅值以同样的采样频率转换为电压值去驱动扬声器，则可听到和原波形一样的声音。这种技术称为脉冲编码调制技术（PCM）。

声音文件
存储在计算机上的声音文件的扩展名为：.wav，.mod，.au和.voc。要记录和播放声音文件，需要使用声音软件，声音软件通常都要使用声卡。

2．MIDI文件
乐器数字接口--MIDI（Musical Instrument Digital Interface），是电子乐器与计算机之间的连接界面和信息交流方式。MIDI格式的文件扩展名为.mid，通常把MIDI格式的文件简称为"MIDI文件"。

MIDI是数字音乐国际标准。数字式电子乐器的出现，为计算机处理音乐创造了极为有利的条件。MIDI声音与数字化波形声音完全不同，它不是对声波进行采样、量化和编码。它实际上是一串时序命令，用于纪录电子乐器键盘弹奏的信息，包括键、力度、时值长短等。这些信息称之为MIDI消息，是乐谱的一种数字式描述。当需要播放时，只需从相应的MIDI文件中读出MIDI消息，生成所需要的乐器声音波形，经放大后由扬声器输出。

MIDI文件的存储容量较数字音频文件小得多。如3分钟的MIDI音乐仅仅需要10KB的存储空间，而3分钟的数字音频信号音乐需要15MB的存储容量。

2.2 数据压缩
对数据重新进行编码，以减少所需要的存储空间。数据压缩必须是可逆的，也即压缩过的数据必须可以恢复成原状，其逆过程称为解压缩。
当数据压缩后，文件的大小变小了，可以用压缩比来衡量压缩的数量。例如，压缩比为20：1，表明压缩后的文件大小是原文件的1/20。压缩编码方法有无损压缩法（冗余压缩法）和有损压缩法。后者允许有一定程度的失真，可用于对图像、声音、数字视频等数据的压缩。其中用这种方法压缩数据时，数字视频图像的压缩比可达到100:1~200:1。

数据压缩可以由特殊的计算机硬件实现或完全由软件来实现，也可以软、硬件相结合的方法来实现。常用的压缩软件由Winzip等。

2.2.1文本文件压缩
自适应式替换压缩技术
扫描整个文本并且寻找两个或多个字节组成的模式。一旦发现一个新的模式，会用文件中其他地方没有用过的字节来代替这个模式，并在字典中加入一个入口。例如：有这样一段文本
"the rain in Spain stays mainly on the plain, but the rain in Maine falls again and again"

其中："the" 是一种模式，在文中出现3次，若用"#"来替换，可以压缩6个字节；"ain"出现8次，若用"@"来替换，可以压缩16个字节；"in" 出现2次，若用"$"来替换，可以压缩2个字节等。可见，文件越长，包含重复信息的可能越大，压缩比也越大。

扫描整个文档，并寻找重复的单词。当一个单词出现的次数多于一次时，那么从第二次及以后出现的该单词都会用一个数字来替换。这个数字称为原单词的指针。例如：上例中的文本可以压缩为："the rain in Spain stays mainly on #1 plain, but #1 #2 #3 Maine falls again and #16"可见，只压缩了6个字节，文件越大，单词重复的频率越高，因而压缩效果也越好。

2.2.2图象数据压缩
游程编码是针对于图形文件的压缩技术，它是一种寻找字节模式并用一个可以描述这个模式的消息进行替代的压缩技术。

例如：假设图像中有一个191个像素的白色区域，并且每个像素用一个字节来表示。经过游程编码压缩后，这串191个字节的数据被压缩成2个字节。

扩展名为.bmp的位图文件是没有压缩过的文件。扩展名为.tif、.pcx、.jpg的位图文件是已经压缩过的文件。以.tif为文件扩展名的文件使用的是TIFF（即带标志的图像文件格式）格式。以.pcx为文件扩展名的文件使用的是 PCX格式。以.jpg为文件扩展名的文件使用的是有损失的JPEG（Joint Photographic Experts Group，联合图像专家组）格式。人们往往对图像实行有损压缩。

2.2.3视频数据压缩
视频由一系列的帧组成，每一帧又是一幅位图图像，故视频文件需要巨大的存储容量。

人们通过减少每秒钟的播放帧数、减少视频窗口的大小或者只对每帧之间变化的内容进行编码等技术，来减少视频信号的存储容量。

数字视频常常采用的格式有：Video for Windows、QuickTime和MPEG格式，其文件的扩展名分别为：.avi、.mov、.mpg其中.mpg是一种压缩文件。MPEG格式可以将两个小时的视频信息压缩到几个GB。

视频压缩中还可以用运动补偿技术来减少存储容量。这种技术只存储每一帧之间变化的数据，而不需要存储每一帧中所有的数据。当某个视频片断每帧之间的变化不大时，用运动补偿技术非常有效。例如：一个说话人的头部，只有嘴和眼睛在变化，而背景却保持相当的稳定。此时计算机只需计算出两帧之间的差别，只存储改变的内容即可。根据数据的不同，运动补偿的压缩比可以达到200:1。另外，每秒钟的播放帧数直接影响到视频的播放质量。减小图像的大小也是一种有效的减少存储容量的好方法。一般可以综合以上几种压缩技术来达到减小视频文件存储容量的目的。

2.2.4 音频数据压缩
音频数据最突出的问题是信息量大。音频信息文件所需存储空间的计算公式为：

存储容量(字节)= 采样频率×采样精度/8×声道数×时间

例如：一段持续1分钟的双声道音乐，若采样频率为44.1KHz，采样精度为16位，数字化后需要的存储容量为：44.1×103×16/8×2×60=10.584MB 。

数字音频的编码必须具有压缩声音信息的能力，最常用的方法是自适应脉冲编码调制法，即ADPCM压缩编码。

ADPCM压缩编码方案信噪比高，数据压缩倍率达2~5倍而不会明显失真，因此，数字化声音信息大多使用这种压缩技术。

2.3 信息加工
中央处理单元通常指为完成基本信息处理循环部件的总和。中央处理单元是计算机系统硬件的核心，它主要包括中央处理器（Central Processing Unit,CPU）、内存储器（Memory）、系统总线（System Bus）和控制部件等，通过这些部件的协同动作完成对信息的处理。

2.3.1 CPU
CPU是计算机系统的核心部件，它的工作就是处理信息、完成计算。CPU的种类很多。微型机的CPU也被称为"微处理器"，是采用最先进技术生产的超大规模集成电路芯片。在这种芯片中通常集成了数百万计的晶体管电子元件，具有非常复杂的功能。比微型计算机性能更强的各种计算机，例如用于高性能网络服务器的计算机等，它们的CPU常常由一组高性能芯片构成，具有更强的计算能力。此外在各种现代化设备，例如各种机器设备、仪器、交通工具等内部都安装有所谓"嵌入式"的CPU芯片，几乎所有的高档电器内部也都装备了一片甚至几片CPU芯片。

2.3.2 内存储器
内存储器又称为主存储器（Main Memory）,简称为内存或主存。内存是计算机工作中用于保存信息的主要部件，在一个计算机系统中起着极为重要的作用，它的工作速度和存储容量对系统的整体性能、对系统解决问题的规模和效能影响都非常大。对于内存储器，除了容量以外，另一个重要的性能指标就是它的访问速度。内存速度用进行一次读或写操作所花费的"访问时间"来衡量。

内存储器的基本存储单位称为存储单元，今天的计算机内存小存储器单元的结构模式，每个单元正好存储一个字节的信息（8位二进制代码）。每个单元对应了一个唯一的编号，由此形成的单元编号称为存储单元的地址。计算机中央处理单元中的各部件通过一条公共信息通路连接，这条信息通路称为系统总线。CPU和内存之间的信息交换是通过数据总线和地址总线进行的。内存是按照地址访问的，给出即可得到存储在具有这个地址的内存单元里的信息。CPU可以随即访问任何内存单元的信息。且访问时间的长短不依赖所访问的地址。

2.3.3 指令和程序
CPU的基本功能由它所提供的指令确定。当CPU得到一条指令以后，控制单元就解释这条指令，指挥其他部件完成这条指令。虽然有很多不同的CPU，但它们的基本指令具有共同性。CPU的基本指令主要包括以下几大类：

1）存储器访问类指令

2）算术运算和逻辑运算类指令

3）条件判断和逻辑运算类指令

4）输入输出指令

5）控制和系统指令

指令也是在计算机里存在并需要在计算机里传输的一类信息，所以指令也必须采用二进制方式编码，以二进制形式在计算机里保存和传输。当CPU得到一条指令以后，控制单元就解释这条指令，指挥其他部件完成这条指令。

所谓"程序"就是为完成某种特定工作而实现的、由一系列计算机指令构成的序列。简单的说，程序就是指令的序列。一种具体的计算机的程序就是这种计算机的CPU能够执行的指令作为基本元素构成的序列。程序也可以看作是被计算机的CPU处理的一类信息，它实际上是被CPU的控制单元处理的，而不象一般数据那样被CPU的运算部件处理和使用。计算机基本工作循环由两个基本步骤组成：一个是取指令，另一个是执行指令。程序控制器是实现这个基本循环的主体。

人们在分析了在程序中需要实现的各种计算过程的需要之后，提出了程序的三种基本逻辑结构，称为程序的三种"基本控制结构"，即"顺序结构"、"分支结构"和"循环结构"，已经在理论上证明了这三种结构的能力是充分的，任何程序都能仅仅用这三种结构构造起来。三种基本控

E. 大数据存储与应用特点及技术路线分析

大数据存储与应用特点及技术路线分析

大数据时代，数据呈爆炸式增长。从存储服务的发展趋势来看，一方面，对数据的存储量的需求越来越大；另一方面，对数据的有效管理提出了更高的要求。大数据对存储设备的容量、读写性能、可靠性、扩展性等都提出了更高的要求，需要充分考虑功能集成度、数据安全性、数据稳定性，系统可扩展性、性能及成本各方面因素。

大数据存储与应用的特点分析

“大数据”是由数量巨大、结构复杂、类型众多数据构成的数据集合，是基于云计算的数据处理与应用模式，通过数据的整合共享，交叉复用形成的智力资源和知识服务能力。其常见特点可以概括为3V:Volume、Velocity、Variety(规模大、速度快、多样性)。

大数据具有数据规模大(Volume)且增长速度快的特性，其数据规模已经从PB级别增长到EB级别，并且仍在不断地根据实际应用的需求和企业的再发展继续扩容，飞速向着ZB(ZETA-BYTE)的规模进军。以国内最大的电子商务企业淘宝为例，根据淘宝网的数据显示，至2011年底，淘宝网最高单日独立用户访问量超过1.2亿人，比2010年同期增长120%,注册用户数量超过4亿，在线商品数量达到8亿，页面浏览量达到20亿规模，淘宝网每天产生4亿条产品信息，每天活跃数据量已经超过50TB.所以大数据的存储或者处理系统不仅能够满足当前数据规模需求，更需要有很强的可扩展性以满足快速增长的需求。

(1)大数据的存储及处理不仅在于规模之大，更加要求其传输及处理的响应速度快(Velocity)。

相对于以往较小规模的数据处理，在数据中心处理大规模数据时，需要服务集群有很高的吞吐量才能够让巨量的数据在应用开发人员“可接受”的时间内完成任务。这不仅是对于各种应用层面的计算性能要求，更加是对大数据存储管理系统的读写吞吐量的要求。例如个人用户在网站选购自己感兴趣的货物，网站则根据用户的购买或者浏览网页行为实时进行相关广告的推荐，这需要应用的实时反馈;又例如电子商务网站的数据分析师根据购物者在当季搜索较为热门的关键词，为商家提供推荐的货物关键字，面对每日上亿的访问记录要求机器学习算法在几天内给出较为准确的推荐，否则就丢失了其失效性；更或者是出租车行驶在城市的道路上，通过GPS反馈的信息及监控设备实时路况信息，大数据处理系统需要不断地给出较为便捷路径的选择。这些都要求大数据的应用层可以最快的速度，最高的带宽从存储介质中获得相关海量的数据。另外一方面，海量数据存储管理系统与传统的数据库管理系统，或者基于磁带的备份系统之间也在发生数据交换，虽然这种交换实时性不高可以离线完成，但是由于数据规模的庞大，较低的数据传输带宽也会降低数据传输的效率，而造成数据迁移瓶颈。因此大数据的存储与处理的速度或是带宽是其性能上的重要指标。

(2)大数据由于其来源的不同，具有数据多样性的特点。

所谓多样性，一是指数据结构化程度，二是指存储格式，三是存储介质多样性。对于传统的数据库，其存储的数据都是结构化数据，格式规整，相反大数据来源于日志、历史数据、用户行为记录等等，有的是结构化数据，而更多的是半结构化或者非结构化数据，这也正是传统数据库存储技术无法适应大数据存储的重要原因之一。所谓存储格式，也正是由于其数据来源不同，应用算法繁多，数据结构化程度不同，其格式也多种多样。例如有的是以文本文件格式存储，有的则是网页文件，有的是一些被序列化后的比特流文件等等。所谓存储介质多样性是指硬件的兼容，大数据应用需要满足不同的响应速度需求，因此其数据管理提倡分层管理机制，例如较为实时或者流数据的响应可以直接从内存或者Flash(SSD)中存取，而离线的批处理可以建立在带有多块磁盘的存储服务器上，有的可以存放在传统的SAN或者NAS网络存储设备上，而备份数据甚至可以存放在磁带机上。因而大数据的存储或者处理系统必须对多种数据及软硬件平台有较好的兼容性来适应各种应用算法或者数据提取转换与加载(ETL)。

大数据存储技术路线最典型的共有三种：

第一种是采用MPP架构的新型数据库集群，重点面向行业大数据，采用Shared Nothing架构，通过列存储、粗粒度索引等多项大数据处理技术，再结合MPP架构高效的分布式计算模式，完成对分析类应用的支撑，运行环境多为低成本 PC Server，具有高性能和高扩展性的特点，在企业分析类应用领域获得极其广泛的应用。

这类MPP产品可以有效支撑PB级别的结构化数据分析，这是传统数据库技术无法胜任的。对于企业新一代的数据仓库和结构化数据分析，目前最佳选择是MPP数据库。

第二种是基于Hadoop的技术扩展和封装，围绕Hadoop衍生出相关的大数据技术，应对传统关系型数据库较难处理的数据和场景，例如针对非结构化数据的存储和计算等，充分利用Hadoop开源的优势，伴随相关技术的不断进步，其应用场景也将逐步扩大，目前最为典型的应用场景就是通过扩展和封装 Hadoop来实现对互联网大数据存储、分析的支撑。这里面有几十种NoSQL技术，也在进一步的细分。对于非结构、半结构化数据处理、复杂的ETL流程、复杂的数据挖掘和计算模型，Hadoop平台更擅长。

第三种是大数据一体机，这是一种专为大数据的分析处理而设计的软、硬件结合的产品，由一组集成的服务器、存储设备、操作系统、数据库管理系统以及为数据查询、处理、分析用途而特别预先安装及优化的软件组成，高性能大数据一体机具有良好的稳定性和纵向扩展性。

以上是小编为大家分享的关于大数据存储与应用特点及技术路线分析的相关内容，更多信息可以关注环球青藤分享更多干货

F. 大数据采集与存储的基本步骤有哪些

数据抽取

针对大数据分析平台需要采集的各类数据，分别有针对性地研制适配接口。对于已有的信息系统，研发对应的接口模块与各信息系统对接，不能实现数据共享接口的系统通过ETL工具进行数据采集，支持多种类型数据库，按照相应规范对数据进行清洗转换，从而实现数据的统一存储管理。

数据预处理

为使大数据分析平台能更方便对数据进行处理，同时为了使得数据的存储机制扩展性、容错性更好，需要把数据按照相应关联性进行组合，并将数据转化为文本格式，作为文件存储下来。

数据存储

除了Hadoop中已广泛应用于数据存储的HDFS，常用的还有分布式、面向列的开源数据库Hbase，HBase是一种key/value系统，部署在HDFS上，与Hadoop一样，HBase的目标主要是依赖横向扩展，通过不断的增加廉价的商用服务器，增加计算和存储能力。

关于大数据采集与存储的基本步骤有哪些，青藤小编就和您分享到这里了。如果您对大数据工程有浓厚的兴趣，希望这篇文章可以为您提供帮助。如果您还想了解更多关于数据分析师、大数据工程师的技巧及素材等内容，可以点击本站的其他文章进行学习。

存储与处理工程

与存储与处理工程相关的内容