存儲與處理工程_大數據存儲與應用特點及技術路線分析

A. 存儲器的主要功能是什麼為什麼要把存儲系統分成若干個不同層次

一、存儲器的主要功能：

1、隨機存取存儲器（RAM）。

2、只讀存儲器（ROM）。

3、快閃記憶體（Flash Memory）。

4、先進先出存儲器（FIFO）。

5、先進後出存儲器（FILO）。

二、存儲器分為若干個層次主要原因：

1、合理解決速度與成本的矛盾，以得到較高的性能價格比。

磁碟存儲器價格較便宜，可以把容量做得很大，但存取速度較慢，因此用作存取次數較少，且需存放大量程序、原始數據（許多程序和數據是暫時不參加運算的）和運行結果的外存儲器。

2、使用磁碟作為外存，不僅價格便宜，可以把存儲容量做得很大，而且在斷電時它所存放的信息也不丟失，可以長久保存，且復制、攜帶都很方便。

(1)存儲與處理工程擴展閱讀：

存儲器可做處理器，未來裝置有望更加輕薄短小：

有一群跨國研究團隊做了實驗，並真的成功運用存儲器執行一般電腦晶元的運算任務，倘若技術成熟，將有望使手機與電腦等裝置更加輕薄。

新加坡南洋理工大學、德國亞琛阿亨工業大學和歐洲最大的跨學科研究中心德國尤利希研究中心組成的研究團隊發現，在調整演演算法後，存儲器能如英特爾、高通等傳統處理器一般，進行運算處理。

目前市面上的裝置或電腦都是透過CPU從存儲器提取資訊進行運算處理，以二進制0跟1來實現指令，如字母A是用「01000001」這樣8位元的形式來處理或紀錄。而存儲器ReRAM透過不同電阻態代表0或1的數據狀態儲存資訊，其實還可實現更高基數的數據狀態記錄。

研究團隊就將ReRAM原型（prototype）調整為0、1、2的三進制，透過這樣的高基數運算系統可加速運算任務，並於存儲器就可進行邏輯運算。也節省了處理器與存儲器間數據傳輸的時間與功耗的消耗。

研究參與人之一、南洋理工大學資訊工程學系助理教授Chattopadhyay解釋，這就像一段很長的會話卻只用一個極小的翻譯器來轉換，是一段耗時且費力的過程，團隊所做的就是增加這個小型翻譯器的處理容量，使其能更有效的處理數據。

B. 大數據對存儲平台有哪些特殊要求

伴隨著安防大數據時代的來臨，安防行業原有的存儲技術已經無法滿足行業發展新需求，尤其是公共安全視頻監控建設聯網應用工作對數據聯網共享提出了更高的要求，同時以「實戰」為根本的公安業務中，大數據深度挖掘極度依賴數據存儲系統對非結構化數據分析再處理。雲存儲技術的出現，在安防行業大數據發展時代無異於革命性的應用，不斷地解決了安防存儲難題，同時也為視頻監控的深度應用與發展提供強大的驅動力。

當今世界，每個人的一言一行都在產生著數據，並且被記錄著。各行各業爆炸式增長的數據，正推動人類進入大數據時代。根據相關統計，2017年全球的數據總量為21.6ZB，目前全球數據的增長速度在每年40%左右，預計到2020年全球的數據總量將達到40ZB。數據增長在安防行業表現得尤為明顯，在近兩年「平安城市」、「智能交通」、「雪亮工程」等不斷開展和深入的過程中，以視頻監控為核心代表的行業發展正朝著超高清、智能化和融合應用的方向邁進，系統性工程中現有視頻監控系統數據採集量正在呈線性增長。海量數據的出現對高效、及時的存儲和處理的要求不斷提升。

從目前行業來看，大數據時代的到來，系統性工程中視頻監控系統對存儲主要有以下幾方面的需求：

一是海量數據及時高效存儲，根據現行的技防法規及標准，一般應用領域視頻監控系統數據採集是7x24小時不間斷的，系統採集的音視頻信息資料留存時限不得少於30日，針對案(事)件信息以及一些特殊應用領域視音頻資料存放時間更長，甚至長期保留，數據量隨時間增加呈線性增長。

二是監控數據存儲系統需要具備可擴展性，不但滿足海量數據持續增加，還需要滿足採集更高解析度或更多採集點的數據需要。

三是對存儲系統的性能要求高。與其他領域不同，視頻監控主要是視頻碼流的存儲，在多路並發存儲的情況下，對帶寬、數據能力、緩存等都有很高的要求，需要有專門針對視頻性能的優化處理。

四是大數據應用需要數據存儲的集中管理分析。但現實情況卻恰恰相反，一方面是系統性工程在分期建設的過程中，采購的設備並不能保證為同一品牌，實際項目中多種品牌、多種型號比比皆是，給視頻監控的存儲集中管理帶來很大難度。同時，在一些大型的項目中，例如特大城市「天網工程」，高速公路中道路監控所跨區域較大，集中存儲較為困難。另外，受網路帶寬及老舊設備影響，系統難以形成統一存儲、統一監控的中心體系架構，導致數據在應用中調取不及時。

總體來看，隨著系統性安防項目的深入開展以及物聯網建設初露崢嶸，大規模聯網監控的建設和高清監控的逐步普及，海量視頻數據已經呈現井噴式地增長，並沖擊著傳統的存儲系統，遺憾的是原有的存儲系統無法滿足大數據時代提出的新要求，亟需新的存儲技術支撐現有業務模式，同時為人工智慧技術在安防領域施展拳腳拓展新的空間。

C. 晶元行業需要什麼專業

晶元行業，屬於高端科技行業，目前我國晶元產業還有很大的發展空間，相信很多人也關注到這個產業的現狀。近年來，國家也在大力培養晶元人才，推進晶元自主研發進程，這給很多有夢想的考生提供了一個大學專業方向。
晶元」其實應該算是大部分電子信息類專業會涉及到的一個研究領域。如果要從中挑出最對口的話，應當是下面這幾個了：

電子信息工程——研究信息的獲取與處理

電子信息工程主要研究信息的獲取與處理，電子設備與信息系統的設計、開發、應用和集成。是集現代電子技術、信息技術、通信技術於一體的專業。

電子信息工程專業培養具備電子技術和信息系統的基礎知識與基本技能，側重「信息」方面的硬體電路設計與軟體編程，主要從事各類電子成套設備、信號信息系統、電子信息工程方面的研發、設計、製造、應用與管理工作的高級工程技術人才。

畢業生可在郵電、通信、金融、電力、電子信息、計算機軟體等領域的高新技術企業與科研院所，主要從事各類電子成套設備、信息系統、電子信息工程方面的研發、設計、製造、應用與管理等工作。

本科階段主要學習電路分析、電子技術基礎、C語言、信息理論與編碼、高頻電子技術、通信技術、自動檢測技術、網路與辦公自動化技術、多媒體技術、電子系統設計工藝、電子設計自動化（EDA）技術、信號與系統、數字信號處理（DSP）技術、模擬電路、數字電路、微機原理、單片機原理及應用、ARM嵌入式系統、自動控制、電磁場理論、感測器原理與應用、數字圖像處理等課程。

微電子科學與工程——電子產品的腦細胞

微電子科學與工程是物理學、電子學、材料科學、計算機科學、集成電路設計製造學等多個學科和超凈、超純、超精細加工技術基礎上發展起來的一門新興學科。

微電子科學與工程專業是「電子科學與技術」的重要分支與熱門應用，主要培養具有扎實的數學、物理基礎，掌握微電子、電路與系統、集成電路領域寬厚的專業基礎知識和基本實驗技能，側重微電子晶元類的研究與開發，能在微電子科學與工程領域，從事科研教學、技術開發、工程設計、生產管理等工作的高級專門人才。

畢業生可到微電子類集成電路製造企業、集成電路設計中心、數字通信與信息科學等行業，從事微電子科學與微電子晶元類的科研教學、技術開發、工程設計、生產管理等工作。

本科階段主要學習電路分析基礎及實驗、模擬電路及實驗、C++語言、數字電路及實驗、信號與系統及實驗、半導體物理及實驗、固體電子學、微電子器件、微電子集成電路、系統晶元設計、集成電路設計與製造、電子設計自動化、集成電路CAD、微電子技術專業實驗等課程。

光電信息科學與工程——微電子之後的技術領跑者

光電信息技術是由光學、光電子、微電子等技術結合而成的多學科綜合技術，涉及光信息的輻射、傳輸、探測以及光電信息的轉換、存儲、處理與顯示等眾多的內容。

光電信息技術專業將光、電信息科學融為一體，著重培養具備光電信號獲取、光通信、光電信息處理、光存儲、光顯示、光電信息應用等方面的基礎知識、基礎理論、基本技能，能在工農業生產、國防軍工、生物醫療、環境監測、文化娛樂、科學研究等領域相關的行業與部門，側重從事光電信息技術與系統相關產品的設計、製造、開發、應用、研究、教學、管理、營銷等方面工作的復合型高級專門人才。

畢業生可在工農業生產、國防軍工、生物醫療、環境監測、文化娛樂、科學研究等領域相關的行業與部門，側重從事光電信息技術與系統相關產品的設計、製造、開發、應用、研究、教學、管理、營銷等方面工作。

本科階段主要學習電路原理、模擬電子技術、數字電子技術、通信原理、信號與系統、數字信號處理、微機原理及應用、單片機、軟體技術基礎、物理光學、應用光學、信息光學、光電信息工程、信息處理基礎、光電檢測技術、近代光學量測技術、感測器原理、激光技術、光纖通信、光電子學、數字圖像處理等課程。

D. 高分請教！存儲器方面

第二章企業信息的儲存和處理
信息時代的核心無疑是信息技術，而信息技術的核心則在於信息的處理與存儲。

2.1 數據表示
2.1.1 信息、數字和字元的表示
1．信息表示
存儲數據的邏輯部件有兩種狀態，即高電位和低電位,分別與"1"和"0"相對應。在計算機中，如果一種電位狀態表示一個信息單元，那麼一位二進制數可以表示兩個信息單元。若使用2位二進制數，則可以表示4個信息單元；使用3位二進制數，可以表示8個信息單元。二進制數的位數和可以表示的信息單元之間存在著冪次數的關系。也就是說，當用n位二進制數時，可表示的不同信息單元個數為2 個。

反之，如果有18個信息單元需要表示，那麼應該用幾位二進制數呢？若用4位二進制數，可表示的信息單元為16個；若用5位二進制數，可表示的信息為32個單元。所以要表示18個信息單元的數據，至少需要用5位二進制數。

計算機在存儲數據時，常常把8位二進制數看作一個存儲單元，或稱為一個位元組。用2 來計算存儲容量，把（即1024）個存儲單元稱為1K位元組；把 K（即1024 K）個存儲單元稱為1M位元組；把 M（即1024M）個存儲單元稱為1G位元組。

2．數字表示
通過二進制格式來存儲十進制數字，也即存儲數值型數據。表示一個數值型數據，需要解決三個問題。

首先，要確定數的長度。在數學中，數的長度一般指它用十進製表示時的位數，例如258為3位數、124578為6位數等。在計算機中，數的長度按二進制位數來計算。但由於計算機的存儲容量常以位元組為計量單位，所以數據長度也常按位元組計算。需要指出的是，在數學中數的長度參差不一，有多少位就寫多少位。在計算機中，如果數據的長度也隨數而異，長短不齊，無論存儲或處理都很不便。所以在同一計算機中，數據的長度常常是統一的，不足的部分用"0" 填充。

其次，數有正負之分。在計算機中，總是用最高位的二進制數表示數的符號，並約定以"0"代表正數，以"1"代表負數，稱為數符；其餘仍表示數值。通常，把在機器內存放的正負號數碼化的數稱為機器數，把機器外部由正負號表示的數稱為真值數。若一個數佔8位，真值數為(-0101100)B,其機器數為10101100，存放在機器中的見圖2.1.1

圖2.1.1 存放在機器中的數
機器數表示的范圍受到字長和數據的類型的限制。字長和數據類型確定了，機器數能表示的范圍也定了。例如，若表示一個整數，字長為8位，最大值01111111，最高位為符號位，因此此數的最大值為127。若數值超出127，就要"溢出"。

再者是小數點的表示。在計算機中表示數值型數據，小數點的位置總是隱含的，以便節省存儲空間。隱含的小數點位置可以是固定的，也可以是可變的。前者稱為定點數，後者稱為浮點數。

1) 定點數表示方法：
定點整數，即小數點位置約定在最低數值位的後面，用於表示整數。

整數分為帶符號和不帶符號的兩類。對於為帶符號的整數，符號位放在最高位。整數表示的數是精確的，但數的范圍是有限的。根據存放的字長，它們可以用8、16、32位等表示，各自表示數的范圍見表2.1.1。
表2.1.1 不同位數和數的表示範圍
二進制位數無符號整數的表示範圍有符號整數的表示範圍
8
16
32

如果把有符號整數的長度擴充為4位元組，則整數表示範圍可從±32767擴大到±2147483647≈0.21×1010，即21億多。但每個數佔用的存儲空間也增加了一倍。

定點小數，即小數點位置約定在最高數值位的前面，用於表示小於1的純小數。

如用定點數表示十進制純小數－0.6876，則為－0.101100000000011…。數字-0.6876的二進制數為無限小數，故存儲時只能截取前15位，第16位開始略去。

若2個位元組長度用來表示定點小數，則最低位的權值為2－15（在10－4 ~10－5之間），即至多准確到小數點後的第4至第5位（按十進制計算）。這樣的范圍和精度，即使在一般應用中也難以滿足需要。為了表示較大或較小的數，用浮點數表示。

2）浮點數表示方法：
在科學計算中，為了能表示特大或特小的數，採用"浮點數"或稱"科學表示法"表示實數，"浮點數"由兩部分組成，即尾數和階碼。例如，，則0.23456為尾數，5是階碼。

在浮點表示方法中，小數點的位置是浮動的，階碼可取不同的數值。為了便於計算機中小數點的表示，規定將浮點數寫成規格化的形式，即尾數的絕對值大於等於0.1並且小於1，從而唯一規定了小數點的位置。尾數的長度將影響數的精度，其符號將決定數的符號。浮點數的階碼相當於數學中的指數，其大小將決定數的表示範圍。

同樣，任意二進制規格化浮點數的表示形式為：

其中是尾數，前面的" "表示數符；是階碼，前面的" "表示階符。它在計算機內的存儲形式如圖2.1.2所示。

階符階碼數符尾數
圖2.1.2 浮點數的存儲格式
例如，設尾數為8位，階碼為6位；則二進制數，浮點數的存放形式見圖2.1.3。

圖2.1.3 的存放
3）原碼、反碼和補碼表示法
"原碼"編碼方式
以上介紹的定點和浮點表示，都是用數據的第一位表示數的符號，用其後的各位表示數（包括尾數與階碼）的絕對值。這種方法簡明易懂，但因運算器既要能作加法，又要能作減法，操作數中既有正數，又有負數，所以原碼運算時常伴隨許多判斷。例如兩數相加，若符號不同，實際要做減法；兩數相減，若符號相異，實際要做加法，等等。其結果是，增加運算器的復雜性，並增加運算的時間。

"補碼"和"反碼"編碼方式
怎樣處理負數？由此提出了"補碼"、"反碼"等編碼方法.補碼運算的主要優點，是通過對負數的適當處理，把減法轉化為加法。不論求和求差，也不論操作數為正為負，運算時一律只做加法，從而大大簡化加減運算。補碼運算通常通過反碼運算實現。所以對算術運算的完整討論不僅應包括數值，還應該包括碼制（原、反、補碼等）。

3．字元表示：
字元編碼是指用一系列的二進制數來表示非數值型數據（如字元、標點符號等）的方法，簡稱為編碼。表示26個英文字母，用5個二進制位已足夠表示26個字元了。但是，每個英文字母有大小寫之分，還有大量的標點符號和其他一些特殊符號（如$、#、@、&、+等）。把所有的符號計算在一起，總共有95個不同的字元需要表示。使用最廣泛的三種編碼方式是ASCII、ANSI和EBCDIC碼，第四種編碼方式Unicode碼正在發展中。

1） ASCII（American Standard Code for Information Interchange,美國信息交換標准碼）是使用最廣的。使用ASCII碼編碼的文件稱為ASCII文件。標準的ASCII編碼使用7個二進制數來表示128個符號，包括英文大小寫字母、標點符號、數字和特殊控制符。

2） ANSI（American National Institute,美國國家標准協會）編碼使用8位二進制數來表示每個字元。8個二進制數能表示256個信息單元，因此，該編碼可以對256個字元、符號等進行編碼。ANSI開始的128個字元的編碼和ASCII定義的一樣，只是在最高位上加個0。例如，在ASCII編碼中，字元"A"表示為1000001，而在ANSI編碼中，則用01000001表示。除了表示ASCII編碼中的128個字元外，ANSI編碼還有128個符號可以表示，如版權符、英鎊符、外國語言字元等。

3）EBCDIC（Extended Binary-Coded Decimal Interchange Code,擴展二、十進制交換碼）是IBM公司為它的大型機開發的8位字元編碼。值得注意的是，在EBCDIC編碼開始的128個字元中，EBCDIC的編碼和ASCII或ANSI的編碼並不相同。

總的來說，標準的ASCII編碼定義的128個字元，對於表示數字、字元、標點符號和特殊字元來說是足夠了。ANSI編碼表示了所有的ASCII編碼所表示的128個字元，並且還表示了歐洲語言中的字元。EBCDIC編碼表示了標準的字元和控制代碼。但是，沒有一種編碼方案支持可選的字元集，也不支持非字母組合起來的語言，如漢語、日語等。

4）Unicode編碼是一組16位編碼，可以表示超過65000個不同的信息單元。從原理上講，Unicode可以表示現在正在使用的、或者已經不再使用的任何語言中的字元。對於國際商業和通信來說，這種編碼方式是非常有用的，因為在一個文件中可能需要包含有漢語、日語、英語等不同的語種。並且，Unicode編碼還適用於軟體的本地化，即可以針對特定的國家修改軟體。另外，使用Unicode編碼，軟體開發人員可以修改屏幕的提示、菜單和錯誤信息提示等，來適用於不同國家的語言文字。

2.1.2圖像數據和視頻數據的表示
兩種非常不同的圖形編碼方式，即點陣圖編碼和矢量編碼方式。兩種編碼方式的不同，影響到圖像的質量、存儲圖像的空間大小、圖像傳送的時間和修改圖像的難易程度。視頻是圖像數據的一種，由若干有聯系的圖像數據連續播放而形成。人們一般講的視頻信號為電視信號，是模擬量；而計算機視頻信號則是數字量。

1．點陣圖圖像：
點陣圖圖像是以屏幕上的像素點位置來存儲圖像的。最簡單的點陣圖圖像是單色圖像。單色圖像只有黑白兩種顏色，如果某像素點上對應的圖像單元為黑色，則在計算機中用0來表示；如果對應的是白色，則在計算機中用1來表示。

對於單色圖像，用來表示滿屏圖像的圖像單元數正好與屏幕的像素數相等。如果水平解析度為640，垂直解析度為480，將屏幕的水平解析度與垂直解析度相乘： 640×480=307200，則屏幕的像素數為307200個，因為單色圖像使用一位二進制數來表示一個像素，所以存儲一幅滿屏的點陣圖圖像的位元組數也就能計算出來： 307200÷8=38400，因此解析度為640×480的滿屏單色圖像需要38400個位元組來存儲，這個存儲空間不算大。但是單色圖像看起來不太真實，很少使用。

灰度圖像要比單色圖像看起來更真實些。灰度圖像用灰色按比例顯示圖像，使用的灰度級越多，圖像看起來越真實。通常計算機用256級灰度來顯示圖像。在256級灰度圖像中，每個像素可以是白色、黑色或灰度中256級中的任何一個，也就是說，每個像素有256種信息表示的可能性。所以在灰度圖像中，存儲一個像素的圖像需要256個信息單元，即需要一個位元組的存儲空間。因此，一幅解析度為640×480、滿屏的灰度圖像需要307200個位元組的存儲空間。

計算機可以使用16、256或1,670萬種顏色來顯示彩色圖像，用戶將會得到更為真實的圖像。

16色的圖像中，每個像素可以有16種顏色。那麼為了表示16個不同的信息單元，每個像素需要4位二進制數來存儲信息。因此，一幅滿屏的16色點陣圖圖像需要的存儲容量為153600個位元組。

256色的點陣圖圖像，每個像素可以有256種顏色。為了表示256個不同的信息單元，每個像素需要8位二進制數來存儲信息，即一個位元組。因此，一幅滿屏的256色點陣圖圖像需要的存儲容量為307200個位元組，是16色的兩倍，與256級灰度圖像相同。

1,670萬色的點陣圖圖像稱為24點陣圖像或真彩色圖像。其每個像素可以有1.670萬種顏色。為了表示這1,670萬種不同的信息單元，每個像素需要24位二進制數來存儲信息，即3個位元組。顯然，一幅滿屏的真彩色圖像需要的存儲容量更大。

包含圖像的文件都很大，需要很大容量的存儲器來存儲，並且傳輸和下載的時間也很長。例如，從網際網路上下載一幅解析度為640×480的256色圖像至少需要1分鍾；一幅16色的圖像需要一半的時間；而一幅真彩色圖像則會需要更多的時間。

有兩種技術可以用來減少圖像的存儲空間和傳輸時間，即數據壓縮技術和圖像抖動技術。數據壓縮技術隨後介紹，而圖像抖動技術主要是採用減少圖像中的顏色數來減小文件存儲容量的。抖動技術是根據人眼對顏色和陰影的解析度，通過由兩個或多個顏色組成的模式產生附加的顏色和陰影來實現。例如，256色圖像上的一片琥珀色區域，可以通過抖動技術轉換為16色圖像上的黃紅色小點模式。在網際網路的Web頁面上，抖動技術是用來減少圖像存儲容量的常用技術。

點陣圖圖像常用來表現現實圖像，其適合於表現比較細致、層次和色彩比較豐富、包含大量細節的圖像。例如掃描的圖像，攝像機、數字照相機拍攝的圖像，戓幀捕捉設備獲得的數字化幀畫面。經常使用的點陣圖圖像文件擴展名有：.bmp、.pcx、.tif、.jpg和.gif等。

由像素矩陣組成的點陣圖圖像可以修改戓編輯單個像素，即可以使用點陣圖軟體（也稱照片編輯軟體戓繪畫軟體）來修改點陣圖文件。可用來修改戓編輯點陣圖圖像的軟體如：Microsoft Paint、 PC Paintbrush、Adobe Photoshop、Micrografx Picture Publisher等，這些軟體能夠將圖片的局部區域放大，而後進行修改。

2．矢量圖像
矢量圖像是由一組存儲在計算機中，描述點、線、面等大小形狀及其位置、維數的指令組成，而不是真正的圖像。它是通過讀取這些指令並將其轉換為屏幕上所顯示的形狀和顏色的方式來顯示圖像的，矢量圖像看起來沒有點陣圖圖像真實。用來生成矢量圖像的軟體通常稱為繪圖軟體，如常用的有：Micrographx Designer和CorelDRAW。

矢量圖像的優缺點
優點：
存儲空間比點陣圖圖像小。矢量圖像的存儲空間依賴於圖像的復雜性，每條指令都需要存儲空間，所以圖像中的線條、圖形、填充模式越多，需要的存儲空間越大。但總的來說，由於矢量圖像存儲的是指令，要比點陣圖圖像文件小得多。

矢量圖像可以分別控制處理圖中的各個部分，即把圖像的一部分當作一個單獨的對象，單獨加以拉伸、縮小、變形、移動和刪除，而整體圖像不失真。不同的物體還可以在屏幕上重疊並保持各自的特性，必要時仍可分開。所以，矢量圖像主要用於線性圖畫、工程制圖及美術字等。經常使用的矢量圖像文件擴展名有：.wmf、.dxf、.mgx和.cgm等。

缺點：
處理起來比較復雜，用矢量圖格式表示一復雜圖形需花費程序員和計算機的大量時間，比較費時，所以通常先用矢量圖形創建復雜的圖，再將其轉換為點陣圖圖像來進行處理。

點陣圖圖像和矢量圖像的比較：
顯示點陣圖圖像要比顯示矢量圖像快，但點陣圖圖像所要求的存儲空間大，因為它要指明屏幕上每一個像素的信息。總之，矢量圖像的關鍵技術是圖形的製作和再現，而點陣圖圖像的關鍵技術則是圖像的掃描、編輯、無失真壓縮、快速解壓和色彩一致性再現等。

3．數字視頻：
視頻信息實際上是由許多幅單個畫面所構成的。電影、電視通過快速播放每幀畫面，再加上人眼的視覺滯留效應便產生了連續運動的效果。視頻信號的數字化是指在一定時間內以一定的速度對單幀視頻信號進行捕獲、處理以生成數字信息的過程。

與模擬視頻相比，數字視頻的優點為：
1）數字視頻可以無失真地進行無限次拷貝，而模擬視頻信息每轉錄一次，就會有一次誤差積累，產生信息失真。

2）可以用許多新方法對數字視頻進行創造性的編輯，如字幕、電視特技等。

3）使用數字視頻可以用較少的時間和費用創作出用於培訓教育的交互節目，可以真正實現將視頻融進計算機系統中以及可以實現用計算機播放電影節目等。

數字視頻的缺點為：
因為數字視頻是由一系列的幀組成，每個幀是一幅靜止的圖像，並且圖像也使用點陣圖文件形式表示。通常，視頻每秒鍾需要顯示30幀，所以數字視頻需要巨大的存儲容量。

例如：一幅全屏的、解析度為640×480的256色圖像需要有307200位元組的存儲容量。那麼一秒鍾數字視頻需要的存儲空間是30乘上這個數，即9216000個位元組，約為9兆。兩小時的電影需要66 355 200 000個位元組，超過66G位元組。這樣大概只有使用超級計算機才能播放。所以在存儲和傳輸數字視頻過程中必須使用壓縮編碼。

2.1.3 聲音數據的表示
計算機可以記錄、存儲和播放聲音。在計算機中聲音可分成數字音頻文件和MIDI文件。

1．數字音頻
復雜的聲波由許許多多具有不同振幅和頻率的正弦波組成，這些連續的模擬量不能由計算機直接處理，必須將其數字化才能被計算機存儲和處理

計算機獲取聲音信息的過程就是聲音信號的數字化處理過程。經過數字化處理之後的數字聲音信息能夠像文字和圖像信息一樣被計算機存儲和處理。模擬聲音信號轉化為數字音頻信號的大致過程：

用數字方式記錄聲音，首先需對聲波進行采樣。聲波采樣前後波形如圖2.1.4所示（其中橫軸表示時間，縱軸表示振幅）：

圖2.1.4 聲波采樣前後波形
采樣頻率指的是在采樣聲音的過程中，每秒鍾對聲音測量的次數。采樣頻率以Hz為單位。如果提高采樣頻率，單位時間內所得到的振幅值就多，也即采樣頻率越高，對原聲音曲線的模擬就越精確。然後再把足夠多的振幅值以同樣的采樣頻率轉換為電壓值去驅動揚聲器，則可聽到和原波形一樣的聲音。這種技術稱為脈沖編碼調制技術（PCM）。

聲音文件
存儲在計算機上的聲音文件的擴展名為：.wav，.mod，.au和.voc。要記錄和播放聲音文件，需要使用聲音軟體，聲音軟體通常都要使用音效卡。

2．MIDI文件
樂器數字介面--MIDI（Musical Instrument Digital Interface），是電子樂器與計算機之間的連接界面和信息交流方式。MIDI格式的文件擴展名為.mid，通常把MIDI格式的文件簡稱為"MIDI文件"。

MIDI是數字音樂國際標准。數字式電子樂器的出現，為計算機處理音樂創造了極為有利的條件。MIDI聲音與數字化波形聲音完全不同，它不是對聲波進行采樣、量化和編碼。它實際上是一串時序命令，用於紀錄電子樂器鍵盤彈奏的信息，包括鍵、力度、時值長短等。這些信息稱之為MIDI消息，是樂譜的一種數字式描述。當需要播放時，只需從相應的MIDI文件中讀出MIDI消息，生成所需要的樂器聲音波形，經放大後由揚聲器輸出。

MIDI文件的存儲容量較數字音頻文件小得多。如3分鍾的MIDI音樂僅僅需要10KB的存儲空間，而3分鍾的數字音頻信號音樂需要15MB的存儲容量。

2.2 數據壓縮
對數據重新進行編碼，以減少所需要的存儲空間。數據壓縮必須是可逆的，也即壓縮過的數據必須可以恢復成原狀，其逆過程稱為解壓縮。
當數據壓縮後，文件的大小變小了，可以用壓縮比來衡量壓縮的數量。例如，壓縮比為20：1，表明壓縮後的文件大小是原文件的1/20。壓縮編碼方法有無損壓縮法（冗餘壓縮法）和有損壓縮法。後者允許有一定程度的失真，可用於對圖像、聲音、數字視頻等數據的壓縮。其中用這種方法壓縮數據時，數字視頻圖像的壓縮比可達到100:1~200:1。

數據壓縮可以由特殊的計算機硬體實現或完全由軟體來實現，也可以軟、硬體相結合的方法來實現。常用的壓縮軟體由Winzip等。

2.2.1文本文件壓縮
自適應式替換壓縮技術
掃描整個文本並且尋找兩個或多個位元組組成的模式。一旦發現一個新的模式，會用文件中其他地方沒有用過的位元組來代替這個模式，並在字典中加入一個入口。例如：有這樣一段文本
"the rain in Spain stays mainly on the plain, but the rain in Maine falls again and again"

其中："the" 是一種模式，在文中出現3次，若用"#"來替換，可以壓縮6個位元組；"ain"出現8次，若用"@"來替換，可以壓縮16個位元組；"in" 出現2次，若用"$"來替換，可以壓縮2個位元組等。可見，文件越長，包含重復信息的可能越大，壓縮比也越大。

掃描整個文檔，並尋找重復的單詞。當一個單詞出現的次數多於一次時，那麼從第二次及以後出現的該單詞都會用一個數字來替換。這個數字稱為原單詞的指針。例如：上例中的文本可以壓縮為："the rain in Spain stays mainly on #1 plain, but #1 #2 #3 Maine falls again and #16"可見，只壓縮了6個位元組，文件越大，單詞重復的頻率越高，因而壓縮效果也越好。

2.2.2圖象數據壓縮
遊程編碼是針對於圖形文件的壓縮技術，它是一種尋找位元組模式並用一個可以描述這個模式的消息進行替代的壓縮技術。

例如：假設圖像中有一個191個像素的白色區域，並且每個像素用一個位元組來表示。經過遊程編碼壓縮後，這串191個位元組的數據被壓縮成2個位元組。

擴展名為.bmp的點陣圖文件是沒有壓縮過的文件。擴展名為.tif、.pcx、.jpg的點陣圖文件是已經壓縮過的文件。以.tif為文件擴展名的文件使用的是TIFF（即帶標志的圖像文件格式）格式。以.pcx為文件擴展名的文件使用的是 PCX格式。以.jpg為文件擴展名的文件使用的是有損失的JPEG（Joint Photographic Experts Group，聯合圖像專家組）格式。人們往往對圖像實行有損壓縮。

2.2.3視頻數據壓縮
視頻由一系列的幀組成，每一幀又是一幅點陣圖圖像，故視頻文件需要巨大的存儲容量。

人們通過減少每秒鍾的播放幀數、減少視頻窗口的大小或者只對每幀之間變化的內容進行編碼等技術，來減少視頻信號的存儲容量。

數字視頻常常採用的格式有：Video for Windows、QuickTime和MPEG格式，其文件的擴展名分別為：.avi、.mov、.mpg其中.mpg是一種壓縮文件。MPEG格式可以將兩個小時的視頻信息壓縮到幾個GB。

視頻壓縮中還可以用運動補償技術來減少存儲容量。這種技術只存儲每一幀之間變化的數據，而不需要存儲每一幀中所有的數據。當某個視頻片斷每幀之間的變化不大時，用運動補償技術非常有效。例如：一個說話人的頭部，只有嘴和眼睛在變化，而背景卻保持相當的穩定。此時計算機只需計算出兩幀之間的差別，只存儲改變的內容即可。根據數據的不同，運動補償的壓縮比可以達到200:1。另外，每秒鍾的播放幀數直接影響到視頻的播放質量。減小圖像的大小也是一種有效的減少存儲容量的好方法。一般可以綜合以上幾種壓縮技術來達到減小視頻文件存儲容量的目的。

2.2.4 音頻數據壓縮
音頻數據最突出的問題是信息量大。音頻信息文件所需存儲空間的計算公式為：

存儲容量(位元組)= 采樣頻率×采樣精度/8×聲道數×時間

例如：一段持續1分鍾的雙聲道音樂，若采樣頻率為44.1KHz，采樣精度為16位，數字化後需要的存儲容量為：44.1×103×16/8×2×60=10.584MB 。

數字音頻的編碼必須具有壓縮聲音信息的能力，最常用的方法是自適應脈沖編碼調製法，即ADPCM壓縮編碼。

ADPCM壓縮編碼方案信噪比高，數據壓縮倍率達2~5倍而不會明顯失真，因此，數字化聲音信息大多使用這種壓縮技術。

2.3 信息加工
中央處理單元通常指為完成基本信息處理循環部件的總和。中央處理單元是計算機系統硬體的核心，它主要包括中央處理器（Central Processing Unit,CPU）、內存儲器（Memory）、系統匯流排（System Bus）和控制部件等，通過這些部件的協同動作完成對信息的處理。

2.3.1 CPU
CPU是計算機系統的核心部件，它的工作就是處理信息、完成計算。CPU的種類很多。微型機的CPU也被稱為"微處理器"，是採用最先進技術生產的超大規模集成電路晶元。在這種晶元中通常集成了數百萬計的晶體管電子元件，具有非常復雜的功能。比微型計算機性能更強的各種計算機，例如用於高性能網路伺服器的計算機等，它們的CPU常常由一組高性能晶元構成，具有更強的計算能力。此外在各種現代化設備，例如各種機器設備、儀器、交通工具等內部都安裝有所謂"嵌入式"的CPU晶元，幾乎所有的高檔電器內部也都裝備了一片甚至幾片CPU晶元。

2.3.2 內存儲器
內存儲器又稱為主存儲器（Main Memory）,簡稱為內存或主存。內存是計算機工作中用於保存信息的主要部件，在一個計算機系統中起著極為重要的作用，它的工作速度和存儲容量對系統的整體性能、對系統解決問題的規模和效能影響都非常大。對於內存儲器，除了容量以外，另一個重要的性能指標就是它的訪問速度。內存速度用進行一次讀或寫操作所花費的"訪問時間"來衡量。

內存儲器的基本存儲單位稱為存儲單元，今天的計算機內存小存儲器單元的結構模式，每個單元正好存儲一個位元組的信息（8位二進制代碼）。每個單元對應了一個唯一的編號，由此形成的單元編號稱為存儲單元的地址。計算機中央處理單元中的各部件通過一條公共信息通路連接，這條信息通路稱為系統匯流排。CPU和內存之間的信息交換是通過數據匯流排和地址匯流排進行的。內存是按照地址訪問的，給出即可得到存儲在具有這個地址的內存單元里的信息。CPU可以隨即訪問任何內存單元的信息。且訪問時間的長短不依賴所訪問的地址。

2.3.3 指令和程序
CPU的基本功能由它所提供的指令確定。當CPU得到一條指令以後，控制單元就解釋這條指令，指揮其他部件完成這條指令。雖然有很多不同的CPU，但它們的基本指令具有共同性。CPU的基本指令主要包括以下幾大類：

1）存儲器訪問類指令

2）算術運算和邏輯運算類指令

3）條件判斷和邏輯運算類指令

4）輸入輸出指令

5）控制和系統指令

指令也是在計算機里存在並需要在計算機里傳輸的一類信息，所以指令也必須採用二進制方式編碼，以二進制形式在計算機里保存和傳輸。當CPU得到一條指令以後，控制單元就解釋這條指令，指揮其他部件完成這條指令。

所謂"程序"就是為完成某種特定工作而實現的、由一系列計算機指令構成的序列。簡單的說，程序就是指令的序列。一種具體的計算機的程序就是這種計算機的CPU能夠執行的指令作為基本元素構成的序列。程序也可以看作是被計算機的CPU處理的一類信息，它實際上是被CPU的控制單元處理的，而不象一般數據那樣被CPU的運算部件處理和使用。計算機基本工作循環由兩個基本步驟組成：一個是取指令，另一個是執行指令。程序控制器是實現這個基本循環的主體。

人們在分析了在程序中需要實現的各種計算過程的需要之後，提出了程序的三種基本邏輯結構，稱為程序的三種"基本控制結構"，即"順序結構"、"分支結構"和"循環結構"，已經在理論上證明了這三種結構的能力是充分的，任何程序都能僅僅用這三種結構構造起來。三種基本控

E. 大數據存儲與應用特點及技術路線分析

大數據存儲與應用特點及技術路線分析

大數據時代，數據呈爆炸式增長。從存儲服務的發展趨勢來看，一方面，對數據的存儲量的需求越來越大；另一方面，對數據的有效管理提出了更高的要求。大數據對存儲設備的容量、讀寫性能、可靠性、擴展性等都提出了更高的要求，需要充分考慮功能集成度、數據安全性、數據穩定性，系統可擴展性、性能及成本各方面因素。

大數據存儲與應用的特點分析

「大數據」是由數量巨大、結構復雜、類型眾多數據構成的數據集合，是基於雲計算的數據處理與應用模式，通過數據的整合共享，交叉復用形成的智力資源和知識服務能力。其常見特點可以概括為3V:Volume、Velocity、Variety(規模大、速度快、多樣性)。

大數據具有數據規模大(Volume)且增長速度快的特性，其數據規模已經從PB級別增長到EB級別，並且仍在不斷地根據實際應用的需求和企業的再發展繼續擴容，飛速向著ZB(ZETA-BYTE)的規模進軍。以國內最大的電子商務企業淘寶為例，根據淘寶網的數據顯示，至2011年底，淘寶網最高單日獨立用戶訪問量超過1.2億人，比2010年同期增長120%,注冊用戶數量超過4億，在線商品數量達到8億，頁面瀏覽量達到20億規模，淘寶網每天產生4億條產品信息，每天活躍數據量已經超過50TB.所以大數據的存儲或者處理系統不僅能夠滿足當前數據規模需求，更需要有很強的可擴展性以滿足快速增長的需求。

(1)大數據的存儲及處理不僅在於規模之大，更加要求其傳輸及處理的響應速度快(Velocity)。

相對於以往較小規模的數據處理，在數據中心處理大規模數據時，需要服務集群有很高的吞吐量才能夠讓巨量的數據在應用開發人員「可接受」的時間內完成任務。這不僅是對於各種應用層面的計算性能要求，更加是對大數據存儲管理系統的讀寫吞吐量的要求。例如個人用戶在網站選購自己感興趣的貨物，網站則根據用戶的購買或者瀏覽網頁行為實時進行相關廣告的推薦，這需要應用的實時反饋;又例如電子商務網站的數據分析師根據購物者在當季搜索較為熱門的關鍵詞，為商家提供推薦的貨物關鍵字，面對每日上億的訪問記錄要求機器學習演算法在幾天內給出較為准確的推薦，否則就丟失了其失效性；更或者是計程車行駛在城市的道路上，通過GPS反饋的信息及監控設備實時路況信息，大數據處理系統需要不斷地給出較為便捷路徑的選擇。這些都要求大數據的應用層可以最快的速度，最高的帶寬從存儲介質中獲得相關海量的數據。另外一方面，海量數據存儲管理系統與傳統的資料庫管理系統，或者基於磁帶的備份系統之間也在發生數據交換，雖然這種交換實時性不高可以離線完成，但是由於數據規模的龐大，較低的數據傳輸帶寬也會降低數據傳輸的效率，而造成數據遷移瓶頸。因此大數據的存儲與處理的速度或是帶寬是其性能上的重要指標。

(2)大數據由於其來源的不同，具有數據多樣性的特點。

所謂多樣性，一是指數據結構化程度，二是指存儲格式，三是存儲介質多樣性。對於傳統的資料庫，其存儲的數據都是結構化數據，格式規整，相反大數據來源於日誌、歷史數據、用戶行為記錄等等，有的是結構化數據，而更多的是半結構化或者非結構化數據，這也正是傳統資料庫存儲技術無法適應大數據存儲的重要原因之一。所謂存儲格式，也正是由於其數據來源不同，應用演算法繁多，數據結構化程度不同，其格式也多種多樣。例如有的是以文本文件格式存儲，有的則是網頁文件，有的是一些被序列化後的比特流文件等等。所謂存儲介質多樣性是指硬體的兼容，大數據應用需要滿足不同的響應速度需求，因此其數據管理提倡分層管理機制，例如較為實時或者流數據的響應可以直接從內存或者Flash(SSD)中存取，而離線的批處理可以建立在帶有多塊磁碟的存儲伺服器上，有的可以存放在傳統的SAN或者NAS網路存儲設備上，而備份數據甚至可以存放在磁帶機上。因而大數據的存儲或者處理系統必須對多種數據及軟硬體平台有較好的兼容性來適應各種應用演算法或者數據提取轉換與載入(ETL)。

大數據存儲技術路線最典型的共有三種：

第一種是採用MPP架構的新型資料庫集群，重點面向行業大數據，採用Shared Nothing架構，通過列存儲、粗粒度索引等多項大數據處理技術，再結合MPP架構高效的分布式計算模式，完成對分析類應用的支撐，運行環境多為低成本 PC Server，具有高性能和高擴展性的特點，在企業分析類應用領域獲得極其廣泛的應用。

這類MPP產品可以有效支撐PB級別的結構化數據分析，這是傳統資料庫技術無法勝任的。對於企業新一代的數據倉庫和結構化數據分析，目前最佳選擇是MPP資料庫。

第二種是基於Hadoop的技術擴展和封裝，圍繞Hadoop衍生出相關的大數據技術，應對傳統關系型資料庫較難處理的數據和場景，例如針對非結構化數據的存儲和計算等，充分利用Hadoop開源的優勢，伴隨相關技術的不斷進步，其應用場景也將逐步擴大，目前最為典型的應用場景就是通過擴展和封裝 Hadoop來實現對互聯網大數據存儲、分析的支撐。這裡面有幾十種NoSQL技術，也在進一步的細分。對於非結構、半結構化數據處理、復雜的ETL流程、復雜的數據挖掘和計算模型，Hadoop平台更擅長。

第三種是大數據一體機，這是一種專為大數據的分析處理而設計的軟、硬體結合的產品，由一組集成的伺服器、存儲設備、操作系統、資料庫管理系統以及為數據查詢、處理、分析用途而特別預先安裝及優化的軟體組成，高性能大數據一體機具有良好的穩定性和縱向擴展性。

以上是小編為大家分享的關於大數據存儲與應用特點及技術路線分析的相關內容，更多信息可以關注環球青藤分享更多干貨

F. 大數據採集與存儲的基本步驟有哪些

數據抽取

針對大數據分析平台需要採集的各類數據，分別有針對性地研製適配介面。對於已有的信息系統，研發對應的介面模塊與各信息系統對接，不能實現數據共享介面的系統通過ETL工具進行數據採集，支持多種類型資料庫，按照相應規范對數據進行清洗轉換，從而實現數據的統一存儲管理。

數據預處理

為使大數據分析平台能更方便對數據進行處理，同時為了使得數據的存儲機制擴展性、容錯性更好，需要把數據按照相應關聯性進行組合，並將數據轉化為文本格式，作為文件存儲下來。

數據存儲

除了Hadoop中已廣泛應用於數據存儲的HDFS，常用的還有分布式、面向列的開源資料庫Hbase，HBase是一種key/value系統，部署在HDFS上，與Hadoop一樣，HBase的目標主要是依賴橫向擴展，通過不斷的增加廉價的商用伺服器，增加計算和存儲能力。

關於大數據採集與存儲的基本步驟有哪些，青藤小編就和您分享到這里了。如果您對大數據工程有濃厚的興趣，希望這篇文章可以為您提供幫助。如果您還想了解更多關於數據分析師、大數據工程師的技巧及素材等內容，可以點擊本站的其他文章進行學習。

存儲與處理工程

與存儲與處理工程相關的內容