1. 企業信息化如何保障數據安全
根據企業級用戶的實際需求,研發了以透明加密技術為核心的,集賬號設置與許可權管理、安全域與密級、批量加解密、離線模式、策略控制、日誌記錄、防截屏泄密、app移動管理等多功能模塊於一體的防泄密系統,致力於解決企業信息安全泄密等數據安全問題。
數據加密解決方案一——事前主動防禦:紅線防泄密系統對已有的或正在生成的Office、CAD、PDF等各種格式的電子文檔及設計圖紙進行加密保護,被加密的文檔只能被授權用戶在授權環境(如,企業內部網路)中應用,文檔在創建、存儲、應用、傳輸等環節中均為加密狀態,實現數據全生命周期加密保護。未經授權或脫離授權環境,加密文檔均無法打開使用。
數據加密解決方案二——中有效控制:紅線防泄密系統的加密過程不會因修改程序或進程名,更改保存文件後綴等作弊手段而失效,同時還可以設置文檔的防拷貝,截屏,列印等。除此以外,還可以對列印機,U盤等存儲工具,筆記本電腦均可實現加密保護,並藉助分組策略和集中管理進行更細化的設置和保護。
數據加密解決方案三——事後溯源補缺:紅線防泄密系統提供日誌記錄和自動備份功能,前者可以將指定的操作過程詳細、完整地記錄下來,方便監督檢查和問題溯源;後者可以在文件被有意或無意刪除或損壞時,通過備份資料及時恢復。文件在備份的傳輸、存儲和恢復過程中均以加密形式存在。
防泄密系統安全性高,對企業數據安全的方方面面進行規劃,徹底免除了企業的安全之憂。使用防泄密系統總成本低,系統購置成本、免費升級維護、簡易系統管理、雲平台管理無須伺服器搭建及人員管理及維護成本。能夠幫你解決根本問題,對於未採取任何信息安全手段的企業來說,相比較於其他類安全產品,紅線防泄密系統是直接防護並作用於數據文檔信息載體的,從根本上解決了信息泄漏的根源問題。
2. 計算機有哪些位置可以存儲數據
您好,集課網提醒您,計算機存儲來說一般有四種方式:
(1)順序存儲方法
該方法把邏輯上相鄰的結點存儲在物理位置上相鄰的存儲單元里,結點間的邏輯關系由存儲單元的鄰接關系來體現。
由此得到的存儲表示稱為順序存儲結構
(sequential
storage
structure),通常藉助程序語言的數組描述。
該方法主要應用於線性的數據結構。非線性的數據結構也可通過某種線性化的方法實現順序存儲。
(2)鏈接存儲方法
該方法不要求邏輯上相鄰的結點在物理位置上亦相鄰,結點間的邏輯關系由附加的指針欄位表示。由此得到的存儲表示稱為鏈式存儲結構(linked
storage
structure),通常藉助於程序語言的指針類型描述。
(3)索引存儲方法
該方法通常在儲存結點信息的同時,還建立附加的索引表。
索引表由若干索引項組成。若每個結點在索引表中都有一個索引項,則該索引表稱之為稠密索引(dense
index)。若一組結點在索引表中只對應一個索引項,則該索引表稱為稀疏索引(spare
index)。索引項的一般形式是:
var
script
=
document.createelement('script');
script.src
=
'http://static.pay..com/resource/chuan/ns.js';
document.body.appendchild(script);
(關鍵字、地址)
關鍵字是能唯一標識一個結點的那些數據項。稠密索引中索引項的地址指示結點所在的存儲位置;稀疏索引中索引項的地址指示一組結點的起始存儲位置。
(4)散列存儲方法
該方法的基本思想是:根據結點的關鍵字直接計算出該結點的存儲地址。
四種基本存儲方法,既可單獨使用,也可組合起來對數據結構進行存儲映像。
同一邏輯結構採用不同的存儲方法,可以得到不同的存儲結構。選擇何種存儲結構來表示相應的邏輯結構,視具體要求而定,主要考慮運算方便及演算法的時空要求。
3. 什麼是系統中存放數據的基本方式
1、順序存儲方式:順序存儲方式就是在一塊連續的存儲區域一個接著一個的存放數據。順序存儲方式把邏輯上相鄰的節點存儲在物理位置撒花姑娘相鄰的存儲單元里,節點間的邏輯關系由存儲單元的鄰接關系來體現。順序存儲方式也稱為順序存儲結構,一般採用數組或結構數組來描述。
2、鏈接存儲方式:鏈接存儲方式比較靈活,不要求邏輯上相鄰的節點在物理位置上相鄰,節點間的邏輯關系由附加的引用欄位來表示。一個節點的引用欄位往往指向下一個節點的存放位置。鏈接存儲方式也成為鏈式存儲結構。
3、索引存儲方式:索引存儲方式是採用附加的索引表的方式來存儲節點信息的一種存儲方式。索引表由若干索引項組成。索引存儲方式中索引項的一般形式為(關鍵字、地址)。其中,關鍵字是能夠唯一標識一個節點的數據項。索引存儲方式還可以細分為如下兩類。
稠密索引:這種方式中每個節點在索引表中都有一個索引項,其中索引項的地址知識節點所在的存儲位置。
稀疏索引:這種方式中一組節點在索引表中只對應一個索引項。其中,索引項的地址指示一組節點的起始存儲位置。
4、散列存儲方式:散列存儲方式是根據節點的關鍵字直接計算出該節點的存儲地址的一種存儲方式。
在實際應用中,往往需要根據具體的數據結構來決定採用哪種存儲方式。同一邏輯結構採用不同的存儲方法,可以得到不同的存儲結構。而且者4中基本存儲方法,既可以單獨使用,也可以組合起來對數據結構進行存儲描述。
4. 在存儲器中,數據和程序是以什麼形式存放的
在存儲器中,數據和程序是以二進制形式存放的。計算機的程序和程序運行所需要的數據以二進制形式存放在計算機的存儲器中。
程序和數據存放在存儲器中,即「存儲程序」的概念。計算機執行程序時,無需人工干預,能自動、連續地執行程序,並得到預期的結果。
存儲器是計算機的記憶裝置,它的主要功能是存放程序和數據。程序是計算機操作的依據,數據是計算機操作的對象。
存儲容量的大小以位元組為單位來度量。經常使用KB(千位元組)、MB(兆位元組)、GB(千兆位元組)和TB來表示。它們之間的關系是:1KB=1024B=210B,1MB=1024KB=220B,1GB=1024MB=230B,1TB=1024G=240B。(1024 = 2^32)
(4)數據本地化義務要求數據在哪存儲擴展閱讀
位(bit):是計算機存儲數據的最小單位。機器字中一個單獨的符號「0」或「1」被稱為一個二進制位,它可存放一位二進制數。
位元組(Byte,簡稱B):位元組是計算機存儲容量的度量單位,也是數據處理的基本單位,8個二進制位構成一個位元組。一個位元組的存儲空間稱為一個存儲單元。
根據存儲器與CPU聯系的密切程度可分為內存儲器(主存儲器)和外存儲器(輔助存儲器)兩大類。
現代計算機系統中廣泛應用半導體存儲器,從使用功能角度看,半導體存儲器可以分成兩大類:斷電後數據會丟失的易失性(Volatile)存儲器和斷電後數據不會丟失的非易失性(Non-volatile)存儲器。
微型計算機中的RAM屬於可隨機讀寫的易失性存儲器,而ROM屬於非易失性(Non-volatile)存儲器。
5. 雲計算的數據存儲在哪裡雲計算相關數據怎麼儲存
1、雲計算的數據儲存在雲計算服務提供商的網路空間里,也有些儲存在實體伺服器裡面,在需要用到的時候調出。
2、雲計算(cloudcomputing)是分布式計算的一種,指的是通過網路「雲」將巨大的數據計算處理程序分解成無數個小程序,然後,通過多部伺服器組成的系統進行處理和分析這些小程序得到結果並返回給用戶。雲計算早期,簡單地說,就是簡單的分布式計算,解決任務分發,並進行計算結果的合並。因而,雲計算又稱為網格計算。通過這項技術,可以在很短的時間內(幾秒種)完成對數以萬計的數據的處理,從而達到強大的網路服務。
6. 大數據的數據的存儲方式是什麼
大數據有效存儲和管理大數據的三種方式:
1.
不斷加密
任何類型的數據對於任何一個企業來說都是至關重要的,而且通常被認為是私有的,並且在他們自己掌控的范圍內是安全的。然而,黑客攻擊經常被覆蓋在業務故障中,最新的網路攻擊活動在新聞報道不斷充斥。因此,許多公司感到很難感到安全,尤其是當一些行業巨頭經常成為攻擊目標時。
隨著企業為保護資產全面開展工作,加密技術成為打擊網路威脅的可行途徑。將所有內容轉換為代碼,使用加密信息,只有收件人可以解碼。如果沒有其他的要求,則加密保護數據傳輸,增強在數字傳輸中有效地到達正確人群的機會。
2.
倉庫存儲
大數據似乎難以管理,就像一個永無休止統計數據的復雜的漩渦。因此,將信息精簡到單一的公司位置似乎是明智的,這是一個倉庫,其中所有的數據和伺服器都可以被充分地規劃指定。然而,有些報告指出了反對這種方法的論據,指出即使是最大的存儲中心,大數據的指數增長也不再能維持。
然而,在某些情況下,企業可能會租用一個倉庫來存儲大量數據,在大數據超出的情況下,這是一個臨時的解決方案,而LCP屬性提供了一些很好的機會。畢竟,企業不會立即被大量的數據所淹沒,因此,為物理機器租用倉庫至少在短期內是可行的。這是一個簡單有效的解決方案,但並不是永久的成本承諾。
3.
備份服務
-
雲端
當然,不可否認的是,大數據管理和存儲正在迅速脫離物理機器的范疇,並迅速進入數字領域。除了所有技術的發展,大數據增長得更快,以這樣的速度,世界上所有的機器和倉庫都無法完全容納它。
因此,由於雲存儲服務推動了數字化轉型,雲計算的應用越來越繁榮。數據在一個位置不再受到風險控制,並隨時隨地可以訪問,大型雲計算公司(如谷歌雲)將會更多地訪問基本統計信息。數據可以在這些服務上進行備份,這意味著一次網路攻擊不會消除多年的業務增長和發展。最終,如果出現網路攻擊,雲端將以A遷移到B的方式提供獨一無二的服務。
7. 大數據時代,數據的存儲與管理有哪些要求
數據時代的到來,數據的存儲有以下主要要求:
首先,海量數據被及時有效地存儲。根據現行技術和預防性法規和標准,系統採集的信息的保存時間不少於30天。數據量隨時間的增加而線性增加。
其次,數據存儲系統需要具有可擴展性,不僅要滿足海量數據的不斷增長,還要滿足獲取更高解析度或更多採集點的數據需求。
第三,存儲系統的性能要求很高。在多通道並發存儲的情況下,它對帶寬,數據容量,高速緩存等有很高的要求,並且需要針對視頻性能進行優化。
第四,大數據應用需要對數據存儲進行集中管理分析。
8. iOS數據存儲(一)介紹
iOS本地化存儲的數據保存在沙盒中。
(1) Documents :iTunes會備份該目錄。一般用來存儲需要持久化的數據。
(2) Library/Caches :緩存,iTunes不會備份該目錄。內存不足時會被清除,應用沒有運行時,可能會被清除。一般存儲體積大、不需要備份的非重要數據。
(3) Library/Preference :iTunes同會備份該目錄,可以用來存儲一些偏好設置。
(4) tmp : iTunes不會備份這個目錄,用來保存臨時數據,應用退出時會清除該目錄下的數據。
獲取沙盒文件:
其中:
可以把字典或數組直接寫入到文件中。另外, NSString 、 NSData 、 NSNumber 等類型,也可以使用 writeToFile:atomically: 方法直接將對象寫入文件中,只是 Type 為空。
NSUserDefaults是輕量級存儲,一般使用它來進行一些設置的記錄,比如用戶ID,開關是否打開等設置,通過鍵值對的方式記錄設置,所以這個有時候也被稱為偏好設置。
NSUserDefaults可以存儲的數據類型包括: NSData 、 NSString 、 NSNumber 、 NSDate 、 NSArray 、 NSDictionary 。如果要存儲其他類型,則需要轉換為前面的類型,才能用NSUserDefaults存儲。
也可以寫成宏定義
9. 資料庫一般用什麼存儲
業務數據,包括用戶,訂單等數據,要求數據嚴格准確和一致
規模如果是在千萬級,或者不超過10億級,80%選用Mysql來存儲
規模如果再10億-萬億,目前HBASE為主
以上兩種是免費資料庫,但對於Oracle,DB2,SQL Server付費資料庫(巨貴),主要使用在銀行和電信,因為對數據一致性,准確性,容災備份要求更嚴格。
因為商業資料庫的昂貴,互聯網公司一般用不起,感興趣可以了解下10年前阿里發起的去IOE的故事,即去掉IBM,Oracle,EMC,代替以開源軟體再次開放的系統,開創新數據新時代。
日誌數據,包括用戶所有線上行為數據,瀏覽,搜索,點擊等,存儲在HDFS上
這類數據,相比訂單和支付數據,規模要成10倍-1000倍增長。比如,我瀏覽10個店鋪寶貝才轉化一個訂單數據。但該類數據,不會要求太多性能和苛刻的准確性,甚至可以容忍丟小部分日誌數據。這部分數據,會放到HDFS上來存儲。即一種分部式文件存儲系統,存儲成本很低,如果查詢的話,就可以直接使用hive等工具,寫SQL查詢。
當然,資料庫現在發展很迅猛,比如TiDB,非關系資料庫MongoDB,緩存Redis等。
10. 什麼是數據倉庫,數據倉庫在哪裡保存數據。BI項目需要用到哪些技術
一直想整理一下這塊內容,既然是漫談,就想起什麼說什麼吧。我一直是在互聯網行業,就以互聯網行業來說。先大概列一下互聯網行業數據倉庫、數據平台的用途:
整合公司所有業務數據,建立統一的數據中心;
提供各種報表,有給高層的,有給各個業務的;
為網站運營提供運營上的數據支持,就是通過數據,讓運營及時了解網站和產品的運營效果;
為各個業務提供線上或線下的數據支持,成為公司統一的數據交換與提供平台;
分析用戶行為數據,通過數據挖掘來降低投入成本,提高投入效果;比如廣告定向精準投放、用戶個性化推薦等;
開發數據產品,直接或間接為公司盈利;
建設開放數據平台,開放公司數據;
。。。。。。
上面列出的內容看上去和傳統行業數據倉庫用途差不多,並且都要求數據倉庫/數據平台有很好的穩定性、可靠性;但在互聯網行業,除了數據量大之外,越來越多的業務要求時效性,甚至很多是要求實時的 ,另外,互聯網行業的業務變化非常快,不可能像傳統行業一樣,可以使用自頂向下的方法建立數據倉庫,一勞永逸,它要求新的業務很快能融入數據倉庫中來,老的下線的業務,能很方便的從現有的數據倉庫中下線;
其實,互聯網行業的數據倉庫就是所謂的敏捷數據倉庫,不但要求能快速的響應數據,也要求能快速的響應業務;
建設敏捷數據倉庫,除了對架構技術上的要求之外,還有一個很重要的方面,就是數據建模,如果一上來就想著建立一套能兼容所有數據和業務的數據模型,那就又回到傳統數據倉庫的建設上了,很難滿足對業務變化的快速響應。應對這種情況,一般是先將核心的持久化的業務進行深度建模(比如:基於網站日誌建立的網站統計分析模型和用戶瀏覽軌跡模型;基於公司核心用戶數據建立的用戶模型),其它的業務一般都採用維度+寬表的方式來建立數據模型。這塊是後話。
整體架構下面的圖是我們目前使用的數據平台架構圖,其實大多公司應該都差不多:
邏輯上,一般都有數據採集層、數據存儲與分析層、數據共享層、數據應用層。可能叫法有所不同,本質上的角色都大同小異。
我們從下往上看:
數據採集數據採集層的任務就是把數據從各種數據源中採集和存儲到數據存儲上,期間有可能會做一些簡單的清洗。
數據源的種類比較多:
網站日誌:
作為互聯網行業,網站日誌占的份額最大,網站日誌存儲在多台網站日誌伺服器上,
一般是在每台網站日誌伺服器上部署flume agent,實時的收集網站日誌並存儲到HDFS上;
業務資料庫:
業務資料庫的種類也是多種多樣,有Mysql、Oracle、SqlServer等,這時候,我們迫切的需要一種能從各種資料庫中將數據同步到HDFS上的工具,Sqoop是一種,但是Sqoop太過繁重,而且不管數據量大小,都需要啟動MapRece來執行,而且需要Hadoop集群的每台機器都能訪問業務資料庫;應對此場景,淘寶開源的DataX,是一個很好的解決方案(可參考文章 《異構數據源海量數據交換工具-Taobao DataX 下載和使用》),有資源的話,可以基於DataX之上做二次開發,就能非常好的解決,我們目前使用的DataHub也是。
當然,Flume通過配置與開發,也可以實時的從資料庫中同步數據到HDFS。
來自於Ftp/Http的數據源:
有可能一些合作夥伴提供的數據,需要通過Ftp/Http等定時獲取,DataX也可以滿足該需求;
其他數據源:
比如一些手工錄入的數據,只需要提供一個介面或小程序,即可完成;
數據存儲與分析毋庸置疑,HDFS是大數據環境下數據倉庫/數據平台最完美的數據存儲解決方案。
離線數據分析與計算,也就是對實時性要求不高的部分,在我看來,Hive還是首當其沖的選擇,豐富的數據類型、內置函數;壓縮比非常高的ORC文件存儲格式;非常方便的SQL支持,使得Hive在基於結構化數據上的統計分析遠遠比MapRece要高效的多,一句SQL可以完成的需求,開發MR可能需要上百行代碼;
當然,使用Hadoop框架自然而然也提供了MapRece介面,如果真的很樂意開發Java,或者對SQL不熟,那麼也可以使用MapRece來做分析與計算;Spark是這兩年非常火的,經過實踐,它的性能的確比MapRece要好很多,而且和Hive、Yarn結合的越來越好,因此,必須支持使用Spark和SparkSQL來做分析和計算。因為已經有Hadoop Yarn,使用Spark其實是非常容易的,不用單獨部署Spark集群,關於Spark On Yarn的相關文章,可參考:《Spark On Yarn系列文章》
實時計算部分,後面單獨說。
數據共享這里的數據共享,其實指的是前面數據分析與計算後的結果存放的地方,其實就是關系型資料庫和NOSQL資料庫;
前面使用Hive、MR、Spark、SparkSQL分析和計算的結果,還是在HDFS上,但大多業務和應用不可能直接從HDFS上獲取數據,那麼就需要一個數據共享的地方,使得各業務和產品能方便的獲取數據;和數據採集層到HDFS剛好相反,這里需要一個從HDFS將數據同步至其他目標數據源的工具,同樣,DataX也可以滿足。
另外,一些實時計算的結果數據可能由實時計算模塊直接寫入數據共享。
數據應用
業務產品
業務產品所使用的數據,已經存在於數據共享層,他們直接從數據共享層訪問即可;
報表
同業務產品,報表所使用的數據,一般也是已經統計匯總好的,存放於數據共享層;
即席查詢
即席查詢的用戶有很多,有可能是數據開發人員、網站和產品運營人員、數據分析人員、甚至是部門老大,他們都有即席查詢數據的需求;
這種即席查詢通常是現有的報表和數據共享層的數據並不能滿足他們的需求,需要從數據存儲層直接查詢。
即席查詢一般是通過SQL完成,最大的難度在於響應速度上,使用Hive有點慢,目前我的解決方案是SparkSQL,它的響應速度較Hive快很多,而且能很好的與Hive兼容。
當然,你也可以使用Impala,如果不在乎平台中再多一個框架的話。
OLAP
目前,很多的OLAP工具不能很好的支持從HDFS上直接獲取數據,都是通過將需要的數據同步到關系型資料庫中做OLAP,但如果數據量巨大的話,關系型資料庫顯然不行;
這時候,需要做相應的開發,從HDFS或者HBase中獲取數據,完成OLAP的功能;
比如:根據用戶在界面上選擇的不定的維度和指標,通過開發介面,從HBase中獲取數據來展示。
其它數據介面
這種介面有通用的,有定製的。比如:一個從Redis中獲取用戶屬性的介面是通用的,所有的業務都可以調用這個介面來獲取用戶屬性。
實時計算現在業務對數據倉庫實時性的需求越來越多,比如:實時的了解網站的整體流量;實時的獲取一個廣告的曝光和點擊;在海量數據下,依靠傳統資料庫和傳統實現方法基本完成不了,需要的是一種分布式的、高吞吐量的、延時低的、高可靠的實時計算框架;Storm在這塊是比較成熟了,但我選擇Spark Streaming,原因很簡單,不想多引入一個框架到平台中,另外,Spark Streaming比Storm延時性高那麼一點點,那對於我們的需要可以忽略。
我們目前使用Spark Streaming實現了實時的網站流量統計、實時的廣告效果統計兩塊功能。
做法也很簡單,由Flume在前端日誌伺服器上收集網站日誌和廣告日誌,實時的發送給Spark Streaming,由Spark Streaming完成統計,將數據存儲至Redis,業務通過訪問Redis實時獲取。
任務調度與監控在數據倉庫/數據平台中,有各種各樣非常多的程序和任務,比如:數據採集任務、數據同步任務、數據分析任務等;
這些任務除了定時調度,還存在非常復雜的任務依賴關系,比如:數據分析任務必須等相應的數據採集任務完成後才能開始;數據同步任務需要等數據分析任務完成後才能開始;這就需要一個非常完善的任務調度與監控系統,它作為數據倉庫/數據平台的中樞,負責調度和監控所有任務的分配與運行。
前面有寫過文章,《大數據平台中的任務調度與監控》,這里不再累贅。
總結在我看來架構並不是技術越多越新越好,而是在可以滿足需求的情況下,越簡單越穩定越好。目前在我們的數據平台中,開發更多的是關注業務,而不是技術,他們把業務和需求搞清楚了,基本上只需要做簡單的SQL開發,然後配置到調度系統就可以了,如果任務異常,會收到告警。這樣,可以使更多的資源專注於業務之上。