『壹』 如何使用Hadoop進入大資料庫時代
Hadoop中有很多方法可以加入多個數據集。MapRece提供了Map端和Rece端的數據連接。這些連接是非平凡的連接,並且可能會是非常昂貴的操作。Pig和Hive也具有同等的能力來申請連接到多個數據集。Pig提供了復制連接,合並連接和傾斜連接(skewed join),並且Hive提供了map端的連接和完整外部連接來分析數據。
一個重要的事實是,通過使用各種工具,比如MapRece、Pig和Hive等,數據可以基於它們的內置功能和實際需求來使用它們。至於在Hadoop分析大量數據,Anoop指出,通常,在大數據/Hadoop的世界,一些問題可能並不復雜,並且解決方案也是直截了當的,但面臨的挑戰是數據量。在這種情況下需要不同的解決辦法來解決問題。
一些分析任務是從日誌文件中統計明確的ID的數目、在特定的日期范圍內改造存儲的數據、以及網友排名等。所有這些任務都可以通過Hadoop中的多種工具和技術如MapRece、Hive、Pig、Giraph和Mahout等來解決。這些工具在自定義常式的幫助下可以靈活地擴展它們的能力。
『貳』 什麼是大數據大數據具體有什麼用大數據到底能幹什麼
大數據能做如下:
一、對信息的理解。你發的每一張圖片、每一個新聞、每一個廣告,這些都是信息,你對這個信息的理解是大數據重要的領域。
二、用戶的理解。每個人的基本特徵,你的潛在的特徵,每個用戶上網的習慣等等,這些都是對用戶的理解。
三、關系。關系才是我們的核心,信息與信息之間的關系,一條微博和另外一條微博之間的關系,一個廣告和另外一個廣告的關系。一條微博和一個視頻之間的關系,這些在我們肉眼去看的時候是相對簡單的。
大數據專業術語:
1、apache軟體基金會(asf)
提供了許多大數據的開源項目,目前有350多個項目。是專門為支持開源軟體項目而辦的一個非盈利性組織。在它所支持的apache項目與子項目中,所發行的軟體產品都遵循apache許可證。
2、apachemahout
mahout提供了一個用於機器學習和數據挖掘的預制演算法庫,也是創建更多演算法的環境。換句話說,是一個機器學習的天堂環境
3、apacheoozie
在任何編程環境中,需要一些工作流程系統來以預定義的方式和定義的依賴關系來安排和運行工作。oozie提供的大數據工作以apachepig,maprece和hive等語言編寫
『叄』 資料庫的選擇什麼樣的資料庫簡單實用
1.數據量太大,比如上億,就用oracle,優點上億數據對Oracle來說輕飄飄的,也不用太多優化配置,缺點安裝比較麻煩,上手比較慢老余。
2.數據量較大,比如千萬級,用postgresql,它號稱對標Oracle,處理千萬級數據還是可以的,也是易學易用。
3.數據量一般,比如百萬級,用mysql,這個級別的數據量mysql處理還是比較快的。
4.數據量較小,比如十萬以下,sqlite、access都可以。
上面是基於單表操作的數據量,你看著選。
簡單易用的資料庫哪個比較好?這個要具體看你的用途,如果數據量比較少(10萬左右),追求簡約簡單,免費開源的sqlite就行,如果數據量比較多,考慮到高並發、分布式,可以使用專業的mysql、postgresql,下面我分別簡單介紹一下,感興趣的朋友可以嘗試一下:
小巧靈活sqlite這是基於c語言開發的一個輕量級關系型資料庫,短小精悍、免費開源,個人使用無需繁瑣的配置,只需一個簡單的運行庫便可直接使用,針對各種編程語言都提供了豐富的API介面, java、 python、c#等都可輕松操作,如果你存儲數據量不多,只是本地簡單的操作(讀多寫少),可以使用一下這個資料庫,佔用內存非常少,輕便靈活,當然,在高並發、數據量大的情況下就不合適了:
專業強大mysql
這是目前應該廣泛使用的一個關系型資料庫,免費開源跨平台,在信息系統開發方面一直占據著主力位置,如果你從事於web開發或者網站後台建設,那麼這個資料庫一定非常熟悉,支持高並發、分布式,存儲數據量相對於sqlite來說,更多也更安全,索引、觸發器、存儲過程等功能非常不錯,支持數據導入導出、恢復備份,只要你熟悉一下基本使用過程,很快就能掌握和運用:
免費開源postgresql
這是加州大學計算機系開發的一個對象-關系型資料庫(自由軟體),免費、開源、跨平台,支持流計算、全文檢索、圖式搜索、並行計算、存儲過程、空間數據、K-V類型,相比較mysql來說,在復雜查詢、高並發下更穩定、性能更優越,可擴展性、可維護性非常不錯,但也有劣勢,例如新舊版本不分離存儲,沒有Coverage index scan等,總體使用效果來說還不錯:
當然,除了以上3個資料庫,還有許多其他資料庫,像mssql、oracle等也都非常不錯,對於存儲和處理數據來說綽綽有餘,只要你熟悉一下基本使用過程,很快就能入門的,網上也有相關教程和資料,介紹的非常詳細,感興趣的話,可以搜一下,希望以上分享的內容能對你有所幫助吧,也歡迎大家評論、留言進行補充。
最符合初學者理解和入門的是Access,因為它和Excel本來就是一個套件,相互轉化容易,復制粘貼即可,非常好理解庫、表、欄位、鍵的概念。
如果數據量不大,強烈推薦試試Filemaker,腳本化編程,自由定製輸入界面、工作流程,非常便捷高效。
最近殺出來的airtable,更是簡單高效,界面美觀,操作與電子表格相當,發展勢頭也非常迅猛。
二者側重點有所不同,用戶可根據需要選擇
作為一個軟體開發人員皮團,長期需要和資料庫打交道,個人更加青睞於MySQL。雖然可能基於你的Excel原因,有些人會建議你使用Access資料庫,但是基於我個人的 意見,我並不建議你那樣做。採用MySql的具體理由如下:
1.MySQL具有普遍性,在國內的環境中,絕大多數的互聯網企業採用的是MySQL。有了廣大的用戶基礎後,針對於各種問題網上也能更好地找到解決方案。
2.MySQL相對於Oracle而言,更加輕量化,針對於從Excel量級的數據,沒必要使用Oracle。同時MySQL是完全免費的,不用擔心版權及費用問題,無論對個人還是對預算有限的企業而言都是很好的選擇。
3.MySQL高度兼容標准SQL,這對燃含橘於以後遷移到其他資料庫而言,也能很大程度地降低學習成本。
希望我的回答能夠對你有所幫助!!![耶][耶][耶]
Excel辦公確實便利,可以做一些簡單的數據分析,但涉及大量復雜的數據運算,就會遇到和題主一樣的問題,運算速度慢,如果主機性能不是很好,還有可能面臨電腦死機,數據丟失等問題。
遇到這種情況,我們該如何解決呢?資料庫的重要性顯而易見!
現在, 我將用3分鍾的時間,與您探討該選擇何種資料庫,以及選擇它的理由,是否有更優的解決方案呢?
MySQL資料庫,90%的企業都會選擇它資料庫選得好,企業的數據安全,資產安全,也就得到了保障。那麼該如何選擇資料庫呢?這個跟你的業務量和業務服務行業,密不可分。
如果你只是上班打卡,用SQL server就可以了;
如果你要儲存會話信息,用戶配置信息,購物車數據,建議使用NoSQL資料庫;
不過90%的企業或個人,首選資料庫都是MySQL資料庫。
為什麼這么說?因為,它集 低成本、高可用、可靠性強、易用性強、體積小、速度快開放源碼 等特性於一身,所以在金融、財務、網站、 數據處理 等應用領域,它占據著獨一無二的優勢。
這也是幾乎所有企業都選擇它,來存儲數據的原因。
加之MySQL資料庫,支持多種存儲引擎,支持大型資料庫,可以處理成千上萬條記錄,還提供用於管理、檢查、優化資料庫操作的工具。
因而,MySQL尤其受個人,以及中小企業的推崇。
雖然MySQL資料庫簡單易用,但我還是不會部署該怎麼辦?別擔心,現在市面上已經出現了,一種自帶資料庫的新型辦公軟體。
比如說,雲表企業應用平台,一款兼容excel功能,但功能更為強大的辦公軟體,它就內嵌了MySQL資料庫。 (文末有免費獲取方式)
雲表內嵌的MySQL資料庫,有何優點?1. 性能更加優化,更加兼容系統。因為雲表的研發人員,時刻更新維護MySQL資料庫。
2. 省去自己手動部署的麻煩。但如果你熟悉部署資料庫,想把資料庫改成Oracle或SQL server等資料庫,也可以設置。(不過,我建議IT小白還是 「拿來即用」 就好)
3. 快速實時計算。數據分析實時交互,完全滿足管理決策中的臨時性分析,多變的業務需求,以及頻繁的結果刷新。
4. 通過自帶的內存計算引擎,無需事先建立CUBE,IT部門將告別報表延時報表分析,億級數據秒級響應。
內嵌的MySQL資料庫是否可靠雲表不僅是一款辦公軟體,同時還是一款開發工具。
通過它,你將解決以下問題:
復雜的數據運算,精確到行列的許可權管控,以及工作流,海量用戶同時在線辦公,數據透視,製作像銷售單,洽談合同等表單報表,一份製作,即可重復錄用......
你還可以通過它,與電子稱、地磅等進行對接,與用友金蝶等三方系統集成,生成條形碼,掃碼出入庫,生成移動端APP...... 基本上業務所需的功能,你都可以放心交給它做。
它最大的亮點就是,你可以 用使用excel的手法,用它來開發業務應用。
而且,可視化的 拖拉拽 之後,開發出來的ERP、WMS、OA、進銷存等業務應用,還秉承了MySQL資料庫增刪改查的功能特性。
沒錯,用雲表開發出來的業務應用,是允許二次開發的,而且功能可以隨時增刪改查,輕松滿足大集團精細化的數據控制需求。
不過,大家最關心的應該是數據安全問題吧。
數據存放在雲表內嵌的MySQL資料庫,是安全不丟失的,它提供了多種數據存儲的方式,本地部署,雲端部署,混合部署,任君挑選!
正因如此,像 恆逸石化、許繼電氣、航天科工委、中鐵、中冶、雲南小松 等大型集團,才鼓勵內部員工去學習雲表。
篇幅所限,只說到這里,說太多你也不會看。
免費 的軟獲取方式在下方:
資料庫的用處可大著呢,不僅可以實現數據共享,減少數據冗餘度,還能實現對數據的集中控制,保持數據的一致性和可維護性。選取簡單易用的資料庫,你有什麼好的建議呢,留言讓我們看到噢!
題主強調了簡單易用。所以推薦最簡單三個。
1.Access。
2.Excel。
3.飛書文檔、騰訊文檔、石墨文檔等的表格。
如果要做分析,數據量才比較大,建議Access,還是專業的更好一些。網上教程也很多,比較容易學。而且建議用早一點的版本,比如2003或者2007,Access這些年微軟一直想從office里去掉,奈何用的人還是很多,所以不敢去掉,但是採取了一種比較惡心的方法讓用戶放棄,就是每發布一個新版本,就去掉一些好用的功能,所以說Access是越早的功能越強。
還一個推薦就是Sql Server Express版本,是SQL Server的免費版本,不要錢,基本功能都有,要比sqllite等強大的多
這要結合你個人實際情況來定,有計算機基礎,懂一點資料庫的話那麼市場上的那些軟體都可以用,常用有oracle,sqlserver,mysql等,要上手快還是sqlserver比較快,界面操作也比較直觀;如果一點基礎都沒有,但是又要分析數據的話可以用微軟自帶的一個access,這個上手比較快。決定用哪一種之後還是要買點教材看,簡單的sql查詢要會,熟練之後也能提高工作效率。
個人使用資料庫的話,只存數據不做分析,SQLite就足夠了。
『肆』 大數據資料庫有哪些
問題一:大數據技術有哪些 非常多的,問答不能發link,不然我給你link了。有譬如Hadoop等開源大數據項目的,編程語言的,以下就大數據底層技術說下。
簡單以永洪科技的技術說下,有四方面,其實也代表了部分通用大數據底層技術:
Z-Suite具有高性能的大數據分析能力,她完全摒棄了向上升級(Scale-Up),全面支持橫向擴展(Scale-Out)。Z-Suite主要通過以下核心技術來支撐PB級的大數據:
跨粒度計算(In-Databaseputing)
Z-Suite支持各種常見的匯總,還支持幾乎全部的專業統計函數。得益於跨粒度計算技術,Z-Suite數據分析引擎將找尋出最優化的計算方案,繼而把所有開銷較大的、昂貴的計算都移動到數據存儲的地方直接計算,我們稱之為庫內計算(In-Database)。這一技術大大減少了數據移動,降低了通訊負擔,保證了高性能數據分析。
並行計算(MPP puting)
Z-Suite是基於MPP架構的商業智能平台,她能夠把計算分布到多個計算節點,再在指定節點將計算結果匯總輸出。Z-Suite能夠充分利用各種計算和存儲資源,不管是伺服器還是普通的PC,她對網路條件也沒有嚴苛的要求。作為橫向擴展的大數據平台,Z-Suite能夠充分發揮各個節點的計算能力,輕松實現針對TB/PB級數據分析的秒級響應。
列存儲 (Column-Based)
Z-Suite是列存儲的。基於列存儲的數據集市,不讀取無關數據,能降低讀寫開銷,同時提高I/O 的效率,從而大大提高查詢性能。另外,列存儲能夠更好地壓縮數據,一般壓縮比在5 -10倍之間,這樣一來,數據佔有空間降低到傳統存儲的1/5到1/10 。良好的數據壓縮技術,節省了存儲設備和內存的開銷,卻大大了提升計算性能。
內存計算
得益於列存儲技術和並行計算技術,Z-Suite能夠大大壓縮數據,並同時利用多個節點的計算能力和內存容量。一般地,內存訪問速度比磁碟訪問速度要快幾百倍甚至上千倍。通過內存計算,CPU直接從內存而非磁碟上讀取數據並對數據進行計算。內存計算是對傳統數據處理方式的一種加速,是實現大數據分析的關鍵應用技術。
問題二:大數據使用的資料庫是什麼資料庫 ORACLE、DB2、SQL SERVER都可以,關鍵不是選什麼資料庫,而是資料庫如何優化! 需要看你日常如何操作,以查詢為主或是以存儲為主或2者,還要看你的數據結構,都要因地制宜的去優化!所以不是一句話說的清的!
問題三:什麼是大數據和大數據平台 大數據技術是指從各種各樣類型的數據中,快速獲得有價值信息的能力。適用於大數據的技術,包括大規模並行處理(MPP)資料庫,數據挖掘電網,分布式文件系統,分布式資料庫,雲計算平台,互聯網,和可擴展的存儲系統。
大數據平台是為了計算,現今社會所產生的越來越大的數據量。以存儲、運算、展現作為目的的平台。
問題四:常用大型資料庫有哪些 FOXBASE
MYSQL
這倆可算不上大型資料庫管理系統
PB 是資料庫應用程序開發用的ide,根本就不是資料庫管理系統
Foxbase是dos時代的產品了,進入windows時代改叫foxpro,屬於桌面單機級別的小型資料庫系統,mysql是個中輕量級的,但是開源,大量使用於小型網站,真正重量級的是Oracle和DB2,銀行之類的關鍵行業用的多是這兩個,微軟的MS SQLServer相對DB2和Oracle規模小一些,多見於中小型企業單位使用,Sybase可以說是日薄西山,不行了
問題五:幾大資料庫的區別 最商業的是ORACLE,做的最專業,然後是微軟的SQL server,做的也很好,當然還有DB2等做得也不錯,這些都是大型的資料庫,,,如果掌握的全面的話,可以保證數據的安全. 然後就是些小的資料庫access,mysql等,適合於中小企業的資料庫100萬數據一下的數據.如有幫助請採納,謝!
問題六:全球最大的資料庫是什麼 應該是Oracle,第一,Oracle為商業界所廣泛採用。因為它規范、嚴謹而且服務到位,且安全性非常高。第二,如果你學習使用Oracle不是商用,也可以免費使用。這就為它的廣泛傳播奠定了在技術人員中的基礎。第三,Linux/Unix系統常常作為伺服器,伺服器對Oracle的使用簡直可以說極其多啊。建議樓梗多學習下這個強大的資料庫
問題七:什麼是大數據? 大數據(big data),或稱巨量資料,指的是所涉及的資料量規模巨大到無法通過目前主流軟體工具,在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。(在維克托・邁爾-舍恩伯格及肯尼斯・庫克耶編寫的《大數據時代》中大數據指不用隨機分析法(抽樣調查)這樣的捷徑,而採用所有數據的方法[2])大數據的4V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。
說起大數據,就要說到商業智能:
商業智能(Business Intelligence,簡稱:BI),又稱商業智慧或商務智能,指用現代數據倉庫技術、線上分析處理技術、數據挖掘和數據展現技術進行數據分析以實現商業價值。
商業智能作為一個工具,是用來處理企業中現有數據,並將其轉換成知識、分析和結論,輔助業務或者決策者做出正確且明智的決定。是幫助企業更好地利用數據提高決策質量的技術,包含了從數據倉庫到分析型系統等。
商務智能的產生發展
商業智能的概念經由Howard Dresner(1989年)的通俗化而被人們廣泛了解。當時將商業智能定義為一類由數據倉庫(或數據集市)、查詢報表、數據分析、數據挖掘、數據備份和恢復等部分組成的、以幫助企業決策為目的技術及其應用。
商務智能是20世紀90年代末首先在國外企業界出現的一個術語,其代表為提高企業運營性能而採用的一系列方法、技術和軟體。它把先進的信息技術應用到整個企業,不僅為企業提供信息獲取能力,而且通過對信息的開發,將其轉變為企業的競爭優勢,也有人稱之為混沌世界中的智能。因此,越來越多的企業提出他們對BI的需求,把BI作為一種幫助企業達到經營目標的一種有效手段。
目前,商業智能通常被理解為將企業中現有的數據轉化為知識,幫助企業做出明智的業務經營決策的工具。這里所談的數據包括來自企業業務系統的訂單、庫存、交易賬目、客戶和供應商資料及來自企業所處行業和競爭對手的數據,以及來自企業所處的其他外部環境中的各種數據。而商業智能能夠輔助的業務經營決策既可以是作業層的,也可以是管理層和策略層的決策。
為了將數據轉化為知識,需要利用數據倉庫、線上分析處理(OLAP)工具和數據挖掘等技術。因此,從技術層面上講,商業智能不是什麼新技術,它只是ETL、數據倉庫、OLAP、數據挖掘、數據展現等技術的綜合運用。
把商業智能看成是一種解決方案應該比較恰當。商業智能的關鍵是從許多來自不同的企業運作系統的數據中提取出有用的數據並進行清理,以保證數據的正確性,然後經過抽取(Extraction)、轉換(Transformation)和裝載(Load),即ETL過程,合並到一個企業級的數據倉庫里,從而得到企業數據的一個全局視圖,在此基礎上利用合適的查詢和分析工具、數據挖掘工具、OLAP工具等對其進行分析和處理(這時信息變為輔助決策的知識),最後將知識呈現給管理者,為管理者的決策過程提供支持。
企業導入BI的優點
1.隨機查詢動態報表
2.掌握指標管理
3.隨時線上分析處理
4.視覺化之企業儀表版
5.協助預測規劃
導入BI的目的
1.促進企業決策流程(Facilitate the Business Decision-Making Process):BIS增進企業的資訊整合與資訊分析的能力,匯總公司內、外部的資料,整合成有效的決策資訊,讓企業經理人大幅增進決策效率與改善決策品質。
......>>
問題八:資料庫有哪幾種? 常用的資料庫:oracle、sqlserver、mysql、access、sybase 2、特點。 -oracle: 1.資料庫安全性很高,很適合做大型資料庫。支持多種系統平台(HPUX、SUNOS、OSF/1、VMS、 WINDOWS、WINDOWS/NT、OS/2)。 2.支持客戶機/伺服器體系結構及混合的體系結構(集中式、分布式、 客戶機/伺服器)。 -sqlserver: 1.真正的客戶機/伺服器體系結構。 2.圖形化用戶界面,使系統管理和資料庫管理更加直觀、簡單。 3.具有很好的伸縮性,可跨越從運行Windows 95/98的膝上型電腦到運行Windows 2000的大型多處理器等多種平台使用。 -mysql: MySQL是一個開放源碼的小型關系型資料庫管理系統,開發者為瑞典MySQL AB公司,92HeZu網免費贈送MySQL。目前MySQL被廣泛地應用在Internet上的中小型網站中。提供由於其體積小、速度快、總體擁有成本低,尤其是開放源碼這一特點,許多中小型網站為了降低網站總體擁有成本而選擇了MySQL作為網站資料庫。 -access Access是一種桌面資料庫,只適合數據量少的應用,在處理少量數據和單機訪問的資料庫時是很好的,效率也很高。 但是它的同時訪問客戶端不能多於4個。 -
問題九:什麼是大數據 大數據是一個體量特別大,數據類別特別大的數據集,並且這樣的數據集無法用傳統資料庫工具對其內容進行抓取、管理和處理。 大數據首先是指數據體量(volumes)?大,指代大型數據集,一般在10TB?規模左右,但在實際應用中,很多企業用戶把多個數據集放在一起,已經形成了PB級的數據量;其次是指數據類別(variety)大,數據來自多種數據源,數據種類和格式日漸豐富,已沖破了以前所限定的結構化數據范疇,囊括了半結構化和非結構化數據。接著是數據處理速度(Velocity)快,在數據量非常龐大的情況下,也能夠做到數據的實時處理。最後一個特點是指數據真實性(Veracity)高,隨著社交數據、企業內容、交易與應用數據等新數據源的興趣,傳統數據源的局限被打破,企業愈發需要有效的信息之力以確保其真實性及安全性。
數據採集:ETL工具負責將分布的、異構數據源中的數據如關系數據、平面數據文件等抽取到臨時中間層後進行清洗、轉換、集成,最後載入到數據倉庫或數據集市中,成為聯機分析處理、數據挖掘的基礎。
數據存取:關系資料庫、NOSQL、SQL等。
基礎架構:雲存儲、分布式文件存儲等。
數據處理:自然語言處理(NLP,NaturalLanguageProcessing)是研究人與計算機交互的語言問題的一門學科。處理自然語言的關鍵是要讓計算機理解自然語言,所以自然語言處理又叫做自然語言理解(NLU,NaturalLanguage Understanding),也稱為計算語言學(putational Linguistics。一方面它是語言信息處理的一個分支,另一方面它是人工智慧(AI, Artificial Intelligence)的核心課題之一。
統計分析:假設檢驗、顯著性檢驗、差異分析、相關分析、T檢驗、方差分析、卡方分析、偏相關分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預測與殘差分析、嶺回歸、logistic回歸分析、曲線估計、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應分析、多元對應分析(最優尺度分析)、bootstrap技術等等。
數據挖掘:分類 (Classification)、估計(Estimation)、預測(Prediction)、相關性分組或關聯規則(Affinity grouping or association rules)、聚類(Clustering)、描述和可視化、Description and Visualization)、復雜數據類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)
模型預測:預測模型、機器學習、建模模擬。
結果呈現:雲計算、標簽雲、關系圖等。
要理解大數據這一概念,首先要從大入手,大是指數據規模,大數據一般指在10TB(1TB=1024GB)規模以上的數據量。大數據同過去的海量數據有所區別,其基本特徵可以用4個V來總結(Vol-ume、Variety、Value和Veloc-ity),即體量大、多樣性、價值密度低、速度快。
第一,數據體量巨大。從TB級別,躍升到PB級別。
第二,數據類型繁多,如前文提到的網路日誌、視頻、圖片、地理位置信息,等等。
第三,價值密度低。以視頻為例,連續不間斷監控過程中,可能有用的數據僅僅有一兩秒。
第四,處理速度快。1秒定律。最後這一點也是和傳統的......>>
問題十:國內真正的大數據分析產品有哪些 國內的大數據公司還是做前端可視化展現的偏多,BAT算是真正做了大數據的,行業有硬性需求,別的行業跟不上也沒辦法,需求決定市場。
說說更通用的數據分析吧。
大數據分析也屬於數據分析的一塊,在實際應用中可以把數據分析工具分成兩個維度:
第一維度:數據存儲層――數據報表層――數據分析層――數據展現層
第二維度:用戶級――部門級――企業級――BI級
1、數據存儲層
數據存儲設計到資料庫的概念和資料庫語言,這方面不一定要深鑽研,但至少要理解數據的存儲方式,數據的基本結構和數據類型。SQL查詢語言必不可少,精通最好。可從常用的selece查詢,update修改,delete刪除,insert插入的基本結構和讀取入手。
Access2003、Access07等,這是最基本的個人資料庫,經常用於個人或部分基本的數據存儲;MySQL資料庫,這個對於部門級或者互聯網的資料庫應用是必要的,這個時候關鍵掌握資料庫的庫結構和SQL語言的數據查詢能力。
SQL Server2005或更高版本,對中小企業,一些大型企業也可以採用SQL Server資料庫,其實這個時候本身除了數據存儲,也包括了數據報表和數據分析了,甚至數據挖掘工具都在其中了。
DB2,Oracle資料庫都是大型資料庫了,主要是企業級,特別是大型企業或者對數據海量存儲需求的就是必須的了,一般大型資料庫公司都提供非常好的數據整合應用平台。
BI級別,實際上這個不是資料庫,而是建立在前面資料庫基礎上的,企業級應用的數據倉庫。Data Warehouse,建立在DW機上的數據存儲基本上都是商業智能平台,整合了各種數據分析,報表、分析和展現!BI級別的數據倉庫結合BI產品也是近幾年的大趨勢。
2、報表層
企業存儲了數據需要讀取,需要展現,報表工具是最普遍應用的工具,尤其是在國內。傳統報表解決的是展現問題,目前國內的帆軟報表FineReport已經算在業內做到頂尖,是帶著數據分析思想的報表,因其優異的介面開放功能、填報、表單功能,能夠做到打通數據的進出,涵蓋了早期商業智能的功能。
Tableau、FineBI之類,可分在報表層也可分為數據展現層。FineBI和Tableau同屬於近年來非常棒的軟體,可作為可視化數據分析軟體,我常用FineBI從資料庫中取數進行報表和可視化分析。相對而言,可視化Tableau更優,但FineBI又有另一種身份――商業智能,所以在大數據處理方面的能力更勝一籌。
3、數據分析層
這個層其實有很多分析工具,當然我們最常用的就是Excel,我經常用的就是統計分析和數據挖掘工具;
Excel軟體,首先版本越高越好用這是肯定的;當然對excel來講很多人只是掌握了5%Excel功能,Excel功能非常強大,甚至可以完成所有的統計分析工作!但是我也常說,有能力把Excel玩成統計工具不如專門學會統計軟體;
SPSS軟體:當前版本是18,名字也改成了PASW Statistics;我從3.0開始Dos環境下編程分析,到現在版本的變遷也可以看出SPSS社會科學統計軟體包的變化,從重視醫學、化學等開始越來越重視商業分析,現在已經成為了預測分析軟體;
SAS軟體:SAS相對SPSS其實功能更強大,SAS是平台化的,EM挖掘模塊平台整合,相對來講,SAS比較難學些,但如果掌握了SAS會更有價值,比如離散選擇模型,抽樣問題,正交實驗設計等還是SAS比較好用,另外,SAS的學習材料比較多,也公開,會有收獲的!
JMP分析:SAS的一個分析分支
XLstat:Excel的插件,可以完......>>