Ⅰ DB2的歷史
DB2擁有悠久的歷史並且被很多人認為是最早使用sql(同樣最早被IBM開發)的資料庫產品。
1968:IBM 在 IBM 360 計算機上研製成功了 IMS V1,這是第一個也是最著名的和最為典型的層次型資料庫管理系統。至今仍然還有企業在使用呢。
1970:這是資料庫歷史上劃時代的一年,IBM公司的研究員E.F.Codd 發表了業界第一篇關於關系資料庫理論的論文A Relational Model of Data for Large Shared Data Banks,首次提出了關系模型的概念。這篇論文是計算機科學史上最重要的論文之一,奠定了Codd博士關系資料庫之父的地位。
1973:IBM研究中心啟動了 System R 項目,研究多用戶與大量數據下關系型資料庫的可行性,它為 DB2 的誕生打下了良好基礎。由此取得了一大批對資料庫技術發展具有關鍵性作用的成果,該項目於1988年被授予ACM軟體系統獎。
1974:IBM研究員Don Chamberlin 和 Ray Boyce 通過 System R 項目的實踐,發表了論文SEQUEL:A Structured English Query Language,提出了 SEQUEL 語言,此即 SQL 語言的原型。
1975:IBM研究員Don Chamberlin 和 Morton Astrahan的論文 Implentation of a Structured English Query Language,在 SEQUEL 的基礎上 描述了 SQL 語言的第一個實現方案。這也是 System R 項目得出的重大成果之一。
1976:IBM System R 項目組發表了論文A System R: Relational Approach to Database Management,描述了一個關系型資料庫的原型。IBM 的研究員Jim Gray 發表了名為Granularity of Locks and Degrees of Consistency in a Shared DataBase的論文,正式定義了資料庫事務的概念和數據一致性的機制。
1977:System R 原型在3個客戶處進行了安裝,這 3 個客戶分別是:波音公 司、Pratt & Whitney 公司和 Upjohn 葯業。這標志著 System R 從技術上已經是 一個比較成熟的資料庫系統,能夠支撐重要的商業應用了。
1979:IBM研究員Pat Selinger在她的論文Access Path Selection in a Relational Database Management System中描述了業界第一個關系查詢優化器。
1980:IBM發布了 S/38 系統,該系統中集成了一個以 System R 為原型的資料庫伺服器。為了方便應用程序的移植,它的 API 與 S/3、S/32 的 API 一致。
1981:由於發明了關系型資料庫模型,IBM 的研究員E.F.Codd 接受了ACM 圖靈獎,這是計算機科學界的最高榮譽。Codd 博士也是繼查爾斯.巴赫曼(Charles W. Bachman) 之後,又一位由於在資料庫領域做出巨大貢獻而獲此殊榮的計算機科學家。
1982:IBMPC 的出現標志著 PC 產業開始孕育發展。在以後相當長的一段時間內,在各種品牌的個人電腦上標記著的IBM PC Compatible字樣都見證著 IBM 在 這個領域的輝煌。
1982:IBM發布了 SQL/DS for VSE and VM 。這是業界第一個以 SQL 作為介面的商用資料庫管理系統。該系統也是基於 System R 原型所設計的。
1983:IBM發布了DATABASE 2(DB2)for MVS(內部代號為Eagle)。
1986:System/38 V7 發布,該系統首次配置了查詢優化器,能夠對應用程序的存取計劃進行優化。
1987:IBM發布帶有關系型資料庫能力的 OS/2 V1.0擴展版,這是IBM第一次把關系型資料庫處理能力擴展到微機系統。這也是 DB2 for OS/2、Unix and Window 的雛形。
1988:IBM發布了SQL/400,為集成了關系型資料庫管理系統的AS/400伺服器提供了SQL支持。IDUG(國際DB2用戶組織)組織成立。
1989:IBM定義了 Common SQL 和 IBM 分布式關系資料庫架構(DRDA),並在 IBM 所有的關系資料庫管理系統上加以實現。 第一屆 IDUG北美大會在美國芝加哥召開。 1992:第一屆 IDUG歐洲大會在瑞士日內瓦召開。這標志著 DB2 應用的全球化。
1993:
1.IBM發布了DB2 for OS/2 V1(DB2 for OS/2 可以被簡寫為DB2/2)和 DB2 forRS/6000V1(DB2 for RS/6000 可以被簡寫為DB2/6000),這是 DB2 第 一次在Intel 和Unix 平台上出現。
2.Louis V. Gerstner 入主 IBM。
1994:
1.DB2 For MVS V4 通過並行 Sysplex 技術的實現在主機上引入了分布式計算(數據共享)。
2.IBM發布了運行在 RS/6000 SP2 上的 DB2 並行版 V1,DB2 從此有了能夠適應大型數據倉庫和復雜查詢任務的可擴展架構。IBM 將 DB2 Common Server 擴展到 HP-UX 和 Sun Solaris 上。DB2 開始支持其他公司開發的 UNIX 平台。 DB2/400 集成在 OS/400 V3.1中發布,並且引入了並行機制、存儲過程和參照完整性等機制。同時,IBM 宣布在 OS/2 和 AIX 平台上的 DB2 產品能夠對多媒體數據和面向對象應用程序提供支持。
1995:
1.IBM發布了 DB2 Common Server V2,這是第一個能夠在多個平台上運行的對象-關系型資料庫(ORDB)產品,並能夠對 Web 提供充分支持。DataJoiner for AIX 也誕生在這一年,該產品賦予了 DB2 對異構資料庫的支持能力。DB2 在 Windows NT 和 SINIX平台上的第一個版本(DB2 V2)發布。
2.IBM發布了在 AIX 和 MVS 平台上的數據挖掘技術,用於管理大文本、圖像、音頻、視頻和指紋信息的擴展器(Extender)以及可以對數據倉庫進行可視化構造和管理的Visual Warehouse。
3.IBM發布了 DB2 WWW Connection V1 for OS/2 and AIX(該產品後來被更名為Net.Data)。該產品可以將資料庫中的數據快速發布到 Web。第一屆 IDUG 亞太區大會在澳大利亞悉尼召開。這年IBM 並購了 Lotus Development Corp。
1996:
1.IBM發布 DB2 V2.1.2 ,這是第一個真正支持 JAVA 和 JDBC 的資料庫產品。
2.DataJoiner 開始支持對非關系型資料庫(比如 IMS 和 VSAM)的存取。
3.IBM發布了 Intelligent Miner,該產品可以對基於 DB2 的數據源實施數據挖掘。
4.IBM並購 Tivoli。 IBM 將 DB2 更名為 DB2 Universal Database,這是第一個能夠對多媒體和 Web 進行支持的RDBMS。該系統具有很好的伸縮性,可以從桌面系統擴展到大型企業,適應單處理器、 SMP 和 MPP 計算環境,並可以運行在所有主流操作系統和硬體平台上。 DB2 V5 是以前的兩個產品的合並:DB2 Common Server V 2.1.2 和 DB2 並行版 1.2。
5.IBM發布了數字圖書館產品,這是一個多媒體資產管理產品,也是 IBM Content Manager 的前身。
6.DB2 Magzine 第一期發布,DB2 有了自己專門的技術刊物。
1997:
1.IBM發布了可以支持 Web 的 DB2 for OS/390 V5,這是當時唯一能夠支持64, 000個並發用戶和百 TB 級別的資料庫產品。
2.IBM發布了DB2 UDB for UNIX、Windows and OS/2,該產品支持 ROLLUP 和 CUBE 函數,對聯機分析處理(OLAP)具有重要意義。
3.IDUG 第一次技術論壇在加拿大多倫多召開。
4.IBM發布了用於企業級內容管理的 EDMSuite,該產品包含了用於管理計算機生成報表的 OnDemand 和 管理圖像的 ImagePlus VisualInfo。
5.IBM基於 RS/6000 SP 架構的超級計算機深藍在國際象棋的 6 番棋對抗中戰勝了世界棋王卡斯帕羅夫。
1998:
1.IBM發布了 DB2 OLAP Server,這是一個基於 DB2 的完整的 OLAP Solution。這個產品是和 Arbor Software(Hyperion的前身)合作開發的。
2.IBM發布了 DB2 Data Links 技術,該技術可使 DB2 對外部文件進行管理。
3.DB2的 shared-nothing集群技術擴展到 Windows 和 Solaris 平台。
4.IBM發布了 DB2 Spatial Extender,這是與ESRI公司在DataJoiner基礎 上聯合開發的,該產品賦予了DB2 對地理信息數據的存取能力。
5.IBM發布了 ContentConnect,該產品是 Enterprise Information Portal(EIP)的前身。
6.DB2 對 SCO UnixWare 平台提供支持。
7.DB2 UDB V5.2 增加了對 SQLJ、Java 存儲過程和用戶自定義函數的支持。
8.IBM發布 DB2 UDB for AS/400,使 AS/400 成為充分支持電子商務的機 型。
1999:
1/IBM為了對移動計算提供支持,發布了DB2 UDB 衛星版和DB2 Everywhere(這是一個適用於手持設備的微型關系資料庫管理系統,後稱為DB2 Everyplace)。
2/IBM發布了 Enterprise Information Portal,該產品可以跨數字圖書 館和 EDMSuite 提供一個統一的聯合檢索功能。
3/DB2增加了能夠識別 XML 語言的文本檢索功能,從而引入了 XML 支 持,並啟動了DB2 XML Extender 的 beta 計劃。
4/IBM發布了 Intel 平台上的 DB2 UDB for Linux。
5/IBM 研究機構將 DB2 的聯邦(federation)功能和 Garlic 技術(Garlic的目標是使能大規模多媒體信息系統,集成到生命科學解決方案DiscoveryLink 中
2000:
1/IBM發布了 DB2 XML Extender,成為在業界第一個為資料庫提供內置 XML 支持的廠商。
2/IBM將 Visual Warehouse 集成到 DB2 中,為DB2 提供了內置的數據倉庫管理功能。
3/DB2對Linux 的支持進一步增強,能夠支持基於 Intel 的 Linux集群、 發布了可以運行在主機上的 DB2 UDB for Linux和可以運行在嵌入式Linux上的 DB2 Everyplace。
4/DB2開始支持 NUMA-Q 平台,可以運行在該平台上的類 UNIX操作系統DYNIX/PTX 上。
5/DB2通過 Net.Search Extender 提供了 in-memory 高速文本檢索功能。
6/IBM啟動了資料庫管理工具業務,起初著重於為主機上的 IMS 和 DB2 提供高效管理工具,最終這項業務擴展到 UNIX、Linux 和 Windows 平台。 Informix資料庫產品也在支持之列。
7/IBM開始通過在DB2中集成 DataJoiner 來提供數據聯邦(federation)功能 。
8/IBM發布了用於管理數字資產的Content Manager。IBM 數字圖書館和 EDMSuite 產品都被包含在一個單一的架構中來提供多媒體資產管理和企業內 容管理。荷蘭國家圖書館、梵蒂岡圖書館都是最早的用戶。
9/DB2在主機上銷售出了它的第10000個許可證。
2001:
1/IBM以 10 億美金收購了 Informix 的資料庫業務,這次收購擴大了IBM 的分布式資料庫業務。
2/DB2 OLAP Server中增添了數據挖掘功能。
3/IBM發布了第一個能夠支持多種平台的 DB2 工具。
4/DB2提供了基於 SOAP 的 Web 服務的支持。DB2 XML Extender和存儲過程可以使DB2成為 Web 服務的提供者。
5/IBM科學家在納米碳管晶體管技術領域取得突破。IBM 用納米碳管製造出了世界上第一批納米晶體管--由直徑 10 個原子大小的碳原子組成的小圓柱結 構,比當今基於硅的晶體管小 500 倍。
6/DB2拓寬了其數據聯邦(federation)的能力,可以對WebSphere MQ消息隊列和生命科學領域特定格式的文件提供支持。
7/IBM發布了 DB2 UDB for OS/390。
2002:
1/IBM發布了 Xperanto,這是一個基於標準的信息集成中間件的演示版, 可以用來優化對分散數據源的存取。這個演示版本使用了XML、Xquery、Web 服 務、數據聯邦(federation)和全文檢索等先進技術。
2/IBM宣布計劃收購 Rational Software Corp,從而使得 IBM軟體能夠 支持從設計、開發、部署到管理和維護的完整過程。
3/DB2通過基於 SOAP 的 Web 服務擴展了數據聯邦(federation)的能力。並可以作為 Web 服務的使用者出現在 Web 服務架構中。
4/DB2 OLAP Server中添加了hybrid(多維和關系)分析能力。
5/作為IBM 自主運算策略的一部分,SMART(自我管理和資源調節)技術 在 DB2 UDB V8.1 中首次正式應用。
6/IBM並購 Tarian Sotware,從而加強了Content Manager 中記錄管理組 件的功能。
2003:
1/IBM將數據管理產品統一更名為信息管理產品,旨在改變很多用戶對於 DB2 家族產品只能完成單一的數據管理的印象,強調了 DB2 家族在信息的處理與集成方面的能力。
2/DYNIX/ptxDB2 發布了 DB2 Information Integrator(該產品由以 前的 DB2 DataJoiner和 Enterprise Information Portal演化而來),該款軟體旨在幫助客戶即時訪問、集成、管理和分析存儲於企業內外任何平台上的各類信息。
2004:IBM DB2 在TPC 的兩項測試中屢次刷新該測試的新紀錄,在計算領 域的歷史上樹立了新的里程碑。其中在TPC-C 的測試中,它創造了計算速度領域新的世界記錄,徹底粉碎了在該測試中每分鍾三百萬次交易的極限。
2005:經過長達5年的開發,IBM DB2 9將傳統的高性能、易用性與自描述、靈活的XML相結合,轉變成為互動式、充滿活力的數據伺服器。
2006:IBM發布DB2 9,將資料庫領域帶入XML時代。IT建設業已進入SOA(Service-Oriented Architecture)時代。實現SOA,其核心難點是順暢解決不同應用間的數據交換問題。XML以其可擴展性、 與平台無關性和層次結構等特性,成為構建SOA時不同應用間進行數據交換的主流語言。而如何存儲和管理幾何量級的XML數據、直接支持原生XML文檔成為SOA構建效率和質量的關鍵。在這這種情況下,IBM推出了全面支持Original XML的DB2 9,使XML數據的存儲問題迎刃而解,開創了一個新的XML資料庫時代。同年1月30日,IBM發布了一個DB2免費版本DB2Express-C。
Ⅱ 大數據資料庫有哪些
問題一:大數據技術有哪些 非常多的,問答不能發link,不然我給你link了。有譬如Hadoop等開源大數據項目的,編程語言的,以下就大數據底層技術說下。
簡單以永洪科技的技術說下,有四方面,其實也代表了部分通用大數據底層技術:
Z-Suite具有高性能的大數據分析能力,她完全摒棄了向上升級(Scale-Up),全面支持橫向擴展(Scale-Out)。Z-Suite主要通過以下核心技術來支撐PB級的大數據:
跨粒度計算(In-Databaseputing)
Z-Suite支持各種常見的匯總,還支持幾乎全部的專業統計函數。得益於跨粒度計算技術,Z-Suite數據分析引擎將找尋出最優化的計算方案,繼而把所有開銷較大的、昂貴的計算都移動到數據存儲的地方直接計算,我們稱之為庫內計算(In-Database)。這一技術大大減少了數據移動,降低了通訊負擔,保證了高性能數據分析。
並行計算(MPP puting)
Z-Suite是基於MPP架構的商業智能平台,她能夠把計算分布到多個計算節點,再在指定節點將計算結果匯總輸出。Z-Suite能夠充分利用各種計算和存儲資源,不管是伺服器還是普通的PC,她對網路條件也沒有嚴苛的要求。作為橫向擴展的大數據平台,Z-Suite能夠充分發揮各個節點的計算能力,輕松實現針對TB/PB級數據分析的秒級響應。
列存儲 (Column-Based)
Z-Suite是列存儲的。基於列存儲的數據集市,不讀取無關數據,能降低讀寫開銷,同時提高I/O 的效率,從而大大提高查詢性能。另外,列存儲能夠更好地壓縮數據,一般壓縮比在5 -10倍之間,這樣一來,數據佔有空間降低到傳統存儲的1/5到1/10 。良好的數據壓縮技術,節省了存儲設備和內存的開銷,卻大大了提升計算性能。
內存計算
得益於列存儲技術和並行計算技術,Z-Suite能夠大大壓縮數據,並同時利用多個節點的計算能力和內存容量。一般地,內存訪問速度比磁碟訪問速度要快幾百倍甚至上千倍。通過內存計算,CPU直接從內存而非磁碟上讀取數據並對數據進行計算。內存計算是對傳統數據處理方式的一種加速,是實現大數據分析的關鍵應用技術。
問題二:大數據使用的資料庫是什麼資料庫 ORACLE、DB2、SQL SERVER都可以,關鍵不是選什麼資料庫,而是資料庫如何優化! 需要看你日常如何操作,以查詢為主或是以存儲為主或2者,還要看你的數據結構,都要因地制宜的去優化!所以不是一句話說的清的!
問題三:什麼是大數據和大數據平台 大數據技術是指從各種各樣類型的數據中,快速獲得有價值信息的能力。適用於大數據的技術,包括大規模並行處理(MPP)資料庫,數據挖掘電網,分布式文件系統,分布式資料庫,雲計算平台,互聯網,和可擴展的存儲系統。
大數據平台是為了計算,現今社會所產生的越來越大的數據量。以存儲、運算、展現作為目的的平台。
問題四:常用大型資料庫有哪些 FOXBASE
MYSQL
這倆可算不上大型資料庫管理系統
PB 是資料庫應用程序開發用的ide,根本就不是資料庫管理系統
Foxbase是dos時代的產品了,進入windows時代改叫foxpro,屬於桌面單機級別的小型資料庫系統,mysql是個中輕量級的,但是開源,大量使用於小型網站,真正重量級的是Oracle和DB2,銀行之類的關鍵行業用的多是這兩個,微軟的MS SQLServer相對DB2和Oracle規模小一些,多見於中小型企業單位使用,Sybase可以說是日薄西山,不行了
問題五:幾大資料庫的區別 最商業的是ORACLE,做的最專業,然後是微軟的SQL server,做的也很好,當然還有DB2等做得也不錯,這些都是大型的資料庫,,,如果掌握的全面的話,可以保證數據的安全. 然後就是些小的資料庫access,mysql等,適合於中小企業的資料庫100萬數據一下的數據.如有幫助請採納,謝!
問題六:全球最大的資料庫是什麼 應該是Oracle,第一,Oracle為商業界所廣泛採用。因為它規范、嚴謹而且服務到位,且安全性非常高。第二,如果你學習使用Oracle不是商用,也可以免費使用。這就為它的廣泛傳播奠定了在技術人員中的基礎。第三,Linux/Unix系統常常作為伺服器,伺服器對Oracle的使用簡直可以說極其多啊。建議樓梗多學習下這個強大的資料庫
問題七:什麼是大數據? 大數據(big data),或稱巨量資料,指的是所涉及的資料量規模巨大到無法通過目前主流軟體工具,在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。(在維克托・邁爾-舍恩伯格及肯尼斯・庫克耶編寫的《大數據時代》中大數據指不用隨機分析法(抽樣調查)這樣的捷徑,而採用所有數據的方法[2])大數據的4V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。
說起大數據,就要說到商業智能:
商業智能(Business Intelligence,簡稱:BI),又稱商業智慧或商務智能,指用現代數據倉庫技術、線上分析處理技術、數據挖掘和數據展現技術進行數據分析以實現商業價值。
商業智能作為一個工具,是用來處理企業中現有數據,並將其轉換成知識、分析和結論,輔助業務或者決策者做出正確且明智的決定。是幫助企業更好地利用數據提高決策質量的技術,包含了從數據倉庫到分析型系統等。
商務智能的產生發展
商業智能的概念經由Howard Dresner(1989年)的通俗化而被人們廣泛了解。當時將商業智能定義為一類由數據倉庫(或數據集市)、查詢報表、數據分析、數據挖掘、數據備份和恢復等部分組成的、以幫助企業決策為目的技術及其應用。
商務智能是20世紀90年代末首先在國外企業界出現的一個術語,其代表為提高企業運營性能而採用的一系列方法、技術和軟體。它把先進的信息技術應用到整個企業,不僅為企業提供信息獲取能力,而且通過對信息的開發,將其轉變為企業的競爭優勢,也有人稱之為混沌世界中的智能。因此,越來越多的企業提出他們對BI的需求,把BI作為一種幫助企業達到經營目標的一種有效手段。
目前,商業智能通常被理解為將企業中現有的數據轉化為知識,幫助企業做出明智的業務經營決策的工具。這里所談的數據包括來自企業業務系統的訂單、庫存、交易賬目、客戶和供應商資料及來自企業所處行業和競爭對手的數據,以及來自企業所處的其他外部環境中的各種數據。而商業智能能夠輔助的業務經營決策既可以是作業層的,也可以是管理層和策略層的決策。
為了將數據轉化為知識,需要利用數據倉庫、線上分析處理(OLAP)工具和數據挖掘等技術。因此,從技術層面上講,商業智能不是什麼新技術,它只是ETL、數據倉庫、OLAP、數據挖掘、數據展現等技術的綜合運用。
把商業智能看成是一種解決方案應該比較恰當。商業智能的關鍵是從許多來自不同的企業運作系統的數據中提取出有用的數據並進行清理,以保證數據的正確性,然後經過抽取(Extraction)、轉換(Transformation)和裝載(Load),即ETL過程,合並到一個企業級的數據倉庫里,從而得到企業數據的一個全局視圖,在此基礎上利用合適的查詢和分析工具、數據挖掘工具、OLAP工具等對其進行分析和處理(這時信息變為輔助決策的知識),最後將知識呈現給管理者,為管理者的決策過程提供支持。
企業導入BI的優點
1.隨機查詢動態報表
2.掌握指標管理
3.隨時線上分析處理
4.視覺化之企業儀表版
5.協助預測規劃
導入BI的目的
1.促進企業決策流程(Facilitate the Business Decision-Making Process):BIS增進企業的資訊整合與資訊分析的能力,匯總公司內、外部的資料,整合成有效的決策資訊,讓企業經理人大幅增進決策效率與改善決策品質。
......>>
問題八:資料庫有哪幾種? 常用的資料庫:oracle、sqlserver、mysql、access、sybase 2、特點。 -oracle: 1.資料庫安全性很高,很適合做大型資料庫。支持多種系統平台(HPUX、SUNOS、OSF/1、VMS、 WINDOWS、WINDOWS/NT、OS/2)。 2.支持客戶機/伺服器體系結構及混合的體系結構(集中式、分布式、 客戶機/伺服器)。 -sqlserver: 1.真正的客戶機/伺服器體系結構。 2.圖形化用戶界面,使系統管理和資料庫管理更加直觀、簡單。 3.具有很好的伸縮性,可跨越從運行Windows 95/98的膝上型電腦到運行Windows 2000的大型多處理器等多種平台使用。 -mysql: MySQL是一個開放源碼的小型關系型資料庫管理系統,開發者為瑞典MySQL AB公司,92HeZu網免費贈送MySQL。目前MySQL被廣泛地應用在Internet上的中小型網站中。提供由於其體積小、速度快、總體擁有成本低,尤其是開放源碼這一特點,許多中小型網站為了降低網站總體擁有成本而選擇了MySQL作為網站資料庫。 -access Access是一種桌面資料庫,只適合數據量少的應用,在處理少量數據和單機訪問的資料庫時是很好的,效率也很高。 但是它的同時訪問客戶端不能多於4個。 -
問題九:什麼是大數據 大數據是一個體量特別大,數據類別特別大的數據集,並且這樣的數據集無法用傳統資料庫工具對其內容進行抓取、管理和處理。 大數據首先是指數據體量(volumes)?大,指代大型數據集,一般在10TB?規模左右,但在實際應用中,很多企業用戶把多個數據集放在一起,已經形成了PB級的數據量;其次是指數據類別(variety)大,數據來自多種數據源,數據種類和格式日漸豐富,已沖破了以前所限定的結構化數據范疇,囊括了半結構化和非結構化數據。接著是數據處理速度(Velocity)快,在數據量非常龐大的情況下,也能夠做到數據的實時處理。最後一個特點是指數據真實性(Veracity)高,隨著社交數據、企業內容、交易與應用數據等新數據源的興趣,傳統數據源的局限被打破,企業愈發需要有效的信息之力以確保其真實性及安全性。
數據採集:ETL工具負責將分布的、異構數據源中的數據如關系數據、平面數據文件等抽取到臨時中間層後進行清洗、轉換、集成,最後載入到數據倉庫或數據集市中,成為聯機分析處理、數據挖掘的基礎。
數據存取:關系資料庫、NOSQL、SQL等。
基礎架構:雲存儲、分布式文件存儲等。
數據處理:自然語言處理(NLP,NaturalLanguageProcessing)是研究人與計算機交互的語言問題的一門學科。處理自然語言的關鍵是要讓計算機理解自然語言,所以自然語言處理又叫做自然語言理解(NLU,NaturalLanguage Understanding),也稱為計算語言學(putational Linguistics。一方面它是語言信息處理的一個分支,另一方面它是人工智慧(AI, Artificial Intelligence)的核心課題之一。
統計分析:假設檢驗、顯著性檢驗、差異分析、相關分析、T檢驗、方差分析、卡方分析、偏相關分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預測與殘差分析、嶺回歸、logistic回歸分析、曲線估計、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應分析、多元對應分析(最優尺度分析)、bootstrap技術等等。
數據挖掘:分類 (Classification)、估計(Estimation)、預測(Prediction)、相關性分組或關聯規則(Affinity grouping or association rules)、聚類(Clustering)、描述和可視化、Description and Visualization)、復雜數據類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)
模型預測:預測模型、機器學習、建模模擬。
結果呈現:雲計算、標簽雲、關系圖等。
要理解大數據這一概念,首先要從大入手,大是指數據規模,大數據一般指在10TB(1TB=1024GB)規模以上的數據量。大數據同過去的海量數據有所區別,其基本特徵可以用4個V來總結(Vol-ume、Variety、Value和Veloc-ity),即體量大、多樣性、價值密度低、速度快。
第一,數據體量巨大。從TB級別,躍升到PB級別。
第二,數據類型繁多,如前文提到的網路日誌、視頻、圖片、地理位置信息,等等。
第三,價值密度低。以視頻為例,連續不間斷監控過程中,可能有用的數據僅僅有一兩秒。
第四,處理速度快。1秒定律。最後這一點也是和傳統的......>>
問題十:國內真正的大數據分析產品有哪些 國內的大數據公司還是做前端可視化展現的偏多,BAT算是真正做了大數據的,行業有硬性需求,別的行業跟不上也沒辦法,需求決定市場。
說說更通用的數據分析吧。
大數據分析也屬於數據分析的一塊,在實際應用中可以把數據分析工具分成兩個維度:
第一維度:數據存儲層――數據報表層――數據分析層――數據展現層
第二維度:用戶級――部門級――企業級――BI級
1、數據存儲層
數據存儲設計到資料庫的概念和資料庫語言,這方面不一定要深鑽研,但至少要理解數據的存儲方式,數據的基本結構和數據類型。SQL查詢語言必不可少,精通最好。可從常用的selece查詢,update修改,delete刪除,insert插入的基本結構和讀取入手。
Access2003、Access07等,這是最基本的個人資料庫,經常用於個人或部分基本的數據存儲;MySQL資料庫,這個對於部門級或者互聯網的資料庫應用是必要的,這個時候關鍵掌握資料庫的庫結構和SQL語言的數據查詢能力。
SQL Server2005或更高版本,對中小企業,一些大型企業也可以採用SQL Server資料庫,其實這個時候本身除了數據存儲,也包括了數據報表和數據分析了,甚至數據挖掘工具都在其中了。
DB2,Oracle資料庫都是大型資料庫了,主要是企業級,特別是大型企業或者對數據海量存儲需求的就是必須的了,一般大型資料庫公司都提供非常好的數據整合應用平台。
BI級別,實際上這個不是資料庫,而是建立在前面資料庫基礎上的,企業級應用的數據倉庫。Data Warehouse,建立在DW機上的數據存儲基本上都是商業智能平台,整合了各種數據分析,報表、分析和展現!BI級別的數據倉庫結合BI產品也是近幾年的大趨勢。
2、報表層
企業存儲了數據需要讀取,需要展現,報表工具是最普遍應用的工具,尤其是在國內。傳統報表解決的是展現問題,目前國內的帆軟報表FineReport已經算在業內做到頂尖,是帶著數據分析思想的報表,因其優異的介面開放功能、填報、表單功能,能夠做到打通數據的進出,涵蓋了早期商業智能的功能。
Tableau、FineBI之類,可分在報表層也可分為數據展現層。FineBI和Tableau同屬於近年來非常棒的軟體,可作為可視化數據分析軟體,我常用FineBI從資料庫中取數進行報表和可視化分析。相對而言,可視化Tableau更優,但FineBI又有另一種身份――商業智能,所以在大數據處理方面的能力更勝一籌。
3、數據分析層
這個層其實有很多分析工具,當然我們最常用的就是Excel,我經常用的就是統計分析和數據挖掘工具;
Excel軟體,首先版本越高越好用這是肯定的;當然對excel來講很多人只是掌握了5%Excel功能,Excel功能非常強大,甚至可以完成所有的統計分析工作!但是我也常說,有能力把Excel玩成統計工具不如專門學會統計軟體;
SPSS軟體:當前版本是18,名字也改成了PASW Statistics;我從3.0開始Dos環境下編程分析,到現在版本的變遷也可以看出SPSS社會科學統計軟體包的變化,從重視醫學、化學等開始越來越重視商業分析,現在已經成為了預測分析軟體;
SAS軟體:SAS相對SPSS其實功能更強大,SAS是平台化的,EM挖掘模塊平台整合,相對來講,SAS比較難學些,但如果掌握了SAS會更有價值,比如離散選擇模型,抽樣問題,正交實驗設計等還是SAS比較好用,另外,SAS的學習材料比較多,也公開,會有收獲的!
JMP分析:SAS的一個分析分支
XLstat:Excel的插件,可以完......>>
Ⅲ mpp資料庫跟oracle的區別
先這要看下:
Ⅳ db2資料庫中出現的單節點、3個節點、6個節點是什麼意思
單節點么就是一台機器上安裝一個db2資料庫仔皮虧,多握亮節點就是多台伺服器了上安裝相應的db2,念神一般用來做高可用性等,3節點,6節點,想必明白了吧。
Ⅳ 資料庫有哪些
目前比較常見的資料庫:
SQL是用於訪問和處理資料庫的標準的計算機語言。
MySQL是小型的開源的關系型資料庫管理系統。
SQL Server 是 Microsoft 開發的關系資料庫管理系統。
Oracle資料庫系統是目前世界上流行的關系資料庫管理系統。
DB2是關系型資料庫平台,其採用多進程多線索的結構,支持多用戶或應用程序在同一條SQL 語句中查詢不同資料庫和數據。
PostgreSQL 是一個對象-關系資料庫伺服器,號稱 "世界上最先進的開源關系型資料庫"。
Hadoop是個很流行的分布式計算解決方案,Hive是基於hadoop的數據倉庫工具,hive 構建在基於靜態批處理的Hadoop 之上。
GreenPlum採用了MPP(大規模並行處理),是一個由多個獨立的資料庫服務組合成關系型資料庫集群。
ECharts 是一個使用 JavaScript 實現的開源可視化庫,涵蓋各行業圖表。
R是一種集統計分析與圖形顯示為一體的統計分析軟體,具有很強的互動性。
python是一種跨平台的計算機程序設計語言,被廣泛用於系統管理任務的處理和Web編程。
目前,這些資料庫都在樹懶學堂有相關教程,可以跟著一步一步學習
Ⅵ db2資料庫create database on語句是什麼意思
C:\Documents and Settings\tstbd>db2 ? create database
CREATE DATABASE database-name
[AT DBPARTITIONNUM | [AUTOMATIC STORAGE {NO | YES}]
[ON drive[{,drive}...][DBPATH ON drive]]
[ALIAS database-alias] [USING CODESET codeset TERRITORY territory]
[COLLATE USING {SYSTEM | IDENTITY | IDENTITY_16BIT | COMPATIBILITY | NLSCHAR | U
[PAGESIZE integer [K]]
[NUMSEGS numsegs] [DFT_EXTENT_SZ dft_extentsize] [RESTRICTIVE]
[CATALOG TABLESPACE tblspace-defn] [USER TABLESPACE tblspace-defn]
[TEMPORARY TABLESPACE tblspace-defn] [WITH "comment-string"] ]
[AUTOCONFIGURE [USING config-keyword value [{,config-keyword value}...]]
[APPLY {DB ONLY | DB AND DBM | NONE}]]
on 代表數據創建在哪個目錄下面。
參數詳解
1. DATABASE database-name
給資料庫指定名稱,在本地和系統庫中,都必須唯一的,不能包含空格。
2. AT DBPARTITIONNUM
指定資料庫將要被創建在發出命令的分區。當創建一個新庫,不要指定這個參數。可以用它重建一個因為損壞而刪除的數
據庫分區。當用這個參數創建庫,資料庫將處於restore pending狀態。不切斷應用可能導致不一致,用時謹慎。
3. AUTOMATIC STORAGE NO | YES
指定自動存儲打開或關閉。默認是打開的。
4. ON path or drive
這個子句和AUTOMATIC STORAGE的值有關,它指定了DB表空間的容器位置。詳細的目錄結構如下
/Path or Drive ----------> 資料庫目錄
|
|------ InstanceName ----------> 實例名
|
|------ NODEnnnn ----------> 節點名
|
|------ DataBaseName ----------> 資料庫名
|
|------Tnnnnnnn ----------> 表空間容器
對於AUTOMATIC STORAGE NO:只有一個path可以包含在ON後,它指定了DB的位置。如果沒有指定這個參數,DB創建到默認路徑中,該默認路徑為dbm cfg的dftdbpath指定。
對於AUTOMATIC STORAGE YES:可以列出多個路徑,有逗號分隔,這些路徑作為存儲路徑和保存自動存儲表空間的容器。對於多分區DB,相同的存儲路徑被用在所有分區中。
創建資料庫後將創建三個預設表空間:
T0000000子目錄中包含帶有系統目錄表的目錄表空間。
T0000001子目錄中包含預設臨時表空間。
T0000002子目錄中包含預設用戶數據表空間。
每個子目錄或容器中都會創建一個名為 SQLTAG.NAM 的文件。這個文件可以標記正在使用中的子目錄,因此在以後創建其他表空間時,不會嘗試使用這些子目錄。
此外,名為 SQL*.DAT 的文件中還存儲有關子目錄或容器包含的每個表的信息。星號(*)將被唯一的一組數字取代,用來識別每個表。對於每個 SQL*.DAT 文件,可能有一個或多個下列文件,這取決於表類型、表的重組狀態或者表是否存在索引、LOB 或 LONG 欄位:
SQL*.BKM(如果它是一個 MDC 表,那麼它包含塊分配信息)
SQL*.LF(包含 LONG VARCHAR 或 LONG VARGRAPHIC 數據)
SQL*.LB(包含 BLOB、CLOB 或 DBCLOB 數據)
SQL*.XDA(包含 XML 數據)
SQL*.LBA(包含有關 SQL*.LB 文件的分配和可用空間信息)
SQL*.INX(包含索引表數據)
SQL*.IN1(包含索引表數據)
SQL*.DTR(包含用於重組 SQL*.DAT 文件的臨時數據)
SQL*.LFR(包含用於重組 SQL*.LF 文件的臨時數據)
SQL*.RLB(包含用於重組 SQL*.LB 文件的臨時數據)
SQL*.RBA(包含用於重組 SQL*.LBA 文件的臨時數據)
5、DBPATH ON指定了資料庫基礎文件(控制文件,日誌文件等)的創建位置。如果沒有指定,則資料庫在ON後面第一
個路徑指定。如果沒有指定路徑,則在默認位置創建,該默認路徑為dbm cfg的dftdbpath指定。資料庫路徑裡面創建了
分層目錄結構。這個結構保存了資料庫操作需要的文件,目錄結構具體如下
/Path or Drive ----------> 資料庫目錄
|
|------ InstanceName ----------> 實例名
|
|------ NODEnnnn ----------> 節點名
|
|------ SQLxxxxx ----------> 資料庫編號
| |
| |------SQLOGDIR ----------> 資料庫日誌目錄
|
|------sqldbdir ----------> 本地資料庫編目
其中SQLOGDIR目錄用來存放資料庫日誌文件,建庫後可以更改日誌文件位置
SQLxxxxx目錄下包含如下文件
SQLBP.1 和 SQLBP.2 文件中都包含緩沖池信息。這兩個文件中具有相同的副本,從而提供備份。
SQLSPCS.1 和 SQLSPCS.2 文件中都包含表空間信息。這兩個文件中具有相同的副本,從而提供備份。
SQLSGF.1 和 SQLSGF.2 文件中都包含與資料庫的自動存儲器相關的存儲路徑信息。這兩個文件中具有相同的副本,從而提供備份。
SQLDBCON 文件中包含資料庫配置信息。切勿編輯此文件。要更改配置參數,請使用控制中心或者使用 UPDATE DATABASE CONFIGURATION 和 RESET DATABASE CONFIGURATION 命令。
db2rhist.asc 歷史記錄文件及其備份 db2rhist.bak 中包含關於備份、復原、表裝入、表重組、表空間改變和其他資料庫更改的歷史記錄信息。
DB2TSCHNG.HIS文件中包含日誌文件級別的表空間更改的歷史記錄。對於每個日誌文件,DB2TSCHG.HIS中包含有助於確定日誌文件影響哪些表空間的信息。表空間恢復使用此文件中的信息來確定在進行表空間恢復期間要處理哪些日誌文件。可以在文本編輯器中檢查這兩個歷史記錄文件中的內容。
日誌控制文件 SQLOGCTL.LFH 和 SQLOGMIR.LFH 中包含有關活動日誌的信息。
恢復處理過程使用這些文件中的信息來確定要在日誌中後退多遠來開始恢復。SQLOGDIR子目錄中包含實際的日誌文件。
注:您應確保不要將日誌子目錄映射到用於存儲數據的磁碟。這樣,在磁碟發生問題時,只會影響到數據或日誌,而不會同時影響這兩者。由於日誌文件與資料庫容器不會爭用同一磁碟磁頭的移動,因此這可提供很多性能方面的好處。要更改日誌子目錄的位置,請更改 newlogpath資料庫配置參數。
SQLINSLK文件用於確保一個資料庫只能由資料庫管理器的一個實例使用。
在創建資料庫的同時,還在db2event目錄下創建了詳細死鎖事件監視器。詳細死鎖事件監視器文件存儲在目錄節點的資料庫目錄中。當事件監視器達到它要輸出的最大文件數 時,它將取消激活,並且將把一條消息寫入通知日誌中。這樣可防止事件監視器消耗過多的磁碟空間。除去不再需要的輸出文件將允許在下一次資料庫激活時再次激 活事件監視器。
DBPATH ON選項可以被用來把以上文件和信息,放在一個與資料庫數據存儲路徑分開的路徑中。當使用automatic storage時,建議將資料庫的information和資料庫的data分開。
對於MPP系統,資料庫不能建在NFS文件夾中,不能是相對路徑。每個給出的路徑必須在每個資料庫分區中存在並可訪問。
database path最長215字元,storage path最長175字元。
5. ALIAS database-alias
在database directory中,資料庫的別名。如果沒指定,就用資料庫名稱。
6. USING CODESET codeset
指定數據進入資料庫所使用的編碼集。創建資料庫後,不能修改。
7. TERRITORY territory
指定資料庫進入資料庫所使用的區域標示符或本地標示符。創建資料庫後,不能修改。code set和territory的組合,必須是有效的。
Ⅶ mpp資料庫適合哪些應用場景
MPP資料庫主要適合查詢統計、分析研判等大數據處理場景,主要特點是整體架構呈現純扁平化,不存在單點性能瓶頸,基於開放式標准X86 PC伺服器構建,採用分布式架構設計,靈活實現按需部署,具備靈活的系統伸縮性,支持系統的縱向擴展和橫向擴展。
國內的產品主要是南大通用的GBase 8a MPP Cluster,是面向大數據、雲計算場景自主研發的大規模並行資料庫集群產品,在海量數據高速處理的場景下具有高性能、低成本、高可靠、易使用等諸多優勢,國外的如GreenPlum、Vertica等。
Ⅷ mpp架構資料庫有哪些
MPP的代表產品有:Vertica/Redshift(Paracel,被Amazon買買下了源碼的license後變成Redshift)/Greenplum。仔細觀察不難發現,這三者其實有非常很多相同點:
1.全部基於PostgreSQL
2.都是基於列的存儲(Columnar Storage)
3.操作都是以Scan為基礎,依賴Compression來提供性能的優化