『壹』 mpp資料庫適合哪些應用場景
MPP資料庫主要適合查詢統計、分析研判等大數據處理場景,主要特點是整體架構呈現純扁平化,不存在單點性能瓶頸,基於開放式標准X86 PC伺服器構建,採用分布式架構設計,靈活實現按需部署,具備靈活的系統伸縮性,支持系統的縱向擴展和橫向擴展。
國內的產品主要是南大通用的GBase 8a MPP Cluster,是面向大數據、雲計算場景自主研發的大規模並行資料庫集群產品,在海量數據高速處理的場景下具有高性能、低成本、高可靠、易使用等諸多優勢,國外的如GreenPlum、Vertica等。
『貳』 2019數據架構選型必讀:1月資料庫產品技術解析
本期目錄
DB-Engines資料庫排行榜
新聞快訊
一、RDBMS家族
二、Nosql家族
三、NewSQL家族
四、時間序列
五、大數據生態圈
六、國產資料庫概覽
七、雲資料庫
八、推出dbaplus Newsletter的想法
九、感謝名單
為方便閱讀、重點呈現,本期Newsletter(2019年1月)將對各個板塊的內容進行精簡。需要閱讀全文的同學可點擊文末 【閱讀原文】 或登錄https://pan..com/s/13BgipbaHeMfvm0YPtiYviA
DB-Engines資料庫排行榜
以下取自2019年1月的數據,具體信息可以參考http://db-engines.com/en/ranking/,數據僅供參考。
DB-Engines排名的數據依據5個不同的因素:
新聞快訊
1、2018年9月24日,微軟公布了SQL Server2019預覽版,SQL Server 2019將結合Spark創建統一數據平台。
2、2018年10月5日,ElasticSearch在美國紐約證券交易所上市。
3、亞馬遜放棄甲骨文資料庫軟體,導致最大倉庫之一在黃金時段宕機。受此消息影響,亞馬遜盤前股價小幅跳水,跌超2%。
4、2018年10月31日,Percona發布了Percona Server 8.0 RC版本,發布對MongoDB 4.0的支持,發布對XtraBackup測試第二個版本。
5、2018年10月31日,Gartner陸續發布了2018年的資料庫系列報告,包括《資料庫魔力象限》、《資料庫核心能力》以及《資料庫推薦報告》。
今年的總上榜資料庫產品達到了5家,分別來自:阿里雲,華為,巨杉資料庫,騰訊雲,星環 科技 。其中阿里雲和巨杉資料庫已經連續兩年入選。
6、2018年11月初,Neo4j宣布完成E輪8000萬美元融資。11月15日,Neo4j宣布企業版徹底閉源:
7、2019年1月8日,阿里巴巴以1.033億美元(9000萬歐元)的價格收購了Apache Flink商業公司DataArtisans。
8、2019年1月11日早間消息,亞馬遜宣布推出雲資料庫軟體,亞馬遜和MongoDB將會直接競爭。
RDBMS家族
Oracle 發布18.3版本
2018年7月,Oracle Database 18.3通用版開始提供下載。我們可以將Oracle Database 18c視為採用之前發布模式的Oracle Database 12c第2版的第一個補丁集。未來,客戶將不再需要等待多年才能用上最新版Oracle資料庫,而是每年都可以期待新資料庫特性和增強。Database 19c將於2019年Q1率先在Oracle cloud上發布雲版本。
Oracle Database 18c及19c部分關鍵功能:
1、性能
2、多租戶,大量功能增強及改進,大幅節省成本和提高敏捷性
3、高可用
4、數據倉庫和大數據
MySQL發布8.0.13版本
1、賬戶管理
經過配置,修改密碼時,必須帶上原密碼。在之前的版本,用戶登錄之後,就可以修改自己的密碼。這種方式存在一定安全風險。比如用戶登錄上資料庫後,中途離開一段時間,那麼非法用戶可能會修改密碼。由參數password_require_current控制。
2、配置
Innodb表必須有主鍵。在用戶沒有指定主鍵時,系統會生成一個默認的主鍵。但是在主從復制的場景下,默認的主鍵,會對叢庫應用速度帶來致命的影響。如果設置sql_require_primary_key,那麼資料庫會強制用戶在創建表、修改表時,加上主鍵。
3、欄位默認值
BLOB、TEXT、GEOMETRY和JSON欄位可以指定默認值了。
4、優化器
1)Skip Scan
非前綴索引也可以用了。
之前的版本,任何沒有帶上f1欄位的查詢,都沒法使用索引。在新的版本中,它可以忽略前面的欄位,讓這個查詢使用到索引。其實現原理就是把(f1 = 1 AND f2 > 40) 和(f1 = 2 AND f2 > 40)的查詢結果合並。
2)函數索引
之前版本只能基於某個列或者多個列加索引,但是不允許在上面做計算,如今這個限制消除了。
5、SQL語法
GROUP BY ASC和GROUP BY DESC語法已經被廢棄,要想達到類似的效果,請使用GROUP BY ORDER BY ASC和GROUP BY ORDER BY DESC。
6、功能變化
1)設置用戶變數,請使用SET語句
如下類型語句將要被廢棄SELECT @var, @var:=@var+1。
2)新增innodb_fsync_threshold
該變數是控制文件刷新到磁碟的速率,防止磁碟在短時間內飽和。
3)新增會話級臨時表空間
在以往的版本中,當執行SQL時,產生的臨時表都在全局表空間ibtmp1中,及時執行結束,臨時表被釋放,空間不會被回收。新版本中,會為session從臨時表空間池中分配一個臨時表空間,當連接斷開時,臨時表空間的磁碟空間被回收。
4)在線切換Group Replication的狀態
5)新增了group_replication_member_expel_timeout
之前,如果某個節點被懷疑有問題,在5秒檢測期結束之後,那麼就直接被驅逐出這個集群。即使該節點恢復正常時,也不會再被加入集群。那麼,瞬時的故障,會把某些節點驅逐出集群。
group_replication_member_expel_timeout讓管理員能更好的依據自身的場景,做出最合適的配置(建議配置時間小於一個小時)。
MariaDB 10.3版本功能展示
1、MariaDB 10.3支持update多表ORDER BY and LIMIT
1)update連表更新,limit語句
update t1 join t2 on t1.id=t2.id set t1.name='hechunyang' limit 3;
MySQL 8.0直接報錯
MariaDB 10.3更新成功
2)update連表更新,ORDER BY and LIMIT語句
update t1 join t2 on t1.id=t2.id set t1.name='HEchunyang' order by t1.id DESC limit 3;
MySQL 8.0直接報錯
MariaDB 10.3更新成功
參考:
https://jira.mariadb.org/browse/MDEV-13911
2、MariaDB10.3增補AliSQL補丁——安全執行Online DDL
Online DDL從名字上看很容易誤導新手,以為不論什麼情況,修改表結構都不會鎖表,理想很豐滿,現實很骨感,注意這個坑!
有以下兩種情況執行DDL操作會鎖表的,Waiting for table metadata lock(元數據表鎖):
針對第二種情況,MariaDB10.3增補AliSQL補丁-DDL FAST FAIL,讓其DDL操作快速失敗。
例:
如果線上有某個慢SQL對該表進行操作,可以使用WAIT n(以秒為單位設置等待)或NOWAIT在語句中顯式設置鎖等待超時,在這種情況下,如果無法獲取鎖,語句將立即失敗。 WAIT 0相當於NOWAIT。
參考:
https://jira.mariadb.org/browse/MDEV-11388
3、MariaDB Window Functions窗口函數分組取TOP N記錄
窗口函數在MariaDB10.2版本里實現,其簡化了復雜SQL的撰寫,提高了可讀性。
參考:
https://mariadb.com/kb/en/library/window-functions-overview/
Percona Server發布8.0 GA版本
2018年12月21日,Percona發布了Percona Server 8.0 GA版本。
在支持MySQL8.0社區的基礎版上,Percona Server for MySQL 8.0版本中帶來了許多新功能:
1、安全性和合規性
2、性能和可擴展性
3、可觀察性和可用性
Percona Server for MySQL 8.0中將要被廢用功能:
Percona Server for MySQL 8.0中刪除的功能:
RocksDB發布V5.17.2版本
2018年10月24日,RocksDB發布V5.17.2版本。
RocksDB是Facebook在LevelDB基礎上用C++寫的高效內嵌式K/V存儲引擎。相比LevelDB,RocksDB提供了Column-Family,TTL,Transaction,Merge等方面的支持。目前MyRocks,TiKV等底層的存儲都是基於RocksDB來構建。
PostgreSQL發布11版本
2018年10月18日,PostgreSQL 11發布。
1、PostgreSQL 11的重大增強
2、PostgreSQL 插件動態
1)分布式插件citus發布 8.1
citus是PostgreSQL的一款sharding插件,目前國內蘇寧、鐵總、探探有較大量使用案例。
https://github.com/citusdata/citus
2)地理信息插件postgis發布2.5.1
PostGIS是專業的時空資料庫插件,在測繪、航天、氣象、地震、國土資源、地圖等時空專業領域應用廣泛。同時在互聯網行業也得到了對GIS有性能、功能深度要求的客戶青睞,比如共享出行、外賣等客戶。
http://postgis.net/
3)時序插件timescale發布1.1.1
timescale是PostgreSQL的一款時序資料庫插件,在IoT行業中有非常好的應用。github star數目前有5000多,是一個非常火爆的插件。
https://github.com/timescale/timescaledb
4)流計算插件 pipelinedb 正式插件化
Pipelinedb是PostgreSQL的一款流計算插件,使用這個創建可以對高速寫入的數據進行實時根據定義的聚合規則進行聚合(支持概率計算),實時根據定義的規則觸發事件(支持事件處理函數的自定義)。可用於IoT,監控,FEED實時計算等場景。
https://github.com/pipelinedb/pipelinedb
3、PostgreSQL衍生開源產品動態
1)agensgraph發布 2.0.0版本
agensgraph是兼容PostgreSQL、opencypher的專業圖資料庫,適合圖式關系的管理。
https://github.com/bitnine-oss/agensgraph
2)gpdb發布5.15
gpdb是兼容PostgreSQL的mpp資料庫,適合OLAP場景。近兩年,gpdb一直在追趕PostgreSQL的社區版本,預計很快會追上10的PostgreSQL,在TP方面的性能也會得到顯著提升。
https://github.com/greenplum-db/gpdb
3)antdb發布3.2
antdb是以Postgres-XC為基礎開發的一款PostgreSQL sharding資料庫,亞信主導開發,開源,目前主要服務於亞信自有客戶。
https://github.com/ADBSQL/AntDB
4)遷移工具MTK發布52版本
MTK是EDB提供的可以將Oracle、PostgreSQL、MySQL、MSSQL、Sybase資料庫遷移到PostgreSQL, PPAS的產品,遷移速度可以達到100萬行/s以上。
https://github.com/digoal/blog/blob/master/201812/20181226_01.md
DB2發布 11.1.4.4版本
DB2最新發布Mod Pack 4 and Fix Pack 4,包含以下幾方面的改動及增強:
1、性能
2、高可用
3、管理視圖
4、應用開發方面
5、聯邦功能
6、pureScale
NoSQL家族
Redis發布5.0.3版本
MongoDB升級更新MongoDB Mobile和MongoDB Stitch
2018年11月21日,MongoDB升級更新MongoDB Mobile和MongoDB Stitch,助力開發人員提升工作效率。
MongoDB 公司日前發布了多項新產品功能,旨在更好地幫助開發人員在世界各地管理數據。通過利用存儲在移動設備和後台資料庫的數據之間的實時、自動的同步特性,MongoDB Mobile通用版本助力開發人員構建更快捷、反應更迅速的應用程序。此前,這只能通過在移動應用內部安裝一個可供選擇或限定功能的資料庫來實現。
MongoDB Mobile在為客戶提供隨處運行的自由度方面更進了一步。用戶在iOS和安卓終端設備上可擁有MongoDB所有功能,將網路邊界擴展到其物聯網資產范疇。應用系統還可以使用MongoDB Stitch的軟體開發包訪問移動客戶端或後台數據,幫助開發人員通過他們希望的任意方式查詢移動終端數據和物聯網數據,包括本地讀寫、本地JSON存儲、索引和聚合。通過Stitch移動同步功能(現可提供beta版),用戶可以自動對保存在本地的數據以及後台資料庫的數據進行同步。
本期新秀:Cassandra發布3.11.3版本
2018年8月11日,Cassandra發布正式版3.11.3。
Apache Cassandra是一款開源分布式NoSQL資料庫系統,使用了基於Google BigTable的數據模型,與面向行(row)的傳統關系型資料庫或鍵值存儲key-value資料庫不同,Cassandra使用的是寬列存儲模型(Wide Column Stores)。與BigTable和其模仿者HBase不同,數據並不存儲在分布式文件系統如GFS或HDFS中,而是直接存於本地。
Cassandra的系統架構與Amazon DynamoDB類似,是基於一致性哈希的完全P2P架構,每行數據通過哈希來決定應該存在哪個或哪些節點中。集群沒有master的概念,所有節點都是同樣的角色,徹底避免了整個系統的單點問題導致的不穩定性,集群間的狀態同步通過Gossip協議來進行P2P的通信。
3.11.3版本的一些bug fix和改進:
NewSQL家族
TiDB 發布2.1.2版本
2018 年 12 月 22 日,TiDB 發布 2.1.2 版,TiDB-Ansible 相應發布 2.1.2 版本。該版本在 2.1.1 版的基礎上,對系統兼容性、穩定性做出了改進。
TiDB 是一款定位於在線事務處理/在線分析處理( HTAP: Hybrid Transactional/Analytical Processing)的融合型資料庫產品。除了底層的 RocksDB 存儲引擎之外,分布式SQL層、分布式KV存儲引擎(TiKV)完全自主設計和研發。
TiDB 完全開源,兼容MySQL協議和語法,可以簡單理解為一個可以無限水平擴展的MySQL,並且提供分布式事務、跨節點 JOIN、吞吐和存儲容量水平擴展、故障自恢復、高可用等優異的特性;對業務沒有任何侵入性,簡化開發,利於維護和平滑遷移。
TiDB:
PD:
TiKV:
Tools:
1)TiDB-Lightning
2)TiDB-Binlog
EsgynDB發布R2.5版本
2018年12月22日,EsgynDB R2.5版本正式發布。
作為企業級產品,EsgynDB 2.5向前邁進了一大步,它擁有以下功能和改進:
CockroachDB發布2.1版本
2018年10月30日,CockroachDB正式發布2.1版本,其新增特性如下:
新增企業級特性:
新增SQL特性:
新增內核特性:
Admin UI增強:
時間序列
本期新秀:TimescaleDB發布1.0版本
10月底,TimescaleDB 1.0宣布正式推出,官方表示該版本已可用於生產環境,支持完整SQL和擴展。
TimescaleDB是基於PostgreSQL資料庫開發的一款時序資料庫,以插件化的形式打包提供,隨著PostgreSQL的版本升級而升級,不會因為另立分支帶來麻煩。
TimescaleDB架構:
數據自動按時間和空間分片(chunk)
更新亮點:
https://github.com/timescale/timescaledb/releases/tag/1.0.0
大數據生態圈
Hadoop發布2.9.2版本
2018年11月中旬,Hadoop在2.9分支上發布了新的2.9.2版本,該版本進行了204個大大小小的變更,主要變更如下:
Greenplum 發布5.15版本
Greenplum最新的5.15版本中發布了流式數據載入工具。
該版本中的Greenplum Streem Server組件已經集成了Kafka流式載入功能,並通過了Confluent官方的集成認證,其支持的主要功能如下:
國產資料庫概覽
K-DB發布資料庫一體機版
2018年11月7日,K-DB發布了資料庫一體機版。該版本更新情況如下:
OceanBase遷移服務發布1.0版本
1月4日,OceanBase 正式發布OMS遷移服務1.0版本。
以下內容包含 OceanBase 遷移服務的重要特性和功能:
SequoiaDB發布3.0.1新版本
1、架構
1)完整計算存儲分離架構,兼容MySQL協議、語法
計算存儲分離體系以松耦合的方式將計算與存儲層分別部署,通過標准介面或插件對各個模塊和組件進行無縫替換,在計算層與存儲層均可實現自由的彈性伸縮。
SequoiaDB巨杉資料庫「計算-存儲分離」架構詳細示意
用戶可以根據自身業務特徵選擇面向交易的SQL解析器(例如MySQL或PGSQL)或面向統計分析的執行引擎(例如SparkSQL)。眾所周知,使用不同的SQL優化與執行方式,資料庫的訪問性能可能會存在上千上萬倍的差距。計算存儲分離的核心思想便是在數據存儲層面進行一體化存儲,在計算層面則利用每種執行引擎的特點針對不同業務場景進行選擇和優化,用戶可以在存儲層進行邏輯與物理的隔離,將面向高頻交易的前端業務與面向高吞吐量的統計分析使用不同的硬體進行存儲,確保在多類型數據訪問時互不幹擾,以真正達到生產環境可用的多租戶與HTAP能力。
2、其他更新信息
1)介面變更:
2)主要特性:
雲資料庫
本期新秀:騰訊發布資料庫CynosDB,開啟公測
1、News
1)騰訊雲資料庫MySQL2018年重大更新:
2)騰訊雲資料庫MongoDB2018年重大更新:
3)騰訊雲資料庫Redis/CKV+2018年重大更新:
4)騰訊雲資料庫CTSDB2018年重大更新:
2、Redis 4.0集群版商業化上線
2018年10月,騰訊雲資料庫Redis 4.0集群版完成邀測、公測、商業化三個迭代,在廣州、上海、北京正式全量商業化上線。
產品特性:
使用場景:
官網文檔:
https://cloud.tencent.com/document/proct/239/18336
3、騰訊自研資料庫CynosDB發布,開啟公測
2018年11月22日,騰訊雲召開新一代自研資料庫CynosDB發布會,業界第一款全面兼容市面上兩大最主流的開源資料庫MySQL和PostgreSQL的高性能企業級分布式雲資料庫。
本期新秀:京東雲DRDS發布1.0版本
12月24日,京東雲分布式關系型資料庫DRDS正式發布1.0版本。
DRDS是京東雲精心自研的資料庫中間件產品,獲得了2018年 」可信雲技術創新獎」。DRDS可實現海量數據下的自動分庫分表,具有高性能,分布式,彈性升級,兼容MySQL等優點,適用於高並發、大規模數據的在線交易, 歷史 數據查詢,自動數據分片等業務場景,歷經多次618,雙十一的考驗,已經在京東集團內大規模使用。
京東雲DRDS產品有以下主要特性
1)自動分庫分表
通過簡單的定義即可自動實現分庫分表,將數據實際存放在多個MySQL實例的資料庫中,但呈現給應用程序的依舊是一張表,對業務透明,應用程序幾乎無需改動,實現了對資料庫存儲和處理能力的水平擴展。
2)分布式架構
基於分布式架構的集群方案,多個對等節點同時對外提供服務,不但可有效規避服務的單點故障,而且更加容易擴展。
3)超強性能
具有極高的處理能力,雙節點即可支持數萬QPS,滿足用戶超大規模處理能力的需求。
4)兼容MySQL
兼容絕大部分MySQL語法,包括MySQL語法、數據類型、索引、常用函數、排序、關聯等DDL,DML語句,使用成本低。
參考鏈接:
https://www.jdcloud.com/cn/procts/drds
RadonDB發布1.0.3版本
2018年12月26日,MyNewSQL領域的RadonDB雲資料庫發布1.0.3版本。
推出dbaplus Newsletter的想法
dbaplus Newsletter旨在向廣大技術愛好者提供資料庫行業的最新技術發展趨勢,為社區的技術發展提供一個統一的發聲平台。為此,我們策劃了RDBMS、NoSQL、NewSQL、時間序列、大數據生態圈、國產資料庫、雲資料庫等幾個版塊。
我們不以商業宣傳為目的,不接受任何商業廣告宣傳,嚴格審查信息源的可信度和准確性,力爭為大家提供一個純凈的技術學習環境,歡迎大家監督指正。
至於Newsletter發布的周期,目前計劃是每三個月左右會做一次跟進, 下期計劃時間是2019年4月14日~4月25日, 如果有相關的信息提供請發送至郵箱:[email protected]
感謝名單
最後要感謝那些提供寶貴信息和建議的專家朋友,排名不分先後。
往期回顧:
↓↓別忘了點這里下載 2019年1月 完整版Newsletter 哦~
『叄』 2017,華為雲私有雲解決方案緣何能夠屢創佳績
2017年,對於華為雲私有雲解決方案來說,有很多事情值得紀念。
IDC報告顯示,華為雲FusionSphere虛擬化解決方案在中國OpenStack軟體市場和中國伺服器虛擬化市場中國廠商雙雙排名第一;華為雲FusionAccess桌面雲解決方案在中國桌面雲市場排名第一;在中國大數據管理平台廠商中,華為同樣排名第一。
在Gartner《分析數據管理解決方案(DMSA)魔力四象限研究報告》中,華為雲FusionInsight大數據解決方案憑借創新能力和前瞻性,進入了DMSA魔力象限特定領域者象限。
在垂直行業中,華為雲私有雲同樣表現優異。IDC報告顯示,華為雲政務雲解決方案位居中國政務雲市場廠商領導者區間,在現有能力、未來戰略和市場表現三大維度均排名第一。
在2017年,華為雲私有雲解決方案不僅成為中國市場的領跑者,更是獲得了大量全球客戶的青睞。截至目前,華為雲FusionCloud私有雲解決方案已經服務於全球142個國家和地區超過3500家客戶,覆蓋政府及公共事業、運營商、能源、金融、製造、媒資、醫療、教育等多個行業。
那麼,華為雲私有雲解決方案緣何能夠贏得權威分析機構和客戶的雙重認可?
外因:私有雲市場成為優質土壤
Gartner對全球2018年雲計算應用的調研數據說明,盡管私有雲不像公有雲那樣經常「搶頭條」,但私有雲在整體雲市場中占據著舉足輕重的地位,有著巨大的市場潛力。
今年,Gartner 發布了名為《中國將成為最主要的私有雲市場》的研究報告。報告指出,在企業 IT 基礎設施雲化、社交化和大數據化的趨勢下,以及中國「互聯網+」大戰略的背景下,中國有望成為最主要的私有雲市場之一。
Gartner指出,「十三五」期間,隨著中國智能製造、智慧城市、IoT、5G、人工智慧等大規模數字化產業的興起,以及政府、金融、運營商、電力、製造、零售、醫療等行業的轉型,私有雲市場得到了有力拉動。
私有雲市場的旺盛需求和巨大的潛力為華為雲私有雲業務提供了優質的土壤,然而正如內因和外因的辯證關系,華為雲私有雲解決方案能夠獨占鰲頭,起決定作用的還是自身修為。
內因:苦修內功,做大生態
經過十年發展,華為雲私有雲解決方案已經形成FusionCloud私有雲解決方案、FusionInsight大數據解決方案、FusionSphere虛擬化解決方案和FusionAccess桌面雲解決方案等產品解決方案,這些解決方案可以通過靈活組合的方式滿足不同的差異化客戶需求。
基於產品解決方案,華為雲通過與不同行業的ISV深度合作,為運營商、政務、安平、金融、製造、醫療、大企業等行業打造了適配行業需求的垂直行業解決方案。
經過多年耕耘積累,華為雲私有雲解決方案逐漸在戰略、技術、生態上實現了差異化,形成了獨特競爭力。
其一,戰略優勢。
在私有雲戰略上,華為雲一直堅持開放架構,堅持回饋開源社區,積極推動開放雲生態圈的建立。
同時,華為雲一直堅持「上不做應用,下不碰數據,不做股權投資」的三不原則,界定了清晰的業務邊界,這讓華為雲快速贏得了客戶和合作夥伴的信賴。
此外,華為雲私有雲、公有雲、以及與合作夥伴一起搭建的雲都是基於統一API、統一服務、統一生態和統一架構,讓客戶能夠根據需求自由組合,滿足了當前客戶對於「多雲」的需求。
其二,技術優勢。
企業上雲過程中往往存在著四大問題:如何能滿足企業關鍵應用對於性能的苛求?到底是選擇公有雲還是私有雲?如何利用雲計算釋放大數據的價值?如何讓業務能夠根據新趨勢和新需求隨「新」而變?華為雲FusionCloud私有雲解決方案很好地解決了這些問題。
在性能上, FusionCloud可提供裸金屬伺服器支持,以保障企業核心業務的自動化、高可靠性和高性能;支持GPU+CPU異構計算模式,為大數據分析和深度學習等應用提供更強性能;提供對SAP HANA平台的支持。今年,華為雲FusionSphere虛擬化解決方案再次在SPECvirt性能測試中獲得兩項第一。
在架構上,華為雲FusionCloud私有雲解決方案和華為雲公有雲採用了統一架構和統一API,讓企業業務可以方便的在華為構建的私有雲和公有雲之間移植,支持應用跨雲平滑遷移,為企業客戶提供了統一的用戶體驗,從根本上解決了企業「到底該選擇私有雲還是公有雲」的問題。
如今,FusionCloud提供了包括計算、存儲、網路等基礎雲服務以及雲安全、雲管理、雲災備和多種類型的雲資料庫服務,以滿足客戶豐富的業務需求。客戶可以輕松地通過FusionCloud雲平台靈活的申請各類雲服務,快速部署業務上雲。
在大數據方面,華為FusionInsight大數據解決方案憑借創新能力和前瞻性進入了Gartner分析數據管理解決方案(DMSA)魔力象限特定領域者象限。Gartner給出的推薦理由是:「華為添加了行業特定的領域模型,以及針對事件流處理,圖形和機器學習功能的Hadoop平台的專有擴展,以及與MPP DB兼容並在Hadoop上運行的統一SQL引擎。」
此外,華為雲私有雲解決方案以開放、高性能的大數據平台,聯合ISV針對客戶業務場景進行優化,實現視頻監控千億圖片秒級搜索,業務風控實時化,精準營銷獲客率大幅提升。
在支撐企業客戶的新業務方面,華為雲私有雲解決方案通過基於開源的PaaS平台支撐客戶業務容器化部署和微服務改造,實現了秒級彈性和快速構建。
其三,生態優勢。
華為雲私有雲和公有雲同源,均兼容OpenStack架構。
「源於開源、強於開源、回饋開源」是華為一直以來對於雲計算的態度。華為於2012年加入OpenStack基金會,於2013年升級為社區黃金會員,在2017年3月成為亞洲首家也是唯一的OpenStack白金會員。
今年,華為雲又被OpenStack用戶評選為最受歡迎的OpenStack雲供應商,並獲得首屆Kubernetes指導委員會席位,成為亞洲首家OCI社區全科maintainer。
堅持開放的技術路徑讓華為雲扣住了雲計算發展的脈搏,能夠和眾多合作夥伴一起打造開放的雲計算生態圈,推動雲計算的真正落地。
如今,華為已經與各行業的超過300家ISV結成合作夥伴,構建了繁榮的行業應用生態,使得華為雲能夠更加深入行業,打造一系列行業場景化雲計算解決方案,覆蓋運營商、政府、公安、金融、製造等行業。
此前,華為還與埃森哲正式簽署「華為-埃森哲戰略聯盟協議」,雙方共同面向電信運營商和企業ICT兩大市場的客戶需求開發並推廣創新解決方案,為全球客戶提供基於埃森哲「基礎設施即服務」解決方案和華為雲計算基礎設施而預先設計的一體化雲解決方案。
本月,華為正式通過沃達豐集團OpenStack雲平台供應商認證,通過基於OpenStack的FusionSphere雲平台支持沃達豐在全球網路功能虛擬化(NFV)和軟體定義網路(SDN)的建設,華為雲私有雲解決方案再度斬獲全球關鍵客戶。
在政務領域,華為政務雲解決方案已經成功實踐230+政務雲項目,例如已經助力廣州政務雲穩定運行三年,並為廣州「一個中樞、四大應用、三大支撐」的新型智慧城市共享體系框架提供了有力支撐。
在大數據領域,華為雲FusionInsight大數據解決方案在全球40+國家已經擁有700+客戶和300+商業合作伙,具有大量落地案例。2016年,中國太保集團與華為聯合創新實驗室基於業務實踐推出了金融保險大數據解決方案,其中包括大數據處理平台和IT基礎設施,支持中國太保快速構建了海量數據信息處理系統——客戶數據ATM系統,對太保億級客戶存量數據進行全面的挖掘與分析。
在HUAWEI CONNECT 2017大會上,深圳交警採用華為雲EI企業智能正式啟動深圳城市交通大腦工程。在華為雲、大數據、人工智慧等技術的支持下,可提升約10倍的違章圖片篩選效率、道路通行能力將提高8%左右。雙方聯合打造的智慧交通解決方案獲得了中國道路交通安全協會頒發的「2017年度道路交通安全創新產品獎」。
綜上,歸功於從戰略、技術到生態方面的優勢,華為雲私有雲解決方案能夠獲權威機構和客戶的雙重認可,也就不足為奇了。
形成合力,重塑雲計算格局
「華為雲」能夠取得現在的成績,可謂是厚積薄發。
2007年,華為成立聚焦雲計算的虛擬化研究部,開始投入雲計算相關研究;
2011年,華為IT產品線成立,聚焦雲數據中心;
2013年,華為發布了FusionSphere、FusionInsight解決方案並成為OpenStack基金會黃金會員;
2017年3月,華為成立雲BU,並成為亞洲首家OpenStack基金會的白金會員;
2017年9月,華為雲發布企業智能(EI)等六大創新解決方案。
現在「華為雲」成為了華為公有雲和私有雲解決方案的共有品牌,經歷十年發展,兩朵雲終將形成合力,向客戶呈現統一的品牌名,並提供更優質、更具競爭力的雲服務。
對於客戶來說,兩朵雲統一品牌、形成合力,將給客戶帶來端到端、一站式的雲計算解決方案:華為公有雲和華為私有雲具有「四個統一」,讓客戶應用能夠自由遷移,即在華為雲上開發的應用可以部署在華為已經部署的企業、政府的私有雲和政務雲上,讓客戶平滑步入混合雲。
實現統一之後,華為雲不僅僅是計算+存儲+網路+安全,而是計算+存儲+網路+安全+物聯網+大數據+人工智慧的全面堆棧;華為雲不僅僅是軟體與服務,而是晶元+硬體+軟體+服務+生態的全生命周期解決方案;華為雲不僅僅是線上提供服務,而是線上線下相結合來解決客戶問題,助力客戶IT轉型。
對於雲計算產業來說,華為雲在推動開源技術發展、建設開放雲計算生態上做出了積極貢獻;並通過全面的雲計算解決方案,加速了大中型企業、中小型企業以及行業市場的雲化過程,成為全球雲計算落地的重要推力。與此同時,華為形成了在技術、生態、客戶等方面的差異化優勢,成為全球屈指可數的能同時提供私有雲、公有雲以及混合雲的雲計算企業,重塑了雲計算產業格局。
『肆』 MPP 和 NoSQL 有什麼區別 架構上, 應用上
MPP是一種進行系統擴展的方式,它由多個SMP伺服器通過一定的節點互聯網路進行連接,協同工作,完成相同的任務,從用戶的角度來看是一個伺服器系統。每一個節點只能訪問自己本地資源(內存,存儲等),是一種完全無共享結構(Share Nothing)結構。
而NoSql=Not Only Sql。泛指的是非關系型資料庫。大概分為四類。Key-Value存儲的資料庫,列式存儲資料庫(Hbase),文檔型資料庫和圖形資料庫。
『伍』 從站點到平台——探討服務端高並發分布式架構演進
本文以淘寶作為例子,介紹從一百個並發到千萬級並發情況下服務端的架構的演進過程,同時列舉出每個演進階段會遇到的相關技術,讓大家對架構的演進有一個整體的認知,文章最後匯總了一些架構設計的原則。
在介紹架構之前,為了避免部分讀者對架構設計中的一些概念不了解,下面對幾個最基礎的概念進行介紹:
3.1 單機架構
以淘寶作為例子。在網站最初時,應用數量與用戶數都較少,可以把Tomcat和資料庫部署在同一台伺服器上。瀏覽器往www.taobao.com發起請求時,首先經過DNS伺服器(域名系統)把域名轉換為實際IP地址10.102.4.1,瀏覽器轉而訪問該IP對應的Tomcat。
3.2 第一次演進:Tomcat與資料庫分開部署
Tomcat和資料庫分別獨占伺服器資源,顯著提高兩者各自性能。
3.3 第二次演進:引入本地緩存和分布式緩存
在Tomcat同伺服器上或同JVM中增加本地緩存,並在外部增加分布式緩存,緩存熱門商品信息或熱門商品的html頁面等。通過緩存能把絕大多數請求在讀寫資料庫前攔截掉,大大降低資料庫壓力。其中涉及的技術包括:使用memcached作為本地緩存,使用Redis作為分布式緩存,還會涉及緩存一致性、緩存穿透/擊穿、緩存雪崩、熱點數據集中失效等問題。
3.4 第三次演進:引入反向代理實現負載均衡
在多台伺服器上分別部署Tomcat,使用反向代理軟體(Nginx)把請求均勻分發到每個Tomcat中。此處假設Tomcat最多支持100個並發,Nginx最多支持50000個並發,那麼理論上Nginx把請求分發到500個Tomcat上,就能抗住50000個並發。其中涉及的技術包括:Nginx、HAProxy,兩者都是工作在網路第七層的反向代理軟體,主要支持http協議,還會涉及session共享、文件上傳下載的問題。
3.5 第四次演進:資料庫讀寫分離
把資料庫劃分為讀庫和寫庫,讀庫可以有多個,通過同步機制把寫庫的數據同步到讀庫,對於需要查詢最新寫入數據場景,可通過在緩存中多寫一份,通過緩存獲得最新數據。其中涉及的技術包括:Mycat,它是資料庫中間件,可通過它來組織資料庫的分離讀寫和分庫分表,客戶端通過它來訪問下層資料庫,還會涉及數據同步,數據一致性的問題。
3.6 第五次演進:資料庫按業務分庫
把不同業務的數據保存到不同的資料庫中,使業務之間的資源競爭降低,對於訪問量大的業務,可以部署更多的伺服器來支撐。這樣同時導致跨業務的表無法直接做關聯分析,需要通過其他途徑來解決,但這不是本文討論的重點,有興趣的可以自行搜索解決方案。
3.7 第六次演進:把大表拆分為小表
比如針對評論數據,可按照商品ID進行hash,路由到對應的表中存儲;針對支付記錄,可按照小時創建表,每個小時表繼續拆分為小表,使用用戶ID或記錄編號來路由數據。只要實時操作的表數據量足夠小,請求能夠足夠均勻的分發到多台伺服器上的小表,那資料庫就能通過水平擴展的方式來提高性能。其中前面提到的Mycat也支持在大表拆分為小表情況下的訪問控制。
這種做法顯著的增加了資料庫運維的難度,對DBA的要求較高。資料庫設計到這種結構時,已經可以稱為分布式資料庫,但是這只是一個邏輯的資料庫整體,資料庫里不同的組成部分是由不同的組件單獨來實現的,如分庫分表的管理和請求分發,由Mycat實現,SQL的解析由單機的資料庫實現,讀寫分離可能由網關和消息隊列來實現,查詢結果的匯總可能由資料庫介面層來實現等等,這種架構其實是MPP(大規模並行處理)架構的一類實現。
目前開源和商用都已經有不少MPP資料庫,開源中比較流行的有Greenplum、TiDB、Postgresql XC、HAWQ等,商用的如南大通用的GBase、睿帆 科技 的雪球DB、華為的LibrA等等,不同的MPP資料庫的側重點也不一樣,如TiDB更側重於分布式OLTP場景,Greenplum更側重於分布式OLAP場景,這些MPP資料庫基本都提供了類似Postgresql、Oracle、MySQL那樣的SQL標准支持能力,能把一個查詢解析為分布式的執行計劃分發到每台機器上並行執行,最終由資料庫本身匯總數據進行返回,也提供了諸如許可權管理、分庫分表、事務、數據副本等能力,並且大多能夠支持100個節點以上的集群,大大降低了資料庫運維的成本,並且使資料庫也能夠實現水平擴展。
3.8 第七次演進:使用LVS或F5來使多個Nginx負載均衡
由於瓶頸在Nginx,因此無法通過兩層的Nginx來實現多個Nginx的負載均衡。圖中的LVS和F5是工作在網路第四層的負載均衡解決方案,其中LVS是軟體,運行在操作系統內核態,可對TCP請求或更高層級的網路協議進行轉發,因此支持的協議更豐富,並且性能也遠高於Nginx,可假設單機的LVS可支持幾十萬個並發的請求轉發;F5是一種負載均衡硬體,與LVS提供的能力類似,性能比LVS更高,但價格昂貴。由於LVS是單機版的軟體,若LVS所在伺服器宕機則會導致整個後端系統都無法訪問,因此需要有備用節點。可使用keepalived軟體模擬出虛擬IP,然後把虛擬IP綁定到多台LVS伺服器上,瀏覽器訪問虛擬IP時,會被路由器重定向到真實的LVS伺服器,當主LVS伺服器宕機時,keepalived軟體會自動更新路由器中的路由表,把虛擬IP重定向到另外一台正常的LVS伺服器,從而達到LVS伺服器高可用的效果。
此處需要注意的是,上圖中從Nginx層到Tomcat層這樣畫並不代表全部Nginx都轉發請求到全部的Tomcat,在實際使用時,可能會是幾個Nginx下面接一部分的Tomcat,這些Nginx之間通過keepalived實現高可用,其他的Nginx接另外的Tomcat,這樣可接入的Tomcat數量就能成倍的增加。
3.9 第八次演進:通過DNS輪詢實現機房間的負載均衡
在DNS伺服器中可配置一個域名對應多個IP地址,每個IP地址對應到不同的機房裡的虛擬IP。當用戶訪問www.taobao.com時,DNS伺服器會使用輪詢策略或其他策略,來選擇某個IP供用戶訪問。此方式能實現機房間的負載均衡,至此,系統可做到機房級別的水平擴展,千萬級到億級的並發量都可通過增加機房來解決,系統入口處的請求並發量不再是問題。
3.10 第九次演進:引入NoSQL資料庫和搜索引擎等技術
當資料庫中的數據多到一定規模時,資料庫就不適用於復雜的查詢了,往往只能滿足普通查詢的場景。對於統計報表場景,在數據量大時不一定能跑出結果,而且在跑復雜查詢時會導致其他查詢變慢,對於全文檢索、可變數據結構等場景,資料庫天生不適用。因此需要針對特定的場景,引入合適的解決方案。如對於海量文件存儲,可通過分布式文件系統HDFS解決,對於key value類型的數據,可通過HBase和Redis等方案解決,對於全文檢索場景,可通過搜索引擎如ElasticSearch解決,對於多維分析場景,可通過Kylin或Druid等方案解決。
當然,引入更多組件同時會提高系統的復雜度,不同的組件保存的數據需要同步,需要考慮一致性的問題,需要有更多的運維手段來管理這些組件等。
3.11 第十次演進:大應用拆分為小應用
按照業務板塊來劃分應用代碼,使單個應用的職責更清晰,相互之間可以做到獨立升級迭代。這時候應用之間可能會涉及到一些公共配置,可以通過分布式配置中心Zookeeper來解決。
3.12 第十一次演進:復用的功能抽離成微服務
如用戶管理、訂單、支付、鑒權等功能在多個應用中都存在,那麼可以把這些功能的代碼單獨抽取出來形成一個單獨的服務來管理,這樣的服務就是所謂的微服務,應用和服務之間通過HTTP、TCP或RPC請求等多種方式來訪問公共服務,每個單獨的服務都可以由單獨的團隊來管理。此外,可以通過Dubbo、SpringCloud等框架實現服務治理、限流、熔斷、降級等功能,提高服務的穩定性和可用性。
3.13 第十二次演進:引入企業服務匯流排ESB屏蔽服務介面的訪問差異
通過ESB統一進行訪問協議轉換,應用統一通過ESB來訪問後端服務,服務與服務之間也通過ESB來相互調用,以此降低系統的耦合程度。這種單個應用拆分為多個應用,公共服務單獨抽取出來來管理,並使用企業消息匯流排來解除服務之間耦合問題的架構,就是所謂的SOA(面向服務)架構,這種架構與微服務架構容易混淆,因為表現形式十分相似。個人理解,微服務架構更多是指把系統里的公共服務抽取出來單獨運維管理的思想,而SOA架構則是指一種拆分服務並使服務介面訪問變得統一的架構思想,SOA架構中包含了微服務的思想。
3.14 第十三次演進:引入容器化技術實現運行環境隔離與動態服務管理
目前最流行的容器化技術是Docker,最流行的容器管理服務是Kubernetes(K8S),應用/服務可以打包為Docker鏡像,通過K8S來動態分發和部署鏡像。Docker鏡像可理解為一個能運行你的應用/服務的最小的操作系統,裡面放著應用/服務的運行代碼,運行環境根據實際的需要設置好。把整個「操作系統」打包為一個鏡像後,就可以分發到需要部署相關服務的機器上,直接啟動Docker鏡像就可以把服務起起來,使服務的部署和運維變得簡單。
在大促的之前,可以在現有的機器集群上劃分出伺服器來啟動Docker鏡像,增強服務的性能,大促過後就可以關閉鏡像,對機器上的其他服務不造成影響(在3.14節之前,服務運行在新增機器上需要修改系統配置來適配服務,這會導致機器上其他服務需要的運行環境被破壞)。
3.15 第十四次演進:以雲平台承載系統
系統可部署到公有雲上,利用公有雲的海量機器資源,解決動態硬體資源的問題,在大促的時間段里,在雲平台中臨時申請更多的資源,結合Docker和K8S來快速部署服務,在大促結束後釋放資源,真正做到按需付費,資源利用率大大提高,同時大大降低了運維成本。
所謂的雲平台,就是把海量機器資源,通過統一的資源管理,抽象為一個資源整體,在之上可按需動態申請硬體資源(如CPU、內存、網路等),並且之上提供通用的操作系統,提供常用的技術組件(如Hadoop技術棧,MPP資料庫等)供用戶使用,甚至提供開發好的應用,用戶不需要關系應用內部使用了什麼技術,就能夠解決需求(如音視頻轉碼服務、郵件服務、個人博客等)。在雲平台中會涉及如下幾個概念:
『陸』 MPP資料庫集群是支持所有的資料庫嗎
是傳統的mpp資料庫。
南大通用自主研發的GBase 8a MPP Cluster是能夠支撐PB級行業大數據分析類應用的國產新型資料庫產品。
GBase 8a MPP Cluster是南大通用自主研發的國產MPP資料庫集群產品,主要應用於行業大數據的分析場景。所採用的MPP技術,代表著大規模並行計算,具備高性能和高擴展性等特點。