當前位置:首頁 » 數據倉庫 » 亞馬遜雲資料庫設計
擴展閱讀
webinf下怎麼引入js 2023-08-31 21:54:13
堡壘機怎麼打開web 2023-08-31 21:54:11

亞馬遜雲資料庫設計

發布時間: 2023-05-06 15:24:45

① 2019數據架構選型必讀:1月資料庫產品技術解析

本期目錄

DB-Engines資料庫排行榜

新聞快訊

一、RDBMS家族

二、Nosql家族

三、NewSQL家族

四、時間序列

五、大數據生態圈

六、國產資料庫概覽

七、雲資料庫

八、推出dbaplus Newsletter的想法

九、感謝名單

為方便閱讀、重點呈現,本期Newsletter(2019年1月)將對各個板塊的內容進行精簡。需要閱讀全文的同學可點擊文末 【閱讀原文】 或登錄https://pan..com/s/13BgipbaHeMfvm0YPtiYviA

進行下載。

DB-Engines資料庫排行榜

以下取自2019年1月的數據,具體信息可以參考http://db-engines.com/en/ranking/,數據僅供參考。

DB-Engines排名的數據依據5個不同的因素:

新聞快訊

1、2018年9月24日,微軟公布了SQL Server2019預覽版,SQL Server 2019將結合Spark創建統一數據平台。

2、2018年10月5日,ElasticSearch在美國紐約證券交易所上市。

3、亞馬遜放棄甲骨文資料庫軟體,導致最大倉庫之一在黃金時段宕機。受此消息影響,亞馬遜盤前股價小幅跳水,跌超2%。

4、2018年10月31日,Percona發布了Percona Server 8.0 RC版本,發布對MongoDB 4.0的支持,發布對XtraBackup測試第二個版本。

5、2018年10月31日,Gartner陸續發布了2018年的資料庫系列報告,包括《資料庫魔力象限》、《資料庫核心能力》以及《資料庫推薦報告》。

今年的總上榜資料庫產品達到了5家,分別來自:阿里雲,華為,巨杉資料庫,騰訊雲,星環 科技 。其中阿里雲和巨杉資料庫已經連續兩年入選。

6、2018年11月初,Neo4j宣布完成E輪8000萬美元融資。11月15日,Neo4j宣布企業版徹底閉源:

7、2019年1月8日,阿里巴巴以1.033億美元(9000萬歐元)的價格收購了Apache Flink商業公司DataArtisans。

8、2019年1月11日早間消息,亞馬遜宣布推出雲資料庫軟體,亞馬遜和MongoDB將會直接競爭。

RDBMS家族

Oracle 發布18.3版本

2018年7月,Oracle Database 18.3通用版開始提供下載。我們可以將Oracle Database 18c視為採用之前發布模式的Oracle Database 12c第2版的第一個補丁集。未來,客戶將不再需要等待多年才能用上最新版Oracle資料庫,而是每年都可以期待新資料庫特性和增強。Database 19c將於2019年Q1率先在Oracle cloud上發布雲版本。

Oracle Database 18c及19c部分關鍵功能:

1、性能

2、多租戶,大量功能增強及改進,大幅節省成本和提高敏捷性

3、高可用

4、數據倉庫和大數據

MySQL發布8.0.13版本

1、賬戶管理

經過配置,修改密碼時,必須帶上原密碼。在之前的版本,用戶登錄之後,就可以修改自己的密碼。這種方式存在一定安全風險。比如用戶登錄上資料庫後,中途離開一段時間,那麼非法用戶可能會修改密碼。由參數password_require_current控制。

2、配置

Innodb表必須有主鍵。在用戶沒有指定主鍵時,系統會生成一個默認的主鍵。但是在主從復制的場景下,默認的主鍵,會對叢庫應用速度帶來致命的影響。如果設置sql_require_primary_key,那麼資料庫會強制用戶在創建表、修改表時,加上主鍵。

3、欄位默認值

BLOB、TEXT、GEOMETRY和JSON欄位可以指定默認值了。

4、優化器

1)Skip Scan

非前綴索引也可以用了。

之前的版本,任何沒有帶上f1欄位的查詢,都沒法使用索引。在新的版本中,它可以忽略前面的欄位,讓這個查詢使用到索引。其實現原理就是把(f1 = 1 AND f2 > 40) 和(f1 = 2 AND f2 > 40)的查詢結果合並。

2)函數索引

之前版本只能基於某個列或者多個列加索引,但是不允許在上面做計算,如今這個限制消除了。

5、SQL語法

GROUP BY ASC和GROUP BY DESC語法已經被廢棄,要想達到類似的效果,請使用GROUP BY ORDER BY ASC和GROUP BY ORDER BY DESC。

6、功能變化

1)設置用戶變數,請使用SET語句

如下類型語句將要被廢棄SELECT @var, @var:=@var+1。

2)新增innodb_fsync_threshold

該變數是控制文件刷新到磁碟的速率,防止磁碟在短時間內飽和。

3)新增會話級臨時表空間

在以往的版本中,當執行SQL時,產生的臨時表都在全局表空間ibtmp1中,及時執行結束,臨時表被釋放,空間不會被回收。新版本中,會為session從臨時表空間池中分配一個臨時表空間,當連接斷開時,臨時表空間的磁碟空間被回收。

4)在線切換Group Replication的狀態

5)新增了group_replication_member_expel_timeout

之前,如果某個節點被懷疑有問題,在5秒檢測期結束之後,那麼就直接被驅逐出這個集群。即使該節點恢復正常時,也不會再被加入集群。那麼,瞬時的故障,會把某些節點驅逐出集群。

group_replication_member_expel_timeout讓管理員能更好的依據自身的場景,做出最合適的配置(建議配置時間小於一個小時)。

MariaDB 10.3版本功能展示

1、MariaDB 10.3支持update多表ORDER BY and LIMIT

1)update連表更新,limit語句

update t1 join t2 on t1.id=t2.id set t1.name='hechunyang' limit 3;

MySQL 8.0直接報錯

MariaDB 10.3更新成功

2)update連表更新,ORDER BY and LIMIT語句

update t1 join t2 on t1.id=t2.id set t1.name='HEchunyang' order by t1.id DESC limit 3;

MySQL 8.0直接報錯

MariaDB 10.3更新成功

參考:

https://jira.mariadb.org/browse/MDEV-13911

2、MariaDB10.3增補AliSQL補丁——安全執行Online DDL

Online DDL從名字上看很容易誤導新手,以為不論什麼情況,修改表結構都不會鎖表,理想很豐滿,現實很骨感,注意這個坑!

有以下兩種情況執行DDL操作會鎖表的,Waiting for table metadata lock(元數據表鎖):

針對第二種情況,MariaDB10.3增補AliSQL補丁-DDL FAST FAIL,讓其DDL操作快速失敗。

例:

如果線上有某個慢SQL對該表進行操作,可以使用WAIT n(以秒為單位設置等待)或NOWAIT在語句中顯式設置鎖等待超時,在這種情況下,如果無法獲取鎖,語句將立即失敗。 WAIT 0相當於NOWAIT。

參考:

https://jira.mariadb.org/browse/MDEV-11388

3、MariaDB Window Functions窗口函數分組取TOP N記錄

窗口函數在MariaDB10.2版本里實現,其簡化了復雜SQL的撰寫,提高了可讀性。

參考:

https://mariadb.com/kb/en/library/window-functions-overview/

Percona Server發布8.0 GA版本

2018年12月21日,Percona發布了Percona Server 8.0 GA版本。

在支持MySQL8.0社區的基礎版上,Percona Server for MySQL 8.0版本中帶來了許多新功能:

1、安全性和合規性

2、性能和可擴展性

3、可觀察性和可用性

Percona Server for MySQL 8.0中將要被廢用功能:

Percona Server for MySQL 8.0中刪除的功能:

RocksDB發布V5.17.2版本

2018年10月24日,RocksDB發布V5.17.2版本。

RocksDB是Facebook在LevelDB基礎上用C++寫的高效內嵌式K/V存儲引擎。相比LevelDB,RocksDB提供了Column-Family,TTL,Transaction,Merge等方面的支持。目前MyRocks,TiKV等底層的存儲都是基於RocksDB來構建。

PostgreSQL發布11版本

2018年10月18日,PostgreSQL 11發布。

1、PostgreSQL 11的重大增強

2、PostgreSQL 插件動態

1)分布式插件citus發布 8.1

citus是PostgreSQL的一款sharding插件,目前國內蘇寧、鐵總、探探有較大量使用案例。

https://github.com/citusdata/citus

2)地理信息插件postgis發布2.5.1

PostGIS是專業的時空資料庫插件,在測繪、航天、氣象、地震、國土資源、地圖等時空專業領域應用廣泛。同時在互聯網行業也得到了對GIS有性能、功能深度要求的客戶青睞,比如共享出行、外賣等客戶。

http://postgis.net/

3)時序插件timescale發布1.1.1

timescale是PostgreSQL的一款時序資料庫插件,在IoT行業中有非常好的應用。github star數目前有5000多,是一個非常火爆的插件。

https://github.com/timescale/timescaledb

4)流計算插件 pipelinedb 正式插件化

Pipelinedb是PostgreSQL的一款流計算插件,使用這個創建可以對高速寫入的數據進行實時根據定義的聚合規則進行聚合(支持概率計算),實時根據定義的規則觸發事件(支持事件處理函數的自定義)。可用於IoT,監控,FEED實時計算等場景。

https://github.com/pipelinedb/pipelinedb

3、PostgreSQL衍生開源產品動態

1)agensgraph發布 2.0.0版本

agensgraph是兼容PostgreSQL、opencypher的專業圖資料庫,適合圖式關系的管理。

https://github.com/bitnine-oss/agensgraph

2)gpdb發布5.15

gpdb是兼容PostgreSQL的mpp資料庫,適合OLAP場景。近兩年,gpdb一直在追趕PostgreSQL的社區版本,預計很快會追上10的PostgreSQL,在TP方面的性能也會得到顯著提升。

https://github.com/greenplum-db/gpdb

3)antdb發布3.2

antdb是以Postgres-XC為基礎開發的一款PostgreSQL sharding資料庫,亞信主導開發,開源,目前主要服務於亞信自有客戶。

https://github.com/ADBSQL/AntDB

4)遷移工具MTK發布52版本

MTK是EDB提供的可以將Oracle、PostgreSQL、MySQL、MSSQL、Sybase資料庫遷移到PostgreSQL, PPAS的產品,遷移速度可以達到100萬行/s以上。

https://github.com/digoal/blog/blob/master/201812/20181226_01.md

DB2發布 11.1.4.4版本

DB2最新發布Mod Pack 4 and Fix Pack 4,包含以下幾方面的改動及增強:

1、性能

2、高可用

3、管理視圖

4、應用開發方面

5、聯邦功能

6、pureScale

NoSQL家族

Redis發布5.0.3版本

MongoDB升級更新MongoDB Mobile和MongoDB Stitch

2018年11月21日,MongoDB升級更新MongoDB Mobile和MongoDB Stitch,助力開發人員提升工作效率。

MongoDB 公司日前發布了多項新產品功能,旨在更好地幫助開發人員在世界各地管理數據。通過利用存儲在移動設備和後台資料庫的數據之間的實時、自動的同步特性,MongoDB Mobile通用版本助力開發人員構建更快捷、反應更迅速的應用程序。此前,這只能通過在移動應用內部安裝一個可供選擇或限定功能的資料庫來實現。

MongoDB Mobile在為客戶提供隨處運行的自由度方面更進了一步。用戶在iOS和安卓終端設備上可擁有MongoDB所有功能,將網路邊界擴展到其物聯網資產范疇。應用系統還可以使用MongoDB Stitch的軟體開發包訪問移動客戶端或後台數據,幫助開發人員通過他們希望的任意方式查詢移動終端數據和物聯網數據,包括本地讀寫、本地JSON存儲、索引和聚合。通過Stitch移動同步功能(現可提供beta版),用戶可以自動對保存在本地的數據以及後台資料庫的數據進行同步。

本期新秀:Cassandra發布3.11.3版本

2018年8月11日,Cassandra發布正式版3.11.3。

Apache Cassandra是一款開源分布式NoSQL資料庫系統,使用了基於Google BigTable的數據模型,與面向行(row)的傳統關系型資料庫或鍵值存儲key-value資料庫不同,Cassandra使用的是寬列存儲模型(Wide Column Stores)。與BigTable和其模仿者HBase不同,數據並不存儲在分布式文件系統如GFS或HDFS中,而是直接存於本地。

Cassandra的系統架構與Amazon DynamoDB類似,是基於一致性哈希的完全P2P架構,每行數據通過哈希來決定應該存在哪個或哪些節點中。集群沒有master的概念,所有節點都是同樣的角色,徹底避免了整個系統的單點問題導致的不穩定性,集群間的狀態同步通過Gossip協議來進行P2P的通信。

3.11.3版本的一些bug fix和改進:

NewSQL家族

TiDB 發布2.1.2版本

2018 年 12 月 22 日,TiDB 發布 2.1.2 版,TiDB-Ansible 相應發布 2.1.2 版本。該版本在 2.1.1 版的基礎上,對系統兼容性、穩定性做出了改進。

TiDB 是一款定位於在線事務處理/在線分析處理( HTAP: Hybrid Transactional/Analytical Processing)的融合型資料庫產品。除了底層的 RocksDB 存儲引擎之外,分布式SQL層、分布式KV存儲引擎(TiKV)完全自主設計和研發。

TiDB 完全開源,兼容MySQL協議和語法,可以簡單理解為一個可以無限水平擴展的MySQL,並且提供分布式事務、跨節點 JOIN、吞吐和存儲容量水平擴展、故障自恢復、高可用等優異的特性;對業務沒有任何侵入性,簡化開發,利於維護和平滑遷移。

TiDB:

PD:

TiKV:

Tools:

1)TiDB-Lightning

2)TiDB-Binlog

EsgynDB發布R2.5版本

2018年12月22日,EsgynDB R2.5版本正式發布。

作為企業級產品,EsgynDB 2.5向前邁進了一大步,它擁有以下功能和改進:

CockroachDB發布2.1版本

2018年10月30日,CockroachDB正式發布2.1版本,其新增特性如下:

新增企業級特性:

新增SQL特性:

新增內核特性:

Admin UI增強:

時間序列

本期新秀:TimescaleDB發布1.0版本

10月底,TimescaleDB 1.0宣布正式推出,官方表示該版本已可用於生產環境,支持完整SQL和擴展。

TimescaleDB是基於PostgreSQL資料庫開發的一款時序資料庫,以插件化的形式打包提供,隨著PostgreSQL的版本升級而升級,不會因為另立分支帶來麻煩。

TimescaleDB架構:

數據自動按時間和空間分片(chunk)

更新亮點:

https://github.com/timescale/timescaledb/releases/tag/1.0.0

大數據生態圈

Hadoop發布2.9.2版本

2018年11月中旬,Hadoop在2.9分支上發布了新的2.9.2版本,該版本進行了204個大大小小的變更,主要變更如下:

Greenplum 發布5.15版本

Greenplum最新的5.15版本中發布了流式數據載入工具。

該版本中的Greenplum Streem Server組件已經集成了Kafka流式載入功能,並通過了Confluent官方的集成認證,其支持的主要功能如下:

國產資料庫概覽

K-DB發布資料庫一體機版

2018年11月7日,K-DB發布了資料庫一體機版。該版本更新情況如下:

OceanBase遷移服務發布1.0版本

1月4日,OceanBase 正式發布OMS遷移服務1.0版本。

以下內容包含 OceanBase 遷移服務的重要特性和功能:

SequoiaDB發布3.0.1新版本

1、架構

1)完整計算存儲分離架構,兼容MySQL協議、語法

計算存儲分離體系以松耦合的方式將計算與存儲層分別部署,通過標准介面或插件對各個模塊和組件進行無縫替換,在計算層與存儲層均可實現自由的彈性伸縮。

SequoiaDB巨杉資料庫「計算-存儲分離」架構詳細示意

用戶可以根據自身業務特徵選擇面向交易的SQL解析器(例如MySQL或PGSQL)或面向統計分析的執行引擎(例如SparkSQL)。眾所周知,使用不同的SQL優化與執行方式,資料庫的訪問性能可能會存在上千上萬倍的差距。計算存儲分離的核心思想便是在數據存儲層面進行一體化存儲,在計算層面則利用每種執行引擎的特點針對不同業務場景進行選擇和優化,用戶可以在存儲層進行邏輯與物理的隔離,將面向高頻交易的前端業務與面向高吞吐量的統計分析使用不同的硬體進行存儲,確保在多類型數據訪問時互不幹擾,以真正達到生產環境可用的多租戶與HTAP能力。

2、其他更新信息

1)介面變更:

2)主要特性:

雲資料庫

本期新秀:騰訊發布資料庫CynosDB,開啟公測

1、News

1)騰訊雲資料庫MySQL2018年重大更新:

2)騰訊雲資料庫MongoDB2018年重大更新:

3)騰訊雲資料庫Redis/CKV+2018年重大更新:

4)騰訊雲資料庫CTSDB2018年重大更新:

2、Redis 4.0集群版商業化上線

2018年10月,騰訊雲資料庫Redis 4.0集群版完成邀測、公測、商業化三個迭代,在廣州、上海、北京正式全量商業化上線。

產品特性:

使用場景:

官網文檔:

https://cloud.tencent.com/document/proct/239/18336

3、騰訊自研資料庫CynosDB發布,開啟公測

2018年11月22日,騰訊雲召開新一代自研資料庫CynosDB發布會,業界第一款全面兼容市面上兩大最主流的開源資料庫MySQL和PostgreSQL的高性能企業級分布式雲資料庫。

本期新秀:京東雲DRDS發布1.0版本

12月24日,京東雲分布式關系型資料庫DRDS正式發布1.0版本。

DRDS是京東雲精心自研的資料庫中間件產品,獲得了2018年 」可信雲技術創新獎」。DRDS可實現海量數據下的自動分庫分表,具有高性能,分布式,彈性升級,兼容MySQL等優點,適用於高並發、大規模數據的在線交易, 歷史 數據查詢,自動數據分片等業務場景,歷經多次618,雙十一的考驗,已經在京東集團內大規模使用。

京東雲DRDS產品有以下主要特性

1)自動分庫分表

通過簡單的定義即可自動實現分庫分表,將數據實際存放在多個MySQL實例的資料庫中,但呈現給應用程序的依舊是一張表,對業務透明,應用程序幾乎無需改動,實現了對資料庫存儲和處理能力的水平擴展。

2)分布式架構

基於分布式架構的集群方案,多個對等節點同時對外提供服務,不但可有效規避服務的單點故障,而且更加容易擴展。

3)超強性能

具有極高的處理能力,雙節點即可支持數萬QPS,滿足用戶超大規模處理能力的需求。

4)兼容MySQL

兼容絕大部分MySQL語法,包括MySQL語法、數據類型、索引、常用函數、排序、關聯等DDL,DML語句,使用成本低。

參考鏈接:

https://www.jdcloud.com/cn/procts/drds

RadonDB發布1.0.3版本

2018年12月26日,MyNewSQL領域的RadonDB雲資料庫發布1.0.3版本。

推出dbaplus Newsletter的想法

dbaplus Newsletter旨在向廣大技術愛好者提供資料庫行業的最新技術發展趨勢,為社區的技術發展提供一個統一的發聲平台。為此,我們策劃了RDBMS、NoSQL、NewSQL、時間序列、大數據生態圈、國產資料庫、雲資料庫等幾個版塊。

我們不以商業宣傳為目的,不接受任何商業廣告宣傳,嚴格審查信息源的可信度和准確性,力爭為大家提供一個純凈的技術學習環境,歡迎大家監督指正。

至於Newsletter發布的周期,目前計劃是每三個月左右會做一次跟進, 下期計劃時間是2019年4月14日~4月25日, 如果有相關的信息提供請發送至郵箱:[email protected]

感謝名單

最後要感謝那些提供寶貴信息和建議的專家朋友,排名不分先後。

往期回顧:

↓↓別忘了點這里下載 2019年1月 完整版Newsletter 哦~

② 亞馬遜的雲計算具體是個什麼樣的模式呢

亞馬遜主要是提供IaaS(Infrastructure as a Service)即設施作為服務,在雲計算、雲存儲等方面一直處於棱線地位。提供彈性雲計算EC2、簡單存儲服務S3、簡單資料庫服務Simple DB、簡單隊列服務SQS、彈性MapRece服務等等。

③ 五大資料庫理念,讀懂亞馬遜雲科技的資料庫布局


1970 年,關系型資料庫之父 E.F.Codd 發表《用於大型共享資料庫的關系數據模型》論文,正式拉開資料庫技術發展序幕。以 Oracle、DB2、SQL Server 為代表的三大商業資料庫產品獨占鰲頭,隨後涌現出 MySQL、PostgreSQL 等為代表的開源資料庫 ,和以 Amazon RDS 等為代表的雲資料庫,拉開百花齊放的資料庫新序幕。

我們知道,雲計算十年為產業轉型升級提供了 歷史 性契機,但變革仍在進行,隨著雲計算的普及,資料庫市場發生根本性改變,雲廠商打破傳統商業資料庫的堡壘,成為資料庫領域全新力量。其中以連續六年入選 Gartner 領導者象限的亞馬遜雲 科技 為代表,我們一起探討:為什麼亞馬遜雲 科技 能始終保持其創新性?縱觀雲原生時代下,亞馬遜雲 科技 資料庫未來還有哪些更多的可能性?

01 面對四大資料庫發展趨勢,亞馬遜雲 科技 打造五大資料庫理念

後疫情時代下,加速了不少行業的業務在線化和數字化運營,企業對數據價值挖掘的需求越發強烈,亞馬遜雲 科技 大中華區產品部總經理顧凡詳細介紹其中四大趨勢:

一是伴隨互聯網、移動互聯網的發展,電商、視頻、社交、出行等新應用場景的興起,不僅數據量大,對數據實時性要求極高,傳統關系型資料庫無法滿足需求,因此驅動雲原生資料庫的出現。

二是開源資料庫的廣泛應用。

三是應用程序現代化對資料庫提出更高要求,期待資料庫擁有更高的性能、可擴展性、可用性以及降低成本,讓開發人員專注於核心業務的應用開發,不用關注和核心業務無關的代碼。

四是軟體架構歷經 PC、互聯網、移動互聯網,再到如今的萬物互聯時代,其中的迭代和轉型正在驅動資料庫選型的變化。

在此四大趨勢下,伴隨企業的業務量越來越大、越來越復雜,對資料庫的要求越來越高。亞馬遜雲 科技 洞察客戶需求,在打造雲上資料庫產品時提出五大理念:

一是專庫專用,極致性能;二是無伺服器,敏捷創新;第三是全球架構,一鍵部署;第四是平滑遷移,加速上雲;第五是 AI 賦能,深度集成。

02 歷經真實錘煉,五大資料庫理念,持續賦能企業數智轉型

顧凡表示,隨著數據爆炸式增長,微服務架構與 DevOps 愈發流行的今天,一個資料庫打天下的時代已然過去。我們需要在不同的應用場景下,針對不同的數據類型和不同的數據訪問特點,為開發者和企業提供專門構建的工具。

所以亞馬遜雲 科技 提出 第一個核心資料庫理念:專庫專用 。在此理念下,推出針對關系數據、鍵值數據、文檔數據、內存數據、圖數據、時許數據、分類賬數據、寬列等專門構建資料庫的產品家族。

這些資料庫產品均經歷過亞馬遜內部核心業務的真實錘煉,成績斐然:

亞馬遜電商當年是 Oracle 的客戶之一,隨著亞馬遜電商的應用重構和業務體量發展,亞馬遜電商決定將業務遷移到亞馬遜雲 科技 里。100 多個團隊參與這龐大的遷移工作中,將亞馬遜電商采購、目錄管理、訂單執行、廣告、財務系統、錢包、視頻流等關鍵系統全部從 Oracle 遷出來。2019 年,亞馬遜將存儲近 7500 個Oracle 資料庫中的 75 PB 內部數據遷移到多項亞馬遜雲 科技 的資料庫服務中,包括 Amazon DynamoDB、Amazon Aurora、Amazon ElastiCache,於是亞馬遜電商成為亞馬遜雲 科技 在全球的「第一大客戶」。

從 Oracle 切換到亞馬遜雲 科技 後,亞馬遜電商節省了 60% 成本,面向消費者端的應用程序延遲降低 40%,資料庫管理支出減少 70%。

以被譽為「亞馬遜雲 科技 歷史 上用戶數量增速最快的雲服務」Amazon Aurora 為例,其擁有科媲美高端商業資料庫的速度和可用性,還擁有開源資料庫的簡單性與成本效益,Amazon Aurora 讓客戶滿足「魚和熊掌兼得」需求。

據顧凡介紹,Amazon Aurora 可提供 5 倍於標准 MySQL 性能,3 倍於 PostgreSQL 吞吐量。同時提供高可用,可用區(AZ)+1的高可用,Global Databases 可完成跨區域災備。可擴展到 15 個只讀副本,成本只有商業資料庫的 1/10。

醫葯企業九州通為葯廠、供應商,搭建葯廠、供應商、消費者提供供應鏈鏈條。其 B2B 系統的業務特點是讀多寫少,受促銷活動、工作時間等影響,經常會出現波峰波谷落差較大的情況,讀寫比例在 7:2 或者 8:3。九州通採用 Amazon Aurora 後實現讀寫分離和按需擴展,整體資料庫性能提升 5 倍,TCO 降低 50%。實現了跨可用區部署、負載均衡、自動故障轉移、精細監控、按需自動伸縮等。

據權威機構預測,到 2022 年,75% 資料庫將被部署或遷移至雲平台。在這個過程中,亞馬遜雲 科技 是如何通過技術來幫助客戶加速應用上雲的?這離不開除了上述的「專庫專用」外,以下四大理念:

第二個理念是無伺服器、敏捷創新。 亞馬遜雲 科技 大中華區產品部數據類產品高級經理王曉野表示,企業業務總有波峰波谷之時,如何按照企業 80-90% 的業務峰值來規劃資料庫的存儲容量和計算資源的話,將給應用帶來一定的業務連續性的妥協和挑戰。因此大多數企業都是按照峰值留有餘地來選擇資料庫的計算資源,這將造成成本上的浪費。而 Serverless 資料庫服務可完成無差別的繁復工作和自動化擴展。

Amazon DynamoDB 是亞馬遜雲 科技 自研 Serverless 資料庫,其誕生最早可追溯到 2004 年,當時亞馬遜電商作為 Oracle 的客戶,盡管對於關系型資料庫在零售場景的需求並不頻繁,70% 均是鍵值類操作,此時倒逼亞馬遜電商思考:為什麼要把關系型資料庫這么重得使用?我們可以設計一款支持讀寫、可橫向擴展的分布式資料庫嗎?後來的故事大家都知道了,這款資料庫就是 Amazon DynamoDB,並在 2007 年發表論文,掀起業界 NoSQL 分布式資料庫技術創新大潮。

Amazon DynamoDB 可為大規模應用提供支持,支撐亞馬遜自身多個高流量網站和系統,如亞馬遜電商網站、亞馬遜全球 442 個物流中心等。在亞馬遜電商一年一度 Prime Day,光是針對DynamoDB API 的調用達到數萬億次,最高峰值請求達到每秒 8920 萬次。由此可見,DynamoDB 擁有高吞吐、擴展性、一致性、可預測響應延遲、高可用等優勢。

智能可穿戴設備廠商華米 科技 ,在全球 70 多個國家擁有近 1 億用戶。僅 2020 年上半年,其手錶出貨量超 174 萬台,截止到 2021 年 2 月,華米 科技 的可穿戴設備累計記錄步數是 151 萬步,累計記錄的睡眠時間是 128 億個夜晚,記錄心率總時長達 1208 億個小時。如此龐大的數據同時必須保證極高的安全性和低延遲相應,如何保證穩定性是巨大的挑戰。

DynamoDB 幫助華米 科技 在任何規模下都能提供延遲不超過 10 毫秒的一致響應時間。華米 科技 健康 雲的 P0 和 P1 級別故障減少了約 30%,總體服務可用性提升了 0.25%,系統可用性指標達到 99.99%,為華為 科技 全球化擴展提供了有力的支撐。

最新無服務資料庫產品是 Amazon Aurora Serverless V2 提供瞬間擴展能力,真正把擴展能力發揮到極致,在不到一秒的時間內,將幾百個事務擴展到數十萬的級別。同時在擴展時每一次調整的增量都是非常精細化的去管理,如果按照峰值來規劃資料庫資源,可實現大概90%的成本節省。目前 Amazon Aurora Serverless V2 在全球實現預覽。

第三個理念是全球架構、一鍵部署。 在全球化的今天,如何支撐全球客戶的業務擴展連續性、一致性、以最低延遲帶給到終端客戶上,對資料庫提出新的挑戰。

亞馬遜雲 科技 提供 Amazon Aurora 關系型資料庫Global Database、Amazon DynamoDB、Amazon ElastiCache 內存資料庫、Amazon DocumentDB 文檔資料庫都能利用亞馬遜雲 科技 的骨幹網路提供比互聯網更穩定的網路支撐,以一鍵部署的方式,幫助客戶實現幾千公里跨區域資料庫災備,故障恢復大概能在一分鍾之內完成,同時跨區域的數據復制延遲通常小於一秒。

第四個理念是平滑遷移、加速上雲。 目前,450000+ 資料庫通過亞馬遜雲 科技 資料庫遷移服務遷移到亞馬遜雲 科技 中,這個數字每年都在不斷增長。亞馬遜雲 科技 提供 Amazon DMS、Amazon Database Migration Service 等工具讓開發者和企業進行自助式雲遷移。另外,對於遷移過程中可能會需要的支持,可通過專業服務團隊和合作夥伴網路成員,為客戶提供專業支持,還通過 Database Freedom 項目幫助客戶降低他們的顧慮。

今年 11 月,最新產品 Babelfish for Amazon Aurora PostgreSQL 在全球和中國兩個區域正式可用,可加速企業上雲的遷移,實現讓企業可以利用原有的技術棧、原有的 SQL Server T-SQL的人員可以利用到雲資料庫進行創新。

第五個理念是 AI賦能,深度集成。 我們觀察到,ML 技術賦能資料庫開發者,開發者無需具備機器學習專業知識,就可進行機器學習操作。在此潮流下,亞馬遜雲 科技 推出 Amazon Neptune,藉由 Deep Graph Library 和 Amazon SageMaker 驅動圖神經網路。

今年 8 月,Neptune ML 在中國正式可用,允許數據工程師不需要掌握機器學習的技能直接從圖資料庫里導出數據、轉換格式、訓練模型並發布,用 gremlin 語句調用訓練成的模型在資料庫里實現推理,進行欺詐檢測,推薦物品。

目前,亞馬遜雲 科技 加速在中國區域服務落地,2021年至今新發布 60 多個資料庫服務與功能。亞馬遜雲 科技 正是通過上述五大資料庫理念,打造豐富的資料庫產品家族,在全球智能化發展趨勢下,為企業提供更快更好的數智服務,釋放數據價值,並連續六年入選 Gartner 領導者象限,得到業界和客戶的深度認可。

④ 亞馬遜雲科技的雲存儲,最應該知道的有這三點

傳統存儲在以各種方式對接公有雲生態,公有雲的雲上服務類型也在不斷完善,作為企業信息化負責人要做的是更多地了解公有雲,然後,考慮如何充分利用公有雲的優勢。

本文通過介紹亞馬遜雲 科技 存儲服務的三個關鍵點,帶您認識雲存儲的現狀。

正文:

乘著互聯網產業的春風,雲存儲在過去近二十年走過了可遇不可求的發展歷程。也讓從90年代開始,就一直坐著冷板凳,負責數據歸檔的對象存儲,一躍成為整個互聯網數據的基石。

如今,絕大部分互聯網上可訪問的數據都靠對象存儲來存,偶爾曝出的數據泄露事件也大多都跟對象存儲有關,當然,問題不在於對象存儲本身。

從2006年,亞馬遜雲 科技 的對象存儲服務Amazon S3發布,到現在,算起來也有十六年的時間了,這也是亞馬遜雲 科技 推出的第一款雲服務。

從市場表現來看,Amazon S3是非常成功的,前兩年有人推測說,亞馬遜雲 科技 在存儲方面的營收規模非常大,甚至被稱作是全球最大的存儲公司,Amazon S3無疑是功勞最大的一個。

有人說,許多亞馬遜雲 科技 用戶使用的第一個產品就是Amazon S3對象存儲,在所有亞馬遜雲 科技 的用戶案例,在所有技術文檔里,Amazon S3的出鏡率都非常高。

雲上原生存儲Amazon S3的主線任務:不斷降低成本

如果亞馬遜雲 科技 的用戶沒用過Amazon S3,就好比去包子鋪吃飯沒點包子,光顧燒烤店沒吃烤串一樣,令人費解。

Amazon S3的易用性高、可用性高,開發者很喜歡,Amazon S3幾乎不丟數據的可靠性,穩定性也很高,運維管理人員很喜歡,Amazon S3在互聯網應用場景被普遍應用。

如今,Amazon S3上存著超過100萬億個對象,每秒需要處理上千百萬次請求。

Amazon S3一開始解決了可靠性和可用性以及安全方面的基本問題,性能也一直在提升,多年看下來,最大的工作重點就是不斷降低成本。

亞馬遜雲 科技 大中華區產品部總經理 陳曉建介紹稱,同樣存儲一份數據,如果2006年需要100塊錢,而在2022年就只需要大概15塊錢,16年間,Amazon S3的存儲成本降低了大約7倍。

2021年12月,亞馬遜雲 科技 宣布在全球九大區域,將Amazon S3 Standard In Frequent Access和Amazon S3 One Zone In Frequent Access的價格降低了31%。

Amazon S3存儲分了八個層級。

對於需要經常訪問的數據,首選標准版的Amazon S3,它具有毫秒級的訪問表現,而不太經常訪問的數據就選Amazon S3 Standard-IA上,相較於前者能節省大概40%的費用。

而對於那些很少訪問的數據,則可以選擇放在Amazon S3 Glacier DeepArcihve上,它的成本非常低,大約1美刀1個TB,但代價是,想把數據拿回來就得多等等,大概需要12到48個小時。

有人覺得這等的時間也太長了,於是,亞馬遜雲 科技 又推出了Amazon S3 Glacier Flexible Retrieval,只需要等上幾分鍾到幾小時。

就沒有一種,既可以便宜,訪問性能又高的存儲嗎?還真有。

這就是Amazon S3 Glacier Instant Retrieval,它是最新的一個存儲層級,拿回數據的速度是毫秒級的,成本與Amazon S3 Glacier相當,適合每季度才訪問一次、又需要毫秒級取回的海量數據。

另外,Amazon S3 One Zone-IA的成本也很低,顧名思義,數據只存在單個可用區上,而其他S3存儲的數據都在多個可用區上存著好幾分,相比之下,理論上丟數據的風險高了些。

最後,出於合規的要求,用戶有些數據不能上雲,亞馬遜雲 科技 可以提供Amazon Outposts,把雲的硬體放到了用戶的數據中心裡。使用Amazon S3 on Outposts,就像在雲上使用S3一樣。

總的來說,Amazon S3的存儲層級還是挺多的,但問題是,這給選型和管理也帶來了負擔。

為此,亞馬遜雲 科技 推出了Amazon S3 Intelligent-Tiering(智能分層),它會根據對象被訪問的次數在多個存儲層級間進行自動化遷移。

如果不能確定要選什麼或者存儲需求會變,那就選它,它不僅能解除選擇困難症,還能避免用戶自行管理數據分層的麻煩。

一家在東南亞和北美市場非常有影響力的互聯網公司,在亞馬遜雲 科技 上存放了大約幾十PB的數據,原本主要使用的是Amazon S3 Standard—IA,在使用Amazon S3智能分層後,沒有進行任何額外操作,就將存儲成本降低了62%。

亞馬遜雲 科技 最早在2018年就推出了Amazon S3智能分層功能,如今,Amazon S3智能分層已經涵蓋了Amazon S3家族的幾乎所有存儲類別,最多可節省68%的成本。

不僅如此,如今數據分層還拓展到文件存儲Amazon EFS,Amazon EFS提供四種文件存儲等級,數據分層能節省高達72%的存儲成本。

打通雲應用與傳統應用的隔閡:靠多種文件存儲

如果說,對象存儲是雲存儲的標配的話,那文件存儲就是雲存儲連接本地存儲的橋梁。

如今常見的應用分為兩類。

一類是雲原生的現代化應用,也就是在雲上開發的、充分利用雲架構優勢的應用,比如電商、 游戲 、社交媒體等平台。對應需要的存儲,大部分是對象存儲Amazon S3來滿足,少部分需要文件存儲Amazon EFS。

另一類是傳統企業應用,它誕生在公有雲之前,常見的有高性能計算、EDA、視頻渲染等場景,通常由本地的文件存儲系統,比如NAS來支撐的,為提升安全性和可靠性,通常都帶有快照、鏡像、遠程復制等功能特性。

這類工作負載並沒有根據雲架構的特點來設計,如果強行上雲,不僅需要調整應用本身,而且還可能出現兼容性的問題,為了避免此類問題,亞馬遜雲 科技 推出了FSx文件存儲家族。

從2018年開始,陸續推出了面向Windows環境的Amazon FSx for Windows,面向高性能計算場景的Amazon FSx for Lustre,面向大數據分析場景推出了Amazon FSx for OpenZFS。

金風慧能採用了亞馬遜雲 科技 構建HPC高性能計算系統,其中使用了Amazon FSx for Lustre共享存儲系統,不僅使氣象預測系統性能提升了10%,氣象計算時間縮短了1/3,還將成本降低了70%,運維復雜度也大大降低。

此外,還與知名存儲廠商NetApp合作推出了Amazon FSx for NetApp ONTAP,把NetApp的經典NAS文件存儲系統NetApp ONTAP放到了公有雲上。

NetApp在2015年就提出了Data Fabric的概念,大意就是想要實現數據在雲上和雲下的自由流動,是比較早積極擁抱混合雲的存儲廠商之一。

與一些存儲廠商的雲上託管服務不同,Amazon FSx for NetApp ONTAP沒有刪減任何功能,它是雲上唯一完整且全託管的NetApp ONTAP文件存儲系統,能夠無縫地跟企業本地的ONTAP系統對接,所以,用戶的IT系統不需要做任何改動,就能使用雲上服務。

2019年,NetApp與聯想成立合資公司——聯想凌拓,聯想凌拓在中國區提供相關服務,聯想凌拓產品管理與營銷高級總監林佑聲表示,從發布到現在,Amazon FSx for NetApp ONTAP得到了非常多客戶的認可,包括金融、醫療、石油以及高 科技 行業客戶。

嘉里物流原本是本地存儲NetApp ONTAP的用戶,隨著業務全球化發展,在數據擴容以及數據共享方面碰到的問題越來越多,通過使用亞馬遜雲 科技 提供的Amazon FSx for NetApp ONTAP,將數據從本地遷到雲上,解決了這些問題。

上雲之後,不僅可以使用原來NetApp ONTAP自帶的快照和備份等功能,同時,還可以使用亞馬遜雲 科技 遍布全球的數據中心,實現跨區域的災備。

補足數據保護方面的短板:Amazon Backup

一直以來,雲存儲被詬病的點還在於缺少數據災備功能,在如何維持業務連續性方面有一些爭議,而亞馬遜雲 科技 正在試著消除這一顧慮,這就是Amazon Backup。

由於缺少與業務價值的強關聯性,數據保護經常容易被忽視,同時,由於數據保護系統本身很復雜,合規的要求還特別多,實踐起來也特別麻煩,所以,數據保護的實踐相對落後。

可能也是基於這樣的考慮,亞馬遜雲 科技 的數據保護服務Amazon Backup才特別喜歡強調「一站式」「操作簡單」的特點,讓用戶知道,數據保護也沒有那麼麻煩。

於是我們看到,Amazon Backup能覆蓋旗下的幾乎所有存儲產品,包括塊存儲(Amazon EBS)、對象存儲、文件存儲、資料庫,以及計算和存儲網關等相關產品。

Amazon Backup的操作比較簡單,通過圖形的界面即可完成大部分操作,用戶還可以通過預設的策略進行自動化的備份,降低手動備份帶來的問題。

安全合規的問題讓許多用戶頭疼,Amazon Backup深度集成了亞馬遜雲 科技 自帶的KMS數據加密服務,整個備份操作許可權、數據訪問許可權都可以用IAM進行細顆粒度監控,滿足個人信息安全規范、信息安全等級保護等方面的合規要求。

Amazon Backup避免讓數據保護帶來太多的成本負擔,因此也用上了智能分層技術,用戶通過冷熱分層策略可以有效降低約75%的成本。

澳大利亞石油天然氣的供應商Santos要對Amazon EBS塊存儲做備份,原本都是用手動備份的方案,但隨著業務量的發展,備份的出錯率越來越高,成功率越來越低。

而在用了Amazon Backup後,平均備份任務用時和運營成本均有大幅降低,備份成功率到了100%,而且還完全做到企業數據合規。

結束語

確實如陳曉建所言,亞馬遜雲 科技 存儲服務已經成為IT行業的「水」和「電」,讓各行各業的業務都能從存儲服務中獲得價值。

亞馬遜雲 科技 的存儲服務類型和存儲的相關實踐都非常有代表性,而且,很多做法已經成了上雲的參考實踐,企業用戶應該多少了解亞馬遜雲 科技 的雲存儲,特別是有上雲打算的企業。

當然,上雲帶來的便捷和靈活,穩定性和安全性,以及對運維的解放都很吸引人。

還有顧慮?據我個人了解,亞馬遜雲 科技 非常在意企業在雲上的成功和成本節省,不僅會幫企業不斷優化。除此之外,市場上有一些專門的服務,幫助企業做規劃實施,讓你充分利用雲的優勢。