當前位置:首頁 » 數據倉庫 » 分布式資料庫能進行表分區嗎
擴展閱讀
webinf下怎麼引入js 2023-08-31 21:54:13
堡壘機怎麼打開web 2023-08-31 21:54:11

分布式資料庫能進行表分區嗎

發布時間: 2023-03-16 11:14:26

① 使用分布式資料庫有什麼優勢

華為雲、阿里雲、騰訊雲都推出了分布式資料庫服務。

  • 無限擴容

    自動水平拆分。

    支持字元串、數字、日期等多種拆緯度。

    業務不中斷平滑擴容。

  • 性能卓越

    性能通過水平擴展可線性提升。

  • 簡單易用

    兼容MYSQL 協議、語法、客戶端。

    輕松數據導入,資料庫上雲。

    一鍵實現資料庫擴容。

    業務零代碼改動,實現讀寫分離。

  • 快速部署

    可在線快速部署實例,節省采購、部署、配置等自建資料庫工作,縮短項目周期,幫助業務快速上線。

  • 低成本

    穩定的產品,完善的運維和技術支持,相比開源產品總體性價比更高;多種實例規格配置覆蓋不同業務規模場景,按需購買。

  • 單機資料庫的現狀與困境

    隨著互聯網飛速發展,企業數據越來越龐大,應用對性能要求也越來越高。單機資料庫對大批量數據的處理存在一定的局限性:

  • 單機資料庫容易產生容量與性能瓶頸

    當前的硬體條件下,主流資料庫可以支持單表千萬級數據量的存儲,但是難以支撐密集的並發讀寫,存在性能瓶頸。

  • 傳統的分區分表或分庫方案限制太多

    採用分區表方案,數據不能跨實例存儲,擴展性和維護性較差。

    採用分庫方案,客戶端需要自行管理各庫連接,資料庫連接管理和升級復雜,擴容遷移困難。

  • 單機資料庫伺服器成本高昂

    普通X86伺服器支撐能力有限,品牌廠商的伺服器價格高昂,通過增加硬體規格來提升並發性能的成本太高,且能到達的性能高度有限。

  • DDM輕松應對海量數據與高並發

    DDM解決了單機關系型資料庫對硬體依賴性強、擴展能力有限、數據量增大後擴容困難、資料庫響應變慢等難題,通過分布式集群架構方案實現了「平滑擴容」,擴容過程中保持業務不中斷。

  • 數據分布存儲

    DDM採用水平拆分方式,將數據記錄數龐大的單表,按指定的拆分規則,分布式存儲到各個分片中。同時DDM提供路由分發功能,應用服務無需考慮數據該寫入哪個分片,該從哪個分片讀取。

  • 讀寫分離

    用戶可以根據數據讀取壓力負載情況,為每個RDS實例配置一個或者多個只讀實例,提高查詢並發性能。

  • 高性能

    在實際業務訪問中,SQL主要的性能瓶頸集中在物理資料庫節點上。

    DDM實例關聯多個RDS節點,減少單個RDS存儲的數據量,同時實現並行計算,支持PB級數據量訪問,以及百萬級高並發。

  • 在線平滑擴容

    DDM在不中斷業務的情況下,支持新增RDS實例,水平擴容存儲空間。一鍵式擴容,輕松解決單機資料庫的容量瓶頸。

② 分布式資料庫系統(DDBS)概述

一 什麼是分布式資料庫

分布式資料庫系統是在集中式資料庫系統的基礎上發展來的 是資料庫技術與網路技術結合的產物

分布式資料庫系統有兩種 一種是物理上分布的 但邏輯上卻是集中的 這種分布式資料庫只適宜用途比較單一的 不大的單位或部門 另一種分布式資料庫系統在物理上和邏輯上都是分布的 也就是所謂聯邦式分布資料庫系統 由於組成聯邦的各個子資料庫系統是相對 自治 的 這種系統可以容納多種不同用途的 差異較大的資料庫 比較適宜於大范圍內資料庫的集成

分布式資料庫系統(DDBS)包含分布式資料庫管理系統(DDBMS)和分布式資料庫(DDB)

在分布式資料庫系統中 一個應用程序可以對資料庫進行透明操作 資料庫中的數據分別在不同的局部資料庫中存儲 由不同的DBMS進行管理 在不同的機器上運行 由不同的操作系統支持 被不同的通信網路連接在一起

一個分布式資料庫在邏輯上是一個統一的整體 即在用戶面前為單個邏輯資料庫 在物理上則是分別存儲在不同的物理節點上 一個應用程序通過網路的連接可以訪問分布在不同地理位置的資料庫 它的分布性表現在資料庫中的數據不是存儲在同一場地 更確切地講 不存儲在同一計算機的存儲設備上 這就是與集中式資料庫的區別 從用戶的角度看 一個分布式資料庫系統在邏輯上和集中式資料庫系統一樣 用戶可以在任何一個場地執行全局應用 就好那些數據是存儲在同一台計算機上 有單個資料庫管理系統(DBMS)管理一樣 用戶並沒有什麼感覺不一樣

分布式資料庫中每一個資料庫伺服器合作地維護全局資料庫的一致性

分布式資料庫系統是一個客戶/伺服器體系結構

在系統中的每一台計算機稱為結點 如果一結點具有管理資料庫軟體 該結點稱為資料庫伺服器 如果一個結點為請求伺服器的信息的一應用 該結點稱為客戶 在ORACLE客戶 執行資料庫應用 可存取數據信息和與用戶交互 在伺服器 執行ORACLE軟體 處理對ORACLE資料庫並發 共享數據存取 ORACLE允許上述兩部分在同一台計算機上 但當客戶部分和伺服器部分是由網連接的不同計算機上時 更有效

分布處理是由多台處理機分擔單個任務的處理 在ORACLE資料庫系統中分布處理的例子如

客戶和伺服器是位於網路連接的不同計算機上

單台計算機上有多個處理器 不同處理器分別執行客戶應用

參與分布式資料庫的每一伺服器是分別地獨立地管理資料庫 好像每一資料庫不是網路化的資料庫 每一個資料庫獨立地被管理 稱為場地自治性 場地自治性有下列好處

◆系統的結點可反映公司的邏輯組織

◆由局部資料庫管理員控制局部數據 這樣每一個資料庫管理員責任域要小一些 可更好管理

◆只要一個資料庫和網路是可用 那麼全局資料庫可部分可用 不會因一個資料庫的故障而停止全部操作或引起性能瓶頸

◆故障恢復通常在單個結點上進行

◆每個局部資料庫存在一個數據字典

◆結點可獨立地升級軟體

可從分布式資料庫的所有結點存取模式對象 因此正像非分布的局部的DBMS 必須提供一種機制 可在局部資料庫中引用一個對象 分布式DBMS必須提供一種命名模式 以致分布式資料庫中一個對象可在應用中唯一標識和引用 一般在層次結構的每一層實施唯一性 分布式DBMS簡單地擴充層次命名模型 實施在網路上唯一資料庫命名 因此一個對象的全局對象名保證在分布式資料庫內是唯一

ORACLE允許在SQL語句中使用全局對象名引用分布式資料庫中的模式對象(表 視圖和過程) 在ORACLE中 一個模式對象的全局名由三部分組成 包含對象的模式名 對象名 資料庫名 其形式如

SCOTT EMP@SALES DIVISION ACME

一個遠程查詢為一查詢 是從一個或多個遠程表中選擇信息 這些表駐留在同一個遠程結點

一個分布式查詢可從兩個或多個結點檢索數據 一個分布式更新可修改兩個或兩個以上結點的數據

一個遠程事務為一個事務 包含一人或多個遠程語句 它所引用的全部是在同一個遠程結點上 一個分布式事務中一個事務 包含一個或多個語句修改分布式資料庫的兩個或多個不同結點的數據

在分布式資料庫中 事務控制必須在網路上直轄市 保證數據一致性 兩階段提交機制保證參與分布式事務的全部資料庫伺服器是全部提交或全部回滾事務中的語句

ORACLE分布式資料庫系統結構可由ORACLE資料庫管理員為終端用戶和應用提供位置透明性 利用視圖 同義詞 過程可提供ORACLE分布式資料庫系統中的位置透明性

ORACLE提供兩種機制實現分布式資料庫中表重復的透明性 錶快照提供非同步的表重復;觸發器實現同步的表的重復 在兩種情況下 都實現了對表重復的透明性

在單場地或分布式資料庫中 所有事務都是用MIT或ROLLBACK語句中止

二 分布式資料庫系統的分類

( ) 同構同質型DDBS 各個場地都採用同一類型的數據模型(譬如都是關系型) 並且是同一型號的DBMS

( )同構異質型DDBS 各個場地採用同一類型的數據模型 但是DBMS的型號不同 譬如DB ORACLE SYBASE SQL Server等

( )異構型DDBS 各個場地的數據模型的型號不同 甚至類型也不同 隨著計算機網路技術的發展 異種機聯網問題已經得到較好的解決 此時依靠異構型DDBS就能存取全網中各種異構局部庫中的數據

三 分布式資料庫系統主要特點

DDBS的基本特點

( )物理分布性 數據不是存儲在一個場地上 而是存儲在計算機網路的多個場地上

邏輯整體性 數據物理分布在各個場地 但邏輯上是一個整體 它們被所有用戶(全局用戶)共享 並由一個DDBMS統一管理

( )場地自治性 各場地上的數據由本地的DBMS管理 具有自治處理能力 完成本場地的應用(局部應用)

( )場地之間協作性 各場地雖然具有高度的自治性 但是又相互協作構成一個整體

DDBS的其他特點

( )數據獨立性

( )集中與自治相結合的控制機制

( )適當增加數據冗餘度

( )事務管理的分布性

四 分布式資料庫系統的優點

( )更適合分布式的管理與控制

分布式資料庫系統的結構更適合具有地理分布特性的組織或機構使用 允許分布在不同區域 不同級別的各個部門對其自身的數據實行局部控制 例如 實現全局數據在本地錄入 查詢 維護 這時由於計算機資源靠近用戶 可以降低通信代價 提高響應速度 而涉及其他場地資料庫中的數據只是少量的 從而可以大大減少網路上的信息傳輸量;同時 局部數據的安全性也可以做得更好

( )具有靈活的體系結構

集中式資料庫系統強調的是集中式控制 物理資料庫是存放在一個場地上的 由一個DBMS集中管理 多個用戶只可以通過近程或遠程終端在多用戶操作系統支持下運行該DBMS來共享集中是資料庫中的數據 而分布式資料庫系統的場地局部DBMS的自治性 使得大部分的局部事務管理和控制都能就地解決 只有在涉及其他場地的數據時才需要通過網路作為全局事務來管理 分布式DBMS可以設計成具有不同程度的自治性 從具有充分的場地自治到幾乎是完全集中式的控制

( )系統經濟 可靠性高 可用性好

與一個大型計算機支持一個大型的集中式資料庫在加一些進程和遠程終端相比 由超級微型計算機或超級小型計算機支持的分布式資料庫系統往往具有更高的性價比和實施靈活性 分布式系統比集中式系統具有更高的可靠性和更好的可用性 如由於數據分布在多個場地並有許多復制數據 在個別場地或個別通信鏈路發生故障時 不致於導致整個系統的崩潰 而且系統的局部故障不會引起全局失控

( )在一定條件下響應速度加快

如果存取的數據在本地資料庫中 那麼就可以由用戶所在的計算機來執行 速度就快

( )可擴展性好 易於集成現有系統 也易於擴充

對於一個企業或組織 可以採用分布式資料庫技術在以建立的若干資料庫的基礎上開發全局應用 對原有的局部資料庫系統作某些改動 形成一個分布式系統 這比重建一個大型資料庫系統要簡單 既省時間 又省財力 物力 也可以通過增加場地數的辦法 迅速擴充已有的分布式資料庫系統

五 分布式資料庫系統的劣勢

( )通信開銷較大 故障率高

例如 在網路通信傳輸速度不高時 系統的響應速度慢 與通信相關的因素往往導致系統故障 同時系統本身的復雜性也容易導致較高的故障率 當故障發生後系統恢復也比較復雜 可靠性有待提高

( )數據的存取結構復雜

一般來說 在分布時資料庫中存取數據 比在集中時資料庫中存取數據更復雜 開銷更大

( )數據的安全性和保密性較難控制

在具有高度場地自治的分布時資料庫中 不同場地的局部資料庫管理員可以採用不同的安全措施 但是無法保證全局數據都是安全的 安全性問題式分布式系統固有的問題 因為分布式系統式通過通信網路來實現分布控制的 而通信網路本身卻在保護數據的安全性和保密性方面存在弱點 數據很容易被竊取

分布式資料庫的設計 場地劃分及數據在不同場地的分配比較復雜 數據的劃分及分配對系統的性能 響應速度及可用性等具有極大的影響 不同場地的通信速度與局部資料庫系統的存取部件的存取速度相比 是非常慢的 通信系統有較高的延遲 在CPU上處理通信信息的代價很高 分布式資料庫系統中要注意解決分布式資料庫的設計 查詢處理和優化 事務管理及並發控制和目錄管理等問題

六 分布式資料庫系統 數據分片

類型

水平分片

按一定的條件把全局關系的所有元組劃分成若干不相交的子集 每個子集為關系的一個片段

垂直分片

把一個全局關系的屬性集分成若乾子集 並在這些子集上作投影運算 每個投影稱為垂直分片

導出分片

又稱為導出水平分片 即水平分片的條件不是本關系屬性的條件 而是其他關系屬性的條件

混合分片

以上三種方法的混合 可以先水平分片再垂直分片 或先垂直分片再水平分片 或其他形式 但他們的結果是不相同的

條件

( )完備性條件

必須把全局關系的所有數據映射到片段中 決不允許有屬於全局關系的數據卻不屬於它的任何一個片段

( )可重構條件

必須保證能夠由同一個全局關系的各個片段來重建該全局關系 對於水平分片可用並操作重構全局關系;對於垂直分片可用聯接操作重構全局關系

( )不相交條件

要求一個全局關系被分割後所得的各個數據片段互不重疊(對垂直分片的主鍵除外)

七 分布式資料庫系統 數據分配方式

( )集中式 所有數據片段都安排在同一個場地上

( )分割式

所有數據只有一份 它被分割成若干邏輯片段 每個邏輯片段被指派在一個特定的場地上

( )全復制式 數據在每個場地重復存儲 也就是每個場地上都有一個完整的數據副本

( )混合式 這是一種介乎於分割式和全復制式之間的分配方式

八 分布式資料庫系統 體系結構

數據分片和數據分配概念的分離 形成了 數據分布獨立型 概念

數據冗餘的顯式控制 數據在各個場地的分配情況在分配模式中一目瞭然 便於系統管理

局部DBMS的獨立性 這個特徵也稱為 局部映射透明性 此特徵允許我們在不考慮局部DBMS專用數據模型的情況下 研究DDB管理的有關問題

九 分布式資料庫管理系統

接受用戶請求 並判定把它送到哪裡 或必須訪問哪些計算機才能滿足該要求

訪問網路數據字典 了解如何請求和使用其中的信息

如果目標數據存儲於系統的多個計算機上 就必須進行分布式處理

通信介面功能 在用戶 局部DBMS和其他計算機的DBMS之間進行協調

在一個異構型分布式處理環境中 還需提供數據和進程移植的支持 這里的異構型是指各個場地的硬體 軟體之間存在著差別

分布式資料庫管理系統

lishixin/Article/program/Oracle/201311/16998

③ 分布式資料庫需要考慮哪些問題

在設計分布式資料庫時,應特別考慮如下幾個方面的問題: 1. 數據保存 (存儲分段/復制,橫向/縱向表分區); 2. 目錄管理(catalog management): 命名,數據獨立性 3. 查詢處理(基於代價的調優, 半合並)4. 數據更新(同步/非同步)

④ 分布式資料庫的數據分配方式

(1)集中式:所有數據片段都安排在同一個場地上。
(2)分割式:所有數據只有一份,它被分割成若干邏輯片段,每個邏輯片段被指派在一個特定的場地上。
(3)全復制式:數據在每個場地重復存儲。也就是每個場地上都有一個完整的數據副本。
(4)混合式:這是一種介乎於分割式和全復制式之間的分配方式。
目前分布式資料庫分配的設計,越來越多的採用尋找最優解的演算法,比如遺傳演算法、退火機制等

⑤ 資料庫為什麼要分庫分表

1 基本思想之什麼是分庫分表?
從字面上簡單理解,就是把原本存儲於一個庫的數據分塊存儲到多個庫上,把原本存儲於一個表的數據分塊存儲到多個表上。
2 基本思想之為什麼要分庫分表?


據庫中的數據量不一定是可控的,在未進行分庫分表的情況下,隨著時間和業務的發展,庫中的表會越來越多,表中的數據量也會越來越大,相應地,數據操作,增
刪改查的開銷也會越來越大;另外,由於無法進行分布式式部署,而一台伺服器的資源(CPU、磁碟、內存、IO等)是有限的,最終資料庫所能承載的數據量、
數據處理能力都將遭遇瓶頸。
3 分庫分表的實施策略。

分庫分表有垂直切分和水平切分兩種。
3.1
何謂垂直切分,即將表按照功能模塊、關系密切程度劃分出來,部署到不同的庫上。例如,我們會建立定義資料庫workDB、商品資料庫payDB、用戶數據
庫userDB、日誌資料庫logDB等,分別用於存儲項目數據定義表、商品定義表、用戶數據表、日誌數據表等。
3.2
何謂水平切分,當一個表中的數據量過大時,我們可以把該表的數據按照某種規則,例如userID散列,進行劃分,然後存儲到多個結構相同的表,和不同的庫
上。例如,我們的userDB中的用戶數據表中,每一個表的數據量都很大,就可以把userDB切分為結構相同的多個userDB:part0DB、
part1DB等,再將userDB上的用戶數據表userTable,切分為很多userTable:userTable0、userTable1等,
然後將這些表按照一定的規則存儲到多個userDB上。
3.3 應該使用哪一種方式來實施資料庫分庫分表,這要看資料庫中數據量的瓶頸所在,並綜合項目的業務類型進行考慮。
如果資料庫是因為表太多而造成海量數據,並且項目的各項業務邏輯劃分清晰、低耦合,那麼規則簡單明了、容易實施的垂直切分必是首選。

如果資料庫中的表並不多,但單表的數據量很大、或數據熱度很高,這種情況之下就應該選擇水平切分,水平切分比垂直切分要復雜一些,它將原本邏輯上屬於一體
的數據進行了物理分割,除了在分割時要對分割的粒度做好評估,考慮數據平均和負載平均,後期也將對項目人員及應用程序產生額外的數據管理負擔。
在現實項目中,往往是這兩種情況兼而有之,這就需要做出權衡,甚至既需要垂直切分,又需要水平切分。我們的游戲項目便綜合使用了垂直與水平切分,我們首先對資料庫進行垂直切分,然後,再針對一部分表,通常是用戶數據表,進行水平切分。
4 分庫分表存在的問題。

4.1 事務問題。
在執行分庫分表之後,由於數據存儲到了不同的庫上,資料庫事務管理出現了困難。如果依賴資料庫本身的分布式事務管理功能去執行事務,將付出高昂的性能代價;如果由應用程序去協助控制,形成程序邏輯上的事務,又會造成編程方面的負擔。
4.2 跨庫跨表的join問題。
在執行了分庫分表之後,難以避免會將原本邏輯關聯性很強的數據劃分到不同的表、不同的庫上,這時,表的關聯操作將受到限制,我們無法join位於不同分庫的表,也無法join分表粒度不同的表,結果原本一次查詢能夠完成的業務,可能需要多次查詢才能完成。
4.3 額外的數據管理負擔和數據運算壓力。

外的數據管理負擔,最顯而易見的就是數據的定位問題和數據的增刪改查的重復執行問題,這些都可以通過應用程序解決,但必然引起額外的邏輯運算,例如,對於
一個記錄用戶成績的用戶數據表userTable,業務要求查出成績最好的100位,在進行分表之前,只需一個order
by語句就可以搞定,但是在進行分表之後,將需要n個order
by語句,分別查出每一個分表的前100名用戶數據,然後再對這些數據進行合並計算,才能得出結果。

⑥ 分布式資料庫相比自建資料庫具備哪些優勢

自建資料庫:

  • 容易產生容量與性能瓶頸

    當前的硬體條件下,主流資料庫可以支持單表千萬級數據量的存儲,但是難以支撐密集的並發讀寫,存在性能瓶頸。

  • 分區分表或分庫方案限制太多

    採用分區表方案,數據不能跨實例存儲,擴展性和維護性較差。

    採用分庫方案,客戶端需要自行管理各庫連接,資料庫連接管理和升級復雜,擴容遷移困難。

  • 伺服器成本高昂

    普通X86伺服器支撐能力有限,品牌廠商的伺服器價格高昂,通過增加硬體規格來提升並發性能的成本太高,且能到達的性能高度有限。

在分布式資料庫面前,上面這些都不是問題,有很長廠商都已經把分布式資料庫做的不錯了,如阿里雲,華為雲等。

如下以我熟悉的華為雲分布式資料庫中間件DDM為例為你介紹下,如果感興趣可以去官網了解一下,現在好像還有試用活動:華為雲分布式資料庫中間件DDM

分布式資料庫:

  • 數據分布存儲

    DDM採用水平拆分方式,將數據記錄數龐大的單表,按指定的拆分規則,分布式存儲到各個分片中。同時DDM提供路由分發功能,應用服務無需考慮數據該寫入哪個分片,該從哪個分片讀取。

  • 讀寫分離

    用戶可以根據數據讀取壓力負載情況,為每個RDS實例配置一個或者多個只讀實例,提高查詢並發性能。

  • 高性能

    在實際業務訪問中,SQL主要的性能瓶頸集中在物理資料庫節點上。

    DDM實例關聯多個RDS節點,減少單個RDS存儲的數據量,同時實現並行計算,支持PB級數據量訪問,以及百萬級高並發。

  • 在線平滑擴容

    DDM在不中斷業務的情況下,支持新增RDS實例,水平擴容存儲空間。一鍵式擴容,輕松解決單機資料庫的容量瓶頸。

⑦ 如何對已經存在的數據表進行分區

過程中為SQL Server數據表劃分為三個步驟:

1)建立分區函數

2)建立分區方案

3)對表的分區

第一步:建立分區函數

分區函數定義[U]如何[/ U],也就是你想怎麼SQL Server數據分區。這里不是一個特定的表作為一個例子,但總的技術部門總結的數據。

分區指定為每個分區用分區邊界來實現。例如,假設我們有一個客戶表,其中包含所有的企業客戶信息,客戶信息與客戶的唯一標識號,客戶編號從1到100萬。我們可以使用下面的分區功能(這里稱為customer_Partfunc)把這個表分為四個分區:

CREATE PARTITION FUNCTION customer_partfunc(INT)

AS RANGE RIGHT

輸入值( 250000,500000,750000)

這些邊界劃分指定了四個分區。第一個分區包含所有值?少於25萬的記錄。第二個分區包含所有值?之間250,000和499,999的記錄。第三個分區包含所有值?500,000至749,999記錄。大於或等於750,000的所有其他記錄都包含在第四個分區中。

請注意,此示例使用「RANGE RIGHT」條款。這表明,該邊界值是分區的右側。同樣,如果您使用「RANGE LEFT」條款,那麼第一個分區將包含所有的值小於或等於25萬條記錄;?第二個分區將包含所有的值250001和500000之間的記錄,等等??

第二步:創建

分區方案

一旦如何分區功能分區後的數據完整的定義,下一步是創建一個分區方案,定義[ U],其中[/ U],這就是你要分區的數據。這是一個非常簡單的過程,例如,如果我有四個文件組,從「FG1」到「FG4」的名字,那麼你可以使用下面的分區方案:

創建分區計劃customer_partscheme

作為間隔customer_partfunc

要(FG1,FG2,FG3,FG4)

請注意,我們現在把一個分區函數連接到分區規劃,但我們還沒有連接在分區方案的任何具體的資料庫表。這是重復使用的功能函數時。我們可以利用這個功能來分區方案(或只是一個分區函數)對資料庫表的任何數據。

第三步:表已分區

建立良好的分區方案後,就可以開始對表進行分區。這是最簡單的一步,只需加上「ON」子句中的表創建語句指定表的分區方案,並申請表列的分區方案。你不需要指定分區函數,分區方案已經因為分區函數定義。

例如,假設你想使用上述的分區方案來創建一個客戶表,您需要使用以下Transact-SQL語句:

CREATE TABLE客戶(姓數據類型為nvarchar(40),姓氏為nvarchar(40),CUSTOMERNUMBER INT)
開customer_partscheme(CUSTOMERNUMBER)