❶ 如何實現交易數據到大數據平台的實時同步
在企業級大數據平台的建設中,從傳統關系型資料庫(如Oracle)向Hadoop平台匯聚數據是一個重要的課題。目前主流的工具有Sqoop、DataX、Oracle GoldenGate for Big Data等幾種。Sqoop使用sql語句獲取關系型資料庫中的數據後,通過hadoop的MapRece把數據從關系型資料庫中導入數據到HDFS,其通過指定遞增列或者根據時間戳達到增量導入的目的,從原理上來說是一種離線批量導入技術;DataX 直接在運行DataX的機器上進行數據的抽取及載入,其主要原理為:通過Reader插件讀取源數據,Writer插件寫入數據到目標 ,使用Job來控制同步作業,也是一種離線批量導入技術;Oracle Goldengate for Big Data抽取在線日誌中的數據變化,轉換為GGS自定義的數據格式存放在本地隊列或遠端隊列中,並利用TCP/IP傳輸數據變化,集成數據壓縮,提供理論可達到9:1壓縮比的數據壓縮特性,它簡化了向常用大數據解決方案的實時數據交付,可以在不影響源系統性能的情況下將交易數據實時傳入大數據系統。對比以上工具及方法,結合數據處理的准確性及實時性要求,我們評估Oracle Goldengate for Big Data基本可以滿足當前大數據平台數據抽取的需求。
❷ pg資料庫集群怎麼保證數據同步
要保證 PG 資料庫集群中數據的同步,可以採用以下一些方法:
1. 流復制:流復制是 PG 資料庫集群中最常用的數據同步方式。它基於二進制日誌的基礎上,將森弊迅主伺服器上的事務日誌傳輸到從伺服器上進行重放。當主伺服器執行一個新的事務時,它會向從伺服器發送一個 WAL 記錄,然後該記錄會被寫入從服務卜沖器的 WAL,從而實現了數據同步。
2. 邏輯復制:邏輯復制是另一種常用的 PG 資料庫集群數此此據同步方式。它通過在主伺服器上解析 SQL 插入,更新和刪除語句,然後再將這些語句傳輸到從伺服器上執行,來實現數據同步。
3. 復制槽:復制槽是一個用於保存復制信息的數據結構,可以用於控制流復制和邏輯復制。通過使用復制槽,可以確保從伺服器可以接收到主伺服器上的所有更改,即使從伺服器離線或重啟。
4. pgpool-II:pgpool-II 是一個流行的第三方開源工具,用於 PG 資料庫集群中的負載均衡和故障轉移。通過在 pgpool-II 中設置正確的參數,可以實現數據同步,從而提高系統的可用性和性能。
綜上所述,要保證 PG 資料庫集群中數據的同步,可以採用多種方法。具體選擇哪一種同步方式取決於您的系統架構和業務需求。
❸ 力控組態軟體同步實時數據到關系型資料庫(sqlserver 2008)
欄位Time和TagName是建表是的自動欄位,不用設置,可以根據不同需要自己增加數據轉儲的欄位,可以自己修改欄位名。
按鈕AuTo是自動添加所有變數的欄位名,如果是本地數據源就欄位名等於變數名,如果是遠程數據源欄位名自動等於」遠程數據源名\\變數名」。
此時點擊完成,和SQLserver2000之間的一個數據轉儲任務就設置完成。
❹ Redis和關系型資料庫的主要區別,體現在哪些方面
Redis 和關系型資料庫的主要區別有以下幾嫌悄物個方面:
數據存儲方式不同:Redis是基於內存的資料庫,而關系型資料庫通常是基於磁碟的。Redis的數據存儲在內存中,因此讀寫速度非常快,但是容量受到內存大小的限制;而關系型資料庫通常將數據存儲在磁碟運搜中,因此讀寫速度較慢,但是容量可以擴展到很大。
數據結構不同:Redis支持多種數據結構,如字元串、哈希表、列表、集合和有序集合等;而關系型資料庫通常只支持表格結構。
資料庫應用場景不同:Redis主要用於緩存、隊列、計數器等,而關系型資料庫主要用於存儲關系型數據。
資料庫的處理方式不同:Redis可以對數芹液據進行持久化,包括RDB快照和AOF日誌兩種方式,保證數據不丟失。而關系型資料庫通常採用事務機制來保證數據的一致性和完整性。
資料庫的性能不同:Redis的讀寫性能非常高,因為它使用的是內存存儲,而且支持多種數據結構;而關系型資料庫的讀寫性能相對較低,因為它需要通過磁碟進行數據讀寫,並且數據結構比較單一。
總之,Redis和關系型資料庫各有優缺點,應根據應用場景的需求選擇適合的資料庫。
❺ 採集數據 參數種類
採集數據參數種類是:Web數據(包括網頁、視頻、音頻、動畫、圖片等)、日誌數據、資料庫數據、其它數據。
1、web數據採集:網路數據採集是指通過網路爬蟲或網站公開 API 等方式從網站上獲取數據信息的過程。
網路會從一個或若干初始網頁的 URL 開始,獲得各個網頁上的內容,並且在抓取網頁的過程中,不斷從當前頁面上抽取新的 URL 放入隊列,直到滿足設置的停止條件為止。
2、系統日誌採集:系統日誌採集主要是收集公司業務平台日常產生的大量日誌數據,供離線和在線的大數據分析系統使用。
3、資料庫採集:傳統企業會使用傳統的關系型資料庫 MySQL 和 Oracle 等來存儲數據。
4、其他數據:感知設備數據採集是指通過感測器、攝像頭和其他智能終端自動採集信號、圖片或錄像來獲取數據。
數據源數據同步種類是:
1、直接數據源同步:是指直接的連接業務資料庫,通過規范的介面(如JDBC)去讀取目標資料庫的數據。這種方式比較容易實現,但是如果業務量比較大的數據源,可能會對性能有所影響。
2、生成數據文件同步:是指從數據源系統現生成數據文件,然後通過文件系統同步到目標資料庫里。
3、資料庫日誌同步:是指基於源資料庫的日誌文件進行同步。現在大多數資料庫都支持生成數據日誌文件,並且支持用數據日誌文件來恢復數據。因此可以使用這個數據日誌文件來進行增量同步。
❻ 什麼是數據同步
「數據同步是單純的同步意為同時執行同樣的操作,而數據同步將對象定位為數據,大多數時候對其的理解為不同存儲設備或終端與終端,終端與伺服器之間的備份操作。但完整的數據同步應為實時的,即當前操作雙方應是互為鏡像的,例如備份的過程直至結束即為數據同步,但這個操作樣例則應該屬於備份。
❼ 如何同步兩個SQLServer資料庫的內容
同步兩個SQLServer資料庫
如何同步兩個sqlserver資料庫的內容?程序代碼可以有版本管理cvs進行同步管理,可是資料庫同步就非常麻煩,只能自己改了一個後再去改另一個,如果忘記了更改另一個經常造成兩個資料庫的結構或內容上不一致.各位有什麼好的方法嗎?
一、分發與復制
用強制訂閱實現資料庫同步操作. 大量和批量的數據可以用資料庫的同步機制處理:
//
說明:
為方便操作,所有操作均在發布伺服器(分發伺服器)上操作,並使用推模式
在客戶機器使用強制訂閱方式。
二、測試通過
1:環境
伺服器環境:
機器名稱: zehuadb
操作系統:windows 2000 server
資料庫版本:sql 2000 server 個人版
客戶端
機器名稱:zlp
操作系統:windows 2000 server
資料庫版本:sql 2000 server 個人版
2:建用戶帳號
在伺服器端建立域用戶帳號
我的電腦管理->本地用戶和組->用戶->建立
username:zlp
userpwd:zlp
3:重新啟動伺服器mssqlserver
我的電腦->控制面版->管理工具->服務->mssqlserver 服務
(更改為:域用戶帳號,我們新建的zlp用戶 .\zlp,密碼:zlp)
4:安裝分發伺服器
a:配置分發伺服器
工具->復制->配置發布、訂閱伺服器和分發->下一步->下一步(所有的均採用默認配置)
b:配置發布伺服器
工具->復制->創建和管理發布->選擇要發布的資料庫(sz)->下一步->快照發布->下一步->選擇要發布的內容->下一步->下一步->下一步->完成
c:強制配置訂閱伺服器(推模式,拉模式與此雷同)
工具->復制->配置發布、訂閱伺服器和分發->訂閱伺服器->新建->sql server資料庫->輸入客戶端伺服器名稱(zlp)->使用sql server 身份驗證(sa,空密碼)->確定->應用->確定
d:初始化訂閱
復制監視器->發布伺服器(zehuadb)->雙擊訂閱->強制新建->下一步->選擇啟用的訂閱伺服器->zlp->下一步->下一步->下一步->下一步->完成
5:測試配置是否成功
復制監視器->發布衿?zehuadb)->雙擊sz:sz->點狀態->點立即運行代理程序
查看:
復制監視器->發布伺服器(zehuadb)->sz:sz->選擇zlp:sz(類型強制)->滑鼠右鍵->啟動同步處理
如果沒有錯誤標志(紅色叉),恭喜您配置成功
6:測試數據
在伺服器執行:
選擇一個表,執行如下sql: insert into wq_newsgroup_s select '測試成功',5
復制監視器->發布伺服器(zehuadb)->sz:sz->快照->啟動代理程序 ->zlp:sz(強制)->啟動同步處理
去查看同步的 wq_newsgroup_s 是否插入了一條新的記錄
測試完畢,通過。
7:修改資料庫的同步時間,一般選擇夜晚執行資料庫同步處理
(具體操作略) :d
/*
注意說明:
伺服器一端不能以(local)進行數據的發布與分發,需要先刪除注冊,然後新建注冊本地計算機名稱
卸載方式:工具->復制->禁止發布->是在"zehuadb"上靜止發布,卸載所有的資料庫同步配置伺服器
注意:發布伺服器、分發伺服器中的sqlserveragent服務必須啟動
採用推模式: "d:\microsoft sql server\mssql\repldata\unc" 目錄文件可以不設置共享
拉模式:則需要共享~!
*/
少量資料庫同步可以採用觸發器實現,同步單表即可。
三、配置過程中可能出現的問題
在sql server 2000里設置和使用資料庫復制之前,應先檢查相關的幾台sql server伺服器下面幾點是否滿足:
1、mssqlserver和sqlserveragent服務是否是以域用戶身份啟動並運行的(.\administrator用戶也是可以的)
如果登錄用的是本地系統帳戶local,將不具備網路功能,會產生以下錯誤:
進程未能連接到distributor '@server name'
(如果您的伺服器已經用了sql server全文檢索服務, 請不要修改mssqlserver和sqlserveragent服務的local啟動。
會照成全文檢索服務不能用。請換另外一台機器來做sql server 2000里復制中的分發伺服器。)
修改服務啟動的登錄用戶,需要重新啟動mssqlserver和sqlserveragent服務才能生效。
2、檢查相關的幾台sql server伺服器是否改過名稱(需要srvid=0的本地機器上srvname和datasource一樣)
在查詢分析器里執行:
use master
select srvid,srvname,datasource from sysservers
如果沒有srvid=0或者srvid=0(也就是本機器)但srvname和datasource不一樣, 需要按如下方法修改:
use master
go
-- 設置兩個變數
declare @serverproperty_servername varchar(100),
@servername varchar(100)
-- 取得windows nt 伺服器和與指定的 sql server 實例關聯的實例信息
select @serverproperty_servername = convert(varchar(100), serverproperty('servername'))
-- 返回運行 microsoft sql server 的本地伺服器名稱
select @servername = convert(varchar(100), @@servername)
-- 顯示獲取的這兩個參數
select @serverproperty_servername,@servername
--如果@serverproperty_servername和@servername不同(因為你改過計算機名字),再運行下面的
--刪除錯誤的伺服器名
exec sp_dropserver @server=@servername
--添加正確的伺服器名
exec sp_addserver @server=@serverproperty_servername, @local='local'
修改這項參數,需要重新啟動mssqlserver和sqlserveragent服務才能生效。
這樣一來就不會在創建復制的過程中出現18482、18483錯誤了。
3、檢查sql server企業管理器裡面相關的幾台sql server注冊名是否和上面第二點里介紹的srvname一樣
不能用ip地址的注冊名。
(我們可以刪掉ip地址的注冊,新建以sql server管理員級別的用戶注冊的伺服器名)
這樣一來就不會在創建復制的過程中出現14010、20084、18456、18482、18483錯誤了。
4、檢查相關的幾台sql server伺服器網路是否能夠正常訪問
如果ping主機ip地址可以,但ping主機名不通的時候,需要在
winnt\system32\drivers\etc\hosts (win2000)
windows\system32\drivers\etc\hosts (win2003)
文件里寫入資料庫伺服器ip地址和主機名的對應關系。
例如:
127.0.0.1 localhost
192.168.0.35 oracledb oracledb
192.168.0.65 fengyu02 fengyu02
202.84.10.193 bj_db bj_db
或者在sql server客戶端網路實用工具里建立別名,例如:
5、系統需要的擴展存儲過程是否存在(如果不存在,需要恢復):
sp_addextendedproc 'xp_regenumvalues',@dllname ='xpstar.dll'
go
sp_addextendedproc 'xp_regdeletevalue',@dllname ='xpstar.dll'
go
sp_addextendedproc 'xp_regdeletekey',@dllname ='xpstar.dll'
go
sp_addextendedproc xp_cmdshell ,@dllname ='xplog70.dll'
接下來就可以用sql server企業管理器里[復制]-> 右鍵選擇 ->[配置發布、訂閱伺服器和分發]的圖形界面來配置資料庫復制了。
下面是按順序列出配置復制的步驟:
1、建立發布和分發伺服器
[歡迎使用配置發布和分發向導]->[選擇分發伺服器]->[使"@servername"成為它自己的分發伺服器,sql server將創建分發資料庫和日誌]
->[制定快照文件夾]-> [自定義配置] -> [否,使用下列的默認配置] -> [完成]
上述步驟完成後, 會在當前"@servername" sql server資料庫里建立了一個distribion庫和 一個distributor_admin管理員級別的用戶(我們可以任意修改密碼)。
伺服器上新增加了四個作業:
[ 代理程序歷史記錄清除: distribution ]
[ 分發清除: distribution ]
[ 復制代理程序檢查 ]
[ 重新初始化存在數據驗證失敗的訂閱 ]
sql server企業管理器里多了一個復制監視器, 當前的這台機器就可以發布、分發、訂閱了。
我們再次在sql server企業管理器里[復制]-> 右鍵選擇 ->[配置發布、訂閱伺服器和分發]
我們可以在 [發布伺服器和分發伺服器的屬性] 窗口-> [發布伺服器] -> [新增] -> [確定] -> [發布資料庫] -> [事務]/[合並] -> [確定] -> [訂閱伺服器] -> [新增] -> [確定]
把網路上的其它sql server伺服器添加成為發布或者訂閱伺服器.
新增一台發布伺服器的選項:
我這里新建立的jin001發布伺服器是用管理員級別的資料庫用戶test連接的,
到發布伺服器的管理鏈接要輸入密碼的可選框, 默認的是選中的,
在新建的jin001發布伺服器上建立和分發伺服器fengyu/fengyu的鏈接的時需要輸入distributor_admin用戶的密碼。到發布伺服器的管理鏈接要輸入密碼的可選框,也可以不選,也就是不需要密碼來建立發布到分發伺服器的鏈接(這當然欠缺安全,在測試環境下可以使用)。
2、新建立的網路上另一台發布伺服器(例如jin001)選擇分發伺服器
[歡迎使用配置發布和分發向導]->[選擇分發伺服器]
-> 使用下列伺服器(選定的伺服器必須已配置為分發伺服器) -> [選定伺服器](例如fengyu/fengyu)
-> [下一步] -> [輸入分發伺服器(例如fengyu/fengyu)的distributor_admin用戶的密碼兩次]
-> [下一步] -> [自定義配置] -> [否,使用下列的默認配置]
-> [下一步] -> [完成] -> [確定]
建立一個資料庫復制發布的過程:
[復制] -> [發布內容] -> 右鍵選擇 -> [新建發布]
-> [下一步] -> [選擇發布資料庫] -> [選中一個待發布的資料庫]
-> [下一步] -> [選擇發布類型] -> [事務發布]/[合並發布]
-> [下一步] -> [指定訂閱伺服器的類型] -> [運行sql server 2000的伺服器]
-> [下一步] -> [指定項目] -> [在事務發布中只可以發布帶主鍵的表] -> [選中一個有主鍵的待發布的表]
->[在合並發布中會給表增加唯一性索引和 rowguidcol 屬性的唯一標識符欄位[rowguid],默認值是newid()]
(添加新列將: 導致不帶列列表的 insert 語句失敗,增加表的大小,增加生成第一個快照所要求的時間)
->[選中一個待發布的表]
-> [下一步] -> [選擇發布名稱和描述] ->
-> [下一步] -> [自定義發布的屬性] -> [否,根據指定方式創建發布]
-> [下一步] -> [完成] -> [關閉]
發布屬性里有很多有用的選項:設定訂閱到期(例如24小時)
設定發布表的項目屬性:
常規窗口可以指定發布目的表的名稱,可以跟原來的表名稱不一樣。
下圖是命令和快照窗口的欄目
( sql server 資料庫復制技術實際上是用insert,update,delete操作在訂閱伺服器上重做發布伺服器上的事務操作
看文檔資料需要把發布資料庫設成完全恢復模式,事務才不會丟失
但我自己在測試中發現發布資料庫是簡單恢復模式下,每10秒生成一些大事務,10分鍾後再收縮資料庫日誌,
這期間發布和訂閱伺服器上的作業都暫停,暫停恢復後並沒有丟失任何事務更改 )
發布表可以做數據篩選,例如只選擇表裡面的部分列:
例如只選擇表裡某些符合條件的記錄, 我們可以手工編寫篩選的sql語句:
發布表的訂閱選項,並可以建立強制訂閱:
成功建立了發布以後,發布伺服器上新增加了一個作業: [ 失效訂閱清除 ]
分發伺服器上新增加了兩個作業:
[ jin001-dack-dack-5 ] 類型[ repl快照 ]
[ jin001-dack-3 ] 類型[ repl日誌讀取器 ]
上面藍色字的名稱會根據發布伺服器名,發布名及第幾次發布而使用不同的編號
repl快照作業是sql server復制的前提條件,它會先把發布的表結構,數據,索引,約束等生成到發布伺服器的os目錄下文件
(當有訂閱的時候才會生成, 當訂閱請求初始化或者按照某個時間表調度生成)
repl日誌讀取器在事務復制的時候是一直處於運行狀態。(在合並復制的時候可以根據調度的時間表來運行)
建立一個資料庫復制訂閱的過程:
[復制] -> [訂閱] -> 右鍵選擇 -> [新建請求訂閱]
-> [下一步] -> [查找發布] -> [查看已注冊伺服器所做的發布]
-> [下一步] -> [選擇發布] -> [選中已經建立發布伺服器上的資料庫發布名]
-> [下一步] -> [指定同步代理程序登錄] -> [當代理程序連接到代理伺服器時:使用sql server身份驗證]
(輸入發布伺服器上distributor_admin用戶名和密碼)
-> [下一步] -> [選擇目的資料庫] -> [選擇在其中創建訂閱的資料庫名]/[也可以新建一個庫名]
-> [下一步] -> [允許匿名訂閱] -> [是,生成匿名訂閱]
-> [下一步] -> [初始化訂閱] -> [是,初始化架構和數據]
-> [下一步] -> [快照傳送] -> [使用該發布的默認快照文件夾中的快照文件]
(訂閱伺服器要能訪問發布伺服器的repldata文件夾,如果有問題,可以手工設置網路共享及共享許可權)
-> [下一步] -> [快照傳送] -> [使用該發布的默認快照文件夾中的快照文件]
-> [下一步] -> [設置分發代理程序調度] -> [使用下列調度] -> [更改] -> [例如每五分鍾調度一次]
-> [下一步] -> [啟動要求的服務] -> [該訂閱要求在發布伺服器上運行sqlserveragent服務]
-> [下一步] -> [完成] -> [確定]
成功建立了訂閱後,訂閱伺服器上新增加了一個類別是[repl-分發]作業(合並復制的時候類別是[repl-合並])
它會按照我們給的時間調度表運行資料庫同步復制的作業。
3、sql server復制配置好後, 可能出現異常情況的實驗日誌:
1.發布伺服器斷網,sql server服務關閉,重啟動,關機的時候,對已經設置好的復制沒有多大影響
中斷期間,分發和訂閱都接收到沒有復制的事務信息
2.分發伺服器斷網,sql server服務關閉,重啟動,關機的時候,對已經設置好的復制有一些影響
中斷期間,發布伺服器的事務排隊堆積起來
(如果設置了較長時間才刪除過期訂閱的選項, 繁忙發布資料庫的事務日誌可能會較快速膨脹),
訂閱伺服器會因為訪問不到發布伺服器,反復重試
我們可以設置重試次數和重試的時間間隔(最大的重試次數是9999, 如果每分鍾重試一次,可以支持約6.9天不出錯)
分發伺服器sql server服務啟動,網路接通以後,發布伺服器上的堆積作業將按時間順序作用到訂閱機器上:
會需要一個比較長的時間(實際上是生成所有事務的insert,update,delete語句,在訂閱伺服器上去執行)
我們在普通的pc機上實驗的58個事務100228個命令執行花了7分28秒.
3.訂閱伺服器斷網,sql server服務關閉,重啟動,關機的時候,對已經設置好的復制影響比較大,可能需要重新初試化
我們實驗環境(訂閱伺服器)從18:46分意外停機以, 第二天8:40分重啟動後, 已經設好的復制在8:40分以後又開始正常運行了, 發布伺服器上的堆積作業將按時間順序作用到訂閱機器上, 但復制管理器里出現快照的錯誤提示, 快照可能需要重新初試化,復制可能需要重新啟動.(我們實驗環境的機器並沒有進行快照初試化,復制仍然是成功運行的)
4、刪除已經建好的發布和定閱可以直接用delete刪除按鈕
我們最好總是按先刪定閱,再刪發布,最後禁用發布的順序來操作。
如果要徹底刪去sql server上面的復制設置, 可以這樣操作:
[復制] -> 右鍵選擇 [禁用發布] -> [歡迎使用禁用發布和分發向導]
-> [下一步] -> [禁用發布] -> [要在"@servername"上禁用發布]
-> [下一步] -> [完成禁用發布和分發向導] -> [完成]
我們也可以用t-sql命令來完成復制中發布及訂閱的創建和刪除, 選中已經設好的發布和訂閱, 按屬標右鍵可以[生成sql腳本]。(這里就不詳細講了, 後面推薦的網站內有比較詳細的內容)
當你試圖刪除或者變更一個table時,出現以下錯誤
server: msg 3724, level 16, state 2, line 1
cannot drop the table 'object_name' because it is being used for replication.
比較典型的情況是該table曾經用於復制,但是後來又刪除了復制。
處理辦法:
select * from sysobjects where replinfo >'0'
sp_configure 'allow updates', 1
go
reconfigure with override
go
begin transaction
update sysobjects set replinfo = '0' where replinfo >'0'
commit transaction
go
rollback transaction
go
sp_configure 'allow updates', 0
go
reconfigure with override
go