搶購資料庫瓶頸_如何處理查找處理資料庫的性能瓶頸

A. 有哪些常見的資料庫優化方法(資料庫如何優化)

資料庫優化的指導思路是首先寫出的sql是優化器喜歡的，然後在排除爛的SQL的情況下就是，找瓶頸，資料庫吞吐量上不去或者查詢慢都是因為某一瓶頸的存在，從非常大的粒度來看，瓶頸可以分為五類：io內滑嘩存CPU網路鎖。

當卡在某一瓶頸時，其他的薯森資源就會被閑置，解決瓶頸或者用非瓶頸的資源做tradeoff達到總和的最大才是優化的正解，比如建索引就是以空間換時間的做法。

由於資料庫相對比較復雜，上下文有區別優化思路也會不一樣，所以離開上下文談具體的優化手段就是坑。

大部分開發人員會犯的錯誤是所數讓畝謂的「錘子人」，也就是自己是錘子看什麼都像釘子，比如覺得慢就說要分區，覺得某種語句的寫法一定比另一種快而不考慮場景。

B. 當資料庫變慢時的解決方法有哪些

我們使用電腦和手機時候最不能忍受就是設備又卡又慢了,嚴重影響我們工作或者游戲體驗。當資料庫變慢時，我們應如何入手，下面的解決方法。

方法步驟

第一章檢查系統的狀態

1.1 使用sar來檢查操作系統是否存在IO問題

1.2 關注內存vmstat

1.3 找到使用資源特別大的Oracle的session及其執行的語句

1.4 查找前十條性能差的sql語句

當資料庫變慢時，我們應如何入手

當應用管理員通告現在應用很慢、資料庫很慢時，當Oracle DBA在資料庫上做幾個示例的Select也發現同樣的問題時，有些時侯就會無從下手，因為DBA認為資料庫的各種命種率都是滿足Oracle文檔的建議。實際上如今的優化己經向優化等待(waits)轉型了，實際中性能優化最根本的出現點也都集中在I/O，這是影響性能最主要的方面，由系統中的等待去發現Oracle庫中的不足、操作系統某些資源利用的不合理是一個比較好的辦法。下面把一些實踐經驗與大家分享，本文測重於Unix環境。

第一章檢查系統的狀態

通過操作系統的一些工具檢查系統的狀態，比如CPU、內存、交換、磁碟的利用率，根據經驗或與系統正常時的狀態相比對，有時系統表面上看起來看空閑，這也可能不是一個正常的狀態，因為cpu可能正等待IO的完成。除此之外，還應觀注那些佔用系統資源(cpu、內存)的進程。

1.1 使用sar來檢查操作系統是否存在IO問題

#sar -u 2 10 -- 即每隔2秒檢察一次，共執行20次。

結果示例：

註：在redhat下，%system就是所謂的%wio。

Linux 2.4.21-20.ELsmp (YY075) 05/19/2005

10:36:07 AM CPU %user %nice %system %idle

10:36:09 AM all 0.00 0.00 0.13 99.87

10:36:11 AM all 0.00 0.00 0.00 100.00

10:36:13 AM all 0.25 0.00 0.25 99.49

10:36:15 AM all 0.13 0.00 0.13 99.75

10:36:17 AM all 0.00 0.00 0.00 100.00

其中：

Ø %usr指的是用戶進程使用的cpu資源的百分比;

Ø %sys指的是系統資源使用cpu資源的百分比;

Ø %wio指的是等待io完成的百分比，這是值得觀注的一項;

Ø %idle即空閑的百分比。

如果wio列的值很大，如在35%以上，說明系統的IO存在瓶頸，CPU花費了很大的時間去等待I/O的完成。Idle很小說明系統CPU很忙。像以上的示例，可以看到wio平均值為11，說明I/O沒什麼特別的問題，而idle值為零，說明cpu已經滿負荷運行了。

當系統存在IO問題時，可以從以下幾個方面解決：

Ø 聯系相應的操作系統的技術支持對這方面進行優化，比如hp-ux在劃定卷組時的條帶化等方面。

Ø 查找Oracle中不合理的sql語句，對其進行優化;

Ø 對Oracle中訪問量頻繁的表除合理建索引外，再就是把這些表分表空間存放以免訪問上產生熱點，再有就是對表合理分區。

1.2 關注內存

常用的工具便是vmstat，對於hp-unix來說，可以用glance。Aix來說可以用topas。當發現vmstat中pi列非零，memory中的free列的值很小，glance、topas中內存的利用率多於80%時，這時說明內存方面應該調節一下。方法大體有以下幾項：

Ø 劃給Oracle使用的內存不要超過系統內存的1/2，一般保在系統內存的40%為益。

Ø 為系統增加內存;

Ø 如果你的連接特別多，可以使用MTS的方式;

Ø 打全補丁，防止內存漏洞。

1.3 找到使用資源特別大的Oracle的session及其執行的語句

Hp-unix可以用glance或top。IBM AIX可以用topas。此外可以使用ps的命令。

通過這些程序可以找到點用系統資源特別大的這些進程的進程號，就可以通過以下的sql語句發現這個pid正在執行哪個sql，這個sql最好在pl/sql developer、toad等軟體中執行：

SELECT a.username, a.machine, a.program, a.sid, a.serial#, a.status,

c.piece, c.sql_text

FROM v$session a, v$process b, v$sqltext c

WHERE b.spid = 'ORCL'

AND b.addr = a.paddr

AND a.sql_address = c.address(+)

ORDER BY c.piece;

可以把得到的這個sql分析一下，看一下它的執行計劃是否走索引。對其優化避免全表掃描，以減少IO等待，從而加快語句的執行速度。

提示：在做優化sql時，經常碰到使用in的語句，這時一定要用exists把它給換掉，因為Oracle在處理In時是按Or的方式做的，即使使用了索引也會很慢。比如：

SELECT col1, col2, col3 FROM table1 a

WHERE a.col1 NOT IN (SELECT col1 FROM table2)

可以換成：

SELECT col1, col2, col3 FROM table1 a

WHERE NOT EXISTS

(SELECT 'x' FROM table2 b WHERE a.col1=b.col1)

1.4 查找前十條性能差的sql語句

SELECT * FROM (SELECT parsing_user_id, executions, sorts, command_type,

disk_reads, sql_text FROM v$sqlarea

ORDER BY disk_reads DESC)

WHERE ROWNUM<10;

第二章檢查會話狀態

要快速發現Oracle Server的性能問題的原因，可以求助於v$session_wait視圖，看系統的這些session在等什麼，使用了多少的IO。以下是參考腳本：

-- 腳本說明：查看佔I/O較大的正在運行的session：

SELECT se.sid, se.serial#, pr.spid, se.username, se.status, se.terminal,

se.program, se.mole, se.sql_address, st.event, st.p1text,

si.physical_reads, si.block_changes

FROM v$session se, v$session_wait st, v$sess_io si, v$process pr

WHERE st.sid=se.sid AND st.sid=si.sid

AND se.PADDR=pr.ADDR

AND se.sid>6

AND st.wait_time=0

AND st.event NOT LIKE '%SQL%'

ORDER BY physical_reads DESC;

對檢索出的結果的幾點說明：

1. 以上是按每個正在等待的session已經發生的物理讀排的序，因為它與實際的I/O相關。

2. 可以看一下這些等待的進程都在忙什麼，語句是否合理?

SELECT sql_address FROM v$session WHERE sid=;

SELECT * FROM v$sqltext WHERE address=;

執行以上兩個語句便可以得到這個session的語句。

也以用alter system kill session 'sid, serial#';把這個session殺掉。

3. 應觀注一下event列，這是調優的關鍵一列，下面對常出現的event做以簡要的說明：

1) buffer busy waits，free buffer waits這兩個參數所標識是dbwr是否夠用的問題，與IO很大相關的，當v$session_wait中的free buffer wait的條目很小或沒有時，說明系統的dbwr進程決對夠用，不用調整;free buffer wait的條目很多，系統感覺起來一定很慢，這時說明dbwr已經不夠用了，它產生的wio已經成為資料庫性能的瓶頸，這時的解決辦法如下：

Ø 增加寫進程，同時要調整db_block_lru_latches參數：

示例：修改或添加如下兩個參數

db_writer_processes=4

db_block_lru_latches=8

Ø 開非同步IO。IBM這方面簡單得多，hp則麻煩一些，可以與Hp工程師聯系。

2) db file sequential read，指的是順序讀，即全表掃描，這也是應盡量減少的部分，解決方法就是使用索引、sql調優，同時可以增大db_file_multiblock_read_count這個參數。

3) db file scattered read參數指的是通過索引來讀取，同樣可以通過增加db_file_multiblock_read_count這個參數來提高性能。

4) latch free與栓相關，需要專門調節。

5) 其他參數可以不特別觀注

補充：解決系統變慢的常用技巧方法

1、在我的電腦窗口，右擊要清理的盤符―“屬性”―“清理磁碟”--勾選要刪除的文件--確定--是。

2、右鍵瀏覽器e――屬性――點2個刪除1個清除(都要逐一確定)――確定。

3、把C:WINDOWSPrefetch(預讀文件)把裡面的文件全部刪除

4、用優化大師或超級兔子清理注冊表和垃圾文件。

5、“開始”――運行中輸入msconfig――確定――啟動――除了輸入法ctfmon以外的勾全去掉。

6、右鍵我的電腦”――屬性――點高級――點啟動和故障恢復中的設置――去掉所有的勾――寫入調試信息選擇“無”――確定――點高級下面錯誤報告――點禁用――2次確定。

7、“開始”..打開控制面板中的文件夾選項..點查看..點去末項自動搜索文件夾前面的勾..確定。

8、右鍵我的電腦――屬性――硬體――設備管理器――雙擊IDE控制器――次要通道――高級設置――傳送模式都選DMA――設備類型選無――確定――主要通道也同樣設置――確定。

9、右鍵C盤進行磁碟清理和其它選項中的系統還原清理。

C. 如何處理查找，處理資料庫的性能瓶頸

具體問題具體分析，舉例來說明為什麼磁碟IO成瓶頸資料庫的性能急速下降了。

為什麼當磁碟IO成瓶頸之後, 資料庫的性能不是達到飽和的平衡狀態，而是急劇下降。為什麼資料庫的性能有非常明顯的分界點，原因是什麼？

相信大部分做資料庫運維的朋友，都遇到這種情況。資料庫在前一天性能表現的相當穩定，資料庫的響應時間也很正常，但就在今天，在業務人員反饋業務流量沒有任何上升的情況下，資料庫的變得不穩定了，有時候一個最簡單的insert操作，需要幾十秒，但99%的insert卻又可以在幾毫秒完成，這又是為什麼了？

dba此時心中有無限的疑惑，到底是什麼原因呢? 磁碟IO性能變差了？還是業務運維人員反饋的流量壓根就不對？還是資料庫內部出問題？昨天不是還好好的嗎？

當資料庫出現響應時間不穩定的時候，我們在操作系統上會看到磁碟的利用率會比較高，如果觀察仔細一點，還可以看到，存在一些讀的IO. 資料庫伺服器如果存在大量的寫IO,性能一般都是正常跟穩定的，但只要存在少量的讀IO,則性能開始出現抖動，存在大量的讀IO時（排除配備非常高速磁碟的機器），對於在線交易的資料庫系統來說，大概性能就雪崩了。為什麼操作系統上看到的磁碟讀IO跟寫IO所帶來的性能差距這么大呢？

如果親之前沒有注意到上述的現象，親對上述的結論也是懷疑。但請看下面的分解。

在寫這個文章之前，作者閱讀了大量跟的IO相關的代碼，如非同步IO線程的相關的，innodb_buffer池相關的，以及跟讀數據塊最相關的核心函數buf_page_get_gen函數以及其調用的相關子函數。為了將文章寫得通俗點，看起來不那麼累，因此不再一行一行的將代碼解析寫出來。

咱們先來提問題。buf_page_get_gen函數的作用是從Buffer bool裡面讀數據頁，可能存在以下幾種情況。

提問. 數據頁不在buffer bool 裡面該怎麼辦？

回答：去讀文件，將文件中的數據頁載入到buffer pool裡面。下面是函數buffer_read_page的函數，作用是將物理數據頁載入到buffer pool, 圖片中顯示

buffer_read_page函數棧的頂層是pread64(),調用了操作系統的讀函數。

通過解析buf_wait_for_read函數的下層函數，我們知道其實通過首先自旋加鎖pin的方式，超過設定的自旋次數之後，進入等待，等待IO完成被喚醒。這樣節省不停自旋pin時消耗的cpu,但需要付出被喚起時的開銷。

再繼續擴展問題：如果會話線程A 經過物理IO將數據頁1001讀入buffer之後，他需要修改這個頁，而在會話線程A之後的其他的同樣需要訪問數據頁1001的會話線程，即使在數據頁1001被入讀buffer pool之後，將仍然處於等待中。因為在數據頁上讀取或者更新的時候，同樣需要上鎖，這樣才能保證數據頁並發讀取/更新的一致性。

由此可見，當一個高並發的系統，出現了熱點數據頁需要從磁碟上載入到buffer pool中時，造成的延遲，是難以想像的。因此排在等待熱點頁隊列最後的會話線程最後才得到需要的頁，響應時間也就越長，這就是造成了一個簡單的sql需要執行幾十秒的原因。

再回頭來看上面的問題，mysql資料庫出現性能下降時，可以看到操作系統有讀IO。原因是，在資料庫對數據頁的更改，是在內存中的，然後通過檢查點線程進行非同步寫盤，這個非同步的寫操作是不堵塞執行sql的會話線程的。所以，即使看到操作系統上有大量的寫IO，資料庫的性能也是很平穩的。但當用戶線程需要查找的數據頁不在buffer pool中時，則會從磁碟上讀取，在一個熱點數據頁不是非常多的情況下，我們設置足夠大的innodb_buffer_pool的size, 基本可以緩存所有的數據頁，因此一般都不會出現缺頁的情況，也就是在操作系統上基本看不到讀的IO。當出現讀的IO時，原因時在執行buf_read_page_low函數，從磁碟上讀取數據頁到buffer pool, 則資料庫的性能則開始下降，當出現大量的讀IO，資料庫的性能會非常差。

D. 1,資料庫系統發展至今遇到的最大瓶頸是什麼

以國產資料庫的發展來看，瓶頸主要集中在兩個方面，一是研發，二是生態。

在研發方面，資料庫研發技術起點高，難度大，一個成熟的資料庫產品要具備深厚的技術積累和沉澱才能逐漸走向市場。國內很多廠商為求速成，要麼基於一個現有的開源系統改進，要麼從其他廠商購買源碼授權，雖然起步比較快，但是產品架構幾乎不可能調整，短期內也不可能掌握其核心技術，因此遇到客戶新需求這樣的問題時難以快速響應。

由此可見，要想實現資料庫技術突破，只有靠自主研發，在實際應用場景中不斷發現問題，從而革新技術，實現突破。國產資料庫發展的幾十年間，從「可用」、「試著用」到「好用」、「喜歡用」的方向不斷發展，產品的架構、性能、功能、安全等方面都有了很大進步，國人在對待國產基礎軟體的態度上也有所轉變。國產資料庫要想快速發展，也需要在國家核高基等政策的推動下，在建立中國自主產權的軟體國產化的重大主題的呼喚下，讓國產資料庫在一系列的項目中不斷磨合，促進其產品的優化和成熟，使其更能適應市場，滿足用戶需求。

在生態方面，國產資料庫生態建設困難，打破以國外品牌為主導的生態圈尤其困難。當前國外知名資料庫在業內處於絕對領先地位，短期內無法撼動國際巨頭的地位。如今，國內資料庫廠商多達幾十家，局面還有些混亂，單憑任何一家企業的力量難以打破國外市場的壟斷，需要有「國家隊」出現，集中投入財力物力，形成幾家大型的國產資料庫企業，深化資料庫的市場化程度，集中力量牽頭建設生態圈，共同推進我國的信息化建設。

E. 目前資料庫發展過程中軟硬體的都面臨了什麼難題

國產硬體和國外高端產品還是存在一定差距，並且隨著存儲單元密度接近摩爾定律極限，數據存儲及處理器晶體密度將達到上限，這方面是硬體的限制。技術上對的限制或簡單來說就是資料庫應用場景的多樣性復雜性的問題，性能瓶頸、運維、兼容、場景類型...。因為應用場景的復雜性和多樣性，單一場景的資料庫很難適應目前數字化發展的趨勢，所以各類資料庫廠家也在兼容融合等方面發力，HTAP就是很好的例子。AntDB在運營商深耕了十幾年，覆蓋了OLTP與OLAP場景，是非常典型的HTAP類型的關系型資料庫，業務覆蓋計費、CRM等核心交易，同時覆蓋清算分析等分析型業務。比如AntDB資料庫服務於中國電信某省計費系統上雲，包含數據層、批價和出賬流程等大規模業務。在系統設計上，將資源、資產等交易熱數據遷移到AntDB資料庫，極大地提高了業務關鍵數據的訪問效率，整體提高了話單事務的處理性能。AntDB資料庫支撐10億用戶的通信交易場景，進行在線交易與數據分析處理的HTAP混合負載，幫助客戶解決核心系統解決海量數據管理難題，基於分布式的架構設計，實現了在線彈性伸縮、強一致性事務、跨機房高可用等能力。

F. 資料庫設計時，常遇到的性能瓶頸有哪些，常有的解決方案

瓶頸主要有：
1 磁碟搜索優化方法：將數據分布在多個磁碟上，
2 磁碟讀寫優化方法：從多個磁碟並行讀寫，
3 CPU周期優化方法：擴充內存，
4 內存寬頻，

搶購資料庫瓶頸

與搶購資料庫瓶頸相關的內容