京東總監分頁緩存_京東面試題：ElasticSearch深度分頁解決方案

A. 京東面試題：ElasticSearch深度分頁解決方案

Elasticsearch 是一個實時的分布式搜索與分析引擎，在使用過程中，有一些典型的使用場景，比如分頁、遍歷等。

在使用關系型資料庫中，我們被告知要注意甚至被明確禁止使用深度分頁，同理，在 Elasticsearch 中，也應該盡量避免使用深度分頁。

這篇文章主要介紹 Elasticsearch 中分頁相關內容！

在ES中，分頁查詢默認返回最頂端的10條匹配hits。

如果需要分頁，需要使用from和size參數。

一個基本的ES查詢語句是這樣的：

上面的查詢表示從搜索結果中取第100條開始的10條數據。

「那麼，這個查詢語句在ES集群內部是怎麼執行的呢？」

在ES中，搜索一般包括兩個階段，query 和 fetch 階段，可以簡單的理解，query 階段確定要取哪些doc，fetch 階段取出具體的 doc。

如上圖所示，描述了一次搜索請求的 query 階段：·

在上面的例子中，coordinating node 拿到 (from + size) * 6 條數據，然後合並並排序後選擇前面的 from + size 條數據存到優先順序隊列，以便 fetch 階段使用。

另外，各個分片返回給 coordinating node 的數據用於選出前 from + size 條數據，所以，只需要返回唯一標記 doc 的 _id 以及用於排序的 _score 即可，這樣也可以保證返回的數據量足夠小。

coordinating node 計算好自己的優先順序隊列後，query 階段結束，進入 fetch 階段。

query 階段知道了要取哪些數據，但是並沒有取具體的數據，這就是 fetch 階段要做的。

上圖展示了 fetch 過程：

coordinating node 的優先順序隊列里有 from + size 個 _doc _id ，但是，在 fetch 階段，並不需要取回所有數據，在上面的例子中，前100條數據是不需要取的，只需要取優先順序隊列里的第101到110條數據即可。

需要取的數據可能在不同分片，也可能在同一分片，coordinating node 使用 「multi-get」 來避免多次去同一分片取數據，從而提高性能。

「這種方式請求深度分頁是有問題的：」

我們可以假設在一個有 5 個主分片的索引中搜索。當我們請求結果的第一頁（結果從 1 到 10 ），每一個分片產生前 10 的結果，並且返回給 協調節點 ，協調節點對 50 個結果排序得到全部結果的前 10 個。

現在假設我們請求第 1000 頁—結果從 10001 到 10010 。所有都以相同的方式工作除了每個分片不得不產生前10010個結果以外。然後協調節點對全部 50050 個結果排序最後丟棄掉這些結果中的 50040 個結果。

「對結果排序的成本隨分頁的深度成指數上升。」

「注意1：」

size的大小不能超過 index.max_result_window 這個參數的設置，默認為10000。

如果搜索size大於10000，需要設置 index.max_result_window 參數

「注意2：」

_doc 將在未來的版本移除，詳見：

Elasticsearch 的From/Size方式提供了分頁的功能，同時，也有相應的限制。

舉個例子，一個索引，有10億數據，分10個 shards，然後，一個搜索請求，from=1000000，size=100，這時候，會帶來嚴重的性能問題：CPU，內存，IO，網路帶寬。

在 query 階段，每個shards需要返回 1000100 條數據給 coordinating node，而 coordinating node 需要接收 10 * 1000 ，100 條數據，即使每條數據只有 _doc _id 和 _score ，這數據量也很大了？

「在另一方面，我們意識到，這種深度分頁的請求並不合理，因為我們是很少人為的看很後面的請求的，在很多的業務場景中，都直接限制分頁，比如只能看前100頁。」

比如，有1千萬粉絲的微信大V，要給所有粉絲群發消息，或者給某省粉絲群發，這時候就需要取得所有符合條件的粉絲，而最容易想到的就是利用 from + size 來實現，不過，這個是不現實的，這時，可以採用 Elasticsearch 提供的其他方式來實現遍歷。

深度分頁問題大致可以分為兩類：

「下面介紹幾個官方提供的深度分頁方法」

我們可以把scroll理解為關系型資料庫里的cursor，因此，scroll並不適合用來做實時搜索，而更適合用於後台批處理任務，比如群發。

這個分頁的用法， 「不是為了實時查詢數據」 ，而是為了 「一次性查詢大量的數據（甚至是全部的數據」 ）。

因為這個scroll相當於維護了一份當前索引段的快照信息，這個快照信息是你執行這個scroll查詢時的快照。在這個查詢後的任何新索引進來的數據，都不會在這個快照中查詢到。

但是它相對於from和size，不是查詢所有數據然後剔除不要的部分，而是記錄一個讀取的位置，保證下一次快速繼續讀取。

不考慮排序的時候，可以結合 SearchType.SCAN 使用。

scroll可以分為初始化和遍歷兩部，初始化時將 「所有符合搜索條件的搜索結果緩存起來（注意，這里只是緩存的doc_id，而並不是真的緩存了所有的文檔數據，取數據是在fetch階段完成的）」 ，可以想像成快照。

在遍歷時，從這個快照里取數據，也就是說，在初始化後，對索引插入、刪除、更新數據都不會影響遍歷結果。

「基本使用」

初始化指明 index 和 type，然後，加上參數 scroll，表示暫存搜索結果的時間，其它就像一個普通的search請求一樣。

會返回一個 _scroll_id ， _scroll_id 用來下次取數據用。

「遍歷」

這里的 scroll_id 即上一次遍歷取回的 _scroll_id 或者是初始化返回的 _scroll_id ，同樣的，需要帶 scroll 參數。

重復這一步驟，直到返回的數據為空，即遍歷完成。

「注意，每次都要傳參數 scroll，刷新搜索結果的緩存時間」 。另外， 「不需要指定 index 和 type」 。

設置scroll的時候，需要使搜索結果緩存到下一次遍歷完成， 「同時，也不能太長，畢竟空間有限。」

「優缺點」

缺點：

「優點：」

適用於非實時處理大量數據的情況，比如要進行數據遷移或者索引變更之類的。

ES提供了scroll scan方式進一步提高遍歷性能，但是scroll scan不支持排序，因此scroll scan適合不需要排序的場景

「基本使用」

Scroll Scan 的遍歷與普通 Scroll 一樣，初始化存在一點差別。

需要指明參數：

「Scroll Scan與Scroll的區別」

如果你數據量很大，用Scroll遍歷數據那確實是接受不了，現在Scroll介面可以並發來進行數據遍歷了。

每個Scroll請求，可以分成多個Slice請求，可以理解為切片，各Slice獨立並行，比用Scroll遍歷要快很多倍。

上邊的示例可以單獨請求兩塊數據，最終五塊數據合並的結果與直接scroll scan相同。

其中max是分塊數，id是第幾塊。

Search_after 是 ES 5 新引入的一種分頁查詢機制，其原理幾乎就是和scroll一樣，因此代碼也幾乎是一樣的。

「基本使用：」

第一步：

返回出的結果信息：

上面的請求會為每一個文檔返回一個包含sort排序值的數組。

這些sort排序值可以被用於 search_after 參數里以便抓取下一頁的數據。

比如，我們可以使用最後的一個文檔的sort排序值，將它傳遞給 search_after 參數：

若我們想接著上次讀取的結果進行讀取下一頁數據，第二次查詢在第一次查詢時的語句基礎上添加 search_after ，並指明從哪個數據後開始讀取。

「基本原理」

es維護一個實時游標，它以上一次查詢的最後一條記錄為游標，方便對下一頁的查詢，它是一個無狀態的查詢，因此每次查詢的都是最新的數據。

由於它採用記錄作為游標，因此 「SearchAfter要求doc中至少有一條全局唯一變數（每個文檔具有一個唯一值的欄位應該用作排序規范）」

「優缺點」

「優點：」

「缺點：」

SEARCH_AFTER 不是自由跳轉到任意頁面的解決方案，而是並行滾動多個查詢的解決方案。

分頁方式性能優點缺點場景 from + size低靈活性好，實現簡單深度分頁問題數據量比較小，能容忍深度分頁問題 scroll中解決了深度分頁問題無法反應數據的實時性（快照版本）維護成本高，需要維護一個 scroll_id海量數據的導出需要查詢海量結果集的數據 search_after高性能最好不存在深度分頁問題能夠反映數據的實時變更實現復雜，需要有一個全局唯一的欄位連續分頁的實現會比較復雜，因為每一次查詢都需要上次查詢的結果，它不適用於大幅度跳頁查詢海量數據的分頁

參照：https://www.elastic.co/guide/en/elasticsearch/reference/master/paginate-search-results.html#scroll-search-results

在 7.* 版本中，ES官方不再推薦使用Scroll方法來進行深分頁，而是推薦使用帶PIT的 search_after 來進行查詢；

從 7.* 版本開始，您可以使用 SEARCH_AFTER 參數通過上一頁中的一組排序值檢索下一頁命中。

使用 SEARCH_AFTER 需要多個具有相同查詢和排序值的搜索請求。

如果這些請求之間發生刷新，則結果的順序可能會更改，從而導致頁面之間的結果不一致。

為防止出現這種情況，您可以創建一個時間點(PIT)來在搜索過程中保留當前索引狀態。

在搜索請求中指定PIT：

分別分頁獲取 1 - 10 ， 49000 - 49010 ， 99000 - 99010 范圍各10條數據（前提10w條），性能大致是這樣：

對於向前翻頁，ES中沒有相應API，但是根據官方說法（https://github.com/elastic/elasticsearch/issues/29449），ES中的向前翻頁問題可以通過翻轉排序方式來實現即：

Scroll和 search_after 原理基本相同，他們都採用了游標的方式來進行深分頁。

這種方式雖然能夠一定程度上解決深分頁問題。但是，它們並不是深分頁問題的終極解決方案，深分頁問題 「必須避免！!」 。

對於Scroll，無可避免的要維護 scroll_id 和歷史快照，並且，還必須保證 scroll_id 的存活時間，這對伺服器是一個巨大的負荷。

對於 Search_After ，如果允許用戶大幅度跳轉頁面，會導致短時間內頻繁的搜索動作，這樣的效率非常低下，這也會增加伺服器的負荷，同時，在查詢過程中，索引的增刪改會導致查詢數據不一致或者排序變化，造成結果不準確。

Search_After 本身就是一種業務折中方案，它不允許指定跳轉到頁面，而只提供下一頁的功能。

Scroll默認你會在後續將所有符合條件的數據都取出來，所以，它只是搜索到了所有的符合條件的 doc_id (這也是為什麼官方推薦用 doc_id 進行排序，因為本身緩存的就是 doc_id ，如果用其他欄位排序會增加查詢量)，並將它們排序後保存在協調節點(coordinate node)，但是並沒有將所有數據進行fetch，而是每次scroll，讀取size個文檔，並返回此次讀取的最後一個文檔以及上下文狀態，用以告知下一次需要從哪個shard的哪個文檔之後開始讀取。

這也是為什麼官方不推薦scroll用來給用戶進行實時的分頁查詢，而是適合於大批量的拉取數據，因為它從設計上就不是為了實時讀取數據而設計的。

B. 京東面試官：Redis 這些我必問

緩存好處：高性能 + 高並發

資料庫查詢耗費了800ms，其他用戶對同一個數據再次查詢，假設該數據在10分鍾以內沒有變化過，並且 10 分鍾之內有 1000 個用戶都查詢了同一數據，10 分鍾之內，那 1000 每個用戶，每個人查詢這個數據都感覺很慢 800ms
比如：某個商品信息，在一天之內都不會改變，但是這個商品每次查詢一次都要耗費2s，一天之內被瀏覽 100W次
mysql 單機也就 2000qps,緩存單機輕松幾萬幾十萬qps,單機承載並發量是 mysql 單機的幾十倍。

在中午高峰期，有 100W 個用戶訪問系統 A，每秒有 4000 個請求去查詢資料庫，資料庫承載每秒 4000 個請求會宕機，加上緩存後，可以 3000 個請求走緩存，1000 個請求走資料庫。
緩存是走內存的，內存天然可以支撐4w/s的請求，資料庫（基於磁碟）一般建議並發請求不要超過 2000/s

redis 單線程，memcached 多線程
redis 是單線程 nio 非同步線程模型

一個線程+一個隊列

redis 基於 reactor 模式開發了網路事件處理器，這個處理器叫做文件事件處理器，file event handler，這個文件事件處理器是單線程的，所以redis 是單線程的模型，採用 io多路復用機制同時監聽多個 socket,根據socket上的事件來選擇對應的事件處理器來處理這個事件。
文件事件處理器包含：多個 socket,io多路復用程序，文件事件分派器，事件處理器（命令請求處理器、命令恢復處理器、連接應答處理器）
文件事件處理器是單線程的，通過 io 多路復用機制監聽多個 socket，實現高性能和線程模型簡單性
被監聽的 socket 准備好執行 accept,read,write,close等操作的時候，會產生對應的文件事件，調用之前關聯好的時間處理器處理
多個 socket並發操作，產生不同的文件事件，i/o多路復用會監聽多個socket，將這些 socket放入一個隊列中排隊。事件分派器從隊列中取出socket給對應事件處理器。
一個socket時間處理完後，事件分派器才能從隊列中拿到下一個socket，給對應事件處理器來處理。

文件事件：
AE_READABLE 對應 socket變得可讀（客戶端對redis執行 write操作）
AE_WRITABLE 對應 socket 變得可寫（客戶端對 redis執行 read操作）
I/O 多路復用可以同時監聽AE_REABLE和 AE_WRITABLE ，如果同時達到則優先處理 AE_REABLE 時間
文件事件處理器：
連接應答處理器對應客戶端要連接 redis
命令請求處理器對應客戶端寫數據到 redis
命令回復處理器對應客戶端從 redis 讀數據

流程：

一秒鍾可以處理幾萬個請求

普通的 set,get kv緩存

類型 map結構，比如一個對象（沒有嵌套對象）緩存到 redis裡面，然後讀寫緩存的時候，可以直接操作hash的欄位（比如把 age 改成 21，其他的不變）
key=150
value = {

}

有序列表，元素可以重復
可以通過 list 存儲一些列表型數據結構，類似粉絲列表，文章評論列表。
例如：微信大 V的粉絲，可以以 list 的格式放在 redis 里去緩存
key=某大 V value=[zhangsan,lisi,wangwu]
比如 lrange 可以從某個元素開始讀取多少個元素，可以基於 list 實現分頁查詢功能，基於 redis實現高性能分頁，類似微博下來不斷分頁東西。
可以搞個簡單的消息隊列，從 list頭懟進去（lpush），list尾巴出來 (brpop)

無序集合，自動去重
需要對一些數據快速全局去重，（當然也可以基於 HashSet，但是單機）
基於 set 玩差集、並集、交集的操作。比如：2 個人的粉絲列表整一個交集，看看 2 個人的共同好友是誰？
把 2 個大 V 的粉絲都放在 2 個 set中，對 2 個 set做交集（sinter）

排序的 set，去重但是可以排序，寫進去的時候給一個分數，自動根據分數排序

排行榜：

zadd board score username

例如：
zadd board 85 zhangsan
zadd board 72 wangwu
zadd board 96 lis
zadd board 62 zhaoliu

自動排序為：
96 lisi
85 zhangsan
72 wangwu
62 zhaoliu

獲取排名前 3 的用戶： zrevrange board 0 3
96 lisi
85 zhangsan
72 wangwu

查看zhaoliu的排行：zrank board zhaoliu 返回 4

內存是寶貴的，磁碟是廉價的
給key設置過期時間後，redis對這批key是定期刪除+惰性刪除
定期刪除：
redis 默認每隔 100ms隨機抽取一些設置了過期時間的 key，檢查其是否過期了，如果過期就刪除。
注意：redis是每隔100ms隨機抽取一些 key來檢查和刪除，而不是遍歷所有的設置過期時間的key（否則CPU 負載會很高，消耗在檢查過期 key 上）
惰性刪除：
獲取某個key的時候， redis 會檢查一下，這個key如果設置了過期時間那麼是否過期，如果過期了則刪除。
如果定期刪除漏掉了許多過期key，然後你也沒及時去查，也沒走惰性刪除，如果大量過期的key堆積在內存里，導致 redis 內存塊耗盡，則走內存淘汰機制。

內存淘汰策略：

LRU 演算法：

緩存架構（多級緩存架構、熱點緩存）
redis 高並發瓶頸在單機，讀寫分離，一般是支撐讀高並發，寫請求少，也就一秒一兩千，大量請求讀，一秒鍾二十萬次。

一主多從，主負責寫，將數據同步復制到其他 slave節點，從節點負責讀，所有讀的請求全部走從節點。主要是解決讀高並發。、
主從架構->讀寫分離->支撐10W+讀QPS架構

master->slave 復制，是非同步的
核心機制：

master持久化對主從架構的意義：
如果開啟了主從架構，一定要開啟 master node的持久化，不然 master宕機重啟數據是空的，一經復制，slave的數據也丟了

主從復制原理：

第一次啟動或者斷開重連情況：

正常情況下：
master 來一條數據，就非同步給 slave

全年 99.99%的時間，都是出於可用的狀態，那麼就可以稱為高可用性
redis 高可用架構叫故障轉移，failover，也可以叫做主備切換，切換的時間不可用，但是整體高可用。
sentinal node(哨兵)

作用：

quorum = 1 （代表哨兵最低個數可以嘗試故障轉移，選舉執行的哨兵）
master 宕機，只有 S2 存活，因為 quorum =1 可以嘗試故障轉移，但是沒達到 majority =2 （最低允許執行故障轉移的哨兵存活數）的標准，無法執行故障轉移

如果 M1 宕機了，S2,S3 認為 master宕機，選舉一個執行故障轉移，因為 3 個哨兵的 majority = 2，所以可以執行故障轉移

丟數據：

解決方案：

sdown 主觀宕機，哨兵覺得一個 master 宕機（ping 超過了 is-master-down-after-milliseconds毫秒數）
odown 客觀宕機，quorum數量的哨兵都覺得 master宕機
哨兵互相感知通過 redis的 pub/sub系統，每隔 2 秒往同一個 channel里發消息（自己的 host,ip,runid），其他哨兵可以消費這個消息
以及同步交換master的監控信息。
哨兵確保其他slave修改master信息為新選舉的master
當一個 master被認為 odown && marjority哨兵都同意，那麼某個哨兵會執行主備切換，選舉一個slave成為master（考慮 1. 跟master斷開連接的時長 2. slave 優先順序 3.復制 offset 4. runid）
選舉演算法：

quorum 數量哨兵認為odown->選舉一個哨兵切換->獲得 majority哨兵的授權（quorum majority 需要 majority個哨兵授權，quorum >= majority 需要 quorum 哨兵授權）
第一個選舉出來的哨兵切換失敗了，其他哨兵等待 failover-time之後，重新拿confiuration epoch做為新的version 切換，保證拿到最新配置，用於 configuration傳播（通過 pu/sub消息機制，其他哨兵對比 version 新舊更新 master配置）

高並發：主從架構
高容量：Redis集群，支持每秒幾十萬的讀寫並發
高可用：主從+哨兵

持久化的意義在於故障恢復數據備份（到其他伺服器）+故障恢復（遇到災難，機房斷電，電纜被切）

AOF 只有一個，Redis 中的數據是有一定限量的，內存大小是一定的,AOF 是存放寫命令的，當大到一定的時候，AOF 做 rewrite 操作，就會基於當時 redis 內存中的數據，來重新構造一個更小的 AOF 文件，然後將舊的膨脹很大的文件給刪掉，AOF 文件一直會被限制在和Redis內存中一樣的數據。AOF同步間隔比 RDB 小，數據更完整

優點：

缺點：

AOF 存放的指令日誌，數據恢復的時候，需要回放執行所有指令日誌，RDB 就是一份數據文件，直接載入到內存中。

優點：

缺點：

AOF 來保證數據不丟失，RDB 做不同時間的冷備

支持 N 個 Redis master node,每個 master node掛載多個 slave node
多master + 讀寫分離 + 高可用

數據量很少，高並發 -> replication + sentinal 集群
海量數據 + 高並發 + 高可用 -> redis cluster

hash演算法->一致性 hash 演算法-> redis cluster->hash slot演算法

redis cluster :自動對數據進行分片，每個 master 上放一部分數據，提供內置的高可用支持，部分master不可用時，還是可以繼續工作
cluster bus 通過 16379進行通信，故障檢測，配置更新，故障轉移授權，另外一種二進制協議，主要用於節點間進行高效數據交換，佔用更少的網路帶寬和處理時間

key進行hash，然後對節點數量取模，最大問題只有任意一個 master 宕機，大量數據就要根據新的節點數取模，會導致大量緩存失效。

key進行hash，對應圓環上一個點，順時針尋找距離最近的一個點。保證任何一個 master 宕機，只受 master 宕機那台影響，其他節點不受影響，此時會瞬間去查資料庫。
緩存熱點問題：
可能集中在某個 hash區間內的值特別多，那麼會導致大量的數據都湧入同一個 master 內，造成 master的熱點問題，性能出現瓶頸。
解決方法：
給每個 master 都做了均勻分布的虛擬節點，這樣每個區間內大量數據都會均勻的分布到不同節點內，而不是順時針全部湧入到同一個節點中。

redis cluster 有固定 16384 個 hash slot,對每個key計算 CRC16 值，然後對16384取模，可以獲取 key對應的 hash slot
redis cluster 中每個 master 都會持有部分 slot ,當一台 master 宕機時候，會最快速度遷移 hash slot到可用的機器上（只會短暫的訪問不到）
走同一個 hash slot 通過 hash tag實現

集群元數據：包括 hashslot->node之間的映射表關系，master->slave之間的關系，故障的信息
集群元數據集中式存儲（storm），底層基於zookeeper（分布式協調中間件）集群所有元數據的維護。好處：元數據的更新和讀取，時效性好，一旦變更，其他節點立刻可以感知。缺點：所有元數據的更新壓力全部集中在一個地方，可能會導致元數據的存儲有壓力。
goosip: 好處：元數據的更新比較分散，有一定的延時，降低了壓力。缺點：更新有延時，集群的一些操作會滯後。（reshared操作時configuration error）

自己提供服務的埠號+ 10000 ，每隔一段時間就會往另外幾個節點發送ping消息，同時其他幾點接收到ping之後返回pong

故障信息，節點的增加和移除， hash slot 信息

meet:某個節點發送 meet給新加入的節點，讓新節點加入集群中，然後新節點就會開始於其他節點進行通信
ping:每個節點都會頻繁給其他節點發送ping，其中包含自己的狀態還有自己維護的集群元數據，互相通過ping交換元數據
ping:返回ping和meet，包含自己的狀態和其他信息
fail:某個節點判斷另一個節點fail之後，就發送 fail 給其他節點，通知其他節點，指定的節點宕機了

ping 很頻繁，且攜帶元數據，會加重網路負擔
每個節點每秒會執行 10 次 ping，每次選擇 5 個最久沒有通信的其他節點
當如果發現某個節點通信延遲達到了 cluster_node_timeout /2 ，那麼立即發送 ping，避免數據交換延遲過長，落後時間太長（2 個節點之間 10 分鍾沒有交換數據，整個集群處於嚴重的元數據不一致的情況）。
每次ping，一個是帶上自己的節點信息，還有就是帶上1/10其他節點的信息，發送出去，進行數據交換
至少包含 3 個其他節點信息，最多包含總節點-2 個其他節點的信息

客戶端發送到任意一個redis實例發送命令，每個redis實例接受到命令後，都會計算key對應的hash slot，如果在本地就本地處理，否則返回moved給客戶端，讓客戶端進行重定向（redis-cli -c）

通過tag指定key對應的slot,同一個 tag 下的 key，都會在一個 hash slot中，比如 set key1:{100} 和 set key2:{100}

本地維護一份hashslot->node的映射表。
JedisCluster 初始化的時候，隨機選擇一個 node，初始化 hashslot->node 映射表，同時為每個節點創建一個JedisPool連接池，每次基於JedisCluster執行操作，首先JedisCluster都會在本地計算key的hashslot，然後再本地映射表中找到對應的節點，如果發現對應的節點返回moved，那麼利用該節點的元數據，更新 hashslot->node映射表（重試超過 5 次報錯）

hash slot正在遷移，那麼會返回ask 重定向給jedis,jedis 接受到ask重定向之後，，會重定向到目標節點去執行

判斷節點宕機：
如果一個節點認為另外一個節點宕機了，就是pfail,主觀宕機
如果多個節點都認為另外一個節點宕機了，那麼就是fail，客觀宕機（跟哨兵原理一樣）
在cluster-node-timeout內，某個節點一直沒有返回 pong,那麼就被認為是 pfail
如果一個節點認為某個節點pfail了，那麼會在gossip消息中，ping給其他節點，如果超過半數的節點認為pfail了，那麼就會變成fail。
從節點過濾：
對宕機的 mster node ，從其所有的 slave node中，選擇一個切換成 master node
檢查每個 slave node與master node斷開連接的時間，如果超過了cluster-node-timeout * cluster-slave-validity-factor，那麼就沒資格切換成 master（和哨兵一致）
從節點選舉：
每個從節點，根據自己對 master 復制數據的 offset，設置一個選舉時間，offset越大（復制數據越多）的從節點，選舉時間越靠前，所有的 master node 開始投票，給要進行選舉的 slave進行投票，如果大部分 master node(N/2 +1) 都投票給某個從節點，那麼選舉通過，從節點執行主備切換，從節點切換成主節點
總結：和哨兵很像，直接集成了 replication 和 sentinal

方案：
事前：保證 redis 集群高可用性（主從+哨兵或 redis cluster），避免全盤崩潰
事中：本地 ehcache 緩存 + hystrix 限流（保護資料庫） & 降級，避免 MySQL被打死
事後： redis持久化，快速恢復緩存數據，繼續分流高並發請求

限制組件每秒就 2000 個請求通過限流組件進入資料庫，剩餘的 3000 個請求走降級，返回一些默認的值，或者友情提示
好處：

4000 個請求黑客攻擊請求資料庫里沒有的數據
解決方案：把黑客查資料庫中不存在的數據的值，寫到緩存中，比如： set -999 UNKNOWN

讀的時候，先讀緩存，緩存沒有，就讀資料庫，然後取出數據後放入緩存，同時返回響應
更新的時候，刪除緩存，更新資料庫
為什麼不更新緩存：
更新緩存代價太高（更新 20 次，只讀 1 次），lazy思想，需要的時候再計算，不需要的時候不計算

方案：先刪除緩存，再修改資料庫

方案：寫，讀路由到相同的一個內存隊列（唯一標識，hash，取模）里，更新和讀操作進行串列化（後台線程非同步執行隊列串列化操作），（隊列里只放一個更新查詢操作即可，多餘的過濾掉，內存隊列里沒有該數據更新操作，直接返回）有該數據更新操作則輪詢取緩存值，超時取不到緩存值，直接取一次資料庫的舊值

TP 99 意思是99%的請求可以在200ms內返回
注意點：多個商品的更新操作都積壓在一個隊列裡面（太多操作積壓只能增加機器），導致讀請求發生大量的超時，導致大量的讀請求走資料庫
一秒 500 寫操作，每200ms，100 個寫操作，20 個內存隊列，每個隊列積壓 5 個寫操作，一般在20ms完成

方案：分布式鎖 + 時間戳比較

10台機器，5 主 5 從，每個節點QPS 5W ，一共 25W QPS（Redis cluster 32G + 8 核，Redis 進程不超過 10G）總內存 50g，每條數據10kb，10W 條數據1g，200W 條數據 20G，佔用總內存不到50%，目前高峰期 3500 QPS

作者： mousycoder

京東總監分頁緩存

與京東總監分頁緩存相關的內容