閱讀(9.8k) 書簽贊(3) 我要糾錯

用uid分庫，uname上的查詢怎么辦？

2018-09-09 16:47 更新

1分鐘系列

【緣起】

用戶中心是幾乎每一個公司必備的基礎服務，用戶注冊、登錄、信息查詢與修改都離不開用戶中心。

當數(shù)據(jù)量越來越大時，需要多用戶中心進行水平切分。最常見的水平切分方式，按照uid取模分庫：

通過uid取模，將數(shù)據(jù)分布到多個數(shù)據(jù)庫實例上去，提高服務實例個數(shù)，降低單庫數(shù)據(jù)量，以達到擴容的目的。

水平切分之后：
uid訪問直接定位

uid屬性上的查詢可以直接路由到庫，如上圖，假設訪問uid=124的數(shù)據(jù)，取模后能夠直接定位db-user1。

對于uname上的查詢，就不能這么幸運了：
uname訪問遍歷庫

uname上的查詢，如上圖，假設訪問uname=shenjian的數(shù)據(jù)，由于不知道數(shù)據(jù)落在哪個庫上，往往需要遍歷所有庫【掃全庫法】，當分庫數(shù)量多起來，性能會顯著降低。

用uid分庫，如何高效實現(xiàn)上的查詢，是本文將要討論的問題。

【索引表法】

思路：uid能直接定位到庫，uname不能直接定位到庫，如果通過uname能查詢到uid，問題解決
解決方案：
1）建立一個索引表記錄uname->uid的映射關系
2）用uname來訪問時，先通過索引表查詢到uid，再定位相應的庫
3）索引表屬性較少，可以容納非常多數(shù)據(jù)，一般不需要分庫
4）如果數(shù)據(jù)量過大，可以通過uname來分庫
潛在不足：多一次數(shù)據(jù)庫查詢，性能下降一倍

【緩存映射法】

思路：訪問索引表性能較低，把映射關系放在緩存里性能更佳
解決方案：
1）uname查詢先到cache中查詢uid，再根據(jù)uid定位數(shù)據(jù)庫
2）假設cache miss，采用掃全庫法獲取uname對應的uid，放入cache
3）uname到uid的映射關系不會變化，映射關系一旦放入緩存，不會更改，無需淘汰，緩存命中率超高
4）如果數(shù)據(jù)量過大，可以通過name進行cache水平切分
潛在不足：多一次cache查詢

【uname生成uid】

思路：不進行遠程查詢，由uname直接得到uid
解決方案：
1）在用戶注冊時，設計函數(shù)uname生成uid，uid=f(uname)，按uid分庫插入數(shù)據(jù)
2）用uname來訪問時，先通過函數(shù)計算出uid，即uid=f(uname)再來一遍，由uid路由到對應庫
潛在不足：該函數(shù)設計需要非常講究技巧，有uid生成沖突風險

【uname基因融入uid】

思路：不能用uname生成uid，可以從uname抽取“基因”，融入uid中
uname基因融入uid

假設分8庫，采用uid%8路由，潛臺詞是，uid的最后3個bit決定這條數(shù)據(jù)落在哪個庫上，這3個bit就是所謂的“基因”。

解決方案：
1）在用戶注冊時，設計函數(shù)uname生成3bit基因，uname_gene=f(uname)，如上圖粉色部分
2）同時，生成61bit的全局唯一id，作為用戶的標識，如上圖綠色部分
3）接著把3bit的uname_gene也作為uid的一部分，如上圖屎黃色部分
4）生成64bit的uid，由id和uname_gene拼裝而成，并按照uid分庫插入數(shù)據(jù)
5）用uname來訪問時，先通過函數(shù)由uname再次復原3bit基因，uname_gene=f(uname)，通過uname_gene%8直接定位到庫

【總結】

業(yè)務場景：用戶中心，數(shù)據(jù)量大，通過uid分庫后，通過uname路由不到庫

解決方案：
1）掃全庫法：遍歷所有庫
2）索引表法：數(shù)據(jù)庫中記錄uname->uid的映射關系
3）緩存映射法：緩存中記錄uname->uid的映射關系
4）uname生成uid
5）uname基因融入uid

以上內(nèi)容是否對您有幫助：

← 業(yè)界難題-“跨庫分頁”的四種方案

mysql-proxy數(shù)據(jù)庫中間件架構 →

寫筆記

我要補充

用uid分庫，uname上的查詢怎么辦？