Redis HyperLogLog操作

2018-08-03 11:05 更新

HyperLogLog主要解決大數(shù)據(jù)應(yīng)用中的非精確計(jì)數(shù)(可能多也可能少,但是會在一個合理的范圍)操作,它可以接受多個元素作為輸入,并給出輸入元素的基數(shù)估算值,基數(shù)指的是集合中不同元素的數(shù)量。比如 {'apple', 'banana', 'cherry', 'banana', 'apple'} 的基數(shù)就是 3 。 HyperLogLog 的優(yōu)點(diǎn)是,即使輸入元素的數(shù)量或者體積非常非常大,計(jì)算基數(shù)所需的空間總是固定的、并且是很小的。在 Redis 里面,每個 HyperLogLog 鍵只需要花費(fèi) 12 KB 內(nèi)存,就可以計(jì)算接近 2^64 個不同元素的基數(shù)。這和計(jì)算基數(shù)時(shí),元素越多耗費(fèi)內(nèi)存就越多的集合形成鮮明對比。但是,因?yàn)?HyperLogLog 只會根據(jù)輸入元素來計(jì)算基數(shù),而不會儲存輸入元素本身,所以 HyperLogLog 不能像集合那樣,返回輸入的各個元素。

關(guān)于這個數(shù)據(jù)類型的誤差:在一個大小為12k的key所存儲的hyperloglog集合基數(shù)計(jì)算的誤差是%0.81.

參考文獻(xiàn):http://highscalability.com/blog/2012/4/5/big-data-counting-how-to-count-a-billion-distinct-objects-us.html


以上內(nèi)容是否對您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號
微信公眾號

編程獅公眾號