常见的分布式Id生成器剖析( 二 )


虽然每秒可以生成几万几十万个ID,但毕竟还是有性能上限,无法进行水平扩展
三、UUID
UUID 是指Universally Unique Identifier,翻译为中文是通用唯一识别码,UUID 的目的是让分布式系统中的所有元素都能有唯一的识别信息 。如此一来,每个人都可以创建不与其它人冲突的 UUID,就不需考虑数据库创建时的名称重复问题 。
定义
UUID 是由一组32位数的16进制数字所构成,是故 UUID 理论上的总数为1632=2128,约等于3.4 x 10123 。
也就是说若每纳秒产生1百万个 UUID,要花100亿年才会将所有 UUID 用完
格式
UUID 的十六个八位字节被表示为 32个十六进制数字,以连字号分隔的五组来显示,形式为 8-4-4-4-12,总共有 36个字符(即三十二个英数字母和四个连字号) 。例如:
123e4567-e89b-12d3-a456-426655440000
xxxxxxxx-xxxx-Mxxx-Nxxx-xxxxxxxxxxxx
数字 M的四位表示 UUID 版本,当前规范有5个版本,M可选值为1, 2, 3, 4, 5 ;
数字 N的一至四个最高有效位表示 UUID 变体( variant ),有固定的两位10xx因此只可能取值8, 9, a, b
UUID版本通过M表示,当前规范有5个版本,M可选值为1, 2, 3, 4, 5 。这5个版本使用不同算法,利用不同的信息来产生UUID,各版本有各自优势,适用于不同情景 。具体使用的信息
version 1, date-time & mac address
version 2, date-time & group/user id
version 3, MD5 hash & namespace
version 4, pseudo-random number
version 5, SHA-1 hash & namespace
使用较多的是版本1和版本4,其中版本1使用当前时间戳和MAC地址信息 。版本4使用(伪)随机数信息,128bit中,除去版本确定的4bit和variant确定的2bit,其它122bit全部由(伪)随机数信息确定 。
因为时间戳和随机数的唯一性,版本1和版本4总是生成唯一的标识符 。若希望对给定的一个字符串总是能生成相同的 UUID,使用版本3或版本5 。
随机 UUID 的重复机率
Java中 UUID 使用版本4进行实现,所以由java.util.UUID类产生的 UUID,128个比特中,有122个比特是随机产生,4个比特标识版本被使用,还有2个标识变体被使用 。利用生日悖论,可计算出两笔 UUID 拥有相同值的机率约为
其中x为 UUID 的取值范围,n为 UUID 的个数 。
以下是以 x = 2122 计算出n笔 UUID 后产生碰撞的机率:
 

常见的分布式Id生成器剖析

文章插图
 
换句话说,每秒产生10亿笔 UUID,100年后只产生一次重复的机率是50% 。如果地球上每个人都各有6亿笔 UUID,发生一次重复的机率是50% 。与被陨石击中的机率比较的话,已知一个人每年被陨石击中的机率估计为170亿分之1,也就是说机率大约是0.00000000006 (6 x 10-11),等同于在一年内生产2000亿个 UUID 并发生一次重复 。
 
作者:william0318
原文链接:https://blog.csdn.net/William0318/article/details/103636032




推荐阅读