整数集合 intset
2023-3-23
| 2023-8-2
0  |  阅读时长 0 分钟
type
status
date
slug
summary
tags
category
icon
password
Property

 
整数集合是集合键的底层实现之一: 当一个集合只包含整数值元素, 并且这个集合的元素数量不多时,Redis就会使用整数集合作为集合键的底层实现。
例如, 如果创建一个只包含五个元素的集合键, 并且集合中的所有元素都是整数值, 那么这个集合键的底层实现就会是整数集合:
 
整数集合是Redis用于保存整数值的集合抽象数据结构, 它可以保存类型为int16_t、 int32_t或者int64_t的整数值, 并且保证集合中不会出现重复元素。每个intset.h/intset结构表示一个整数集合:
contents数组是整数集合的底层实现: 整数集合的每个元素都是contents数组的一个数组项(item), 各个项在数组中按值的大小从小到大有序地排列, 并且数组中不包含任何重复项。length属性记录了整数集合包含的元素数量, 也即是contents数组的长度。
 
虽然intset结构将contents属性声明为int8_t类型的数组, 但实际上contents数组并不保存任何int8_t类型的值 ——contents数组的真正类型取决于encoding属性的值:
  • 如果encoding属性的值为INTSET_ENC_INT16, 那么contents就是一个int16_t类型的数组, 数组里的每个项都是一个int16_t类型的整数值 ( ~
  • 如果encoding属性的值为INTSET_ENC_INT32, 那么contents就是一个int32_t类型的数组, 数组里的每个项都是一个int32_t类型的整数值 ( ~
  • 如果encoding性的值为INTSET_ENC_INT64, 那么contents就是一 int64_t类型的数组, 数组里的每个项都是一个int64_t类型的整数值 ( ~
 
 
一个整数集合:
notion image
  • encoding属性的值为INTSET_ENC_INT16 , 表示整数集合的底层实现为int16_t类型的数组, 而集合保存的都是int16_t类型的整数值
  • length属性的值为5, 表示整数集合包含五个元素
  • contents数组按从小到大的顺序保存着集合中的五个元素
  • 因为每个集合元素都是int16_t类型的整数值, 所以contents数组的大小等于sizeof(int16_t)*5 = 16*5 = 80
 

升级

每当将一个新元素添加到整数集合里面, 并且新元素的类型比整数集合现有所有元素的类型都要长时, 整数集合需要先进行升级(upgrade), 然后才能将新元素添加到整数集合里面。
升级整数集合并添加新元素共分为三步进行:
  1. 根据新元素的类型, 扩展整数集合底层数组的空间大小, 并为新元素分配空间
  1. 将底层数组现有的所有元素都转换成与新元素相同的类型, 并将类型转换后的元素放置到正确的位上, 而且在放置元素的过程中, 需要继续维持底层数组的有序性质不变
  1. 将新元素添加到底层数组里面
 
假设现在有一个INTSET_ENC_INT16编码的整数集合, 集合中包含三个int16_t类型的元素:
notion image
因为每个元素都占用16位空间, 所以整数集合底层数组的大小为3*16 = 48 位, 下图展示了整数集合的三个元素在这 48 位里的位置:
notion image
现在, 假设要将类型为 int32_t 的整数值65535添加到整数集合里面, 因为65535的类型int32_t比整数集合当前所有元素的类型都要长, 所以在将65535添加到整数集合之前, 程序需要先对整数集合进行升级。
升级首先要做的是, 根据新类型的长度, 以及集合元素的数量(包括要添加的新元素在内), 对底层数组进行空间重分配。
整数集合目前有三个元素, 再加上新元素65535 , 整数集合需要分配四个元素的空间, 因为每个int32_t整数值需要占用32位空间, 所以在空间重分配之后, 底层数组的大小将是32 * 4 = 128位:
notion image
虽然程序对底层数组进行了空间重分配, 但数组原有的三个元素123仍然是int16_t类型, 这些元素还保存在数组的前48位里面, 所以程序接下来要做的就是将这三个元素转换成int32_t类型, 并将转换后的元素放置到正确的位上面, 而且在放置元素的过程中, 需要维持底层数组的有序性质不变。
首先, 因为元素31 、2365535四个元素中排名第三, 所以它将被移动到contents数组的索引2位置上, 也即是数组64位至95位的空间内:
notion image
接着, 因为元素212365535四个元素中排名第二, 所以它将被移动到contents数组的索引 1 位置上, 也即是数组的32位至63位的空间内:
notion image
之后, 因为元素112365535四个元素中排名第一, 所以它将被移动到contents数组的索引0位置上, 也即是数组的0位至31位的空间内:
notion image
然后, 因为元素655351 、2365535四个元素中排名第四, 所以它将被添加到contents数组的索引3位置上, 也即是数组的96位至127位的空间内:
notion image
最后, 程序将整数集合encoding属性的值从INTSET_ENC_INT16改为INTSET_ENC_INT32, 并将length属性的值从3改为4 , 设置完成之后的整数集合如图所示:
notion image
因为每次向整数集合添加新元素都可能会引起升级, 而每次升级都需要对底层数组中已有的所有元素进行类型转换, 所以向整数集合添加新元素的时间复杂度为
 
 
升级之后新元素的摆放位置
因为引发升级的新元素的长度总是比整数集合现有所有元素的长度都大, 所以这个新元素的值要么就大于所有现有元素, 要么就小于所有现有元素:
  • 在新元素小于所有现有元素的情况下, 新元素会被放置在底层数组的最开头(索引 0 )
  • 在新元素大于所有现有元素的情况下, 新元素会被放置在底层数组的最末尾(索引 length-1 )
 
升级的好处
整数集合的升级策略有两个好处, 一个是提升整数集合的灵活性, 另一个是尽可能地节约内存:
  • 提升灵活性
    • 因为C语言是静态类型语言, 为了避免类型错误, 通常不会将两种不同类型的值放在同一个数据结构里面。比如说,一般只使用int16_t类型的数组来保存int16_t类型的值, 只使用int32_t类型的数组来保存int32_t类型的值, 诸如此类。但是, 因为整数集合可以通过自动升级底层数组来适应新元素, 所以可以随意地将int16_t 、int32_t或者int64_t类型的整数添加到集合中, 而不必担心出现类型错误。
  • 节约内存
    • 要让一个数组可以同时保存int16_t 、 int32_t 、 int64_t 三种类型的值, 最简单的做法就是直接使用 int64_t 类型的数组作为整数集合的底层实现。 不过这样一来, 即使添加到整数集合里面的都是 int16_t 类型或者 int32_t 类型的值, 数组都需要使用 int64_t 类型的空间去保存它们, 从而出现浪费内存的情况。
      而整数集合现在的做法既可以让集合能同时保存三种不同类型的值, 又可以确保升级操作只会在有需要的时候进行, 这可以尽量节省内存。
      比如说, 如果一直只向整数集合添加int16_t类型的值, 那么整数集合的底层实现就会一直是int16_t 类型的数组, 只有在要将int32_t类型或者int64_t类型的值添加到集合时, 程序才会对数组进行升级。
 
 
整数集合不支持降级操作, 一旦对数组进行了升级, 编码就会一直保持升级后的状态。
例如, 对于整数集合来说, 即使将集合里唯一一个真正需要使用int64_t类型来保存的元素4294967295删除了, 整数集合的编码仍然会维持INTSET_ENC_INT64, 底层数组也仍然会是int64_t类型的:
                             数组编码为INTSET_ENC_INT64 的整数集合
数组编码为INTSET_ENC_INT64 的整数集合
                         删除4294967295之后的整数集合
删除4294967295之后的整数集合
 
 

整数集合API

函数
作用
时间复杂度
intsetNew
创建一个新的整数集合
intsetAdd
将给定元素添加到整数集合里面
intsetRemove
从整数集合中移除给定元素
intsetFind
检查给定值是否存在于集合
因为底层数组有序,查找可以通过二分查找法来进行, 所以复杂度为
intsetRandom
从整数集合中随机返回一个元素
intsetGet
取出底层数组在给定索引上的元素
intsetLen
返回整数集合包含的元素个数
intsetBlobLen
返回整数集合占用的内存字节数
 
  • Redis
  • 字典跳跃表 skiplist
    目录