type
status
date
slug
summary
tags
category
icon
password
Property
AOF和RDB,这两个持久化技术保证了即使在服务器重启的情况下也不会丢失数据(或少量损失)。不过,由于数据都是存储在一台服务器上,如果出事就完犊子了:
- 如果服务器发生了宕机,由于数据恢复是需要点时间,那么这个期间是无法服务新的请求的;
- 如果这台服务器的硬盘出现了故障,可能数据就都丢失了。
要避免这种单点故障,最好的办法是将数据备份到其他服务器上,让这些服务器也可以对外提供服务,这样即使有一台服务器出现了故障,其他服务器依然可以继续提供服务。
这些服务器之间的数据如何保持一致性呢?数据的读写操作是否每台服务器都可以处理?
Redis
提供了主从复制模式,这个模式可以保证多台服务器的数据一致性,且主从服务器之间采用的是「读写分离」的方式。主服务器可以进行读写操作,当发生写操作时自动将写操作同步给从服务器,而从服务器一般是只读,并接受主服务器同步过来写操作命令,然后执行这条命令。
也就是说,所有的数据修改只在主服务器上进行,然后将最新的数据同步给从服务器,这样就使得主从服务器的数据是一致的。
在
Redis
中,用户可以通过执行replicaof
(Redis 5.0 之前使用 slaveof)命令形成主服务器和从服务器的关系。- 称呼被复制的服务器为主服务器(master)
- 而对主服务器进行复制的服务器则被称为从服务器(slave)
现在有服务器 A 和 服务器 B,在服务器 B 上执行下面这条命令:
接着,服务器 B 就会变成服务器 A 的「从服务器」,然后与主服务器进行第一次同步。
假设有两个
Redis
服务器,地址分别为127.0.0.1:6379
和127.0.0.1:12345
,如果向服务器127.0.0.1:12345
发送以下命令:那么服务器
127.0.0.1:12345
将成为127.0.0.1:6379
的从服务器,而服务器127.0.0.1:6379
则会成为127.0.0.1:12345
的主服务器。在主服务器上执行:那既可以在主服务器上获取
msg
键的值:又可以在从服务器上获取
msg
键的值旧版复制功能
Redis
的复制功能分为同步(sync)和命令传播(command propagate)两个操作:- 同步操作用于将从服务器的数据库状态更新至主服务器当前所处的数据库状态
- 命令传播操作用于在主服务器的数据库状态被修改, 导致主从服务器的数据库状态出现不一致时, 让主从服务器的数据库重新回到一致状态
同步
当客户端向从服务器发送
SLAVEOF
命令, 要求从服务器复制主服务器时, 从服务器首先需要执行同步操作, 也即是, 将从服务器的数据库状态更新至主服务器当前所处的数据库状态。从服务器对主服务器的同步操作需要通过向主服务器发送
SYNC
命令来完成, SYNC
命令的执行步骤:- 从服务器向主服务器发送 SYNC 命令
- 收到 SYNC 命令的主服务器执行 BGSAVE 命令, 在后台生成一个RDB文件, 并使用一个缓冲区记录从现在开始执行的所有写命令
- 当主服务器的 BGSAVE 命令执行完毕时, 主服务器会将 BGSAVE 命令生成的 RDB 文件发送给从服务器, 从服务器接收并载入这个 RDB 文件, 将自己的数据库状态更新至主服务器执行 BGSAVE 命令时的数据库状态。
- 主服务器将记录在缓冲区里面的所有写命令发送给从服务器, 从服务器执行这些写命令, 将自己的数据库状态更新至主服务器数据库当前所处的状态。
一个主从服务器进行同步的例子:
命令传播
在同步操作执行完毕之后, 主从服务器两者的数据库将达到一致状态, 但这种一致并不是一成不变的 —— 每当主服务器执行客户端发送的写命令时, 主服务器的数据库就有可能会被修改, 并导致主从服务器状态不再一致。
假设一个主服务器和一个从服务器刚刚完成同步操作, 它们的数据库都保存了相同的五个键
k1
至 k5
:如果这时, 客户端向主服务器发送命令
DEL k3
, 那么主服务器在执行完命令之后, 主从服务器的数据库将出现不一致: 主服务器的数据库已经不再包含键k3
, 但这个键却仍然包含在从服务器的数据库里面:为了让主从服务器再次回到一致状态, 主服务器需要对从服务器执行命令传播操作: 主服务器会将自己执行的写命令 —— 也即是造成主从服务器不一致的那条写命令——发送给从服务器执行, 当从服务器执行了相同的写命令之后, 主从服务器将再次回到一致状态。
旧版复制功能的缺陷(断线之后重新复制)
在
Redis
中,从服务器对主服务器的复制可以分为以下两种情况:- 初次复制:从服务器以前没有复制过任何主服务器,或者从服务器当前要复制的主服务器和上一次复制的主服务器不同。
- 断线后重复制:处于命令传播阶段的主从服务器因为网络原因而中断了复制,但从服务器通过自动重连接重新连上了主服务器,并继续复制主服务器
对于初次复制来说,旧版复制功能能够很好地完成任务,但对于断线后重复制来说,旧版复制功能虽然也能让主从服务器重新回到一致状态,但效率却非常低
在时间
T10091
,从服务器终于重新连接上主服务器,因为这时主从服务器的状态已经不再一致,所以从服务器将向主服务器发送SYNC
命令,而主服务器会将包含键k1
至键k10089
的RDB
文件发送给从服务器,从服务器通过接收和载入这个RDB
文件来将自己的数据库更新至主服务器数据库当前所处的状态。
为什么网络断开之后重新复制效率低?
- 主从服务器在时间
T0
至时间T10086
中一直处于一致状态,这两个服务器保存的数据大部分都是相同的
- 从服务器想要将自己更新至主服务器当前所处的状态,真正需要的是主从服务器连接中断期间,主服务器新添加的
k10087
、k10088
、k10089
三个键的数据
- 可惜的是,旧版复制功能并没有利用以上列举的两点条件,而是继续让主服务器生成并向从服务器发送包含键
k1
至键k10089
的RDB
文件,但实际上RDB
文件包含的键k1
至键k10086
的数据对于从服务器来说都是不必要的
新版复制功能(增量复制)
为了解决旧版复制功能在处理断线重复制情况时的低效问题,
Redis
从2.8
版本开始,使用PSYNC
命令代替SYNC
命令来执行复制时的同步操作。PSYNC命令具有完整重同步(full resy nchronization)和部分重同步(partial resynchronization)两种模式:
- 完整重同步:用于处理初次复制情况,执行步骤和SYNC命令的执行步骤基本一样,都是通过让主服务器创建并发送RDB文件,以及向从服务器发送保存在缓冲区里面的写命令来进行同步
- 部分重同步:用于处理断线后重复制情况,当从服务器在断线后重新连接主服务器时,如果条件允许,主服务器可以将主从服务器连接断开期间执行的写命令发送给从服务器,从服务器只要接收并执行这些写命令,就可以将数据库更新至主服务器当前所处的状态
PSYNC
命令的部分重同步模式解决了旧版复制功能在处理断线后重复制时出现的低效情况虽然
SYNC
命令和PSYNC
命令都可以让断线的主从服务器重新回到一致状态,但执行部分重同步所需的资源比起执行SYNC
命令所需的资源要少得多,完成同步的速度也快得多。执行SYNC
命令需要生成、传送和载入整个RDB
文件,而部分重同步只需要将从服务器缺少的写命令发送给从服务器执行就可以了。部分重同步的实现
部分重同步功能由以下三个部分构成:
- 主服务器的复制偏移量(replication offset)和从服务器的复制偏移量
- 主服务器的复制积压缓冲区(replication backlog)
- 服务器的运行ID(run ID)
复制偏移量
执行复制的双方——主服务器和从服务器会分别维护一个复制偏移量:
- 主服务器每次向从服务器传播
N
个字节的数据时,就将自己的复制偏移量的值加上N
- 从服务器每次收到主服务器传播来的
N
个字节的数据时,就将自己的复制偏移量的值加上N
如果这时主服务器向三个从服务器传播长度为33字节的数据,那么主服务器的复制偏移量将更新为
10086+33=10119
,而三个从服务器在接收到主服务器传播的数据之后,也会将复制偏移量更新为10119
:通过对比主从服务器的复制偏移量,程序可以很容易地知道主从服务器是否处于一致状态:
- 如果主从服务器处于一致状态,那么主从服务器两者的偏移量总是相同的
- 相反,如果主从服务器两者的偏移量并不相同,那么说明主从服务器并未处于一致状态
网络断开重连后的复制偏移量
如果主从服务器当前的复制偏移量都为10086,但是就在主服务器要向从服务器传播长度为33字节的数据之前,从服务器A断线了,那么主服务器传播的数据将只有从服务器B和从服务器C能收到,在这之后,主服务器、从服务器B和从 服务器C三个服务器的复制偏移量都将更新为10119,而断线的从服务器A的复制偏移量仍然停留在10086,这说明从服务器A与主服务器并不一致:
假设从服务器A在断线之后就立即重新连接主服务器,并且成功,那么接下来,从服务器将向主服务器发送PSYNC命令,报告从服务器A当前的复制偏移量为10086,那么这时, 主服务器应该对从服务器执行完整重同步还是部分重同步呢?如果执行部分重同步的话,主服务器又如何补偿从服务器A在断线期间丢失的那部分数据呢?
复制积压缓冲区
复制积压缓冲区是由主服务器维护的一个固定长度(fixed-size)先进先出(FIFO)队列,默认大小为1MB。
当主服务器进行命令传播时,它不仅会将写命令发送给所有从服务器,还会将写命令入队到复制积压缓冲区里面:
因此,主服务器的复制积压缓冲区里面会保存着一部分最近传播的写命令,并且复制积压缓冲区会为队列中的每个字节记录相应的复制偏移量:
当从服务器重新连上主服务器时,从服务器会通过PSYNC命令将自己的复制偏移量offset发送给主服务器,主服务器会根据这个复制偏移量来决定对从服务器执行何种同步操作:
- 如果
offset
偏移量之后的数据(也即是偏移量offset+1
开始的数据)仍然存在于复制积压缓冲区里面,那么主服务器将对从服务器执行部分重同步操作
- 相反,如果
offset
偏移量之后的数据已经不存在于复制积压缓冲区,那么主服务器将对从服务器执行完整重同步操作
- 当从服务器A断线之后,它立即重新连接主服务器,并向主服务器发送PSYNC命令,报告自己的复制偏移量为10086。
- 主服务器收到从服务器发来的PSYNC命令以及偏移量10086之后,主服务器将检查偏移量10086之后的数据是否存在于复制积压缓冲区里面,结果发现这些数据仍然存在,于是主服务器向从服务器发送+CONTINUE回复,表示数据同步将以部分重同步模式来进行
- 接着主服务器会将复制积压缓冲区10086偏移量之后的所有数据(偏移量为10087至 10119)都发送给从服务器
- 从服务器只要接收这33字节的缺失数据,就可以回到与主服务器一致的状态
服务器运行ID
除了复制偏移量和复制积压缓冲区之外,实现部分重同步还需要用到服务器运行ID(run ID):
- 每个
Redis
服务器,不论主服务器还是从服务,都会有自己的运行ID
- 运行ID在服务器启动时自动生成,由40个随机的十六进制字符组成,例如
53b9b28df8042fdc9ab5e3fcbbbabff1d5dce2b3
当从服务器对主服务器进行初次复制时,主服务器会将自己的运行ID传送给从服务器, 而从服务器则会将这个运行ID保存起来。
当从服务器断线并重新连上一个主服务器时,从服务器将向当前连接的主服务器发送之前保存的运行ID:
- 如果从服务器保存的运行ID和当前连接的主服务器的运行ID相同,那么说明从服务器 断线之前复制的就是当前连接的这个主服务器,主服务器可以继续尝试执行部分重同步操作
- 相反地,如果从服务器保存的运行ID和当前连接的主服务器的运行ID并不相同,那么说明从服务器断线之前复制的主服务器并不是当前连接的这个主服务器,主服务器将对从服务器执行完整重同步操作
PSYNC命令的实现
PSYNC命令的调用方法有两种:
- 如果从服务器以前没有复制过任何主服务器,或者之前执行过SLAVEOF no one命令:那么从服务器在开始一次新的复制时将向主服务器发送PSYNC ? -1命令,主动请求主服务器进行完整重同步(因为这时不可能执行部分重同步)
- 如果从服务器已经复制过某个主服务器,那么从服务器在开始一次新的复制时将向主服务器发送
PSYNC <runid> <offset>
命令: - 其中
runid
是上一次复制的主服务器的运行 ID,而offset
则是从服务器当前的复制偏移量 - 接收到这个命令的主服务器会通过这两个参数来判断应该对从服务器执行哪种同步操作
接收到PSYNC命令的主服务器会向从服务器返回以下三种回复的其中一种:
- 如果主服务器返回
+FULLRESYNC <runid> <offset>
回复,那么表示主服务器将与从服务器执行完整重同步操作:其中runid
是这个主服务器的运行ID,从服务器会将这个ID保存起 来,在下一次发送PSYNC
命令时使用;而offset
则是主服务器当前的复制偏移量,从服务器 会将这个值作为自己的初始化偏移量
- 如果主服务器返回
+CONTINUE
回复,那么表示主服务器将与从服务器执行部分重同步操作,从服务器只要等着主服务器将自己缺少的那部分数据发送过来就可以了
- 如果主服务器返回
-ERR
回复,那么表示主服务器的版本低于Redis 2.8
,它识别不了PSYNC
命令,从服务器将向主服务器发送SYNC
命令,并与主服务器执行完整同步操作
复制的实现
通过向从服务器发送SLAVEOF命令,可以让一个从服务器去复制一个主服务器:
设置主服务器的地址和端口
当客户端向从服务器发送以下命令时:
从服务器首先要做的就是将客户端给定的主服务器IP地址
127.0.0.1
以及端口6379
保存到服务器状态的masterhost属性和masterport属性里面:SLAVEOF
命令是一个异步命令,在完成属性的设置工作之 后,从服务器将向发送SLAVEOF
命令的客户端返回OK
,表示复制指令已经被接收,而实际的复制工作将在OK
返回之后才真正开始执行建立套接字连接
在
SLAVEOF
命令执行之后,从服务器将根据命令所设置的IP
地址和端口,创建连向主服务器的套接字连接:如果从服务器创建的套接字能成功连接(connect)到主服务器,那么从服务器将为这个套接字关联一个专门用于处理复制工作的文件事件处理器,这个处理器将负责执行后续的复制工作,比如接收RDB文件,以及接收主服务器传播来的写命令,诸如此类。
而主服务器在接受(accept)从服务器的套接字连接之后,将为该套接字创建相应的客户端状态,并将从服务器看作是一个连接到主服务器的客户端来对待,这时从服务器将同时具有服务器(server)和客户端(client)两个身份:从服务器可以向主服务器发送命令请求,而主服务器则会向从服务器返回命令回复:
发送PING命令
从服务器成为主服务器的客户端之后,做的第一件事就是向主服务器发送一个PING命令:
这个
PING
命令有两个作用:- 虽然主从服务器成功建立起了套接字连接,但双方并未使用该套接字进行过任何通信, 通过发送
PING
命令可以检查套接字的读写状态是否正常
- 因为复制工作接下来的几个步骤都必须在主服务器可以正常处理命令请求的状态下才能进行,通过发送
PING
命令可以检查主服务器能否正常处理命令请求
从服务器在发送
PING
命令之后将遇到以下三种情况的其中一种:- 如果主服务器向从服务器返回了一个命令回复,但从服务器却不能在规定的时限 (timeout)内读取出命令回复的内容,那么表示主从服务器之间的网络连接状态不佳,不能继续执行复制工作的后续步骤。当出现这种情况时,从服务器断开并重新创建连向主服务器的套接字
- 如果主服务器向从服务器返回一个错误,那么表示主服务器暂时没办法处理从服务器的命令请求,不能继续执行复制工作的后续步骤。当出现这种情况时,从服务器断开并重新创建连向主服务器的套接字。
- 如果从服务器读取到"PONG"回复,那么表示主从服务器之间的网络连接状态正常,并且主服务器可以正常处理从服务器(客户端)发送的命令请求,在这种情况下,从服务器可 以继续执行复制工作的下个步骤
身份验证
从服务器在收到主服务器返回的"
PONG
"回复之后,下一步要做的就是决定是否进行身份验证:- 如果从服务器设置了masterauth选项,那么进行身份验证
- 如果从服务器没有设置masterauth选项,那么不进行身份验证
在需要进行身份验证的情况下,从服务器将向主服务器发送一条AUTH命令,命令的参数为从服务器masterauth选项的值
从服务器在身份验证阶段可能遇到的情况,以及各个情况的处理方式:
发送端口信息
在身份验证步骤之后,从服务器将执行命令
REPLCONF listening-port
, 向主服务器发送从服务器的监听端口号主服务器在接收到这个命令之后,会将端口号记录在从服务器所对应的客户端状态的
slave_listening_port
属性中:客户端状态设置
slave_listening_port
属性之后的样子:slave_listening_port
属性目前唯一的作用就是在主服务器执行INFO replication
命令时打印出从服务器的端口号同步(PSYNC命令)
从服务器将向主服务器发送PSYNC命令,执行同步操作,并将自己的数据库更新至主服务器数据库当前所处的状态
在同步操作执行之前,只有从服务器是主服务器的客户端,但是在执行同步操作之后,主服务器也会成为从服务器的客户端:
- 如果PSYNC命令执行的是完整重同步操作,那么主服务器需要成为从服务器的客户端,才能将保存在缓冲区里面的写命令发送给从服务器执行。
- 如果PSYNC命令执行的是部分重同步操作,那么主服务器需要成为从服务器的客户端,才能向从服务器发送保存在复制积压缓冲区里面的写命令
正因为主服务器成为了从服务器的客户端,所以主服务器才可以通过发送写命令来改变从服务器的数据库状态,不仅同步操作需要用到这一点,这也是主服务器对从服务器执行命令传播操作的基础
命令传播
当完成了同步之后,主从服务器就会进入命令传播阶段,这时主服务器只要一直将自己执行的写命令发送给从服务器,而从服务器只要一直接收并执行主服务器发来的写命令,就可以保证主从服务器一直保持一致了
心跳检测
在命令传播阶段,从服务器默认会以每秒一次的频率,向主服务器发送命令:
发送REPLCONF ACK命令对于主从服务器有三个作用:
- 检测主从服务器的网络连接状态
因为从服务器正常每秒钟会给主服务器发送一条
replconf ack
指令,所以如果超过一秒没有发送,那么主服务器就知道从服务器掉线了。可以在主服务器上使用命令info replication
中的从服务器的lag
看到从服务器多久前发送了心跳检测:正常的话,这个
lag
值应该是0或者1, 超过1表示从服务器掉线了- 辅助实现
min-slaves
选项
min-slave
指的是min-slaves-to-write
和min-slaves-max-lag
这两个配置项的实现,例如:min-slaves-to-write 3
、 min-slaves-max-lag 10
指的是:如果从服务器数量 < 3 或者3台服务器的 lag 值 >= 10 , 那么主服务器将拒绝执行写命令- 检测命令丢失
因为心跳检测会发送
offset
偏移量的值,所以当主服务器发现从服务器发送的偏移量的值和自己的不一样的时候,那么就可能发生了命令丢失。这时候主服务器会把缺失部分的命令在积压缓冲区中寻找,如果可以找到全部丢失的命令(偏移量差值 < 积压缓冲区大小),那么就发送给从服务器从新执行。若不能找到全部的丢失命令,那么就让从服务器全量复制(生成rdb,然后发送给从服务器)主服务器的数据库状态。