前言¶
时间回到 2011 年 4 月, 当时我正在编写一个用户关系模块, 这个模块需要实现一个“共同关注”功能, 用于计算出两个用户关注了哪些相同的用户。
举个例子, 假设 huangz 关注了 peter 、tom 、jack 三个用户, 而 john 关注了 peter 、tom 、bob 、david 四个用户, 那么当 huangz 访问 john 的页面时, 共同关注功能就会计算并打印出类似“你跟 john 都关注了 peter 和 tom ”这样的信息。
从集合计算的角度来看, 共同关注功能本质上就是计算两个用户关注集合的交集, 因为交集这个概念是如此的常见, 所以我很自然地认为共同关注这个功能可以很容易地实现, 但现实却给了我当头一棒: 我所使用的关系数据库并不直接支持交集计算操作, 要计算两个集合的交集, 除了需要对两个数据表执行合并(join)操作之外, 还需要对合并的结果执行去重复(distinct)操作, 最终导致交集操作的实现变得异常复杂。
是否存在直接支持集合操作的数据库呢? 带着这个疑问, 我在搜索引擎上面进行查找, 并最终发现了 Redis 。 在我看来, Redis 正是我想要找的那种数据库 —— 它内置了集合数据类型, 并支持对集合执行交集、并集、差集等集合计算操作, 其中的交集计算操作可以直接用于实现我想要的共同关注功能。
得益于 Redis 本身的简单性, 以及 Redis 手册的详尽和完善, 我很快学会了怎样使用 Redis 的集合数据类型, 并用它重新实现了整个用户关系模块: 重写之后的关系模块不仅代码量更少, 速度更快, 更重要的是, 之前需要使用一段甚至一大段 SQL 查询才能实现的功能, 现在只需要调用一两个 Redis 命令就能够实现了, 整个模块的可读性得到了极大的提高。
自此之后, 我开始在越来越多的项目里面使用 Redis , 与此同时, 我对 Redis 的内部实现也越来越感兴趣, 一些问题开始频繁地出现在我的脑海中, 比如说:
Redis 的五种数据类型分别是由什么数据结构实现的?
Redis 的字符串数据类型既可以储存字符串(比如
"hello world"
), 又可以储存整数和浮点数(比如10086
和3.14
), 甚至是二进制位(使用 SETBIT 等命令), Redis 在内部是怎样储存这些不同的值的?Redis 的一部分命令只能对特定数据类型执行(比如 APPEND 只能对字符串执行, HSET 只能对哈希表执行), 而另一部分命令却可以对所有数据类型执行(比如 DEL 、 TYPE 和 EXPIRE ), 不同的命令在执行时是如何进行类型检查的? Redis 在内部是否实现了一个类型系统?
Redis 的数据库是怎样储存各种不同数据类型的键值对的? 数据库里面的过期键又是怎样实现自动删除的?
除了数据库之外, Redis 还拥有发布与订阅、脚本、事务等特性, 这些特性又是如何实现的?
Redis 使用什么模型或者模式来处理客户端的命令请求? 一条命令请求从发送到返回需要经过什么步骤?
为了找到这些问题的答案, 我再次在搜索引擎上面进行查找, 可惜的是这次搜索并没有多少收获: Redis 还是一个非常年轻的软件, 对它的最好介绍就是官方网站上面的文档, 但是这些文档主要关注的是怎样使用 Redis , 而不是介绍 Redis 的内部实现。 另外, 网上虽然有一些博客文章对 Redis 的内部实现进行了介绍, 但这些文章要么并不齐全(只介绍了 Redis 中的少数几个特性), 要么就写得过于简单(只是一些概述性的文章), 要么关注的就是旧版本(比如 2.0 、 2.2 或者 2.4 ,而当时的最新版已经是 2.6 了)。
综合来看, 详细而且完整地介绍 Redis 内部实现的资料, 无论是外文还是中文都不存在。 意识到这一点之后, 我决定自己动手注释 Redis 的源代码, 从中寻找问题的答案, 并通过写博客的方式与其他 Redis 用户分享我的发现。 在积累了七八篇 Redis 源代码注释文章之后, 我想如果能将这些博文汇集成书的话, 那一定会非常有趣, 并且我自己也会从中学到很多知识。 于是我在 2012 年年末开始创作《Redis 设计与实现》, 并最终于 2013 年 3 月 8 日在互联网发布了本书的第一版。
尽管《Redis 设计与实现》第一版顺利发布了, 但在我的心目中, 这个第一版还是有很多不完善的地方:
比如说, 因为第一版是我边注释 Redis 源代码边写的, 如果有足够时间让我先完整地注释一遍 Redis 的源代码, 然后再进行写作的话, 那么书本在内容方面应该会更为全面。
又比如说, 第一版只介绍了 Redis 的内部机制和单机特性, 但并没有介绍任何 Redis 多机特性(复制、Sentinel 和集群), 而我认为只有将关于多机特性的介绍也包含进来, 这本《Redis 设计与实现》才算是真正的完成了。
就在我考虑应该何时编写新版来修复这些缺陷的时候, 机械工业出版社的吴怡编辑来信询问我是否有兴趣正式地出版《Redis 设计与实现》, 能够正式地出版自己写的书一直是我梦寐以求的事情, 我找不到任何拒绝这一邀请的理由, 就这样, 在《Redis 设计与实现》第一版发布几天之后, 新版《Redis 设计与实现》的写作也马不停蹄地开始了。
从 2013 年 3 月到 2014 年 1 月这 11 个月间, 我重新注释了 Redis 在 unstable 分支的源代码(也即是现在的 Redis 3.0 源代码), 重写了《Redis 设计与实现》第一版已有的所有章节, 并向书中添加了关于二进制位操作(bitop)、排序、复制、Sentinel 和集群等主题的新章节, 最终, 这本新版的《Redis 设计与实现》不仅介绍了 Redis 的内部机制 (比如数据库实现、类型系统、事件模型), 而且还介绍了大部分 Redis 单机特性 (比如事务、持久化、 Lua 脚本、排序、二进制位操作), 以及所有 Redis 多机特性 (复制、Sentinel 和集群)。
虽然作者创作本书的初衷只是为了满足自己的好奇心, 但了解 Redis 内部实现的好处并不仅仅在于满足好奇心: 通过了解 Redis 的内部实现, 理解每一个特性和命令背后的运作机制, 可以帮助我们更高效地使用 Redis , 避开那些可能会引起性能问题的陷阱。 我衷心希望这本新版《Redis 设计与实现》能够帮助读者更好地了解 Redis , 并成为更优秀的 Redis 使用者。
本书的第一版获得了很多热心读者的反馈, 这本新版的很多改进也来源于读者们的意见和建议, 因此我将继续在 www.RedisBook.com 设置 disqus 论坛(可以不注册直接发贴), 欢迎读者随时就这本新版《Redis 设计与实现》发表提问、意见、建议、批评、勘误,等等, 我会努力地采纳大家的意见, 争取在将来写出更好的《Redis 设计与实现》, 以此来回报大家对本书的支持。