简单动态字符串
===========================================

Sds （Simple Dynamic String，简单动态字符串）是 Redis 底层所使用的字符串表示，
几乎所有的 Redis 模块中都用了 sds。

本章将对 sds 的实现、性能和功能等方面进行介绍，
并说明 Redis 使用 sds 而不是传统 C 字符串的原因。

sds 的用途
-----------------

Sds 在 Redis 中的主要作用有以下两个：

1. 实现字符串对象（StringObject）；

2. 在 Redis 程序内部用作 ``char*`` 类型的替代品；

以下两个小节分别对这两种用途进行介绍。

实现字符串对象
^^^^^^^^^^^^^^^^^^^

Redis 是一个键值对数据库（key-value DB），
数据库的值可以是字符串、集合、列表等多种类型的对象，
而数据库的键则总是字符串对象。

对于那些包含字符串值的字符串对象来说，
每个字符串对象都包含一个 sds 值。

.. note::

    “包含字符串值的字符串对象”，这种说法初听上去可能会有点奇怪，
    但是在 Redis 中，
    一个字符串对象除了可以保存字符串值之外，
    还可以保存 ``long`` 类型的值，
    所以为了严谨起见，
    这里需要强调一下：
    当字符串对象保存的是字符串时，
    它包含的才是 sds 值，
    否则的话，
    它就是一个 ``long`` 类型的值。

举个例子，
以下命令创建了一个新的数据库键值对，
这个键值对的键和值都是字符串对象，
它们都包含一个 sds 值：

::

    redis> SET book "Mastering C++ in 21 days"
    OK

    redis> GET book
    "Mastering C++ in 21 days"

以下命令创建了另一个键值对，
它的键是字符串对象，
而值则是一个集合对象：

::

    redis> SADD nosql "Redis" "MongoDB" "Neo4j"
    (integer) 3

    redis> SMEMBERS nosql
    1) "Neo4j"
    2) "Redis"
    3) "MongoDB"

用 sds 取代 C 默认的 char* 类型
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^

因为 ``char*`` 类型的功能单一，
抽象层次低，
并且不能高效地支持一些 Redis 常用的操作（比如追加操作和长度计算操作），
所以在 Redis 程序内部，
绝大部分情况下都会使用 sds 而不是 ``char*`` 来表示字符串。

性能问题在稍后介绍 sds 定义的时候就会说到，
因为我们还没有了解过 Redis 的其他功能模块，
所以也没办法详细地举例说那里用到了 sds ，
不过在后面的章节中，
我们会经常看到其他模块（几乎每一个）都用到了 sds 类型值。

目前来说，
只要记住这个事实即可：
在 Redis 中，
客户端传入服务器的协议内容、
aof 缓存、
返回给客户端的回复，
等等，
这些重要的内容都是由 sds 类型来保存的。

Redis 中的字符串
----------------------

在 C 语言中，字符串可以用一个 ``\0`` 结尾的 ``char`` 数组来表示。

比如说， ``hello world`` 在 C 语言中就可以表示为 ``"hello world\0"`` 。

这种简单的字符串表示，在大多数情况下都能满足要求，但是，它并不能高效地支持长度计算和追加（append）这两种操作：

- 每次计算字符串长度（\ ``strlen(s)``\ ）的复杂度为 :math:`\theta(N)` 。

- 对字符串进行 N 次追加，必定需要对字符串进行 N 次内存重分配（\ ``realloc``\ ）。

在 Redis 内部，
字符串的追加和长度计算很常见，
而 :ref:`APPEND` 和 :ref:`STRLEN` 更是这两种操作，在 Redis 命令中的直接映射，
这两个简单的操作不应该成为性能的瓶颈。

另外，
Redis 除了处理 C 字符串之外，
还需要处理单纯的字节数组，
以及服务器协议等内容，
所以为了方便起见，
Redis 的字符串表示还应该是\ `二进制安全的 <http://en.wikipedia.org/wiki/Binary-safe>`_\ ：
程序不应对字符串里面保存的数据做任何假设，
数据可以是以 ``\0`` 结尾的 C 字符串，
也可以是单纯的字节数组，
或者其他格式的数据。

考虑到这两个原因，
Redis 使用 sds 类型替换了 C 语言的默认字符串表示：
sds 既可高效地实现追加和长度计算，
同时是二进制安全的。

sds 的实现
^^^^^^^^^^^^^^

在前面的内容中，
我们一直将 sds 作为一种抽象数据结构来说明，
实际上，
它的实现由以下两部分组成：

::

    typedef char *sds;


    struct sdshdr {

        // buf 已占用长度
        int len;

        // buf 剩余可用长度
        int free;

        // 实际保存字符串数据的地方
        char buf[];
    };

其中，类型 ``sds`` 是 ``char *`` 的别名（alias），而结构 ``sdshdr`` 则保存了 ``len`` 、 ``free`` 和 ``buf`` 三个属性。

作为例子，以下是新创建的，同样保存 ``hello world`` 字符串的 ``sdshdr`` 结构：

::

    struct sdshdr {
        len = 11;
        free = 0;
        buf = "hello world\0";  // buf 的实际长度为 len + 1
    };

通过 ``len`` 属性， ``sdshdr`` 可以实现复杂度为 :math:`\theta(1)` 的长度计算操作。

另一方面，
通过对 ``buf`` 分配一些额外的空间，
并使用 ``free`` 记录未使用空间的大小，
``sdshdr`` 可以让执行追加操作所需的内存重分配次数大大减少，
下一节我们就会来详细讨论这一点。

当然，
sds 也对操作的正确实现提出了要求 —— 所有处理 ``sdshdr`` 的函数，都必须正确地更新 ``len`` 和 ``free`` 属性，否则就会造成 bug 。


优化追加操作
-------------------------

在前面说到过，利用 ``sdshdr`` 结构，除了可以用 :math:`\theta(1)` 复杂度获取字符串的长度之外，还可以减少追加（append）操作所需的内存重分配次数，以下就来详细解释这个优化的原理。

为了易于理解，我们用一个 Redis 执行实例作为例子，解释一下，当执行以下代码时， Redis 内部发生了什么：

::

    redis> SET msg "hello world"
    OK

    redis> APPEND msg " again!"
    (integer) 18

    redis> GET msg
    "hello world again!"

首先， ``SET`` 命令创建并保存 ``hello world`` 到一个 ``sdshdr`` 中，这个 ``sdshdr`` 的值如下：

::

    struct sdshdr {
        len = 11;
        free = 0;
        buf = "hello world\0";
    }

当执行 :ref:`APPEND` 命令时，相应的 ``sdshdr`` 被更新，字符串 ``" again!"`` 会被追加到原来的 ``"hello world"`` 之后：

::

    struct sdshdr {
        len = 18;
        free = 18;
        buf = "hello world again!\0                  ";     // 空白的地方为预分配空间，共 18 + 18 + 1 个字节
    }

注意，
当调用 ``SET`` 命令创建 ``sdshdr`` 时，
``sdshdr`` 的 ``free`` 属性为 ``0`` ，
Redis 也没有为 ``buf`` 创建额外的空间 ——
而在执行 :ref:`APPEND` 之后，
Redis 为 ``buf`` 创建了多于所需空间一倍的大小。

在这个例子中，
保存 ``"hello world again!"`` 共需要 ``18 + 1`` 个字节，
但程序却为我们分配了 ``18 + 18 + 1 = 37`` 个字节 ——
这样一来，
如果将来再次对同一个 ``sdshdr`` 进行追加操作，
只要追加内容的长度不超过 ``free`` 属性的值，
那么就不需要对 ``buf`` 进行内存重分配。

比如说，
执行以下命令并不会引起 ``buf`` 的内存重分配，
因为新追加的字符串长度小于 ``18`` ：

::

    redis> APPEND msg " again!"
    (integer) 25

再次执行 :ref:`APPEND` 命令之后，
``msg`` 的值所对应的 ``sdshdr`` 结构可以表示如下：

::

    struct sdshdr {
        len = 25;
        free = 11;
        buf = "hello world again! again!\0           ";     // 空白的地方为预分配空间，共 18 + 18 + 1 个字节
    }

``sds.c/sdsMakeRoomFor`` 函数描述了 ``sdshdr`` 的这种内存预分配优化策略，
以下是这个函数的伪代码版本：

.. code-block:: python

    def sdsMakeRoomFor(sdshdr, required_len):

        # 预分配空间足够，无须再进行空间分配
        if (sdshdr.free >= required_len):
            return sdshdr

        # 计算新字符串的总长度
        newlen = sdshdr.len + required_len

        # 如果新字符串的总长度小于 SDS_MAX_PREALLOC
        # 那么为字符串分配 2 倍于所需长度的空间
        # 否则就分配所需长度加上 SDS_MAX_PREALLOC 数量的空间
        if newlen < SDS_MAX_PREALLOC:
            newlen *= 2
        else:
            newlen += SDS_MAX_PREALLOC

        # 分配内存
        newsh = zrelloc(sdshdr, sizeof(struct sdshdr)+newlen+1)

        # 更新 free 属性
        newsh.free = newlen - sdshdr.len

        # 返回
        return newsh

在目前版本的 Redis 中，
``SDS_MAX_PREALLOC`` 的值为 ``1024 * 1024`` ，
也就是说，
当大小小于 ``1MB`` 的字符串执行追加操作时，
``sdsMakeRoomFor`` 就为它们分配多于所需大小一倍的空间；
当字符串的大小大于 ``1MB`` ，
那么 ``sdsMakeRoomFor`` 就为它们额外多分配 ``1MB`` 的空间。

.. note:: 这种分配策略会浪费内存吗？

    执行过 :ref:`APPEND` 命令的字符串会带有额外的预分配空间，
    这些预分配空间不会被释放，
    除非该字符串所对应的键被删除，
    或者等到关闭 Redis 之后，
    再次启动时重新载入的字符串对象将不会有预分配空间。

    因为执行 :ref:`APPEND` 命令的字符串键数量通常并不多，
    占用内存的体积通常也不大，
    所以这一般并不算什么问题。

    另一方面，
    如果执行 :ref:`APPEND` 操作的键很多，
    而字符串的体积又很大的话，
    那可能就需要修改 Redis 服务器，
    让它定时释放一些字符串键的预分配空间，
    从而更有效地使用内存。

sds 模块的 API
-----------------------

sds 模块基于 ``sds`` 类型和 ``sdshdr`` 结构提供了以下 API ：

======================= ============================================================================= =================
函数                    作用                                                                            算法复杂度
======================= ============================================================================= =================
``sdsnewlen``           创建一个指定长度的 ``sds`` ，接受一个 C 字符串作为初始化值                      :math:`O(N)`
``sdsempty``            创建一个只包含空白字符串 ``""`` 的 ``sds``                                      :math:`O(1)`
``sdsnew``              根据给定 C 字符串，创建一个相应的 ``sds``                                       :math:`O(N)`
``sdsdup``              复制给定 ``sds``                                                                :math:`O(N)`
``sdsfree``             释放给定 ``sds``                                                                :math:`O(N)`
``sdsupdatelen``        更新给定 ``sds`` 所对应 ``sdshdr`` 结构的 ``free`` 和 ``len``                   :math:`O(N)`
``sdsclear``            清除给定 ``sds`` 的内容，将它初始化为 ``""``                                    :math:`O(1)`
``sdsMakeRoomFor``      对 ``sds`` 所对应 ``sdshdr`` 结构的 ``buf`` 进行扩展                            :math:`O(N)`
``sdsRemoveFreeSpace``  在不改动 ``buf`` 的情况下，将 ``buf`` 内多余的空间释放出去                      :math:`O(N)`
``sdsAllocSize``        计算给定 ``sds`` 的 ``buf`` 所占用的内存总数                                    :math:`O(1)`
``sdsIncrLen``          对 ``sds`` 的 ``buf`` 的右端进行扩展（expand）或修剪（trim）                    :math:`O(1)`
``sdsgrowzero``         将给定 ``sds`` 的 ``buf`` 扩展至指定长度，无内容的部分用 ``\0`` 来填充          :math:`O(N)`
``sdscatlen``           按给定长度对 ``sds`` 进行扩展，并将一个 C 字符串追加到 ``sds`` 的末尾           :math:`O(N)`
``sdscat``              将一个 C 字符串追加到 ``sds`` 末尾                                              :math:`O(N)`
``sdscatsds``           将一个 ``sds`` 追加到另一个 ``sds`` 末尾                                        :math:`O(N)`
``sdscpylen``           将一个 C 字符串的部分内容复制到另一个 ``sds`` 中，需要时对 ``sds`` 进行扩展     :math:`O(N)`
``sdscpy``              将一个 C 字符串复制到 ``sds``                                                   :math:`O(N)`
======================= ============================================================================= =================

``sds`` 还有另一部分功能性函数，
比如 ``sdstolower`` 、 ``sdstrim``  、 ``sdscmp`` ，
等等，
基本都是标准 C 字符串库函数的 ``sds`` 版本，
这里不一一列举了。

小结
----------

- Redis 的字符串表示为 ``sds`` ，而不是 C 字符串（以 ``\0`` 结尾的 ``char*``\ ）。

- 对比 C 字符串， ``sds`` 有以下特性：

  - 可以高效地执行长度计算（\ ``strlen``\ ）；

  - 可以高效地执行追加操作（\ ``append``\ ）；

  - 二进制安全；

- ``sds`` 会为追加操作进行优化：加快追加操作的速度，并降低内存分配的次数，代价是多占用了一些内存，而且这些内存不会被主动释放。