存储与分布式 - 分类 - 星河拾贝录

BloomFilter中的数学推导

Wed, 01 Jan 2025 00:00:00 +0000

$m$ : 表示 Bloom Filter bit array 的长度;
$k$ : 表示 hash 函数个数;
$n$ : 表示插入元素的个数;

假设 hash 函数以等概率选择 bit array 的下标，那么某次 hash 后，某个特定 bit 位未被设置为 1 的概率为 $1 - \frac{1}{m}$ 。经过 $k$ 个 hash 函数之后，该 bit 位仍未被设置为 1 的概率为:

\left(1 - \frac{1}{m}\right)^k

在插入 $n$ 个元素之后，某个 bit 位仍然没有被设置为 1 的概率为:

Tue, 12 Jan 2021 00:00:00 +0000

要谈论 LevelDB 的 Compaction 就不得不从 LevelDB 的整个数据写入流程入手。LevelDB 的基本写入流程大致为：

数据先写入到 WAL 日志中，做持久化
然后数据同步到mutable memtable中
当mutable memtable大小达到Options.write_buffer_size设置的大小时，就会变成immutable memtable，并且创建一个新的mutable memtable
后台的 Compaction 线程会把immutable memtabledump 成 sstable 文件，并设置于 Level 0 层
当 Level i 达到一定条件后，就会和 Level i + 1 层的 sstable 进行合并，从而触发 Compaction 过程，并在 Level n + 1 层生成一个新的 sstable 文件

在 LevelDB 中，Compaction 大体上可以分为两类，分别是：

immutable memtable compaction，也叫做minor compaction，指的是将immutable memtabledump 到 sstable 文件的过程
sstable compaction，也叫做major compaction，指的是 sstable 文件之间的合并过程

而对于sstable compaction又可以细分为三种：

manual compaction，是指外部通过调用DBImpl::CompactRange接口触发的
size compaction，是指程序根据每个 Level 的总文件大小通过一定规则自动触发的
seek compaction，每个 sstable 文件内部维护了一个seek miss的 counter，当达到一定条件的时候，LevelDB 就认为这个文件需要 Compact

从DBImpl::BackgroundCompaction的代码逻辑中不难看出，这些 Compaction 策略的优先级为：

Mon, 25 May 2020 00:00:00 +0000

拜占庭将军问题：三个将军的通信场景

叛军存在时的消息传递

将军叛变时的共识过程

假如 LIEUTENANT3 叛变了，那么首先指挥官向各位将军发送“进攻”的指令，由于 3 号将军叛变了，所以最终 1 号将军收到的指令是 2 个进攻，1 个撤退，2 号将军同样收到 2 个进攻，1 个撤退，这样忠诚的将军将会执行一致的指令

指挥官叛变时的共识过程

假如 COMMANDER 叛变了，分别向 1 号将军发送了“进攻”，向 2 号将军发送了“撤退”，向 3 号将军发送“进攻”，那么通过第二轮的协商后，1，2，3 号将军得到的指令都是“进攻，进攻，撤退”，这样按照少数服从多数的原则，忠诚的将军最终执行了一致的作战指令。