LSM Tree って何？

**Log-Structured Merge Tree** の略。**「ランダム書込みをメモリに溜めて、定期的に Disk に順次書込み (sequential write) する」** ストレージエンジンの設計。**HDD / SSD はランダム書込みが遅く、順次書込みが速い** ことを徹底的に活用する。

なぜ B-Tree より速い？

**B-Tree は書込みのたびにディスクページを更新 (ランダム I/O)**。LSM はメモリ (MemTable) に貯めてから、ソート済み SSTable をまとめて出力 (順次 I/O)。**書込み 10-100 倍速い**。代わりに読込みが遅くなる (複数 SSTable を見る必要)。

MemTable と SSTable の関係

**MemTable**: メモリ上の Skip List / Red-Black Tree。書込みはここに行く。**SSTable (Sorted String Table)**: Disk のソート済み Immutable ファイル。MemTable がフルになったら SSTable として書き出す。**WAL (Write-Ahead Log)** で耐久性を担保。

**SSTable を統合・整理する作業**。LSM は書込み続けると SSTable が増え続けるので、定期的に複数 SSTable をマージし、削除済み (tombstone) を物理削除する。**Leveled Compaction (LevelDB / RocksDB)** と **Size-Tiered Compaction (Cassandra デフォルト)** の 2 種類が代表的。

本番で使われている例は？

**Apache Cassandra / ScyllaDB**: NoSQL DB。**RocksDB / LevelDB**: 汎用 KV ストレージエンジン (Facebook / Google)。**Google Bigtable / HBase**: 列ファミリ DB。**DynamoDB / Riak**: KV DB。**InfluxDB / TimescaleDB**: 時系列 DB。**TiKV (TiDB)**: 分散 KV。

Read Amplification と Write Amplification

**Read Amp**: 1 read のために何回 Disk を読むか。LSM は複数 SSTable を見るので増える (Bloom Filter で軽減)。**Write Amp**: 1 write のために何バイト書くか。LSM は Compaction で同じデータが複数回書かれるので 10-30x。**この 2 つのトレードオフが LSM 設計の核心**。

LSM Tree：Cassandra・RocksDB・BigTable の書込み性能を支えるストレージエンジン（Algorithms EP.13）

Cassandra が秒間 1 万 write/node を捌く / RocksDB が SSD の限界に近い書込み性能を出す / BigTable が Google の規模を支える ── これらすべての中核に LSM Tree (Log-Structured Merge Tree) がある。「ランダム書込みを順次書込みに変換する」という発想が、ストレージ性能の壁を打ち破った。

1. これで何が動いているか

Apache Cassandra / ScyllaDB
RocksDB / LevelDB (Facebook / Google)
Google Bigtable / HBase
DynamoDB / Riak
InfluxDB / TimescaleDB / VictoriaMetrics (時系列 DB)
TiKV (TiDB) / CockroachDB

2. 仕組みのざっくり

1書込み: WAL (Write-Ahead Log) に append + MemTable (in-memory ソート済) に追加
2MemTable がフル: 新しい MemTable に切替、古い MemTable を SSTable (Disk) として書き出し
3SSTable: Immutable、ソート済、Bloom Filter + Sparse Index 付
4Compaction: 複数 SSTable をマージ、削除済 (tombstone) を物理削除
5読込み: MemTable → 新しい SSTable → 古い SSTable の順でキー検索 (Bloom Filter で skip)

3. Python 実装 (簡略版・動作確認済)

MemTable + SSTable の最小実装

Python

class LSMTree:    def __init__(self, mem_limit=4):        self.memtable = {}        # in-memory dict (本物は Skip List)        self.sstables = []        # [{k: v}, ...] (新しいものが末尾)        self.mem_limit = mem_limit
    def put(self, k, v):        '''書込み: MemTable に追加、フルなら flush'''        self.memtable[k] = v        if len(self.memtable) >= self.mem_limit:            self._flush()
    def _flush(self):        '''MemTable → SSTable'''        sstable = dict(sorted(self.memtable.items()))        self.sstables.append(sstable)        self.memtable = {}
    def get(self, k):        '''読込み: MemTable → 新しい SSTable → 古い SSTable の順'''        if k in self.memtable:            return self.memtable[k]        for sst in reversed(self.sstables):            if k in sst:                return sst[k]        return None
    def delete(self, k):        '''削除は tombstone を書く (物理削除は Compaction 時)'''        self.put(k, None)  # None = tombstone
    def compact(self):        '''複数 SSTable をマージ + tombstone を物理削除'''        merged = {}        for sst in self.sstables:            for k, v in sst.items():                if v is None:                    merged.pop(k, None)  # tombstone は削除                else:                    merged[k] = v        self.sstables = [merged]
# 動作確認lsm = LSMTree(mem_limit=4)for i in range(10):    lsm.put(f'k{i}', f'v{i}')
print(f'SSTable 数: {len(lsm.sstables)}')print(f'MemTable サイズ: {len(lsm.memtable)}')print(f'k3 = {lsm.get("k3")}')
# 削除lsm.delete('k3')print(f'\n削除後 k3 = {lsm.get("k3")}')
# Compactionlsm.compact()print(f'Compaction 後 SSTable 数: {len(lsm.sstables)}')print(f'Compaction 後 k3 = {lsm.get("k3")}')

4. Bloom Filter で読込み高速化

SSTable に Bloom Filter を付けて Read Amp を削減

Python

from typing import Optionalimport hashlib, math
class BloomedSSTable:    def __init__(self, data: dict, p=0.01):        self.data = data        self.bloom = self._build_bloom(list(data.keys()), p)
    def _build_bloom(self, keys, p):        n = max(len(keys), 1)        m = int(-n * math.log(p) / (math.log(2) ** 2))        bits = bytearray(math.ceil(m / 8))        k_h = max(int(m / n * math.log(2)), 1)
        def idx(item):            b = item.encode()            h1 = int.from_bytes(hashlib.sha256(b).digest()[:8], 'big')            h2 = int.from_bytes(hashlib.blake2b(b, digest_size=8).digest(), 'big')            return [(h1 + i * h2) % m for i in range(k_h)]
        for k in keys:            for i in idx(k):                bits[i // 8] |= (1 << (i % 8))
        self._idx_func = idx        self._bits = bits        return None
    def __contains__(self, k):        '''Bloom 判定: No なら確実、Yes なら次に data を見る'''        return all(self._bits[i//8] & (1 << (i%8)) for i in self._idx_func(k))
    def get(self, k) -> Optional[str]:        if k not in self:            return None  # Bloom が No なら data を見ない        return self.data.get(k)

5. Compaction Strategy 比較

戦略	代表 DB	Read Amp	Write Amp	Space Amp
Size-Tiered	Cassandra (default)	中	低	高 (~2x)
Leveled	RocksDB / LevelDB	低	高 (~10x)	低
Time-Window	Cassandra (時系列)	低	低	中
Universal	RocksDB	中	低	中

6. メリットとデメリット

メリット: 書込み性能が圧倒的 (B-Tree の 10-100x)
メリット: 順次 I/O 主体で SSD / HDD ともに最適化
メリット: Compaction で空間使用が最適化
デメリット: 読込みが複雑 (Bloom Filter で軽減)
デメリット: Write Amplification が大きい (~10-30x)
デメリット: 範囲スキャンは複数 SSTable をマージ読込

7. 関連ツール

RocksDB: Facebook 製の LSM、最も広く使われる組込み DB
LevelDB: Google 製、RocksDB の元
python-rocksdb: RocksDB の Python バインディング
lsm.py: 学習用の Python LSM 実装

8. 次の話

EP.14 では MCTS (Monte Carlo Tree Search) を扱います。AlphaGo / AlphaZero / 将棋 AI が世界チャンピオンを倒した探索アルゴリズム ── ランダムプレイアウトと UCB の組合せの美しさ。

この記事の感想を教えてください

あなたの 1 クリックで、本当にこの記事は更新されます。「もっと詳しく」「続編希望」が一定数集まった記事は、ふくふくが 実際に内容を拡充したり続編記事を公開 します。送信したリアクションはお使いのブラウザに記録され、再カウントされません。

免責事項

本記事は執筆時点の情報および実装例として公開しているものであり、内容の正確性・完全性・最新性を保証するものではありません。各データソース・API・SaaS の仕様・利用規約・料金は予告なく変更される場合があります。
コード・コマンド・手順を実装や本番運用に流用する際は、必ず最新の公式ドキュメントおよび利用規約を確認のうえ、ご自身の責任で適切な検証・テストを行ってください。
本記事の情報を利用したことにより生じた損害（データ消失・サービス中断・契約違反・第三者からの請求等）について、合同会社ふくふくおよび執筆者は一切の責任を負いません。
本記事は技術・実装上の解説を目的としたものであり、法務・税務・コンプライアンス・経営上のアドバイスを構成するものではありません。実際の判断にあたっては、必要に応じて専門家にご相談ください。
記事中で紹介する第三者のサービス・製品・OSS・データ提供者については、各提供元の利用規約・ライセンス条件が優先されます。

LSM Tree：Cassandra・RocksDB・BigTable の書込み性能を支えるストレージエンジン