A-A+

MyRocks in Facebook UDB

2022年02月02日数据库暂无评论阅读 252 次

MyRocks Paper《MyRocks: LSM-Tree Database Storage Engine Serving Facebook's Social Graph》

这篇文章介绍了Facebook为了解决UDB数据库成本迁移MyRocks的挑战和解决方案。

Introduction

迁至MyRocks所遇到的挑战

在Facebook UDB场景下，MyRocks将存储空间压缩了一半，因此实例数目减半，也意味着UDB集群的CPU和IO硬件资源减半。
Range Scan的Forward和Backward性能不一样，这个主要是底层数据编码格式导致。
Key Comparison次数变多，原因是LSMTree数据全局有序性较低。
Range Scan比InnoDB慢。
BloomFilter对内存的占用：BloomFilter对点查询性能比较重要，但BloomFilter要占用一部分内存。
标记删除（tombstone）带来的查询性能下降。
Compaction带来的突发影响，Compation通常会带来突发的IO/CPU资源消耗，可能会导致性能stall。

MyRocks的创新点

Prefix Bloom Filter：提升scan性能
Key比较时候用memcmp
新的tomestone类型用来高效处理二级索引
bulk load模式
混合compression：高level用性能优先的压缩算法，最底层用压缩率优先的压缩算法，这样memtable flush更及时，compaction速度也会更高一点。

迁移工具

MyShadow：将用户query复制一份到测试库。
正确性校验：全索引数据对比
依赖副本的迁移：增加一个MyRocks的备库即可。

迁移效果

存储空间节省62%
写Flash数据量减少75%
性能与InnoDB持平
机器数目减半

Background And Motivation

UDB架构

其中， LBU=Log Backup Unit，可以接收并保存最近一段时间的binlog；Wormhole是基于binlog的pub-sub服务，例如通知异地cache系统失效旧数据。

每个region只有一个全数据副本，其中全副本的Primary-Replica用异步复制。

每个region内有三个实例（1个Replica + 2个LBU），用Semi-sync复制。

这样的部署方式，兼顾了数据可靠性和请求响应延迟。

在Facebook，UDB和应用之间还有一层TAO，TAO是一个cache（write through）。

TAO作用，一是提供读Cache，二是TAO仅提供有限的API，迫使应用不会触发bad query。

UDB存储

2013年，UDB全部署SSD后，存储成本高，开始探索低成本方案。

InnoDB页面浪费比较多，有压缩空间降低成本。InnoDB浪费主要来自B+Tree索引，每个页面可能浪费25%~30%。但启用defragmentation会导致性能下降，同时减短了Flash写寿命。另外InnoDB压缩效果不理想，InnoDB是按页面压缩，压缩后还是要占用某种尺寸的页面大小（比如16K页面压缩成5K，但还是要占一个8K的页面空间）。

InnoDB的另一个问题是写放大，一个页面修改少量字节变成脏页，但在将来刷脏页时，就得一整个页面刷下去。再加上InnoDB的double write机制，写放大会更严重。

RocksDB: Optimized for Flash

RocksDB的存储空间优势的原因：

InnoDB有B+Tree页面浪费（25%~30），RocksDB没有，RocksDB的旧版本数据可以通过调节compaction来控制占比不超过10%。
InnoDB压缩页必须对其到4K/8K/16K，RocksDB不需要对齐。
InnoDB的每行的元数据包括6字节事务id和7字节roll pointer，RocksDB只有Sequence，而且最底一层Sequence可以设为0，仅占一些flag位。

MyRocks Development

迁移目标

迁移工程：提升利用率优先级比较高，但是可靠性、隐私、安全性、简单性都不能回退。

迁移适用范围：读密集的应用不适合迁移。

性能优化

CPU消耗

Mem-comparable Keys

LSMTree在range scan时，会产生比B+Tree多的多的key compare操作。首先，初始化scan iterator的初始值时，B+Tree只需要在全局有序的页面中定位一次，LSMTree需要在多个sorted run上都查一次。其次，iterator推进时，B+Tree不需要触发key compare比较，LSMTree需要在多个sorted run上执行归并比较。

考虑到不同的collation，MyRocks存储的key都是经过转化，可以直接bytewise-comparable的。

Reverse Key Comparator

RocksDB中Forward Iterator比Backward Iterator快。原因有几个，一是block内key存放时使用前缀压缩，相邻key可能只存放差异部分，这种方式对Backward Iterator实现层面不友好；二是多路sorted run归并时，可能出现同一个key的不同版本，这些不同版本是按新版本存放在前的顺序存放，这就导致backward时，需要读到下一个不同的key时，才能知道读到了当前key的最新版；三是memtable底层索引结构是skiplist，它只有前向指针，所以backward时，还要多一次二分查找。

对于使用backward更多的场景，可以直接把key compare逻辑取反，这个方法称为Reverse Key Compare，但是同样地，这种情况下，forward就慢的多。

Faster Approximate Size to Scan Calculation

Scan代价估计优化的两个优化思路。一是如果指定了force index，就不触发代价估计。二是如果粗略计算查询区间内所有的完整sst文件的数据量，哪些只有部分数据在查询区间的sst文件，可以简单地认为影响不大。

降低延迟、提升范围查询性能

Prefix Bloom Filter

跟Surf目标类似。用于Facebook社交网络存储场景，该场景下range查询范围前缀往往是uid之类的。

减少delete和update带来的Tombstone

UDB的应用里面有频繁的二级索引的索隐裂更新的情况，这意味着会有二级索引表的旧主键的delete。Delete标记要到compaction到最后一层时才会真正消除，比如一个key的修改历史是：v0=0, v1=1, v2=2, v3=DELETE。为了尽快消除这一行记录，MyRocks引入了一个特殊的删除类型 SingleDelete，如果用户可以确认本次删除key前，这个key只有一个版本，那么compaction时，就可以直接删除，不需要等compaction到最底层。于是二级索引key的修改就变成了 SingleDelete(old_sk) + Put(new_sk)。

基于Tombstone触发Compaction

如果某些sst文件里面的tombstone太多，RocksDB就会触发compaction，称之为Deletion Triggered Compaction（DTC）。

空间和Compaction的挑战

内存占用

Bloom Filter配置为每个key 10个bit，总的内存占用会比较大。这里允许RocksDB最后一层不创建bloom filter，层间乘数是10的话，那么bloom filter就可以减少90%的内存占用。当然这会导致最后一层检测唯一键不存在的情况成本变高。

SSD Slowness Because of Compaction

SSD trim指令是通过标记元数据删除来实现删除效果，实际数据并不需要删除。RocksDB的compaction触发大量删除时，可能导致trim指令卡顿。解决方法是删除文件时限速。同时Compaction限速也会控制后台compaction对前台用户IO的影响。

Physically Removing Stale Data

为了真正物理删除一行数据，而不是仅仅将delete标记compaction到L1L2，引入了Periodic Compaction，在发现有数据存在时间超过阈值时，触发compaction到最底层。

Bulk Loading

使用RocksDB的 File Ingestion API直接创建Lmax的sst文件，但前提是导入的数据本身是有序的。

使用MyRocks的其他收益

Online Backup and Restore Performance

MyRocks的long running快照成本更低，InnoDB得构建很长的undo log。
MyRocks从逻辑备份中恢复更快，因为可以使用bulk loading。
物理备份：checkpoint会硬链接sst和wal，然后追日志，追日志的过程可能很长，这时可以re-checkpoint，然后只发送新硬链接的sst文件。

Scales Better with Many Secondary Indexes

MyRocks操作二级索引时，不需要发起随机读。

二级索引插入=>Put；二级索引列修改=>SingleDelete&Put；二级索引删除=>SingleDelete。

Replace and Insert Without Reads

SQL的REPLACE语法含义是如果存在则删除旧值插入新值，否则直接插入新值。MyRocks的盲写跟这个语义是一样的，所以可以直接用RocksdDB的Put接口，省掉了一次随机读的开销。

对于INSERT语句，MyRocks也提供了选项跳过唯一性检查，但是用户要自己承担数据不一致的风险。

More Compression Opportunities

RocksDB支持每个level使用不同的压缩算法，Lmax使用压缩率高的算法，其他层使用性能好的压缩算法或者不压缩。

产品迁移

MyShadow - Shadow Query Testing

Capture and replay.

Data Correctness Checks

三种模式：Single、Pair、Select。

Single模式：验证主键和二级索引的一致性。

Pair模式：InnoDB和MyRocks实例取相同的快照（基于同一个GTID点），然后检查行数以及主键的checksum。

Select模式：类似于Pair模式，使用MyShadow捕获的查询来验证两个实例。

修复不兼容的Query

InnoDB和MyRocks的隔离级别实现有差异。InnoDB默认用的是Repeatable Read，换成MyRocks之后，业务产生了更多的错误。最后是通过和业务开发沟通，让业务改用Read Committed。

真正迁移

切成master还比较难，需要一些信念 It required a leap of faith that。

迁移效果

MyRocks空间占用是InnoDB空间占用的37.7%（2187.4 vs 824.4），其中InnoDB使用了压缩格式。最初压缩率大概是50%，后来将压缩算法从Zlib改成Zstandard并且加了PeriodicCompaction，进一步降低了空间占用。

如果不提供读服务，仅作为备库接收复制输入，MyRocks的CPU效率比InnoDB高40%（0.89 vs 0.55）。

有读流量时，MyRocks花费的CPU略低于InnoDB（1.83 vs 1.65，1.65指用了1.65个CPU）。

HBase迁到MyRocks

参见Facebook工程团队写的文章：Migrating Messenger storage to optimize performance。

Lessons Learned

迁移工程

Production Engineers迁移经验丰富，他们应该在早期参与进来。

做存储引擎的工程师需要对存储组件、Linux内核的相关背景知识比较熟悉，当成黑盒可能会让我们错失一些优化手段和调试手段。

异常点不应该被忽视。

SQL兼容对于迁移引擎能成功是非常重要的。

RocksDB有相当多可调参数，通常跟workload紧密相关，很难调好。

Memory Stall and Efficiency

RocksDB对内存分配器更敏感，MyRocks使用了jemalloc，这一点很重要。

RocksDB之前用Buffered IO加fadvise hint，依赖Linux的page cache。这可能导致两个问题：事务提交时因为page cache分配内存导致stall，Linux内核内存可能触发Swapping。Linux内核最好升级到4.6版本。

MyRocks后面增加了DIO功能，减少对Linux内核的依赖。还有一个问题是要避免混用Buffered IO和DIO。

一点总结

从零开发一款存储引擎需要相当大的资源支持和足够的耐心，这对商业公司来讲是个不小的挑战。

RocksDB作为一个KV存储，应用已经相当广泛。Facebook在MyRocks上的工作，对于RocksDB在TP领域的应用是有质的推进的。

这篇文章是一篇非常好的MyRocks介绍文章，从现存业务问题出发，到引擎选型，到工程落地经验，这个工作思路非常值得学习。

值得关注到的是，RocksDB上线牵扯了多个部门，众多工程师的参与。整个过程中有很多case by case的推进方式，这对于公司内部业务来说，评估投入产出比容易很多，毕竟节省多少硬件资源比较容易估算，也因此更容易获得业务的支持。

Introduction

迁至MyRocks所遇到的挑战

MyRocks的创新点

迁移工具

迁移效果

Background And Motivation

UDB架构

UDB存储

RocksDB: Optimized for Flash

MyRocks Development

迁移目标

性能优化

CPU消耗

降低延迟、提升范围查询性能

空间和Compaction的挑战

使用MyRocks的其他收益

产品迁移

MyShadow - Shadow Query Testing

Data Correctness Checks

修复不兼容的Query

真正迁移

迁移效果

Lessons Learned

迁移工程

Memory Stall and Efficiency

一点总结

给我留言取消回复