Julia's coding blog - Practice makes perfect

From January 2015, she started to practice leetcode questions; she trains herself to stay focus, develops "muscle" memory when she practices those questions one by one. 2015年初, Julia开始参与做Leetcode, 开通自己第一个博客. 刷Leet code的题目, 她看了很多的代码, 每个人那学一点, 也开通Github, 发表自己的代码, 尝试写自己的一些体会. She learns from her favorite sports – tennis, 10,000 serves practice builds up good memory for a great serve. Just keep going. Hard work beats talent when talent fails to work hard.

Friday, April 23, 2021

System design: Merkle tree

April 23, 2021

Here is the article.

Merkle树

在分布式系统、P2P应用中或者是区块链中，会经常使用一种数据结构Merkle tree（默克尔树），这里我们将详细讨论一下这个常用数据结构。

Merkle tree

Merkle树看起来非常像二叉树，其叶子节点上的值通常为数据块的哈希值，而非叶子节点上的值，所以有时候Merkle tree也表示为Hash tree，如下图所示：

在构造Merkle树时，首先要对数据块计算哈希值，通常，选用SHA-256等哈希算法。但如果仅仅防止数据不是蓄意的损坏或篡改，可以改用一些安全性低但效率高的校验和算法，如CRC。然后将数据块计算的哈希值两两配对（如果是奇数个数，最后一个自己与自己配对），计算上一层哈希，再重复这个步骤，一直到计算出根哈希值。

Merkle树大多用来进行完整性验证，比如分布式环境下，从多台主机获取数据，怎么验证获取的数据是否正确呢，只要验证Merkle树根哈希一致，即可。例如，下图中L3数据块发生错误（比如数据被修改了），错误会传导到计算hash(L3)，接着传导到计算hash(Hash1-0+Hash1-1)，最后传导到根哈希，导致根哈希的不一致，可以说，任何底层数据块的变化，最终都会传导到根哈希。另外如果根哈希不一致，也可以通过Merkle树快速定位到导致不一致的数据。

Merkle树还可以用来对数据进行快速比对，快速定位到不一致的数据。比如分布式存储中，一份数据会有多个副本，并且分布在不同的机器上。为了保持数据一致性，需要进行副本同步，而首要的就是比对当前副本是否一致，如一致，则无需同步，如不一致，还需找出不一致的地方，然后进行同步。很明显，如果采用直接传输数据进行比对，非常低效，一般采用对数据进行哈希，传输哈希值进行对比的方法。为此，可以对每台机器需要比对的数据构造Merkle树，如果根哈希一致，则数据相同，如果根哈希不一致，则通过Merkle树快速检索到不一致的数据。下面举例说明快速检索的过程，如上图蓝色标注所示。假设两台机器中L3数据块不一致，我们对比根哈希，发现根哈希不一致，即，数据不一致，此时需要找出是那一块不一致，分别对比Hash0和Hash1，发现是Hash1不一致，接着向下发现是Hash1-0不一致，这样就定位到是L3数据块不一致。定位过程的算法复杂度为O(log(n))。

还有一种数据结构，在一定程度上可以看做是Merkle树的子树，但又不完全一样，这个数据结构是Hash list（为了避免中文哈希列表与哈希表的误解，这里使用英文名称），我们下面看一下这个Hash list。

Hash list

在点对点网络中数据传输的时候，为了提高效率往往会同时从多个机器下载数据的不同部分，即，不是从一台机器下载整个数据，而是将完整数据分成不同的部分，分别同时从不同的机器获取完整数据的不同组成部分。这样分块传输不但可以同时从多台机器下载数据，另一个好处是如果这一小块数据传输过程中损坏了，只要重新下载这一小数据块就可以了，不用重新下载整个数据。

但这种分布式环境下，很多机器应该认为是不稳定或者不可信的，如何校验整个数据的完整性及每一小数据块的完整性呢？

为了校验每一个数据块，我们需要对每个数据块做哈希，形成一个哈希列表，这样进行下载前，我们先要获取一个哈希列表，下载后，我们就能够通过哈希列表，来验证每一个数据块。哪怎么保证这个哈希列表是正确的呢，或者说怎么校验完整数据呢？只要每一个数据块哈希是正确的，最终获取的完整数据就一定是正确的，所以，我们需要对哈希列表进行哈希得到根哈希，将此根哈希放到一个可信源中，在下载数据前，先从可信数据源哪里获取到数据的跟哈希，然后从任意机器获取哈希列表，再下载数据块。这样，数据完整性可以通过根哈希来保证。

Merkle tree 对比 Hash list

两种数据结构都有验证数据完整性的功能，都可以通过根哈希保证整体数据完整性。所不同的是，在数据庞大，数据块非常多的情况下，当根哈希检测到数据不一致时，Merkle tree可以快速的定位到导致不一致的数据块，复杂度为O(log(n))，而Hash list只能遍历庞大的哈希列表定位到导致不一致的数据块，复杂度为O(n)，很显然，此时Merkle tree的效率要高很多。